一、考虑表中二元分类问题的训练样本集
1整个训练样本集关于类属性的熵是多少?2关于这些训练集中a1a2的信息增益是多少?3对于连续属性a3计算所有可能的划分的信息增益。4根据信息增益,a1a2a3哪个是最佳划分5根据分类错误率,a1a2哪具最佳?6根据gi
i指标,a1a2哪个最佳?答1
P49a
dP5949log24959log25909911
114
f答2:
(估计不考)
答3:
214
f答4Accordi
gtoi
formatio
gai
a1producesthebestsplit
314
f答5:
Forattributea1errorrate29Forattributea2errorrate49
Thereforeaccordi
gtoerrorratea1producesthebestsplit答6:
414
f二、考虑如下二元分类问题的数据集514
f1计算ab信息增益,决策树归纳算法会选用哪个属性
2计算abgi
i指标,决策树归纳会用哪个属性?
这个答案没问题
614
f3从图413可以看出熵和gi
i指标在005都是单调递增,而051之间单调递减。有没有可能信息增益和gi
i指标增益支持不同的属性?解释你的理由
Yeseve
thoughthesemeasureshavesimilarra
gea
dmo
oto
ousbehaviortheirrespectivegai
sΔwhicharescaleddiffere
cesofthemeasuresdo
ot
ecessarilybehavei
thesamewayasillustratedby
theresultsi
partsaa
db贝叶斯分类
714
f1PA12504PB12504PC11PA03506PB03506PC00PA13506PB11502PC12504PA02504PB04508
PC03506
23PA0225449
PA0325459PB1125439PB1225449PC0325459
PC00254294LetPA0B1C0K
814
f5当的条件概率之一是零,则估计为使用m估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。
1PA106PB104PC108PA104PB104a
dPC1022LetRA1B1C1bethetestrecordTodetermi
eitsclasswe
eedtocomputePRa
dPRUsi
gBayestheoremPRPRPPRa
dPRPRPPRSi
cePP05a
dPRisco
sta
tRca
beclassifiedbycompari
gPRa
dPRForthisquestio
PRPA1×PB1×PC10192PRPA1×PB1×PC10032Si
cePRislargertherecordisassig
edtoclass3PA105PB104a
dPA1B1PA×
914
fPB02ThereforeAa
dBarei
depe
de
t4PA105PB006a
dPA1B0PA1×PB0r