时,X的条件分布有概率密度函数fixi12
,PYipi,则X的边缘分布为fx
p
i1
M
i
fix。已知Xx时,Yi的条件概率为
pixpifixfx
判别规则为
plflxmaxpjfjx,判xGl
1jM
xmax
j1lfpl1jM
hpj
三、K近邻方法1、概念
K
i1
j
xXi,判xGlh
记样本ZX1Y1X2Y2X
Y
,要由样品指标x去判别其所属的类Y,Y可
能的取值为12M。将X1X2X
按其与X的距离排列,如XR1xXR2xXR
x,距离相等时,按足标小的在前的原则处理。指定一个介于1到
之间的自然数k,挑出最接近X的k个,即Xk1Xk2Xkk,与他们匹配的Y是Yk1Yk2Ykk。
核函数方法和近邻估计2
f定义:以li记为Yk1Yk2Ykk中等于i的个数i12M。定义判别函数
kx
kxZ
如下:若lj是l1l2lM中的唯一最大者,则定义
kxj;若
l1l2lM中有若干个同时达到最大者,比方说是lj1lj2ljc,则再按等概率在
lj1lj2ljc中确定一个为
kx。
2、近邻方法与概率密度的最近邻估计的关系用近邻方法估计估计密度函数的方法是,先固定一个介于1到
之间的自然数k
,对任何x,计算XR1xXR2xXR
x,然后fjxj123M的密度函数估计和先验概率的估计为:
xfj
判别规则为:
lj2
jxXRk
jp
j
ljxmax
jlfp,判xGll1jM
2
xXjR1
xmaxlfpl
等价的判别函数
lj2
xXR1
1jM
,
llmaxlj,则判xGl
1jM
四、SASDISCRIM过程中的非参数判别的选项
非参数判别方法是基于组概率密度的非参数估计。每组的非参数密度估计和产生的分类准则采用核方法和K最近邻方法得到。马氏和欧氏距离能够用来确定接近的程度。采用k最近邻方法时,马氏距离基于合并协方差阵;采用核方法时,马氏距离基于单个组那方差矩阵或合并协方差阵。实际上某个检验样品的归类基于由训练集得到的估计组密度。从估计密度,x术语各组的喉炎概率得到评估。观测x盼归第t组是因为ptx最大。METHODNPAR采用非参数判别方法。
Kk为k最近邻方法指定一个k值。观测x分如一个组基于从x的k个最劲力
核函数方法和近邻估计3
f得到的信息。
Rr为核密度估计指定一个半径r