• 计算P(Ci): P(C=1)=4/7=0.5714; P(C=2)=3/7=0.4286
• 计算P(xi|Ci): P(A1=1/C=1)=2/4=0.50 P(A1=1/C=2)=1/3=0.33
P(A2=2/C=1)=1/4=0.25 P(A2=2/C=2)=2/3=0.66
P(A3=2/C=1)=1/4=0.25 P(A3=2/C=2)=2/3=0.66
mean、中位数median和众数mode是反映数据的中
心趋势的典型指标,而方差和标准差是反映数据
离散程度的指标。
• 平均数:
n
mean 1/ n xi i 1
• 加权平均数:
n
n
mean wixi / wi
i 1
i 1
• 中位数:对偏斜数据集来说,中位数更能 反映它的中心趋势。
P(H|X)=[P(X|H)P(H)]/P(X)
P(H|X)是后验概率,或条件X下H的后验 概率。例如,假设数据空间由水果组成, 用它们的颜色和形状描述。假设X表示红色 和圆的,H表示假定X是苹果,则P(H|X)反 映当我们看到X是红色并是圆的时,我们 对X是苹果的确信程度。作为对比,P(H)是 先验概率,或H的先验概率。
• P(xi|Ci) 可由训练样本来估算。
• 例如:下表是Naïve Bayesian classifier分类训 练数据集。
样本 属性1 属性2 属性3
类
A1
A2
A3
C
1
1
2
1
1
2
0
0
1
1
3
2
1
2
2
4
1
2
1
2
5