P(H|X)=[P(X|H)P(H)]/P(X)
众数是在数据集中出现频率最高的一个数据集。 P(C2|X)≈P(X|C=2) ··
回归分析的目的是找到一个联系输入变量和输出变量的最优模型。
理论上,朴素贝叶斯分类与数据挖掘的其他分类方法相比具有最小的误差率,但实践上并非如此,这是由于对属性以及类条件的独立
5.1 统计推断
• 在统计推断这个领域,如果观测到组成总体的所 有观测值是不可能或不切实际的,只要关心怎样 得出关于总体的结论。
• 在大多数统计分析应用中,必须依据从总体中抽 取的子集的观测值。称这个子集为数据集,从这 个数据集建立一个总体的统计模型,从而对相同 的总体作推断。
• 问题是它可能导致对总体错误的推断,因此最好 是在独立的、随机观察的情况下选取一个随机的 数据集。
贝叶斯方法提供了一套将外部客观信息溶入数据分析过程中的原理方法。
贝叶斯方法提供了一套将外部客观信息溶入数据分析过程中的原理方法。
度量的是半于平均值的离散程度,仅当平均值作为中心的度量量使用。
• 众数:它是反映数据集中心趋势的另一个指标。 现在假设有一组m个元素的样本s={s1,s2,…,sn},其中每一个样本Si代表一个n维向量{x1,x2,…xn},分别对应于属性A1,A2,…,An。
统计方法
• 统计学是一门收集、组织数据并从这些数 据中得出结论的科学。数据集的一般特性 的描述和组织是描述性统计学的主题领域 ,而怎样从这些数据推出结论是统计推理 的主题。
• 统计数据分析是为数据挖掘制定的最好的 一套方法论。从一元的到多元的数据分析 ,统计学为数据挖掘提供了大量的不同类 型的回归和判别分析方法。
• 贝叶斯定理: 设X是一个未知类标号的数据样本,设H为某