实践
打开并运行教科书配套学习资源包“第五章\课本素材\程序5-5聚类分析” 文件,观察程序的运行结果。程序5-5直接调用了Python语言的sklearn机器 学习模块,其对数据进行聚类分析的关键程序段如下:
5 . 3 . 4 数据分类
数据分类通常的做法是,基于样本数 据先训练构建分类函数或者分类模 型(也称为分类器),该分类器具有将待分类数据 项映射到某一特点类别的功 能。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据 分类准则自动给出对未知数据的推广描述,从而实现对未知数据 进行预测。
运用贝叶斯定理对事物进行分类,是一种非常有效的思维方法,是贝叶 斯决策理论方 法的基本思想。例如,假设有一个数据集,由两类组成,且已 知每个样本的分类,数据分 布如图5-11所示。用p1(x,y)表示数据点(x,y)属于 红色一类的概率,用p2(x,y)表示数据点(x,y) 属于蓝色一类的概率分类技术中占有重要地位,也属 于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分 类技术通过对已分类的样本子集进行训练,学习归纳出分类 函数(对离散变量的预测称作分类,对连续变量的分类称为 回归),利用训练得到的分类器实现对未分类数据的分类。
拓展
贝叶斯与概率分类 贝叶斯(Thomas Bayes, 1701—1761),英国数学家,发明了概率统计学 原理,将归纳推理法用于概率论基础理论,创立了贝叶斯统计理论,对统计决策 函数、统计推断、统计 的估算等做出了贡献。 在概率统计理论中,条件概率是指事件A在另外一个事件B已经发生条件下的 发生概 率,表示为P(A|B),读作“在B的条件下A的概率”。贝叶斯发现在事 件B出现的前提下 事件A出现的概率,等于事件A出现的前提下事件B出现的概率 乘以事件A出现的概率再除 以事件B出现的概率。这就是著名的贝叶斯定理。