大数据十大经典算法讲解.pptx
- 格式:pptx
- 大小:3.83 MB
- 文档页数:34
⼤数据算法⼗⼤经典算法⼀、C4.5C4.5,是机器学习算法中的⼀个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织⽅式像⼀棵树,其实是⼀个倒树)核⼼算法ID3的改进算法,所以基本上了解了⼀半决策树构造⽅法就能构造它。
决策树构造⽅法其实就是每次选择⼀个好的特征以及分裂点作为当前节点的分类条件。
C4.5相⽐于ID3改进的地⽅有:1、⽤信息增益率来选择属性。
ID3选择属性⽤的是⼦树的信息增益,这⾥可以⽤很多⽅法来定义信息,ID3使⽤的是熵(entropy,熵是⼀种不纯度度量准则),也就是熵的变化值.⽽C4.5⽤的是信息增益率。
对,区别就在于⼀个是信息增益,⼀个是信息增益率。
⼀般来说率就是⽤来取平衡⽤的,就像⽅差起的作⽤差不多,⽐如有两个跑步的⼈,⼀个起点是10m/s的⼈、其10s后为20m/s;另⼀个⼈起速是1m/s、其1s后为2m/s。
如果紧紧算差值那么两个差距就很⼤了,如果使⽤速度增加率(加速度,即都是为1m/s^2)来衡量,2个⼈就是⼀样的加速度。
因此,C4.5克服了ID3⽤信息增益选择属性时偏向选择取值多的属性的不⾜。
2、在树构造过程中进⾏剪枝,在构造决策树的时候,那些挂着⼏个元素的节点,不考虑最好,不然容易导致overfitting。
3、对⾮离散数据也能处理。
4、能够对不完整数据进⾏处理。
⼆、The k-means algorithm 即K-Means算法k-means algorithm算法是⼀个聚类算法,把n的对象根据他们的属性分为k个分割(k < n)。
它与处理混合正态分布的最⼤期望算法(本⼗⼤算法第五条)很相似,因为他们都试图找到数据中⾃然聚类的中⼼。
它假设对象属性来⾃于空间向量,并且⽬标是使各个群组内部的均⽅误差总和最⼩。
三、 Support vector machines⽀持向量机,英⽂为Support Vector Machine,简称SV机(论⽂中⼀般简称SVM)。