2020/4/13
.
20
数据
数据集的特点
➢ 数据的稀疏性 ➢ 数据的分布 ➢ 数据的覆盖范围 ➢…
数据挖掘的结果和数据集有很大的关联 挖掘之前需要了解数据
2020/4/13
.
21
数据
数据的相似性度量
➢ 度量的三个性质
▪ 非负性、对称性、三角不等式
➢ 各种评价相似性的方法
▪ 欧几里得距离、明考斯基距离、余弦相似度、皮尔森 相关系数
具体内容逐步调整
研讨是主要的授课方式
2020/4/13
.
11
Web数据管理和数据挖掘
本课程的教学目的
➢ 了解大规模WEB数据(包括HTML数据、XML等类型数据)的管理与 挖掘技术,及其在WEB领域中的应用,学会充分利用领域内的信息
课程内容
➢ 网络爬虫技术
▪ DNS解析、链接抽取、重复网页处理、…
朱扬勇等,《数据挖掘技术及其应用》 Pang-Ning Tan, M. Steinbach, and V. Kumar. Introduction to Data Mining (影印版 ), 人民邮电出版社, 2006.1. Ian Witten, and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques (影印版, 第2版), 机械工业出版社, 2005.9. David Hand, H. Mannila, and P. Smyth. Principles of Data Mining, 机械工业出版 社, 2003.4. T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001 Data and XML, Morgan Kaufman Publishers, 2000 6. KDD, VLDB, SIGMOD, ICDM, SDM, ICML等会议论文