数据挖掘概念复习资料
- 格式:doc
- 大小:115.36 KB
- 文档页数:18
数据挖掘基础一、数据挖掘的概念和基本流程数据挖掘是指从大量数据中提取出有价值的信息和知识的过程,是一种自动化的发现模式和规律的方法。
其基本流程包括:数据预处理、特征选择、建立模型、模型评估和应用。
二、数据预处理1. 数据清洗:去除重复值、缺失值和异常值等。
2. 数据集成:将多个数据源中的数据合并成一个整体。
3. 数据变换:对原始数据进行转换,如归一化、离散化等。
4. 数据规约:对原始数据进行压缩,如抽样等。
三、特征选择特征选择是指从原始特征中选取一部分对分类或回归有用的特征。
其目的是减少维度,提高模型效率和精度。
四、建立模型建立模型是指根据已选取的特征,使用各种算法构建分类或回归模型。
常用算法包括决策树、神经网络、支持向量机等。
五、模型评估模型评估是指通过交叉验证等方法对建立好的模型进行评估,以确定其预测效果是否良好。
六、应用应用是指将建立好的模型应用到实际问题中,进行预测和决策。
七、数据挖掘的应用领域1. 金融:如信用评估、风险管理等。
2. 医疗:如疾病预测、药物研发等。
3. 零售业:如销售预测、客户细分等。
4. 航空航天:如飞机维修优化、航班调度等。
5. 电信业:如用户行为分析、网络优化等。
八、数据挖掘的常用算法1. 决策树算法:通过对数据进行分类和回归,构建决策树模型,可用于分类和预测。
2. 神经网络算法:通过模拟人类神经系统,构建神经网络模型,可用于分类和预测。
3. 支持向量机算法:通过寻找最大间隔超平面,构建支持向量机模型,可用于分类和回归。
4. 聚类算法:将数据分成若干个类别,常见的聚类算法包括K-Means 和层次聚类等。
5. 关联规则挖掘算法:通过寻找频繁项集和关联规则,发现数据中隐藏的关联关系。
九、数据挖掘的发展趋势1. 大数据时代:随着数据量的增加,数据挖掘将更加重要。
2. 人工智能:机器学习和深度学习等技术将广泛应用于数据挖掘中。
3. 可视化分析:通过可视化技术,更好地呈现和理解数据。
数据挖掘试卷-题集数据挖掘复习题集1. 名词解释及简答数据矩阵闭频繁项集,极⼤频繁项集四分位数极差聚类分析聚类算法DBSCAN中的密度可达与密度相连简述数据清理的任务简述k-means聚类与k-中⼼点聚类的相似与不同之处2. 填空题(1)计算sin(45o)的Matlab命令是(2)假设x=10,计算的Matlab命令是(3)Matlab中清除显⽰内容的命令是(4)Matlab中清除变量y的命令是(5)Matlab中有矩阵a=[1 2 3; 4 5 6; 7 8 9],执⾏a(2,:)=[]后,a的值为。
(6)Matlab中绘制曲线的基本命令是。
(7)数据质量涉及许多因素,包括,,,时效性,可信性和可解释性。
(8)属性的类型由该属性可能具有的值的集合决定,属性类型包括,,序数的或数值的。
(9)KDD 过程包括:, 数据集成,数据选择, 数据变换, 数据挖掘, 模式评估, 和。
(10)⼀个模式是有趣的,如果它是, 在某种程度上在新的或测试数据上是有效的, , 新颖的, 或验证了⽤户希望证实的某种假设。
(11)数据对象⼜称为样本、、数据点、或。
(12)数值属性可以被分为属性和属性(13)常见的数据的可视化技术有基于的技术,⼏何投影技术,基于的技术以及层次的和基于图形的技术。
(14)⽀持度和是规则兴趣度的两种度量。
3. 选择题:1) Matlab 中,执⾏a=-4:4;b=reshape(a,3,3)后b 的值是()。
2) 在MATLAB中,列出当前⼯作空间变量名的函数是(A) who(s) (B) clc (C)path (D) draw3) 已知462837A ??=,则在MATLAB 中调⽤命令A(3)的结果为 (A)3 (B)2 (C) ⽆结果 (D)7 4) MATLAB 对图形窗⼝进⾏灵活分割的命令为(A) plot (B) subplot (C) aplot (D) ploval5)[3 6 3]A =,[2 1 1]B =,则A .*B=(A) 运算不执⾏,因有错 (B)6 83 (C) 5 74 (D) 6 6 36) MATLAB 中保持图形窗⼝不关闭的命令为(A) alter (B) hold on (C) hold off (D) cd 7) MATLAB 中a=[2,3,1],则b=a .^2的结果为(A) b=[4,6,1](B)b=[4,9,1] (C)b=[4,6,2] (D) 执⾏出错,⽆结果 8) MATLAB 中给变量w 赋空矩阵的语句为(A)w=zeros() (B)w=[] (C)w=zeros(0,0)(D) clear w9)某超市研究销售纪录数据后发现,买啤酒的⼈很⼤概率也会购买尿布,这种属于数据挖掘的哪类问题?()A. 关联规则发现B. 聚类C. 分类D. ⾃然语⾔处理10)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使⽤如下每种⽅法将它们划分成四个箱。
数据挖掘简介数据挖掘简介2010-04-28 20:47数据挖掘数据挖掘(Data Mining)是采用数学、统计、人工智能和神经网络等领域的科学方法,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,为商业智能系统服务的各业务领域提供预测性决策支持的方法、工具和过程。
数据挖掘前身是知识发现(KDD),属于机器学习的范畴,所用技术和工具主要有统计分析(或数据分析)和知识发现。
知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物,是从数据中发现有用知识的整个过程。
机器学习(Machine Learning)是用计算机模拟人类学习的一门科学,由于在专家系统开发中存在知识获取的瓶颈现象,所以采用机器学习来完成知识的自动获取。
数据挖掘是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(Patterns)。
1996年,Fayyad、Piatetsky-Shapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的;KDD是从大量数据中提取出可信的、新颖的、有效的,并能被人理解的模式的处理过程,这种处理过程是一种高级的处理过程。
数据挖掘则是按照既定的业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,并进一步将其设计为先进的模型和有效的操作。
在日常的数据库操作中,经常使用的是从数据库中抽取数据以生成一定格式的报表。
KDD与数据库报表工具的区别是:数据库报表制作工具是将数据库中的某些数据抽取出来,经过一些数学运算,最终以特定的格式呈现给用户;而KDD则是对数据背后隐藏的特征和趋势进行分析,最终给出关于数据的总体特征和发展趋势。
报表工具能制作出形如"上学期考试未通过及成绩优秀的学生的有关情况"的表格;但它不能回答"考试未通过及成绩优秀的学生在某些方面有些什么不同的特征"的问题,而KDD就可以回答。
数据挖掘教学大纲一、引言1.1 课程背景数据挖掘是一门综合性学科,结合了统计学、机器学习、数据库技术等多个领域的知识和技术,旨在从大规模数据集中发现有价值的信息和模式。
1.2 课程目标本课程旨在培养学生对数据挖掘的基本概念、方法和技术的理解和应用能力,使其能够运用数据挖掘技术解决实际问题。
二、课程内容2.1 数据挖掘概述2.1.1 数据挖掘定义和基本任务2.1.2 数据挖掘过程和流程2.1.3 数据挖掘应用领域和案例介绍2.2 数据预处理2.2.1 数据清洗和去噪2.2.2 数据集成和转换2.2.3 数据规范化和归一化2.3 数据挖掘算法2.3.1 分类算法2.3.1.1 决策树算法2.3.1.2 朴素贝叶斯算法2.3.1.3 支持向量机算法2.3.2 聚类算法2.3.2.1 K均值算法2.3.2.2 层次聚类算法2.3.2.3 密度聚类算法2.3.3 关联规则挖掘算法2.3.3.1 Apriori算法2.3.3.2 FP-Growth算法2.4 模型评估和选择2.4.1 训练集和测试集划分2.4.2 交叉验证2.4.3 模型评估指标2.5 数据可视化2.5.1 数据可视化基本原理2.5.2 常用数据可视化工具和技术三、教学方法3.1 理论讲授通过课堂讲解,介绍数据挖掘的基本概念、方法和技术,以及相关的应用案例。
3.2 实践操作通过实验和案例分析,让学生实际操作数据挖掘工具和算法,加深对理论知识的理解和应用能力。
3.3 课堂讨论鼓励学生参预课堂讨论,分享自己的观点和经验,提高学生的思维能力和问题解决能力。
四、教学评价4.1 课堂表现考察学生课堂参预度、提问和回答问题的能力,以及对理论知识的理解程度。
4.2 实验报告要求学生完成一定数量的实验,并撰写实验报告,评估学生对数据挖掘算法和工具的实际应用能力。
4.3 期末考试考察学生对课程内容的整体掌握程度,包括理论知识和实际应用能力。
五、参考教材1. Han, J., Kamber, M., & Pei, J. (2022). Data mining: concepts and techniques. Morgan Kaufmann.2. Tan, P. N., Steinbach, M., & Kumar, V. (2022). Introduction to data mining. Pearson Education.六、教学资源1. 数据挖掘软件:如RapidMiner、Weka等2. 数据集:包括公开数据集和自行采集的数据集七、课程进度安排本课程共分为16周,每周2学时,具体进度安排如下:1. 第1-2周:引言和数据挖掘概述2. 第3-4周:数据预处理3. 第5-6周:分类算法4. 第7-8周:聚类算法5. 第9-10周:关联规则挖掘算法6. 第11-12周:模型评估和选择7. 第13-14周:数据可视化8. 第15-16周:复习和总结以上是关于数据挖掘教学大纲的详细内容。
数据挖掘、数据分析的⼀些概念数据挖掘参考:概念⼀、⼤数据分析技术:1、数据挖掘2、统计分析3、模型分析4、数据清洗⼆、⼈⼯智能技术:1、遗传计算法2、技术智能3、专家系统技术⽀撑:⼀、数据获取:爬⾍。
数据源:结构化数据、⾮结构化数据。
⼤数据预处理:抽取、转换、清洗、加载。
⼆、数据清洗:洗掉不完整的、冗余的信息。
三、数据整理:打标签。
数据整理的过程,也是数据重构。
打标签模式是”符合关键词—打相应标签“的⽅法建模、标签、分类、抽取、存储、管理、统计、监控分析:多源集成、语义模型、数据质量管理、数据融合、关联性分析、数据标准。
================================================================================================⼀、数据应⽤:数据挖掘:就是从数据库中抽取隐含的、以前未知的、具有潜在应⽤价值的信息的过程。
数据挖掘是KDD最核⼼的部分。
数据挖掘与传统分析⼯具不同的是数据挖掘使⽤的是基于发现的⽅法,运⽤模式匹配和其它算法决定数据之间的重要联系。
数据挖掘是⼀个反复的过程,通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应⽤。
数据挖掘:查询、分析、API、可视化。
数据管理是利⽤计算机硬件和软件技术对数据进⾏有效的收集、存储、处理和应⽤的过程。
数据管理经历了⼈⼯管理、⽂件系统、[2] 数据库系统三个发展阶段。
⼆、数据预处理:数据清洗是指发现并纠正数据⽂件中可识别的错误的最后⼀道程序,包括检查数据⼀致性,处理⽆效值和缺失值等。
与问卷审核不同,录⼊后的数据清理⼀般是由计算机⽽不是⼈⼯完成。
数据清洗(Data cleaning)– 对数据进⾏重新审查和校验的过程,⽬的在于删除重复信息、纠正存在的错误,并提供数据⼀致性。
不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三⼤类。
数据挖掘(知识图谱2019)领域二级分类三级分类 data mining(数据挖掘) time series analysis(时间序列分析) data streams(数据流)time series data(时间序列数据)real time(实时)time series(时间序列)complex dynamical networks(复杂动态网络)dynamic system(动态系统)nonlinear dynamics(非线性动力学)system dynamics(系统动力学)time frequency analysis(时频分析) association rule(关联规则) rule induction (规则归纳)rule learning (规则学习)sequential pattern(序列模式)frequent itemsets(频繁项目集)pattern mining(模式挖掘)pattern matching(模式匹配)pattern classification(模式分类)frequent pattern(频繁模式) algorithm(算法) algorithm design and analysis(算法设计与分析)upper bound(上界)prediction algorithms(预测算法)efficient algorithm(有效算法)computational modeling(计算模型)predictive models(预测模型)reinforcement learning(强化学习)neural networks(神经网络)computational complexity(计算复杂性)probabilistic logic(概率逻辑)structural risk minimization (结构风险最小化)constrained least squares (约束最小二乘)incremental learning(增量学习)pruning technique(修剪技术)matrix decomposition(矩阵分解)generative model(生成模型)hidden markov models(隐马尔可夫模型) big data(大数据) dynamic databases(动态数据库)heterogeneous data(异构数据)text data(文本数据)data models(数据模型)sensor data(传感器数据)data warehouses(数据仓库)query processing(查询处理)data structure(数据结构)data analysis(数据分析)data privacy(数据隐私)personal data(个人数据)cloud computing(云计算)user behavior(用户行为)parallel processing(并行处理)graph data(图形数据)data intensive computing(数据密集型计算)data stream(数据流)distributed databases(分布式数据库)data handling(数据处理)data center(数据中心)data management(数据管理)data warehouse(数据仓库)data security(数据安全)data warehousing(数据仓库)privacy preservation(隐私保护)database management systems(数据库管理系统)data generation(数据生成) web mining(网络挖掘) web search (网络检索)information retrieval(信息检索)link analysis (链接分析)image retrieval (图像检索)utility mining(效用挖掘)relevance feedback (相关反馈)recommender systems(推荐系统)mobile computing(移动计算)loclation based services(基于位置的服务)web pages(web 页面)collaborative filtering(协同过滤)social network(社交网络)social interaction(社交互动)social media(社交媒体)information filtering(信息过滤)social network analysis(社交网络分析)graph theory(图论)sentiment analysis(情感分析)opinion mining(意见挖掘)semantic web(语义网)social web(社交网页)online social network(在线社交网络)world wide web(万维网)web 2.0(网络 2.0)linked data(关联数据)social tagging system(社交标签系统)user generated content(用户生成内容)social tagging(社交标签)tag recommendation(标签推荐)link prediction(链接预测)web usage mining(web 使用挖掘)online community(网络社区)interaction network(交互网络)web forum(web 论坛) knowledgediscovery(知识发现) knowledgemanagement(知识管理) project management(项目管理)information technology(信息技术)information system(信息系统)database management(数据库管理)customer relationship management(客户关系管理)management system(管理系统) data management(数据管理) data integration(数据整合)data compression(数据压缩)data point(数据点)spatial database(空间数据库)time series data(时间序列数据)range query(范围查询) text mining(文本挖掘) text analysis(文本分析)text classification (文本分类)information retrieval(信息检索)natural language processing(自然语言处理)language model(语言模型)retrieval models(检索模型)feature selection(特征选择)text mining technique(文本挖掘技术)information retrieval models(信息检索模型)text data(文本数据)topic model(主题模型)recommender system(推荐系统)opinion mining(意见挖掘)feature extraction(特征提取)event detection(事件检测)information filtering(信息过滤)opinion analysis(舆情分析)sentiment analysis(情感分析)social media(社交媒体)disastrous event(灾难性事件)text summarization(文本摘要)query language(查询语言)query expansion(查询扩展)language modeling approach(语言模型方法)machine translation(机器翻译)biomedical text(生物医学文本) image mining(图像挖掘) image reconstruction(图像重建)image segmentation(图像分割)image classification(图像分类)object recognition(目标识别) information network(信息网络) information network mining(信息网络挖掘)heterogeneous information network(异构信息网络)graph theory(图论)online social networks(在线社交网络)recommender system(推荐系统)graph mining(图挖掘)location based service(基于位置的服务)network analysis(网络分析)link prediction(链接预测)graph data(图数据)factor graph(因子图)complex network(复杂网络)network topology(网络拓扑)homogeneous network(同构网络)information network analysis(信息网络分析)graph classification(图分类)graph clustering(图聚类)graph structure(图结构)random walk(随机游走)biological network(生物网络)computer networks(计算机网络)information integration(信息集成)graph database(图数据库)large graph(大图)heterogeneous network(异构网络)entity recognition(实体识别) graph mining(图挖掘) large graph(大图)graph classification(图分类)random graph(随机图)directed graph(有向图)undirected graph(无向图) health care(卫生保健) electronic health records(电子健康档案)gene expression(基因表达)biomedical research(生物医学研究)adverse drugs reactions(药物不良反应)genome wide association study(全基因组关联分析)patient care(病人医疗护理)computational biology(计算生物学)biological sciences(生物科学)medical research(医学研究) visualisation(可视化) information visualization(信息可视化)data visualization(数据可视化)visual analytics(可视化分析)data visualisation(数据可视化)data analysis(数据分析)network visualization(网络可视化)visualization technique(可视化技术)visual content(视觉内容)visualization tool(可视化工具)interactive visualization(交互式可视化)graph visualization(图形可视化)graphical user interfaces(图形用户界面)computer animation(计算机动画)visual representation(视觉表征) information system(信息系统) fuzzy data mining(模糊数据挖掘) fuzzy set theory(模糊集合论)fuzzy set(模糊集)fuzzy clustering (模糊聚类) expert systems(专家系统) knowledge management(知识管理)knowledge representation(知识表达)knowledge discovery(知识发现) similarity(相似性) kernel operator (核算子)similarity relationship (相似关系)nearest neighbor (近邻)dissimilarity (相异性)citation matching (引文匹配)similarity search(相似搜索)similar kernel function(相似核函数)earth mover's distance(EMD 距离)kernel function(核函数)search problems(搜索问题)string matching(串匹配)similarity measure(相似性度量)keyword search(关键字检索)semantic similarity(语义相似度) data structure(数据结构) data hierarchy (数据层次)complex data(复杂数据) unsupervised learning(无监督学习) clustering (聚类)document clustering (文档聚类)hierarchical clustering (层次聚类)image clustering (图像聚类)data clustering (数据聚类)fuzzy clustering (模糊聚类)collaborative filtering (协同过滤)nonnegative matrix factorization (非负矩阵分解)cluster-based retrieval (聚类检索)fuzzy clustering (模糊聚类)clustering algorithms(聚类算法)outlier detection(孤立点检测)topic modeling(主题模型)subspace clustering(子空间聚类)pattern recognition(模式识别)mixture of gaussians(混合高斯模型)gaussian processes(高斯过程)density estimation(密度估计)dimensionality reduction(降维)dimension reduction(降维)maximum likelihood estimation(最大似然估计)matrix decomposition(矩阵分解)nonnegative matrix factorization(非负矩阵分解)sparse representation(稀疏表示)sparse matrices(稀疏矩阵)probability distribution(概率分布)probabilistic model(概率模型)hidden markov model(隐马尔可夫模型) supervised learning (有监督学习) classification (分类)feature selection (特征选择)neural networks (神经网络)inductive learning (归纳学习)markov processes(马尔可夫过程)belief propagation(置信传播)decision tree(决策树)support vector machines(支持向量机)semi supervised learning(半监督学习)action recognition(行为识别)pattern recognition(模式识别)statistical analysis(统计分析)sparse coding(稀疏编码)object detection(目标检测)object recognition(目标识别)probabilistic logic(概率逻辑)regression(回归)manifold learning(流形学习)linear programming(线性规划)convex programming(凸规划)active learning(主动学习)random forest(随机森林)inference mechanisms(推理机制)bayes methods(贝叶斯方法)neural network(神经网络)classification algorithms(分类算法)bayesian methods(bayes 方法)random processes(随机过程)deep learning(深度学习)feature extraction(特征提取)recurrent neural network(递归神经网络) restricted boltzmann machines(受限玻尔兹曼机) hidden markov model(隐马尔可夫模型) boltzmann machine(玻尔兹曼机)bayesian inference(贝叶斯推断)convolutional neural networks(卷积神经网络) conditional random field(条件随机场模型) generative model(生成模型)probability distribution(概率分布) probabilistic model(概率模型)deep belief network(深度信念网络)logistic regression(logistic 回归) network analysis (网络分析) social network(社交网络)social media(社交媒体)graph theory(图论)sensor networks(传感器网络)network analysis(网络分析)information diffusion(信息扩散)community detection(社区发现)network structure(网络结构)link prediction(链接预测)dynamic network(动态网络)network formation(组网)social learning(社会学习)social science(社会科学)information cascades(信息追随) communication networks(通讯网络)social influence(社会影响)complex network(复杂网络)network theory(网络理论)social interaction(社交互动)shortest path(最短路径)social behavior(社交行为)social life networks(社交生活网络) Decision analysis (决策分析) decision support systems (决策支持系统) decision making (决策)data envelopment analysis (数据包络分析) information resource management (信息资源管理)。
数据挖掘什么是数据挖掘(概念)?P3答:数据挖掘是指从大量数据中提取或“挖掘”知识;广义上讲数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中发现有趣知识的过程。
什么是知识发现(KDD)?知识发现的步骤。
答:知识发现是所谓"数据挖掘"的一种更广义的说法,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
其步骤如下:1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)数据评估7)知识表现数据仓库,数据集市的概念及其区别。
P8答:数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点,数据仓库是通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。
数据集市(Data Mart) ,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。
数据仓库收集了跨部门的整个组织的主题信息,因此它是企业范围的;另一方面,数据集市是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。
数据挖掘系统与数据库系统或数据仓库系统的集成方式(四种)及其优缺点。
P22数据挖掘(DM)系统设计的一个关键问题是如何将DM系统与数据库(DB)系统和/或数据仓库(DW)系统集成或耦合。
. 不耦合(no coupling):不耦合意味着DM系统不利用DB或DW系统的任何功能。
它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。
尽管这种系统简单,但有不少缺点。
首先,DB系统在存储、组织、访问和处理数据方面提供了很大的灵活性和有效性。
不使用DB/DW系统,DM系统可能要花大量的时间查找、收集、清理和变换数据。
在DB和/或DW系统中,数据多半被很好地组织、索引、清理、集成或统一,使得找出任务相关的、高质量的数据成为一项容易的任务。
,. 数据挖掘:是从大量数据中发现有趣(非平凡的、隐含的、先前未知、潜在有用)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。 挖掘流程: (1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识 概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过(1)数据特征化:目标类数据的一般特性或特征的汇总;(2)数据区分:将目标类数据的一般特性与一个或多个可比较类进行比较;(3)数据特征化和比较来得到。 关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,通常要满足最小支持度阈值和最小置信度阈值。 分类:找出能够描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、模糊集)。 预测:建立连续值函数模型,预测空缺的或不知道的数值数据集。 孤立点:与数据的一般行为或模型不一致的数据对象。 聚类:分析数据对象,而不考虑已知的类标记。训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组,从而产生类标号。
第二章数据仓库 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。从一个或多个数据源收集信息,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库,. 通过数据清理、变换、继承、装入和定期刷新过程来构造。 面向主题:排除无用数据,提供特定主题的简明视图。集成的:多个异构数据源。时变的:从历史角度提供信息,隐含时间信息。非易失的:和操作数据的分离,只提供初始装入和访问。 联机事务处理OLTP:主要任务是执行联机事务和查询处理。 联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。 特征 特征 面向 用户 功能 DB 数据 访问 OLTP 操作处理 事务 DBA,办事员 日常操作 基于ER 当前最新 读/写 OLAP 信息处理 分析 知识工人 决策支持 星型,雪花 时间跨度 读 特征 汇总 用户 操作 访问记录 优先 DB规模 度量 OLTP 原始,详细 数千 主码索引 数十个 高性能可用 100mb-gb 事务
OLAP 汇总,统一 数百 大量扫描 数百万 高灵活 100gb-tb 查询 多维数据模型: 多维数据模型将数据看作数据立方体,允许从多个维度对数据建模和观察。包含维表和事实表。 最流行的数据仓库数据模型是多维数据模型,这种模型可以是星形模式(事实表在中间,连接到多个维表)、雪花模式(星型的变种,某些维表规范化,分解到附加维表,以减少冗余)、事实星座模式(多个事实表共享维表)。
数据立方体:允许从多维对数据建模和观察。它由维和事实定义。维:关于一个组织想要保存记,. 录的透视图和实体,每个维都有一个表与之相关联,成为维表。事实表:包括事实的名称和度量,以及每个相关维表的码。 方体Cuboid:每个数据立方体。基本方体Base Cuboid:存放最底层汇总。顶点方体Apex Cuboid:最高层汇总,all。数据立方体Data Cube:给定维的集合,可以对维的每个可能子集产生一个方体。结果成为方体的格。 多维数据立方体:提供数据的多维视图,并允许预计算和快速访问汇总数据。 度量:数值函数,通过对给定点的各维-值对聚集数据,计算该点的度量值。 概念分层:映射序列,将底层概念映射到更一般的较高层概念。 OLAP操作: 上卷:上卷操作通过一个维的概念分层向上攀升或者通过维规约,在数据立方体上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。 切片和切块:切片对一个维进行选择。切块对两个以上维进行选择,定义子立方体。 转轴:可视化操作,转动视角。钻过:跨越多个事实表。钻透:钻到后端关系表。
数据仓库模型的不同类型: 1、企业仓库:收集了关于跨部门的整个组织主题的所有信息,跨越整个组织,因此是企业范围的。 2、数据集市:是企业仓库的一个部门子集,它针对选定的主题,对于特定的用户是有用的,因此是部门范围的,其数据通常是汇总的。 3、虚拟仓库:虚拟仓库是操作数据库上视图的集合,易于建立,但需要操作数据库服务器具有剩余能力。 ,. 数据仓库的三层结构: 1、仓库数据服务器:使用后端工具(抽取、清晰、转换、装载、刷新)和实用程序由操作数据库和其他外部数据源提取数据,进行数据清理和变换并放入仓库底层 2、OLAP服务器:直接实现对多维数据的操作,直接为商务用户提供来自数据仓库或数据集市的多维数据。ROLAP:多维数据操作映射到标准关系操作。MOLAP:多维数据视图映射到数组中.HOLAP:结合,历史数据ROLAP,频繁访问数据放到MOLAP. 3、前端客户层:包括查询和报表工具、分析工具或数据挖掘工具。 数据仓库的设计: 1、分析建立企业模型并映射到数据仓库概念模型; 2、逻辑模型的设计 3、物理模型的设计 OLAP建模:维表设计(维的变化,维表的共享,层次信息和分类信息的位置)、事实表设计(事实表的特性,通用数据和专用数据事实表) 逻辑模型设计: 1、 系统数据量估算; 2、 数据粒度的选择; 3、 数据的分割(到各自的物理单元单独处理) 4、 表的合理划分(字段的更新频率和访问频率不一样——稳定性) 5、 删除纯操作数据(“收款人”),增加导出字段(“销售总量”) 元数据:描述数据的数据,定义数据仓库对象的数据。包括数据仓库的结构、操作元数据(数据血统、流通,监控信息)、用于汇总的算法、从操作环境到数据仓库的映射;关于系统性能的数据、商务元数据。 ,. 部分物化:选择性预计算各种方体子集或子立方体。 冰山立方体:是一个数据立方体,只存放聚集值大于某个最小支持度阈值的立方体单元。 数据立方体计算中多路数组聚集,多路计算 BUC:bottom-up computation 自底向上构造,一种计算稀疏冰山立方体的算法。 数据立方体允许以多维数据建模和观察,它由维和事实定义。 维是关于一个组织想要记录的透视或实体,事实是数值度量的。 物理模型的设计: 1.确定数据的存储结构(并行RAID)2.索引策略(位图索引、连接索引) 3.数据存储策略与性能优化(多路聚集优化、表的归并、分割表的存放、按列存储、存储分配优化)4.数据装载接口5.并行优化设计 位图索引:在给定属性的位图索引中,属性的每一个值v都有一个位向量,长度为记录的总数,如果数据表中给定行上该属性的值为v, 则在位图索引的对应行上标注该值的位为1,其余为0.,不适用于基数很大的属性。 连接索引:传统的索引将给定列上的值映射到具有该值的行的列表上,连接索引登记来自关系数据库的两个关系的可连接行,对于维护来自可连接的关系的外码和与之匹配的主码的联系特别有用(事实表——维表)。 N维,且每个维有Li概念封层,可得到的立方体有
多路数组聚集:是数据立方体的高效计算方式。使用多维数组作为基本数据结构,自底向上的、共享地计算完全数据立方体。使用数组直接寻址的典型MOLAP。 方法:最大维在形成单块的平面上。最小为在形成单面的平面上,每个平面必须被排序,并按大
)11(niiLT,. 小递增的顺序被计算。
数据预处理 数据预处理:不完整的、含噪音的、不一致的 1、数据清洗(缺失值(缺少属性值或某些感兴趣的属性,或仅包含聚集数据)、噪声(错误或存在偏离期望的离群值)、非一致)、 2、数据集成(模式集成(识别实体)、发现冗余(相关分析检测)、数据值冲突检测和处理(不同数据源属性值不同))、 3、数据变换(光滑(去掉噪声)、聚集(数据汇总)、泛化(概念分层,高层替换低层)、规范化(按比例缩放)、属性构造) 4、数据规约(数据立方体聚集、维度规约(属性子集选择)、数值规约、离散化和概念分层产生)、 5、数据离散化(数值数据:分箱、直方图、聚类、基于熵的离散化、基于直观划分离散化3-4-5规则(区间的最高有效位的取值个数); 分类数据:用户或专家在模式级显示说明属性偏序、通过显示数据分组说明分层结构的一部分、说明属性集但不说明偏序(层次高,属性值个数越少)、只说明部分属性集(嵌入数据语义,是语义相关的属性集捆绑在一起))。 噪声:被测量的变量的随机误差或方差。 噪音数据处理:分箱(按箱平均值平滑、按箱中值平滑、按箱边界平滑)、回归、聚类。 规范化:最小-最大规范化;Z-score规范化;小数定标规范化 数据规约技术:得到数据集的规约显示,小得多,但保持原数据的完整性。挖掘更有效。 属性子集选择:检测并删除不相关、弱相关或冗余的属性和维 ,. 维规约:使用编码机制减小数据集的规模,如压缩。 数值规约:用替代的、较小的数据表示替换或估计数据,如参数模型or非参方法(聚类、抽样、直方图(Equi-depth、equi-width、v-optimal(最小方差)、maxdiff(考虑每对相邻的之间的差,桶的边界具有的最大对))。 概念分层:对一个属性递归地进行离散化,产生属性值的分层或多分辨率划分。属性的原始数据用更高层或离散化的值替换。 离散化:用少数区间标记替换连续属性的数值,从而减少和简化原来的数据。
特征化和区分: 描述性数据挖掘:以简洁概要的方式描述概念或数据集,并提供数据的有趣的一般性质。 预测性数据挖掘:分析数据,建立一个或一组连续值函数模型,预测不知道的数值数据值。 概念描述包括特征化和区分。 特征化:提供给定数据汇集的简洁汇总。 区分:提供两个或多个数据集的比较描述。 OLAP VS 概念描述:处理类型、自动化方面比较各自优缺点。 Concept description: can handle complex data types of the attributes and their aggregations a more automated process OLAP: restricted to a small number of dimension and measure types user-controlled process 决策树:一种类似于流程图的树结构,其中每个结点代表在一个属性值上的测试,每个分支代表