大数据复习提纲
- 格式:doc
- 大小:711.50 KB
- 文档页数:16
⼤型数据库复习⼤纲⼤型数据库复习⼤纲绪论部分1、了解其他⼤型数据库系统a)IBM公司的DB2b)Informixc)Sybased)SQL Server2、Oracle 11g 中的“g”的含义是什么?Oracle 9i 中的“i”的含义是什么?g:Grid⽹格i :Internet互联⽹Oracle的体系结构和数据库操作1、图⽰Oracle的物理数据库、逻辑数据库、⽤户之间的逻辑关系。
答:⼀个Oracle数据库有⼀个物理存储结构和⼀个逻辑存储结构。
逻辑存储结构是数据概念上的组织,主要有表空间、表、数据段、区和数据块等概念组成;物理存储结构是实现数据的存储单元,主要有数据⽂件、重写⽇志⽂件和控制⽂件组成。
⽤户虽然不是数据库中的⼀个物理结构,但它与数据库中的对象有着重要的关系,这是因为⽤户拥有数据库的对象。
2、段是什么概念?如何组成的。
段包括哪⼏种?各功能是什么?答:依照不同的数据处理性质,可能需要在数据表空间内划分出不同区域,以存放不同数据,将这些区域称之为“段”(SEGMENT)。
段包括数据段、索引段、临时段、回滚段。
(1)数据段:是存储在数据库中⽤户建⽴的表对象,在很⼤程度上包括了组成模式的和。
(2)索引段:是存储在数据库中⽤户建⽴的索引对象。
(3)临时段:当⼀个SQL语句需要临时⼯作区时,由Oracle建⽴。
当语句执⾏完毕,退回给系统。
(4)回滚段:回滚段⽤于存放数据修改之前的值(包括数据修改之前的位置和值)。
回滚段的头部包含正在使⽤的该回滚段事务的信息。
⼀个事务只能使⽤⼀个回滚段来存放它的回滚信息,⽽⼀个回滚段可以存放多个事务的回滚信息。
回滚段主要完成两项任务:(1)回滚段通过保存恢复或“先前映象”信息(对于DML语句所作的所有修改),提供取消事务的⽅法。
这些信息⾮常重要,可以完成从事务语句失败、程序失败和媒介失败中恢复。
(2)为事务提供读⼀致性,特别是对运⾏时间长的作业。
3、Oracle的存储空间的基本单位是什么?与OS的基本存储单位的关系。
大数据复习要点在当今信息爆炸的时代,大数据已经成为了各行各业的关键词。
无论是企业经营还是科学研究,大数据都扮演着至关重要的角色。
随着大数据相关技术的不断发展和应用,对于大数据的理解和掌握也成为了现代人不可或缺的能力之一。
本文将从大数据的定义、应用、技术和挑战等方面进行总结,帮助读者复习大数据的要点。
一、大数据的定义首先要明确什么是大数据。
大数据,顾名思义,就是指规模庞大且复杂的数据集合。
与传统的数据处理方式相比,大数据具有三个特点:大量性、高速性和多样性。
大数据具有海量的数据量,数据的产生速度非常快,并且数据的类型和格式也非常多样化。
大数据不仅包括结构化数据,还包括半结构化数据和非结构化数据。
二、大数据的应用大数据的应用非常广泛,几乎涵盖了各个行业和领域。
以下是一些常见的大数据应用。
1. 商业智能大数据帮助企业进行数据分析,从而为决策者提供准确的商业智能。
通过对大数据的挖掘和分析,企业可以更好地了解市场需求、客户行为和竞争对手动态,进而优化产品和服务,并制定更有效的市场策略。
2. 健康医疗大数据在健康医疗领域的应用也非常广泛。
医疗机构可以通过大数据分析病历、医学影像、基因数据等信息,提高疾病的诊断准确性和治疗效果。
同时,大数据还可以用于提前预警和监测疾病的爆发趋势,帮助公共卫生机构做好疾病防控工作。
3. 交通运输大数据可以帮助交通管理部门进行智能化的交通调度和规划。
通过对交通流量、车辆位置和路况的实时监测和分析,交通管理者可以更好地安排交通信号灯、公交车和路线等,提高交通效率,减少交通拥堵。
4. 社交媒体大数据在社交媒体领域的应用主要表现在社交网络分析和舆情监测方面。
通过对用户的社交行为和社交关系进行挖掘和分析,社交媒体平台可以为用户提供个性化的推荐和广告。
同时,社交媒体平台还可以通过监测用户的言论和情绪,及时发现并应对舆情风险。
三、大数据的技术要了解大数据,就必须了解一些与之相关的技术。
1. 数据采集与清洗大数据的首要任务是数据采集。
大数据导论大一知识点框架一、概述大数据导论A. 定义和特征B. 大数据发展历程C. 大数据应用领域D. 大数据的挑战与机遇二、大数据存储与处理技术A. 传统数据库技术的局限性B. 分布式存储和处理系统1. Hadoop生态系统2. NoSQL数据库系统C. 数据仓库与数据挖掘D. 流式处理与实时分析三、大数据采集与清洗A. 数据采集方法B. 数据清洗与预处理C. 数据质量评估与改进四、大数据分析与挖掘A. 数据可视化与探索性分析B. 数据挖掘算法1. 分类与聚类2. 关联规则挖掘3. 预测与推荐C. 机器学习与深度学习五、大数据隐私与安全A. 大数据隐私保护B. 数据安全与权限管理C. 数据治理与合规性六、大数据的价值与应用案例A. 大数据在商业领域的应用B. 大数据在社交媒体分析中的应用C. 大数据在医疗健康领域的应用D. 大数据在交通运输领域的应用七、大数据伦理与社会影响A. 数据伦理与隐私权B. 数据开放与共享C. 大数据对社会发展的影响八、未来展望与挑战A. 大数据的发展趋势B. 大数据技术与应用的挑战与瓶颈C. 大数据对就业市场的影响结语:大数据导论作为大一学生学习的重要知识点,涉及了大数据的基本概念、存储与处理技术、采集与清洗方法、分析与挖掘算法、隐私与安全、应用案例、伦理与社会影响等方面内容。
对于理解和应用大数据具有重要意义,同时也有助于培养学生的数据分析能力和解决实际问题的能力。
未来,随着大数据技术和应用的不断发展,相关领域的求职市场也将呈现出更加广阔的就业前景。
(以上内容为大数据导论大一知识点框架的简介,具体内容和细节可以根据需要进行扩展和修改。
)。
《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()A.MongoDBB.HBaseC.CassandraD.DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:3.7附1.1.1(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等另外,NewSQL数据库。
大数据技术基础1. 参数检验是指对参数平均值、方差进行的统计检验,其中t检验是通过t分布理论推断差异发生的概率来判断两个样本或样本与群体的平均值差异是否显著的方法。
2.新型数据质量管理的方法和工具中,关联图是对原因-结果、目的-手段等关系复杂而相互纠缠的问题的表述,在逻辑上用箭头把各要素之间的因果关系连接起来,从而找出主要因素的方法。
3. 云平台分为公有云、私有云以及混合云。
公有云指第三方提供商为用户提供的云,一般可通过互联网使用,可能是免费或低成本的,其核心属性是共享资源服务。
4.多源数据融合工具NiFi是Apache公司的产品,适合初学者不需要编写代码。
5. 大数据决策是以大数据为主要驱动的决策方式。
6. 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持7. 大数据应用向前发展的主要瓶颈是数据价值挖掘过程中的隐私监管。
8. 存储区域网络是采用网状通道技术,是通过交换机等连接设备将磁盘阵列与相关服务器连接起来的高速专用子网。
9. Python语言的函数中lambda用来定义匿名函数10. Echarts侧重于数据统计图表化层面,即使用传统的统计性图表来表示数据,用户可以通过其看到历史数据的统计和解读。
11. 视频的全局运动特征中,通过将视频帧划分为许多互不重叠的小块后,描述每个子块内像素运动矢量的是块运动特征12.在执行HDFS的读写过程中,首先使用分布式文件系统调用的是数字节点DataNode。
13. 许多网站和网络服务提供相应的应用程序接口API,允许请求结构化格式的数据。
API的大部分数据都是JSON或XML格式,对于JSON格式的数据,可以使用Python中的json模块来解析JSON。
14. 描述性时序分析指通过直观的数据比较或绘图观测来寻找时间序列中蕴含的发展规律,其操作简单易懂且直观有效,通常是时间序列数据分析的第一步。
15. NoSQL主要用于存储非结构化数据16. 音调(或称音高)是声音听起来调子高低的程度。
大数据知识点全面总结目录一、什么是大数据1.1 大数据的定义1.2 大数据的特点1.3 大数据的价值二、大数据的应用场景2.1 金融领域2.2 零售领域2.3 医疗健康领域2.4 交通领域2.5 农业领域三、大数据的技术工具3.1 Hadoop3.2 Spark3.3 Flink3.4 Kafka3.5 Elasticsearch四、大数据的挑战与解决方案4.1 数据存储与管理4.2 数据处理与分析4.3 数据安全与隐私4.4 数据可视化与决策支持五、大数据未来发展趋势5.1 人工智能与大数据的融合5.2 云计算与大数据的融合5.3 边缘计算与大数据的融合5.4 行业应用与大数据的融合六、结语一、什么是大数据1.1 大数据的定义大数据是指规模巨大、种类繁多、处理速度快的数据集合。
它包括结构化数据、半结构化数据和非结构化数据。
结构化数据是以表格形式存储的数据,如关系数据库中的数据;半结构化数据是具有一定组织结构但不符合传统关系数据库模式的数据,如XML、JSON格式的数据;非结构化数据是没有固定结构的数据,如文本、图像、音频、视频等。
1.2 大数据的特点大数据具有5V特征:Volume(数据量大)、Velocity(处理速度快)、Variety(种类繁多)、Veracity(真实性)、Value(价值高)。
Volume:大数据的数据量通常以TB、PB、甚至EB计算,远超传统数据库能力。
Velocity:大数据的处理速度要求非常高,需要能够实时或近实时地处理数据。
Variety:大数据的数据种类繁多,包括结构化数据、半结构化数据和非结构化数据。
Veracity:大数据的真实性要求高,需要通过数据清洗、质量控制等手段保证数据的准确性和一致性。
Value:大数据的价值非常大,可以挖掘出隐藏在其中的商业洞见和价值。
1.3 大数据的价值大数据具有重要的商业价值。
通过对大数据的分析和挖掘,可以为企业带来以下益处:- 更好的决策支持- 更精准的市场营销- 更高效的运营管理- 更好的客户服务- 更快的产品创新二、大数据的应用场景2.1 金融领域在金融领域,大数据被广泛用于风险管理、信用评估、欺诈检测、投资决策等。
大数据专业职称考试提纲一、大数据法律法规、相关标准及职业道德(1)了解隐私权和个人信息保护有关内容。
(2)了解数据安全制度、数据安全保护义务、政务数据安全与开放等相关内容。
(3)了解数据分类、重要数据备份和加密等措施。
(4)了解电子签名、数据电文基本概念。
(5)了解核心密码、普通密码、商用密码之间的区别。
掌握专业技术人员职业道德的基本要求二、计算机基础知识(一)面向对象技术1、了解面向对象的发展历史,为什么引入面向对象2、掌握面向对象编程与非面向对象编程的优缺点3、掌握抽象的5 个层次,抽象形式4、了解类和方法5、了解消息、实例和初始化(二)数据结构与算法1、掌握程序性能分析的概念和方法,包括时间复杂性与空间复杂性分析。
2、掌握线性表的概念,掌握堆栈、队列、跳表和散列的描述方法与应用。
3、了解树的描述方法与应用。
4、了解图的描述方法与应用。
(三)操作系统1、掌握操作系统的概念和操作系统结构。
2、掌握操作系统的进程管理,包括进程概念、进程调度、同步及死锁处理。
3、了解内存管理,包括内存管理策略和虚拟内存管理。
4、了解存储管理,包括文件系统、文件系统实现、大容量存储结构和I/O系统。
5、了解系统保护与安全。
(四)计算机网络1、了解计算机网络在信息时代的核心作用以及计算机网络的发展历史;理解计算机网络的分类,网络标准化,网络参考模型,网络体系结构。
2、掌握物理层的基本概念,理解信道极限容量的概念以及信道最大传输速率的公式,模拟传输和数字化传输的物理层标准。
3、掌握数据链路层的基本概念,理解停等协议和连续ARQ 协议,滑动窗口协议,检错和纠错机制。
4、掌握介质访问控制子层的基本概念,理解动态多路访问控制协议,以太网,无线局域网,数据链路层的交换技术。
5、了解网络层的基本概念,了解路由协议,拥塞控制算法,服务质量,网络互连,IP 协议,子网掩码。
6、了解传输层的基本概念,了解传输层路由协议,TCP,UDP,拥塞控制算法。
1、线性判别函数的正负和数值大小的几何意义正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。
2、感知器算法特点收敛性:经过算法的有限次迭代运算后,求出了一个使所有样本都能正确分类的W,则称算法是收敛的。
感知器算法是在模式类别线性可分条件下才是收敛的。
感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的震荡,这也是它的缺点。
3、聂曼-皮尔逊判决准则、最小最大判决准则等区别聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况;最小最大判别准则主要用于先验概率未知的情况。
4、马式距离较之于欧式距离的优点优点:马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据 (即原始数据与均值之差)计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
尺度不变性;考虑了模式的分布5、关联规则的经典算法有哪些Apriori 算法;FP-tree;基于划分的算法Apriori 算法、GRI算法、Carma6、分类的过程或步骤答案一:ppt上的1、模型构建(归纳)通过对训练集合的归纳,建立分类模型。
2、预测应用(推论)根据建立的分类模型,对测试集合进行测试。
答案二:老师版本的训练样本的收集训练集的预处理、模型的选择、模型的训练(问老师后理解整理)7、分类评价标准第1页共16页1)正确率(accuracy)就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;2)错误率(errorrate)错误率则与正确率相反,描述被分类器错分的比例,errorrate=(FP+FN)/(P+N) ,对某一个实例来说,分对与分错是互斥事件,所以accuracy=1- errorrate ;3)灵敏度(sensitive )sensitive=TP/P ,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;4)特效度(specificity)specificity=TN/N ,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;5)精度(precision )精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/ (TP+FP);6)召回率(recall )召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P= sensitive ,可以看到召回率与灵敏度是一样的。
大数据导论林子雨复习资料大数据导论林子雨复习资料大数据时代的来临,给我们的生活带来了翻天覆地的变化。
在这个信息爆炸的时代,大数据成为了我们获取信息、分析问题、做出决策的重要工具。
而在大数据领域,林子雨教授是一位备受瞩目的学者,他的研究成果和教学经验都备受推崇。
下面,我们将为大家整理一份林子雨教授的大数据导论复习资料,希望对大家的复习有所帮助。
一、大数据的定义和特点大数据是指规模巨大、类型多样、速度快、价值密度低的数据集合。
与传统的数据处理方法相比,大数据具有以下几个特点:1. 规模巨大:大数据的规模通常以TB、PB、甚至EB为单位,远远超过了我们传统数据库的处理能力。
2. 类型多样:大数据涵盖了结构化数据、半结构化数据和非结构化数据,如文本、图像、音频等。
3. 速度快:大数据的产生速度非常快,需要实时或近实时地进行处理和分析。
4. 价值密度低:大数据中包含了大量的冗余和噪音数据,需要通过数据挖掘和分析技术提取有价值的信息。
二、大数据的应用领域大数据的应用领域非常广泛,几乎涵盖了所有行业。
以下是一些典型的大数据应用领域:1. 金融行业:大数据可以用于风险控制、欺诈检测、个性化推荐等方面,帮助金融机构提高效率和降低风险。
2. 医疗健康:大数据可以用于疾病预测、个性化治疗、医疗资源优化等方面,提高医疗服务的质量和效率。
3. 零售业:大数据可以用于销售预测、用户行为分析、精准营销等方面,帮助零售商提高销售额和客户满意度。
4. 交通运输:大数据可以用于交通拥堵预测、路径规划、智能交通管理等方面,提高交通运输的效率和安全性。
5. 媒体与娱乐:大数据可以用于内容推荐、用户画像、舆情分析等方面,提供个性化的媒体和娱乐服务。
三、大数据的挑战和解决方案虽然大数据给我们带来了很多机遇,但也面临着一些挑战。
以下是一些典型的大数据挑战:1. 数据质量:大数据中存在大量的冗余和噪音数据,需要通过数据清洗和质量控制来提高数据的准确性和可信度。
数据分析复习提纲
一、数据的基本分类
1.定性数据
2.定量数据
定量数据是有关度量的数据,其中有两类:
(1)离散定量数据:是指只有有限个可能取值的数据,如年龄、性别、省份等。
(2)连续定量数据:是数值的定量数据,如年收入、体重等。
二、数据清洗
数据清洗是数据分析过程中的重要环节,它的主要作用是检查数据的
质量和完整性,进行缺失值处理、异常值处理、重复值处理等,保证分析
结果准确。
1.缺失值处理
缺失值处理是一种清理数据的重要技术,其主要目的是用有效的方式
插补缺失值,保证分析时充分利用数据资源。
常用的插补缺失值的方法有:均值插补、中位数插补、众数插补等。
2.异常值处理
异常值处理是指检测和处理离群点的一种技术,它的目的是检测到和
去除异常值,以保证分析的正确性。
常用的异常值处理方法有:硬/软异
常值删除法、极值缩放法、内外点聚类法等。
3.重复值处理
重复值处理是指在数据清洗中,检测和删除数据中的重复值,保证原始数据的一致性。
1、线性判别函数的正负和数值大小的几何意义正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。
2、感知器算法特点收敛性:经过算法的有限次迭代运算后,求出了一个使所有样本都能正确分类的W,则称算法是收敛的。
感知器算法是在模式类别线性可分条件下才是收敛的。
感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的震荡,这也是它的缺点。
3、聂曼-皮尔逊判决准则、最小最大判决准则等区别聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况;最小最大判别准则主要用于先验概率未知的情况。
4、马式距离较之于欧式距离的优点优点:马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
尺度不变性;考虑了模式的分布5、关联规则的经典算法有哪些Apriori 算法;FP-tree;基于划分的算法Apriori算法、GRI算法、Carma6、分类的过程或步骤答案一:ppt上的1、模型构建(归纳)通过对训练集合的归纳,建立分类模型。
2、预测应用(推论)根据建立的分类模型,对测试集合进行测试。
答案二:老师版本的训练样本的收集训练集的预处理、模型的选择、模型的训练(问老师后理解整理)7、分类评价标准1)正确率(accuracy)就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;2)错误率(error rate)错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以 accuracy =1 - error rate;3)灵敏度(sensitive)sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;4)特效度(specificity)specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;5)精度(precision)精度是精确性的度量,表示被分为正例的示例中实际为正例的比例, precision=TP/(TP+FP);6)召回率(recall)召回率是覆盖面的度量,度量有多个正例被分为正例, recall=TP/(TP+FN)=TP/P= sensitive,可以看到召回率与灵敏度是一样的。
正确率:它表示的预测结果正确比例。
包括正例和负例。
精确度:它表示的是预测是正例的结果中,实际为正例的比例。
召回率:它表示的是实际为正例样本中,预测也为正例的比例。
综合指标:F1=2*精确率*召回率/精确率+召回率,它实际上精确度和召回率的一个综合指标。
8、支持向量机及常见的核函数选择SVM的目的是寻找泛化能力好的决策函数,即由有限样本量的训练样本所得的决策函数,在对独立的测试样本做预测分类时,任然保证较小的误差。
本质:求解凸二次优化问题,能够保证所找到的极值解就是全局最优解。
支持向量机的标准:使两类样本到分类面的最短距离之和尽可能大支持向量机基本思想:通过训练误差和类间宽度之间的权衡,得到一个最优超平面支持向量机是利用分类间隔的思想进行训练的,它依赖于对数据的预处理,即在更高维的空间表达原始模式。
通过适当的到一个足够高维的非线性映射,分别属于两类的原始数据就能够被一个超平面来分隔。
支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数来实现的。
支持向量机求得的分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持向量网络。
9、什么是数据样本、什么是机器学习样本:研究中实际观测或调查的一个个体叫样本机器学习:机器学习通过从数据里提取规则或模式来把数据转换成信息。
经典定义:利用经验改善系统自身的性能,随着该领域的发展,主要做智能数据分析。
机器学习:利用经验改善系统自身的性能随着该领域的发展,主要做智能数据分析10、机器学习的一般步骤1、问题识别、数据理解:明确系统与组织之间的关键问题,分析数据的价值和质量2、数据准备、数据预处理:将数据汇集在一起,形成数据挖掘库或数据集市3、模型选择:通过分析,选择几个合适的模型4、训练模型:使用机器学习算法或统计方法对大量的数据进行建模分析,从而获得对系统最适合的模型5、模型测试:将真实数据带入模型,进行运算6、模型验证:模型评价包含两个方面:功能性评价,和服务性评价11. 样本属性的主要类型属性有四种类型:1、连续性属性2、二值离散型3、多值离散型4、混合类型12.信息增益信息增益是特征选择中的一个重要指标,来衡量一个属性区分以上数据样本的能力,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。
信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁. 信息增益就是前后信息的差值,在决策树分类问题中,即就是决策树在进行属性选择划分前和划分后的信息差值。
信息增益 = 先验熵(信息熵)-条件熵 (表示信息消除随机不确定性的程度)13.核函数SVM 的判别方程14. Adaboost 的判别函数))()((1x h x H sign Tt t t ∑==α 16.聚类分析有哪些主要距离度量方法欧氏距离(Euclidean distance ):曼哈顿距离(Manhattan distance ):闵可夫斯基距离(Minkowski distance: 17、频繁项集频繁项集:有一系列集合,这些集合有些相同的元素,集合中同时出现频率高的元素形成一个子集,满足一定阈值条件,就是频繁项集。
频繁项集:在所有训练元组中同时出现的次数超过人工定义的阈值的项集称为频繁项集。
18、支持度项目集 X 的支持度 support (X) 是 D 中事务包含 X 的百分比,它是概率P (X):support (X) = P (X) = (包含 X 的事务数 / D 的事务总数)×100%若 support(X) 不小于指定的最小支持度,则称 X 为频繁项目集(简称频集),否则称 X 为非频繁项目集(简称非频集) 。
支持度:项集同时出现的次数**()sgn(,)i i i f x y x x b α=<>+∑支持向量****()():()1:()11[,,] or 21[max *min *]2T i T i i y i i y i b w x w x b x x ωω+-=-==-<>+<>=-+∑=-=d k jk ik j i x x x x d 12)(),(∑=-=d k jk ik j i x x x x d 1),(q d k q jk ik j i x x x x d /11)(),(∑=-=19.可信度X Y 对事务集D的置信度 (confidence)定义为D 中包含有X的事务数与同时包含Y的百分比。
这是条件概率P(Y | X) 即:confidence (X Y) = P(Y | X)= (包含X 和Y的事务数/包含X的事务数)×100%20关联规则关联规则是形如“X⇒Y”的蕴涵式,其中X⊂I,Y⊂I,并且X∩Y = ∅,X称为规则的条件,Y 称为规则的结果。
在不知道关联函数或关联函数不确定的情况下,为了反映所发现规则的有用性和确定性,关联分析生成的规则都要满足最小支持度阀值和最小置信度阀值。
21 什么是贝叶斯网络及作用贝叶斯网络是描述随机变量(事件)之间依赖关系的一种图形模式,是一种可用来进行推理的模型。
贝叶斯网络通过有向图的形式来表示随机变量间的因果关系,并通过条件概率将这种因果关系量化。
一个贝叶斯网络由网络结构和条件概率表两部分组成。
作用:贝叶斯网络的预测、诊断和训练、、、因果预测、原因诊断、解释远离22、决策树算法及步骤1 生成一颗空决策树和一张训练样本属性集;2 若训练样本集T 中所有的样本都属于同一类,则生成结点T , 并终止学习算法;否则3 根据某种策略从训练样本属性表中选择属性A 作为测试属性, 生成测试结点A4 若A的取值为v1,v2,…,vm, 则根据A 的取值的不同,将T 划分成 m个子集T1,T2,…,Tm;5 从训练样本属性表中删除属性A;6 转步骤2, 对每个子集递归调用CLS;23、ID3算法及步骤1 决定分类属性;2 对目前的数据表,建立一个节点N3 如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标出所属的类4 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从多数的原则在树叶上标出所属类别5 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性6 节点属性选定后,对于该属性中的每个值:从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏如果分支数据表非空,则运用以上算法从该节点建立子树。
24、bp网络的优缺点BP神经网络具有以下优点:1) 非线性映射能力:BP神经网络实质上实现了一个从输入到输出的映射功能,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。
这使得其特别适合于求解内部机制复杂的问题,即BP神经网络具有较强的非线性映射能力。
2) 自学习和自适应能力:BP神经网络在训练时,能够通过学习自动提取输出、输出数据间的“合理规则”,并自适应的将学习内容记忆于网络的权值中。
即BP神经网络具有高度自学习和自适应的能力。
3) 泛化能力:所谓泛化能力是指在设计模式分类器时,即要考虑网络在保证对所需分类对象进行正确分类,还要关心网络在经过训练后,能否对未见过的模式或有噪声污染的模式,进行正确的分类。
也即BP神经网络具有将学习成果应用于新知识的能力。
4) 容错能力:BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响,也就是说即使系统在受到局部损伤时还是可以正常工作的。
即BP神经网络具有一定的容错能力。
BP神经网络也暴露出了越来越多的缺点和不足,比如:1) 局部极小化问题:从数学角度看,传统的BP神经网络为一种局部搜索的优化方法,它要解决的是一个复杂非线性化问题,网络的权值是通过沿局部改善的方向逐渐进行调整的,这样会使算法陷入局部极值,权值收敛到局部极小点,从而导致网络训练失败。