当前位置:文档之家› 四川理工学院-数据挖掘-简答题

四川理工学院-数据挖掘-简答题

四川理工学院-数据挖掘-简答题
四川理工学院-数据挖掘-简答题

----------------------挖掘机简答题----------------- 1.什么是数据仓库?数据仓库的特点主要有哪些?为什么要建立数据仓库?数据仓库的组成?

数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。

数据仓库的特点包含以下几个方面:

(1)面向主题。而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。

(2)集成的。存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

(3)相对稳定的。针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。

(4)反映历史变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。

为什么要建立数据仓库?

建立数据仓库的目的有3个:

一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。

二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。

三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。

数据仓库的组成:

数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统

2.何谓数据挖掘?它有哪些方面的功能?

从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。

数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。

3.数据挖掘对聚类的数据要求是什么?

(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感(7)高维性(8)基于约束的聚类(9)看解释性和可利用性

4.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有

哪些?

粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有:

①简单堆积结构

②轮转综合结构

③简单直接结构

④连续结构

5.简述数据仓库4种体系结构的异同点以其适用性。

(1)两层架构

(2)独立型数据集市

(3)依赖型数据集市和操作型数据存储

(4)逻辑型数据集市和实时数据仓库

6.简述你对数据仓库未来发展趋势的看法。

在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web 技术紧密结合。

7.请列出3种数据仓库产品,并说明其优缺点。

(1)IBM 提供了基于可视化数据仓库的商业智能(BI)解决方案,包括:VisualWarehouse (VW),Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,其中,VW 是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。

(2)Oracle 数据仓库解决方案主要包括Oracle Express 和Oracle Discoverer 两个部分。Oracle Express 由四个工具组成:Oracle Express Server 是一个MOLAP(多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库

(3)Microsoft 将OLAP 功能集成到SQL Server 数据库中,其解决方案包括BI 平台、BI 终端工具、BI 门户和BI 应用四个部分

① BI 平台是BI 解决方案的基础,包括ETL 平台SQL Server 2005 IntegrationService(SSIS)、数据仓库引擎SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎SQLServer 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。

8.什么是数据仓库的3层数据结构?

数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。

9.什么是数据仓库的数据ETL过程?

数据的ETL 过程就是负责将操作型数据转换成调和数据的过程。数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW 的当前有效性和扩展性。

整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进

行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。

10.什么是星型模式?它的特征是什么?

在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。

11.为什么时间总是数据仓库或数据集市的维?

因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。

12.什么是用户信息需求表(信息包图法)?它为什么适用于数据仓库的概念模型的设计?

信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库。

总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。

13.简述数据仓库系统设计过程?

收集、分析和确认业务分析需求,分析和理解主题和元数据、事实及其量度、粒度和维度的选择与设计、数据仓库的物理存储方式的设计等。

14.一个数据仓库系统的建立通畅需要经过哪些步骤?

(1)收集和分析业务需求;(2)建立数据模型和数据仓库的物理设计;

(3)定义数据源;(4)选择数据仓库技术和平台;

(5)从操作型数据库中抽取、清洗及转换数据到数据仓库;

(6)选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件;

(7)更新数据仓库。

15.什么是关联规则?关联规则的应用有哪些?

关联规则挖掘是用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则(Association Rule)。

关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。

16.关联规则的分类有哪些?关联规则挖掘的步骤包括什么?

关联规则的分类:

(1)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。关联规则挖掘的步骤:

(1)找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集;(2)利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度进行取舍,产生强关联规则。

17.什么是分类?分类的应用领域有哪些?

分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。

分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;

18.什么是聚类分析?聚类分析的应用领域有哪些?

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,不同类别的数据样本之间具有较低的相似度。

聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web 数据挖掘等域都有广泛应用。在商业领域,聚类可以帮助市场分析人员对客户的基本数据进行分析,发现购买模式不同的客户群,从而协助市场调整销售计划;在文本挖掘和Web数据挖掘领域中,聚类可以将网站数据按照读者的兴趣度进行划分,有助于网站内容的改进。

19.贝叶斯网络的三个主要议题是什么?

贝叶斯网络的3个主要议题分别是:预测、诊断和历史数据训练。

20.怎样从历史数据中训练出结点之间的条件概率或联合条件概率?

要训练条件概率P(B|A),可以在历史数据中统计A 发生的次数T(A),然后统计在A 发生的数据中B 发生的次数T(A,B),条件概率P(B|A) = T(B)/T(A)。要训练联合条件概率P(C|A,B),可以在历史数据中统计A、B 共同发生的次数T(A,B),然后在A、B 共同发生的数据中统计C 发生的次数T(A,B,C),联合条件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符号A、B、C 可以表示某个事件,也可以表示该事件的相反事件。

21.如果叶贝斯网络的各个结点都没有任何证据,从历史数据中如何用两种不同的方法得到各个结点的发生概率?

可以用两种方式从历史数据中得到各个节点的发生概率:

(1)用各节点的发生次数除以总的数据条数,就是各个节点的发生概率。

(2)首先,用第一种方法计算原因节点的发生概率,然后计算原因节点到中间节点或结果节点的条件概率,最后根据原因节点的概率和这些条件概率计算结果节点的概率。

22.简述数据仓库与数据挖掘的关系?

数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。

在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。

23.比较统计学与数据挖掘的异同?

统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。

数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。

统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。

24.比较OLAP的数据模型MOLAP与ROLAP?

MOLAP是事先生成多维立方体,供以后查询分析用,而ROLAP是通过动态的生成Sql,去做查询关系型数据库,如果没有做性能优化,数据量很大的时候,性能问题就会显得比较突出了。

25.比较数据挖掘与OLAP的差异?

OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。

数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。

26.什么是关于数据仓库映射的元数据?

数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:(1) 关于数据源的元数据

(2) 关于抽取和转换的元数据

(3) 关于最终用户的元数据

27.简述联机分析处理的四个特征?

(1)快速性:用户对OLAP的快速反应能力有很高的要求。

(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。

(3)多维性:系统必须提供对数据分析的多维视图和分析。

(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。

28.简述数据仓库设计的三级模型的基本内容。

(1)概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。

(2)逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。

(3)物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。

29.举例说明聚类分析的典型应用。

①商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式

描述不同客户群的特征。

②生物学:推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。

③WEB文档分类

④其他:如地球观测数据库中相似地区的确定;各类保险投保人的分组;一个城市中不

同类型、价值、地理位置房子的分组等。

⑤聚类分析还可作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其

他的数据挖掘。聚类分析是一种数据简化技术,它把基于相似数据特征的变量或个案组合在一起。

30.简述处理空缺值的方法。

①忽略该记录;②去掉属性;③手工填写空缺值;④使用默认值;

⑤使用属性平均值;⑥使用同类样本平均值;

31.列举操作型数据与分析型数据的主要区别。

32.何谓OLTP和OLAP?它们的主要异同有哪些?

OLTP即联机事务处理,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。

OLAP即联机分析处理,是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。

OLTP和OLAP的主要区别如下表:

33.在数据挖掘之前为什么要对原始数据进行预处理?

原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。

为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。

34.简述数据预处理方法和内容。

①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。

②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要

注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。

③数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、

概化、规范化,还可能需要进行属性的重构。

④数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够

得到和原始数据相同的分析结果。

35.简述数据清理的基本内容。

①尽可能赋予属性名和属性值明确的含义;

② 统一多数据源的属性值编码;

③ 去除无用的惟一属性或键值(如自动增长的id);

④ 去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时

候它们可能又是同时需要的)

⑤ 去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造

成错误的数据挖掘结果)

⑥ 合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分

用于数据挖掘即可,如价格、数据、金额)

⑦ 去掉数据中的噪音、填充空值、丢失值和处理不一致数据。

36.常见的分箱方法有哪些?数据平滑处理的方法有哪些?

分箱的方法主要有:

① 统一权重法(又称等深分箱法)

② 统一区间法(又称等宽分箱法)

③ 最小熵法

④ 自定义区间法

数据平滑的方法主要有:平均值法、边界值法和中值法。

37.何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。

将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0.0~1.0),

称为规范化。规范化的常用方法有:

(1) 最大-最小规范化:

(2) 零-均值规范化:

小数定标规范化:x =x 0/10

α

38.数据归约的方法有哪些?为什么要进行维归约?

⑤ 数据立方体聚集

⑥ 维归约

⑦ 数据压缩

⑧ 数值压缩

⑨ 离散化和概念分层

维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理

的数据量,提高挖掘效率。

39.何谓聚类?它与分类有什么异同?

聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同

一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。

聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类

是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。

()()

0000max min x x min min max min -=

-+-0X X x x σ-=

40.举例说明聚类分析的典型应用。

①商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。

②生物学:推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。 ③WEB 文档分类

41.聚类分析中常见的数据类型有哪些?何谓相异度矩阵?它有什么特点?

常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、序数型以及混合类型等。相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn 维的单模矩阵。其特点是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示:

42.分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?

分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。

分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。

43.什么是决策树?如何用决策树进行分类?

决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。

决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。

44.简述ID3算法的基本思想及其主算法的及其建树算法的基本步骤。

首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树,0d(2,1)0d(3,1)d(3,2)0d(n,1)d(n,2)......0????????????????

可以用它来对新的样例进行分类。

主算法包括如下几步:

①从训练集中随机选择一个既含正例又含反例的子集(称为窗口);

②用“建树算法”对当前窗口形成一棵决策树;

③对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子;

④若存在错判的例子,把它们插入窗口,重复步骤②,否则结束。

建树算法的具体步骤如下:

①对当前例子集合,计算各特征的互信息;

②选择互信息最大的特征A k ;

③把在A k 处取值相同的例子归于同一子集,A k 取几个值就得几个子集;

④对既含正例又含反例的子集,递归调用建树算法;

⑤若子集仅含正例或反例,对应分枝标上P 或N ,返回调用处。

45.设某事务项集构成如下表,填空完成其中支持度和置信度的计算。

46. 从信息处理角度看,神经元具有哪些基本特征?写出描述神经元状态的M-P 方程并说明其含义。

基本特征:①多输入、单输出;②突触兼有兴奋和抑制两种性能;③可时间加权和

空间加权;④可产生脉冲;⑤脉冲可进行传递;⑥非线性,有阈值。

M-P 方程:()i ij j j j

S f W S θ=-∑,W ij 是神经元之间的连接强度,j θ是阈值,

f (x )是阶梯函数。

47.遗传算法与传统寻优算法相比有什么特点?

⑩ 遗传算法为群体搜索,有利于寻找到全局最优解;

? 遗传算法采用高效有方向的随机搜索,搜索效率高;

?遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;

?遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好;

?遗传算法具有隐含并行性,具有更高的运行效率。

48.何谓文本挖掘?它与信息检索有什么关系(异同)。

文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它与信息检索之间有以下几方面的区别:

方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。

着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。

目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。

评价方法不同:信息检索用查准率和查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。

使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。

49.雪花模型

雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

50.企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?

首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。

51.请谈一下你对元数据管理在数据仓库中的运用的理解。

元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

52. 简述Apriori算法的思想,谈谈该算法的应用领域并举例。

思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法

工作量的大部分。

在商务、金融、保险等领域皆有应用

53.什么是ETL?

ETL用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

《数据挖掘》试题与标准答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

四川理工学院《物理化学》练习题5

练习题5 一.单项选择题(每小题2分,共30分) 1. 在一个密闭恒容的容器中有A、B、C三种理想气体,恒温下再注入一定量D 气体(理想气体),则A气体分压力( ) (A) 变小(B) 变大(C) 不变(D) 无法确定 2.对于内能是体系状态的单值函数概念,错误理解的是( ) (A) 体系处于一定的状态,具有一定的内能 (B) 状态发生变化,内能也一定跟着变化 (C) 对应于某一状态,内能只能有一数值不能有两个以上的数值 (D) 对应于一个内能值,可以有多个状态 3.某气体由状态A出发,先后经B、C二状态又返回到状态A。已知:由A到B是绝热可逆过程,由B到C是绝热不可逆过程,由C到A是等温可逆过程。则整个循环过程系统对环境所做的功( ) (A) 大于零(B) 等于零(C) 小于零(D) 不能确定 4. 理想气体经一个不可逆循环过程,则( ) (A) △S(系)>0 (B) △S(环) >0 (C) △S (系) <0 (D) △S(环) <0 5.在恒温恒压下,可依据系统的哪个函数变化值判断过程的自发性?( ) A. ΔS B. ΔH C.ΔG D. ΔU 6. 关于偏摩尔量,下面的叙述中不正确的是( ) (A) 偏摩尔量的数值只能为整数或为零 (B) 系统的强度性质无偏摩尔量 (C) 纯物质的偏摩尔量等于它的摩尔量 (D) 偏摩尔量是状态函数,其值与物质的数量无关 7. 298K、101.325kPa下,将50ml与100ml浓度均为1mol·dm-3 萘的苯溶液混合,混合液的化学势μ为( ) (A) μ = μ1 + μ2 ;(B) μ = μ1 + 2μ2;(C) μ = μ1 = μ2;(D) μ= ?μ1+ ?μ2 8.以下定律中不属于稀溶液依数性的是( ) (A) 渗透压定律(B) 沸点升高定律(C) 凝固点下降定律(D) 亨利定律. 9. 一定温度下,一定量的PCl5(g)在某种条件下的解离度为α,改变下列条件 何者可使α增大?( ) (A) 增加压力使体积缩小一倍 (B) 体积不变,通入N2气使压力增大一倍 (C) 压力不变,通入N2气使体积增大一倍 (D) 体积不变,通入Cl2气使压力增大一倍 10. 任何一个化学变化,影响平衡常数值的因素是( ) (A) 反应物的浓度(B) 催化剂 (C) 反应产物浓度(D) 温度

数据挖掘考试题库【最新】

一、填空题 1.Web挖掘可分为、和3大类。 2.数据仓库需要统一数据源,包括统一、统一、统一和统一数据特征 4个方面。 3.数据分割通常按时间、、、以及组合方法进行。 4.噪声数据处理的方法主要有、和。 5.数值归约的常用方法有、、、和对数模型等。 6.评价关联规则的2个主要指标是和。 7.多维数据集通常采用或雪花型架构,以表为中心,连接多个表。 8.决策树是用作为结点,用作为分支的树结构。 9.关联可分为简单关联、和。 10.B P神经网络的作用函数通常为区间的。 11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等几个步 骤。 12.数据挖掘技术主要涉及、和3个技术领域。 13.数据挖掘的主要功能包括、、、、趋势分析、孤立点分析和偏 差分析7个方面。 14.人工神经网络具有和等特点,其结构模型包括、和自组织网络 3种。 15.数据仓库数据的4个基本特征是、、非易失、随时间变化。 16.数据仓库的数据通常划分为、、和等几个级别。 17.数据预处理的主要内容(方法)包括、、和数据归约等。 18.平滑分箱数据的方法主要有、和。 19.数据挖掘发现知识的类型主要有广义知识、、、和偏差型知识五种。 20.O LAP的数据组织方式主要有和两种。 21.常见的OLAP多维数据分析包括、、和旋转等操作。 22.传统的决策支持系统是以和驱动,而新决策支持系统则是以、建 立在和技术之上。 23.O LAP的数据组织方式主要有和2种。 24.S QL Server2000的OLAP组件叫,OLAP操作窗口叫。 25.B P神经网络由、以及一或多个结点组成。 26.遗传算法包括、、3个基本算子。 27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合 类型等。 28.聚类分析中最常用的距离计算公式有、、等。 29.基于划分的聚类算法有和。

大数据时代下的数据挖掘试题和答案及解析

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法 (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内 (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法 (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

四川理工学院生物化学试题及答案 gai

第一章 蛋白质的结构与功能 一、名词解释 1.肽键:一个氨基酸的α-羧基与另一个氨基酸的α-氨基脱水缩合所形成的结合键,称为肽键。 2.结构域:蛋白质在形成三级结构时,肽链中某些局 部的二级结构汇集在一起,形成发挥生物学功能的特 定区域称为结构域。 3.蛋白质的等电点:蛋白质分子净电荷为零时溶液的pH 值称为该蛋白质的等电点。 4.蛋白质的沉淀:蛋白质分子从溶液中析出的现象称 为蛋白质的沉淀。 5.蛋白质的凝固:蛋白质经强酸、强碱作用发生变性后,仍能溶解于强酸或强碱中,若将pH 调至等电点,则蛋白质立即结成絮状的不溶解物,此絮状物仍可溶解于强酸或强碱中。如再加热则絮状物可变成比较坚固的凝块,此凝块不再溶于强酸或强碱中,这种现象称为蛋白质的凝固作用。 二、填空题 1.人体蛋白质约占人体干重_________,根据化学组成可将蛋白质分为_________和_________两大类。 2.多肽链结构通常把_________写在左边,_________写在右边,其结构具有_________性。 3.单纯蛋白质由_________、_________、_________、_________、_________、_________等元素组成,常根据_________的含量来测定样品中蛋白质的含量。 4.蛋白质的分子结构分为_________ 和_________。. 5.蛋白质分子的一级结构即_________,其连接键为_________;二级结构主要结构单元有_________,_________,维持其稳定的键为 _________;维持三级结构的化学键主要有_________,_________,_________,另外_________也很重要;四级结构即_________,维持其结构均为_________。 三、选择题 1. 天然蛋白质中不存在的氨基酸是: A. 胱氨酸 B. 谷氨酸 C. 瓜氨酸 D. 蛋氨酸 E. 丝氨酸 2. 下列哪种氨基酸为非编码氨基酸: A. 半胱氨酸 B. 组氨酸 C. 鸟氨酸 D. 丝氨酸 E. 亮氨酸 3. 下列氨基酸中哪种氨基酸无 L 型与 D 型氨基酸之分: A. 丙氨酸 B. 甘氨酸 C. 亮氨酸 D. 丝氨酸 E. 缬氨酸 4. 天然蛋白质中有遗传密码的氨基酸有: A. 8种 B. 61种 C. 12种 D. 20种 E. 64种 5. 测定100克生物样品中氮含量是2克,该样品中蛋白质含量大约为: A. 6.25% B. 12.5% C. 1% D. 2% E. 20% 6. 蛋白质分子中的肽键: A. 是一个氨基酸的α-氨基和另一个氨基酸的α-羧基形成的 B. 是由谷氨酸的γ-羧基与另一个氨基酸的α-氨基形成的 C. 氨基酸的各种氨基和各种羧基均可形成肽键 D. 是由赖氨酸的ε-氨基与另一分子氨基酸的α-羧基形成的 E. 以上都不是 7. 多肽链中主链骨架的组成是 A. –CNCCNCNCCNCNCCNC- B. –CCHNOCCHNOCCHNOC- C. –CCONHCCONHCCONHC- D. -CCNOHCCNOHCCNOHC- E. -CCHNOCCHNOCCHNOC- 8. 蛋白质的一级结构是指下面的哪一种情况: A. 氨基酸种类的数量 B. 分子中的各种化学键 C. 多肽链的形态和大小 D. 氨基酸残基的排列顺序 E. 分子中的共价键 9. 维持蛋白质分子一级结构的主要化学键是: A. 盐键 B. 氢键 C. 疏水键 D. 二硫键 E. 肽键 10. 蛋白质分子中α-螺旋构象的特点是: A. 肽键平面充分伸展 B. 靠盐键维持稳定 C. 螺旋方向与长轴垂直 D. 多为左手螺旋 E. 以上都不是 11. 下列哪种结构不属于蛋白质二级结构: A. α-螺旋 B. 双螺旋 C. β-片层 D. β-转角 E. 不规则卷曲 12. 维持蛋白质分子中α-螺旋稳定的主要化学键是: A. 肽键 B. 氢键 C. 疏水作用 D. 二硫键 E. 范德华力 13. 主链骨架以180°返回折叠,在连续的4个氨基酸中第一个残基的C =O 与第四个残基的N =H 可形成氢键的是: A. α-螺旋 B. β-折叠 C. 无规卷曲 D. β-转角 E. 以上都不是 14. 关于蛋白质分子三级结构的描述错误的是: A. 天然蛋白质分子均有的这种结构 B. 具有三级结构的多肽链都具有生物活性 C. 三级结构的稳定性主要是次级键维系 D. 亲水基团多聚集在三级结构的表面 E. 决定盘曲折叠的因素是氨基酸残基 15. 维系蛋白质三级结构稳定的最主要化学键或作用力是: A. 二硫键 B.盐键 C. 氢键 D.范德华力 E. 疏水作用 16. 维系蛋白质四级结构稳定的最主要化学键或作用力是: A. 二硫键 B. 疏水作用 C. 氢键 D. 范德华力 E. 盐键 17. 具有四级结构的蛋白质分子中,亚基间不存在的化学键是: A. 二硫键 B. 疏水作用 C. 氢键 D. 范德华力 E. 盐键 18. 下列哪种蛋白质具有四级结构: A. 核糖核酸酶 B. 胰蛋白酶 C. 乳酸脱氢酶 D. 胰岛素

数据挖掘考试题

数据挖掘考试题 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

数据挖掘考试题 一.选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 (单链) (全链) C.组平均方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) 均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇

C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 9.下列( )是属于分裂层次聚类的方法。 Average 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 二.填空题: 1.属性包括的四种类型:、、、。 2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。 4. 聚类中,定义簇间的相似度的方法有(写出四 个):、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方 法:、。 6. 组平均是一种界于和之间的折中方法。

浅谈大数据时代的数据分析与挖掘

龙源期刊网 https://www.doczj.com/doc/ec8237853.html, 浅谈大数据时代的数据分析与挖掘 作者:单海波 来源:《科技创新与应用》2016年第24期 摘要:随着改革开放的进一步深化,以及经济全球化的快速发展,我国各行各业都有了 质的飞跃,发展方向更加全面。特别是近年来科学技术的发展和普及,更是促进了各领域的不断发展,各学科均出现了科技交融。在这种社会背景下,数据形式和规模不断向着更加快速、精准的方向发展,促使经济社会发生了翻天覆地的变化,同时也意味着大数据时代即将来临。就目前而言,数据已经改变传统的结构模式,在时代的发展推动下积极向着结构化、半结构化,以及非结构化的数据模式方向转换,改变了以往的只是单一地作为简单的工具的现象,逐渐发展成为具有基础性质的资源。文章主要针对大数据时代下的数据分析与挖掘进行了分析和讨论,并论述了建设数据分析与挖掘体系的原则,希望可以为从事数据挖掘技术的分析人员提供一定的帮助和理论启示,仅供参考。 关键词:大数据;数据分析;数据挖掘;体系建设 引言 进入21世纪以来,随着高新科技的迅猛发展和经济全球化发展的趋势,我国国民经济迅速增长,各行业、领域的发展也颇为迅猛,人们生活水平与日俱增,在物质生活得到极大满足的前提下,更加追求精神层面以及视觉上的享受,这就涉及到数据信息方面的内容。在经济全球化、科技一体化、文化多元化的时代,数据信息的作用和地位是不可小觑的,处理和归类数据信息是达到信息传递的基础条件,是发展各学科科技交融的前提。 然而,世界上的一切事物都包含着两个方面,这两个方面既相互对立,又相互统一。矛盾即对立统一。矛盾具有斗争性和同一性两种基本属性,我们必须用一分为二的观点、全面的观点看问题。同时要积极创造条件,促进矛盾双方的相互转变。数据信息在带给人们生产生活极大便利的同时,还会被诸多社会数据信息所困扰。为了使广大人民群众的日常生活更加便捷,需要其客观、正确地使用、处理数据信息,完善和健全数据分析技术和数据挖掘手段,通过各种切实可行的数据分析方法科学合理地分析大数据时代下的数据,做好数据挖掘技术工作。 1 实施数据分析的方法 在经济社会快速发展的背景下,我国在科学信息技术领域取得长足进步。科技信息的发展在极大程度上促进了各行各业的繁荣发展和长久进步,使其发展更加全面化、科学化、专业化,切实提升了我国经济的迅猛发展,从而形成了一个最佳的良性循环,我国也由此进入了大数据时代。对于大数据时代而言,数据分析环节是必不可少的组成部分,只有科学准确地对信息量极大的数据进行处理、筛选,才能使其更好地服务于社会,服务于广大人民群众。正确处理数据进行分析过程是大数据时代下数据分析的至关重要的环节。众所周知,大数据具有明显

大学物理习题答案解析第七章

第七章 恒定磁场 7 -1 两根长度相同的细导线分别多层密绕在半径为R 和r 的两个长直圆筒上形成两个螺线管,两个螺线管的长度相同,R =2r ,螺线管通过的电流相同为I ,螺线管中的磁感强度大小B R 、B r 满足( ) (A ) (B ) (C ) (D ) 分析与解 在两根通过电流相同的螺线管中,磁感强度大小与螺线管线圈单位长度的匝数成正比.根据题意,用两根长度相同的细导线绕成的线圈单位长度的匝数之比 因而正确答案为(C )。 7 -2 一个半径为r 的半球面如图放在均匀磁场中,通过半球面的磁通量 为( ) (A ) (B ) (C ) (D ) 分析与解 作半径为r 的圆S ′与半球面构成一闭合曲面,根据磁场的高斯定理,磁感线是闭合曲线,闭合曲面的磁通量为零,即穿进半球面S 的磁通量等于穿出圆面S ′的磁通量;.因而正确答案为(D ). 7 -3 下列说法正确的是( ) (A ) 闭合回路上各点磁感强度都为零时,回路内一定没有电流穿过 (B ) 闭合回路上各点磁感强度都为零时,回路内穿过电流的代数和必定为零 (C ) 磁感强度沿闭合回路的积分为零时,回路上各点的磁感强度必定为零 (D ) 磁感强度沿闭合回路的积分不为零时,回路上任意一点的磁感强度都不可能为零 分析与解 由磁场中的安培环路定律,磁感强度沿闭合回路的积分为零时,回路上各点的磁感强度不一定为零;闭合回路上各点磁感强度为零时,穿过回路的电流代数和必定为零。因而正确答案为(B ). 7 -4 在图(a)和(b)中各有一半径相同的圆形回路L1 、L2 ,圆周内有电流I1 、I2 ,其分布相同,且均在真空中,但在(b)图中L2 回路外有电流I3 ,P 1 、P 2 为两圆形回路上的对应点,则( ) r R B B 2=r R B B =r R B B =2r R B B 4=2 1==R r n n r R B r 2π2B r 2 παB r cos π22 αB r cos π 2 S B ?=m Φ

压缩机毕业设计

四川理工学院毕业设计 0.42/150型空气压缩机 学生:田虎 学号:08011010318 专业:过程装备与控制工程 班级:2008.3 指导教师:唐克伦 四川理工学院机械工程学院 二O一二年六月

摘要 往复式压缩机是工业上使用量大、面广的一种通用机械。立式压缩机是往复活塞式压缩机的一种,属于容积式压缩机,是利用活塞在气缸中运动对气体进行挤压,使气体压力提高。 热力计算、动力计算是压缩机设计计算中基本,又是最重要的一项工作,根据任务书提供的介质、气量、压力等参数要求,经过计算得到压缩机的相关参数,如级数、列数、气缸尺寸、轴功率等,经过动力计算得到活塞式压缩机的受力情况。活塞式压缩机热力计算、动力计算的结果将为各部件图形以及基础设计提供原始数据,其计算结果的精确程度体现了压缩机的设计水平。 关键词:活塞式压缩机; 热力计算; 动力计算;气缸;曲轴

Abstract Reciprocating compressor is a common type machine, used in the industry .V- type of piston compressors is a kind of reciprocating compressor, belong to the compressor , utilize the pistons in the cylinder moving to squeeze on the gas ,squeezed the gas pressure. Thermal calculation and dynamical computation is basic of compressor design’ calculation, is also an important woke, according to medium, displacement, pressure of task-book, by calculating getting related parameters of compressors, such as levels, columns, size of cylinder, shaft power, by dynamical computation getting stressed status of a piston type compression, due to reduce the vibration is very important. heat calculation and dynamical computation of the piston type compressor, which is providing design data. The calculations reflect exactly the design level of the compressor. Keywords: piston compressor; thermal calculation; dynamical computation; cylinder; cranksh

最新数据挖掘考试题目——关联分析资料

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

四川理工学院机械设计试卷B

四川理工学院试卷B(2007至2008 学年第1 学期) 课程名称: 机械设计 命题教师: 刘郁葱 适用班级: 机自051-057,过控051-053,材控051,052 考试 2007年 12 月 日 共 页 注意事项: 1、 满分100分。要求卷面整洁、字迹工整、无错别字。 2、 考生必须将姓名、班级、学号完整、准确、清楚地填写在试卷规定的地方,否则视为废卷。 3、 考生必须在签到单上签到,若出现遗漏,后果自负。 4、 如有答题纸,答案请全部写在答题纸上,否则不给分;考完请将试卷和答题卷分别一同交回,否则不给分。 试 题 一、选择题(每小题2分,共30分) 1.能缓冲减振,并能起到过载安全保护作用的传动是 。 A. 带传动 B. 齿轮传动 C. 链传动 2.链传动张紧的目的是 。 A.避免垂度过大 B. 提高链的寿命 C. 改变链的运动方向 D.调节链的初拉力 3.对受轴向变载荷的紧螺栓联接,在限定螺栓总拉力的情况下,提高螺栓疲劳强度的有效措施是 。 A .增大被联接件的刚度 B. 减小被联接件的刚度 C. 增大螺栓的刚度 4.在滚动轴承的组合设计中,对于温度变化较大的轴,宜采用 的固定方式。 5..对于齿面硬度HB<350的闭式软齿面齿轮传动,设计时一般 。 A.先按齿面接触疲劳强度计算 B.先按弯曲疲劳强度计算 C.先按磨损条件计算 D.先按胶合条件计算 6.齿轮的疲劳点蚀通常首先出现在 。 A.齿顶附近 B.节线上 C.节线靠近齿根处 D.齿根上 题号 一二 三 四五六七八总分评阅(统分)教师得分 得分 评阅教师

7.在多级传动中,通常会把带传动布置在 (高速级,低速级),把链传动布置在 (高速级,低速级)。 8.普通平键工作中,其工作面是 ,其主要的失效形式是 和 。 9.在静强度条件下,塑性材料的极限应力是 ,脆性材料的极限应力是 。 10.蜗杆传动的总效率包括 效率,油阻损失时的效率和 效率,其中起最主要作用的是 效率。 11.轴的强度计算方法有 三种。 12.滑动轴承计算中限制pv值是考虑限制轴承的 。 13.代号为6220的滚动轴承,其中6表示该轴承为 ,20表示该轴承的内径为 mm。 14.就单个轴承而言能达到或超过其基本额定寿命的概率为 。 A.10% B.60% C.80% D.90% 点的弯曲应力属于。

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

四川理工学院 概率与统计(15-16-1)A卷

四川理工学院试卷(2015至2016学年第1学期) 课程名称:概率与数理统计(A 卷) 命题教师:李柳芬 适用班级:自动化14级各班学生 注意事项: 1、满分100分。要求卷面整洁、字迹工整、无错别字。 2、考生必须将姓名、班级、学号完整、准确、清楚地填写在试卷规定的地方,否则视为废卷。 3、考生必须在签到单上签到,若出现遗漏,后果自负。 4、如有答题纸,答案请全部写在答题纸上,否则不给分;考完请将试卷和答题卷分别一同交回,否则不给分。 试 题 一、选择题(每小题3分, 共21分) 1. 在相同的条件下同时抛5枚硬币,则5枚硬币中至少有1枚硬币正面朝上的概率为( ) A. 50.5 B. 510.5- C. 0.5 D. 40.5 2. 设,A B 为两随机事件,则下列式子一定正确的是( ) A. ()()()P AB P A P B = B. ()1()P AB P A B =- C. ()1()P AB P AB =- D. ()()() P AB P A P B =-3. 设随机变量X 的分布律为{}52k a P X k == , 1,2,k =, 则a =( ) A. 0.2 B. 0.5 C. 2 D. 1 4. 下列函数中可作为某随机变量X 的概率密度的是( ) A. 23,01()0,x x f x others ?<<=?? B. 22,01 ()0, x e x f x others -?<<=??

C. cos ,0()0,x x f x others π<

四川理工学院论文格式

XXXXXXXXXXXXX 学 X X X 学 号:专 业:班 级:指导教师: 二O 论文题目(二号黑体,居中) 小二号黑体,居中 小二号黑体,居中 三号黑体,居中 三号黑体,居中 按本科专业目录填写 若无专业方向,直接填写班号, 如:2006.1 2、 若有专业方向,填写专业方向和 班号,如:通用会计2006.1

式,能够使发动机同时保持较高的燃油经济性和动力性能,而且能有效降低发动机的NO x 和碳烟排放。此外HCCI 燃烧的一个显著特点是燃料的着火时刻和燃烧过程主要受化学动力学控制,基于这个特点,发动机结构参数和工况的改变将显著地影响着HCCI 发动机的着火和燃烧过程。本文以新型发动机代用燃料二甲醚(DME )为例,对HCCI 发动机燃用DME 的着火和燃烧过程进行了研究。结果表明,DME 的HCCI 燃烧过程有明显的低温反应放热和高温反应放热两阶段;增大压缩比、燃空当量比、提高进气充量温度、添加H 2O 2、H 2、CO 使着火提前;提高发动机转速、采用冷却EGR 、添加CH 4、CH 3OH 使着火滞后。

HCCI (Homogenous Charge Compression Ignition) combustion has advantages in terms of efficiency and reduced emission. HCCI combustion can not only ensure both the high economic and dynamic quality of the engine, but also efficiently reduce the NO x and smoke emission. In this work numerical scheme for the ignition and combustion process of DME homogeneous charge compression ignition is studied. The results show that the HCCI combustion fueled with DME consists of a low temperature reaction heat release period and a high temperature reaction heat release period. It is also founded that increasing the compression ration, the equivalence ratio, the intake charge temperature and the content of H2O2, H2or CO cause advanced ignition timing. Increasing the engine speed, adoption of cold EGR and the content of CH4 or CH3OH will delay the ignition timing.

数据挖掘考试题库讲解

一、名词解释 1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新 的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。 2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处 理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。 4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存 放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域 (如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。 6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项 或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐 含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩写。前者是以数 据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。 9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维 关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。10.MOLAP:是基于类似于“超立方”块的OLAP存储结构,由许多经压缩的、类似 于多维数组的对象构成,并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。 11.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能 够得到和原始数据相同的分析结果。 12.广义知识:通过对大量数据的归纳、概括和抽象,提炼出带有普遍性的、概括 性的描述统计的知识。 13.预测型知识:是根据时间序列型数据,由历史的和当前的数据去推测未来的数 据,也可以认为是以时间为关键属性的关联知识。 14.偏差型知识:是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象, 如标准类外的特例,数据聚类外的离群值等。

大数据、数据分析和数据挖掘的区别

大数据、数据分析和数据挖掘的区别 大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断。具体分析如下: 1、大数据(big data): 指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产; 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) 。 2、数据分析:

是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 3、数据挖掘(英语:Data mining): 又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 简而言之: 大数据是范围比较广的数据分析和数据挖掘。 按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。 数据分析处于数据处理的末端,是最后阶段。 数据分析和数据挖掘的分界、概念比较模糊,模糊的意思是二者很难区分。 大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体,每个人限于学术背景、技术背景,概述的都不一样。

四川理工学院机械设计学复习题

, 机械设计学复习题 第一章 1.机械的概念 机械是机器和机构的统称:完成做功的各种具体机器和以传递力与运动的各类机构总称为机械。 2.机械设计主要特点 1)多解性 2)系统性3)创新性 4)设计与科学研究 3.“机械设计学”的学科组成 1)功能原理设计 2)实用化设计3)商品化设计 . 4.现代设计,以功能为核心,构思实现该功能所需的方法和手段,具体方法和手段有: CAD/CAM/CAE技术,CIMS工程、并行工程、优化设计、有限元方法、可靠性设计、创新设计、快速响应设计、反求工程、逆向工程、虚拟设计方法等。 5. 近代“机械设计学”的核心内容 1)功能思想的提出2)人机工程学科的兴起3)工业设计学科的成熟 6.机械设计按其创新程度可分为以下三种类型: 1)适应性设计 2)变型设计 3)创新设计 第三章 1. 任何一种机器的更新换代都存在三个途径: 、 1)改革工作原理;2)通过改进工艺、结构和材料提高技术性能;3)加强辅助功能使其更适应使用者的心理。 2. 功能原理设计的工作特点 1).用一种新的物理效应来代替旧的物理效应,使机器的工作原理发生根本的变化的设计。 2).引入某种新技术(新材料、新工艺、……),但首先要求设计人员有一种新想法(New Idea)、新构思。 3).使机器品质发生质的变化。 3. 功能原理设计的任务和主要工作内容 1).功能原理设计的任务:针对某一确定的“功能目标”.寻求一些(一种)“物理效应”并借助某些“作用原理”来求得一些实现该功能目标的“解法原理”。 例如:为实现直线移动的功能要求,可寻求液压、电磁或机构等物理效应,通过油缸、直线电机或刚体传动等作用原理,求得最终实现机械直线移动这个功能目标的解法原理。 @ 2).功能原理设计的主要工作内容: (1)明确功能目标;(2)构思能实现功能目标的新的解法原理;(3)改进、完善解法。 4.根据系统工程学用黑箱来描述功能,请描述采用的哪三种流的转换。 任何技术系统都可以视为3种流的处理系统: 能量流:机械能、热能、电能、化学能、光能、核能。 物料流:气体、液体或各种形式的固体。信息流:各种测量值、输入指令、数 5.功能的分解。

相关主题
文本预览
相关文档 最新文档