当前位置:文档之家› 2012数据挖掘考试题(郑大研究生)

2012数据挖掘考试题(郑大研究生)

2012数据挖掘考试题(郑大研究生)
2012数据挖掘考试题(郑大研究生)

2012年数据挖掘与数据仓库考试题

一、讨论下列每项活动是否是数据挖掘任务(简单陈述你的理由):

(a)根据性别划分公司的顾客。

(b)根据可赢利性划分公司的顾客。

(c)计算公司的总销售额。

(d)按学生的学号对学生数据库排序。

(e)预测掷一对骰子的结果。

(f)使用历史记录预测某公司未来的股票价格。

(g)监视病人心率的异常变化。

(h)监视地震活动的地震波。

(i)提取声波的频率。

二、给出一个例子,那里,数据挖掘对于企业(如银行、保险、通信、零售业等)的成功是至关重要的。该企业需要什么数据挖掘功能(例如,考虑可以挖掘何种类型的模式)?这种模式能够通过简单的查询处理或统计分析得到吗?

三、离群点经常被当作噪声丢弃。然而,一个人的垃圾可能是另一个人的宝贝。例如,信用卡交易中的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。

四、假定数据仓库包含三个维:time, doctor和patient;两个度量:count和charge;其中,charge是医生对一位病人的一次诊治的费用。

(a)列举三种流行的数据仓库建模模式。

(b)使用(a)列举的模式之一,画出上面数据仓库的模式图(你可以对三个维给出一些

有意义的属性)。

(c)由基本方体[day, doctor, patient] 开始,为列出2010年每位医生的收费总数,应

当执行哪些OLAP操作?

为得到同样的结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为fee(day, month, year, doctor, hospital, patient, count, charge)。

五、Apriori算法使用子集支持度性质的先验知识。

(a)证明频繁项集的所有非空子集一定也是频繁的。

(b)证明项集s的任意非空子集s’的支持度至少与s的支持度一样大。

(c)给定频繁项集l和l的子集s,证明规则“s’?(l-s’)”的置信度不可能大于“s ?(l - s)”

的置信度。其中,s’是s的子集。

(d)Apriori算法的一种变形将事务数据库D中的事务划分成n个不重叠的分区。证明

在D中频繁的项集至少在D的一个分区中是频繁的。

六、下表由雇员数据库的训练数据组成。数据已泛化。例如,年龄“31…35”表示年龄在31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。

department status age salary count

sales sales sales systems systems systems systems marketing marketing secretary secretary senior

junior

junior

junior

senior

junior

senior

senior

junior

senior

junior

31 (35)

28 (30)

31 (35)

21 (25)

31 (35)

28 (30)

41 (45)

38 (40)

31 (35)

48 (50)

28 (30)

46K...50K

26K...30K

31K...35K

46K...50K

66K...70K

46K...50K

66K...70K

46K...50K

41K...45K

36K...40K

26K...30K

30

40

40

20

5

3

3

10

4

4

6

设status是类标号属性。

(a)你将如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的

count?

(b)使用你的算法,构造给定数据的决策树。

(c)给定一个数据元组,它在属性department, age和salary上的值分别为“systems”,

“26…30”和“46…50K”。该元组status的朴素贝叶斯分类是什么?

七、按如下标准对下列每种聚类方法进行描述:(i)可以确定的簇的形状;(ii)必须指定的输入参数;(iii)局限性

(a)k-均值

(b)k-中心点

(c)凝聚层次聚类

(d)DBSCAN

数据挖掘考试题目聚类

数据挖掘考试题目——聚类 一、填空题 1、密度的基于中心的方法使得我们可以将点分类为:__________、________ 、_________。 2、DBSCAN算法在最坏的情况下,时间复杂度是__________、空间复杂度是__________。 3、DBSCAN算法的优点是_______、__________________________。 4、DBSCAN算法的缺点是处理_________________、_____________的数据效果不好。 5、DBSCAN算法的参数有:___________、____________。 6、簇的有效性的非监督度量常常可以分为两类:__________、__________,它常采用的指标为__________。 7、簇的有效性的监督度量通常称为___________,它度量簇标号与外部提供的标号的匹配程度主要借助____________。 8、在相似度矩阵评价的聚类中,如果有明显分离的簇,则相似度矩阵应当粗略地是__________。 9、DBSCAN算法的参数确定的基本方法是观察____________________的特性。 10、不引用附加的信息,评估聚类分析结果对数据拟合情况属于__________技术。 答案: 1、核心点边界点噪声点 2、O(n2) O(n) 3、耐噪声能够处理任意大小和形状的簇 4、高维数据变密度的 5、EPS MinPts 6、簇的凝聚性簇的分离性均方差(SSE) 7、外部指标监督指标的熵 8、块对角的 9、点到它的第K个最近邻的距离(K-距离) 10、非监督 二、选择题 1、DBSCAN算法的过程是(B)。 ①删除噪声点。 ②每组连通的核心点形成一个簇。 ③将所有点标记为核心点、边界点和噪声点。 ④将每个边界点指派到一个与之关联的核心点的簇中。 ⑤为距离在Eps之内的所有核心点之间赋予一条边。 A:①②④⑤③ B:③①⑤②④ C:③①②④⑤ D:①④⑤②③ 2、如果有m个点,DBSCAN在最坏的情况下的时间复杂度度为(C)。 A O(m) B O(mlogm) C O(m2) D O(logm) 3、在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数(B)。 A Eps B MinPts C 质心 D 边界

《数据挖掘》试题与标准答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

2019年资料员岗位考试试题(附答案)[1](1).doc

2010年资料员考试真题复习资料下面提取的是2010年资料员考试复习题: 一、判断题 1、(对)工程资料应为原件。当为复印件时,应加盖复印件提供单位的公章,注明复印日期,并有经手人签字。 2、(对)钢结构子分部工程所使用的防腐、防火涂料应有涂层厚度检测报告。 3、(对)旁站监理人员实施旁站监理时,应如实准确地做好旁站监理记录。旁站监理人员和施工单位现场质检人员均应在旁站监理记录上签字。 4、(对)《建筑工程资料管理规程》(DB11/T—695—2009)适用于北京市行政区域内新建、改建、扩建建筑工程资料的管理。 5、(对)公共建筑照明系统通电连续试运行时间为24小时。所有照明灯具均应开启,且每2小时记录运行状态一次,连续试运行时间内无故障。 6、(对)大型照明灯具应全数做承载试验。 7、(错)建筑工程中的专业分包工程无论由何方发包的工程,分包单位都应按《建筑工程资料管理规程》(DB11/T—695—2009)的要求将形成的施工资料交总承包单位。 8、(对)由施工单位形成的资料,其编号应与资料的形成同步编写;由施工单位收集的资料,其编号应在收集的同时进行编写。 9、(对)除尘器壳体、组合式空气调节机组应做漏风量的检测,并做记录。 10、(对)工程资料应为原件。当为复印件时,应加盖复印件提供单位的公章,注明复印日期,并有经手人签字。 11、(对)电度表在进场后应送具有相关检定资格的单位全数检定。 12、(错)图纸会审记录由建设单位按专业汇总、整理。 13、(错)所有的室内排水管都要进行通球试验。 14、(对)类别及属性相同的施工资料,数量较多时宜建立资料管理目录。

15、(错)工程的重要部位及重要施工工序应实行旁站监理,旁站监理监理过程中形成的旁站监理记录应由施工单位填写。 16、(对)结构实体检验采用由各方参与的见证抽样形式,以保证检验结果的公正性。 17、(错)承包单位只有收到项目监理部签署的《工程变更单》后,方可实施工程变更。 18、(错)混凝土子分部工程应有结构实体的混凝土强度试件报告。 19、(错)所有排水管都应进行通球试验,并做记录。 20、(对)锅炉安全阀在投入运行前应由有资质的试验单位按设计要求进行调试,并出具调试记录。 二、单选题 1、( B )《建设工程资料管理规程》适用内新建、扩建、改建的建筑工程资料管理。 A.中华任命共和国境内 B.北京市行政区域内 C.包括香港在内的中华人民共和国境内 2、( D )工程竣工后,工程档案编制组卷的厚度 cm。 A. 1 B. 2 C. 3 D. 4 3、()检验批质量验收应由组织施工项目专业质量技术负责人进行验收 A.总监理工程师 B.监理工程师 C.监理员 D.建设单位代表 4、( A )竣工图绘制工作应由单位负责,也可委托相关单位 A、建设 B、设计 C、施工 D、监理 5、( A )单位(子单位)工程的验收,应由单位组织勘察、设计、施工、监理进行验收。 A.建设 B.上级主管部门 C. 监督站 D. 相关投资方 6、( B )混凝土结构实体检测内容除同条件养护混凝土试块外,还应对进行检验 A.混凝土外观 B.钢筋保护层厚度 C.混凝土抗渗试件 D.钢筋力学性能 7、( B )凡列入城建档案馆的工程档案,应在单位工程验收前由对工程档案资料进行预验收,并出具《建设工程竣工档案预验收意见》。 A.监督站 B.城建档案馆 C.建设单位 D.监理单位 8、( C )涉及结构安全的试块、试件和材料的见证取样比例,不应低于规定取样数量的

数据挖掘试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

数据挖掘考试题库完整

一、名词解释 1.数据仓库:是一种新的数据处理体系结构.是面向主题的、集成的、不可更新的(稳定性)、 随时间不断变化(不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。 2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP:OLAP是在OLTP的基础上发展起来的.以数据仓库为基础的数据分析处理.是共享多 维信息的快速分析.是被专门设计用于支持复杂的分析操作.侧重对分析人员和高层管理人员的决策支持。 4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据 仓库中的数据量的大小.同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如0-1) 以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。 6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属 性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP:OLTP为联机事务处理的缩写.OLAP是联机分析处理的缩写。前者是以数据库为基 础的.面对的是操作人员和低层管理人员.对基本数据进行查询和增、删、改等处理。 9.ROLAP:是基于关系数据库存储方式的.在这种结构中.多维数据被映像成二维关系表.通 常采用星型或雪花型架构.由一个事实表和多个维度表构成。 10.MOLAP:是基于类似于“超立方”块的OLAP存储结构.由许多经压缩的、类似于多维数组 的对象构成.并带有高度压缩的索引及指针结构.通过直接偏移计算进行存取。 11.数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要.并且能够得到和原 始数据相同的分析结果。 12.广义知识:通过对大量数据的归纳、概括和抽象.提炼出带有普遍性的、概括性的描述统 计的知识。 13.预测型知识:是根据时间序列型数据.由历史的和当前的数据去推测未来的数据.也可以 认为是以时间为关键属性的关联知识。 14.偏差型知识:是对差异和极端特例的描述.用于揭示事物偏离常规的异常现象.如标准类 外的特例.数据聚类外的离群值等。 15.遗传算法:是一种优化搜索算法.它首先产生一个初始可行解群体.然后对这个群体通过 模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体.并最终达到全局最优。 16.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程.使得在同一个 簇中的对象之间具有较高的相似度.而不同簇中的对象差别较大。 17.决策树:是用样本的属性作为结点.用属性的取值作为分支的树结构。它是分类规则挖掘 的典型方法.可用于对新样本进行分类。 18.相异度矩阵:是聚类分析中用于表示各对象之间相异度的一种矩阵.n个对象的相异度矩 阵是一个nn维的单模矩阵.其对角线元素均为0.对角线两侧元素的值相同。 19.频繁项集:指满足最小支持度的项集.是挖掘关联规则的基本条件之一。 20.支持度:规则A→B的支持度指的是所有事件中A与B同地发生的的概率.即P(A∪B).是 AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。 21.可信度:规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A).

资料员考试题库及答案++新

资料员专业基础知识篇 一、单选题 1、按基础的埋置深度可分为浅基础和深基础,其中浅基础是指埋置深度为( C )的基础。 A、<3m B、>3m C、<5m D、>5m 2、在砌筑地下室、砖基础等砌体时,适宜选择的砂浆是( A )。 A、水泥砂浆 B、混合砂浆 C、石灰砂浆 D、粘土砂浆 3、工程签证是( A )重要依据。 A、工程结算 B、工程变更 C、工程合同 D、工程记录1、屋面防水等级 4、为Ⅰ级的防水层耐用年限是( D )。 A、10年 B、15年 C、20年

D、25年 5、砌筑砂浆的强度等级是由抗压强度确定的,用( B )加数字来表示。 A、Mu B、M C、D D、MD 6、砖的强度等级是由其抗压及抗折强度确定的,用( A )加数字来表示。 A、Mu B、M C、D D、MD 7、图纸会审后,形成图纸会审记录,较重要的或有原则性问题的记录应经监理公司、( A )会签后,传递给设计代表。 A、建设单位 B、勘察单位 C、劳务分包 D、监理单位 8、审计洽商签证的有效性需要审查施工日记、监理日记、值班日记与洽商签证的( C )的是否一致。 A、事件原因

C、时间 D、地点 9、设计变更通知单位应由( B )单位发出。 A、建设 B、设计 C、监理 D、施工总承包 10、施工条件发生变化时,施工组织设计应( A )。 A、及时修改和补充 B、保持不变 C、视情况调整 D、报告业主 11、根据国家有关规定,对于达到一定规模、危险性较大的工程,需要单独编制( C )。 A、施工组织设计 B、施工说明 C、专项施工方案 D、施工报告 12、图纸会审过程中,由( A )对各专业问题进行答复。 A、设计单位 B、监理单位

数据挖掘考试题库【最新】

一、填空题 1.Web挖掘可分为、和3大类。 2.数据仓库需要统一数据源,包括统一、统一、统一和统一数据特征 4个方面。 3.数据分割通常按时间、、、以及组合方法进行。 4.噪声数据处理的方法主要有、和。 5.数值归约的常用方法有、、、和对数模型等。 6.评价关联规则的2个主要指标是和。 7.多维数据集通常采用或雪花型架构,以表为中心,连接多个表。 8.决策树是用作为结点,用作为分支的树结构。 9.关联可分为简单关联、和。 10.B P神经网络的作用函数通常为区间的。 11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等几个步 骤。 12.数据挖掘技术主要涉及、和3个技术领域。 13.数据挖掘的主要功能包括、、、、趋势分析、孤立点分析和偏 差分析7个方面。 14.人工神经网络具有和等特点,其结构模型包括、和自组织网络 3种。 15.数据仓库数据的4个基本特征是、、非易失、随时间变化。 16.数据仓库的数据通常划分为、、和等几个级别。 17.数据预处理的主要内容(方法)包括、、和数据归约等。 18.平滑分箱数据的方法主要有、和。 19.数据挖掘发现知识的类型主要有广义知识、、、和偏差型知识五种。 20.O LAP的数据组织方式主要有和两种。 21.常见的OLAP多维数据分析包括、、和旋转等操作。 22.传统的决策支持系统是以和驱动,而新决策支持系统则是以、建 立在和技术之上。 23.O LAP的数据组织方式主要有和2种。 24.S QL Server2000的OLAP组件叫,OLAP操作窗口叫。 25.B P神经网络由、以及一或多个结点组成。 26.遗传算法包括、、3个基本算子。 27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合 类型等。 28.聚类分析中最常用的距离计算公式有、、等。 29.基于划分的聚类算法有和。

2020年资料员考试复习题库及答案(共450题)

范文 2020年资料员考试复习题库及答案(共450题) 1/ 8

2020 年资料员考试复习题库及答案(共 450 题) 1、文件和记录的作用仅分为证据、参考、培训教育(X) 2、标引是著录的核心。 (√) 3、资料软件打印施工资料时上下页边距调整的方法有(打印设置、页面设置)。 4、专家论证表应由( 专家、组长)审核、审批、签字。 5、混凝土养护测温记录应由( 技术负责人、专业工长、质量员)审核、审批、签字。 6、建筑工程资料宜优先采用计算机管理,使( 管理规范化、标准化、电子信息化)。 7、信息安全主要分(技术、管理 )环节。 8、施工检查记录属于 C5 类资料。 (√) 9、竣工新貌影像资料属于 E2 类资料。 (X) 10、通水试验记录检测报告按( 分项)列细目录。 11、工程概况表资料来源单位为(施工 )单位。 12、建筑工程质量事故调查报告书资料来源单位为( 施工)单位。 13、见证记录资料来源单位为(监理)单位。 14、监理工程师通知回复单资料来源单位为( 施工)单位。 15、设计变更通知单资料来源单位为(设计 )单位。 16、工程洽商记录资料来源单位为(提出 )单位。 17、出厂质量证明文件资料来源单位为( 供货)单位。 18、检测报告资料来源单位为(供货 )单位。 19、合格证资料来源单位为( 供货)单位。

20、安装使用说明书资料来源单位为( 供货)单位。 21、商检证明文件资料来源单位为( 供货)单位。 22、3C 标志资料来源单位为(供货 )单位。 23、材料进场检验记录资料来源单位为( 施工)单位。 3/ 8

24、设备及管道附件试验记录资料来源单位为(施工 )单位。 25、设备开箱检查记录资料来源单位为( 施工)单位。 26、防水卷材料试验报告资料来源单位为(检测 )单位。 27、水泥试验报告资料来源单位为(检测 )单位。 28、在建设系统各行业、专业管理部门在业务管理和业务技术活动中通过数字设备及环境生成的,以数码形式存储于磁带、磁盘或光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的业务及技术文件是(建设系统管理电子文件)。 29、在工程建设过程中通过数字设备及环境生成,以数码形式存储于磁带、磁盘或光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件是(建设工程电子档案)。 30、具有参考和利用价值并作为档案保存的建设电子文件及相应的支持软件、参数和其他相关数据是(建设电子档案)。 31、电子文件的内容、结构和背景信息等与形成时的原始状况一致,体现了建设电子文件与电子档案的(真实性)。 32、电子文件的内容、结构、背景信息、元数据等无缺损,体现了建设电子文件与电子档案(完整性)。 33、为避免电子文件因动态因素造成信息缺损的现象,而将其转换为一种相对稳定的通用文件格式的过程称为(固化)。 34、将有保存价值的文件分门别类整理成案卷,称为( 立卷)。 35、将有保存价值的文件送交城建档案馆,称为( 归档)。 36、将有保存价值的文件送交质监单位,称为(备案 )。

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

数据挖掘考试题

数据挖掘考试题 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

数据挖掘考试题 一.选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 (单链) (全链) C.组平均方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) 均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇

C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 9.下列( )是属于分裂层次聚类的方法。 Average 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 二.填空题: 1.属性包括的四种类型:、、、。 2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。 4. 聚类中,定义簇间的相似度的方法有(写出四 个):、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方 法:、。 6. 组平均是一种界于和之间的折中方法。

资料员考试试题(附答案)

资料员考试试题(附答案)

资料员考试试题及答案 1、施工时所用的混凝土空心砌块的产品龄期不应小于(D)。 A、14d B、7d C、35d D、28d 11、高强度大六角头螺栓连接副和扭剪型高强度螺栓连接副出厂时应分别随箱带有( C )和紧固轴力(预拉力)的检验报告。 A、抗拉强度 B、抗剪强度 C、扭矩系数 D、承载能力 12、勘察、设计、施工、监理等单位应将本单位形成的工程文件立卷后向( A )移交。 A、建设单位 B、施工单位 C、监理单位 D、设计单位 13、城建档案管理机构应对工程文件的立卷归档工作进行监督、检查、指导。在工程竣工验收前,应对工程档案进行( C ),验收合格后,须出具工程档案认可文件。 A、检查 B、验收 C、预验收 D、指导 14、既有文字材料又有图纸的案卷( A )。 A、文字材料排前,图纸排后 B、图纸排前,文字材料排后 C、文字材料、图纸按时间顺序排列 D、文字材料,图纸材料交错排列 15、建筑与结构工程包括那几个分部( B )。 A、地基与基础、主体、装饰装修、屋面、节能分部 B、地基与基础、主体、装饰装修、屋面分部 C、地基与基础、主体、装饰装修分部 D、地基与基础、主体分部

24、建设工程资料的分类是按照文件资料的来源、类别、(D)以及收集和整理单位的不同来进行分类的。 A、单位 B、类型 C、内容 D、形成的先后顺序 25、对改建、扩建和维修工程,建设单位应当组织设计施工单位据实修改、补充和完善原工程档案,对改变的部位应当重新编制工程档案,并在工程竣工验收后( B )内向城建档案馆(室)移交 A、2个月 B、3 个月 C、三周 D、五周 26、对列入城建档案馆(室)接收范围的工程,工程竣工验收后 ( B )内向当地城建档案馆(室)移交一套符合规定的工程移交。 A、2个月 B、3 个月 C、三周 D、五周 27、施工资料是以( B )为组成单元,按不同相关专业分别管理。 A、设计单位 B、单位工程 C、施工项目 D、建设单位 28、施工单位应在( C )对建筑物垂直度和标高进行实测并记录,填写建筑物垂直度、标高测量记录,报监理单位审核。 A、工程竣工后 B、工程完工前 C、结构工程完工和工程竣工后 D、技术交底时 29、单位工程施工质量竣工验收记录栏由( C )填写。 A、监理单位 B、建设单位 C、施工单位 D、设计单位 30、凡需进行沉降观测的工程,应由( A )委托有资质的测量单位进行施工过程中及竣工后的沉降观测工作。 A、建设单位 B、设计单位 C、监理单位 D、工程质量监督机构

数据挖掘试题

单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法?(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A) A 第一个 B 第二个 C 第三个 D 第四个 16. 只有非零值才重要的二元属性被称作:( C ) A 计数属性 B 离散属性C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法:(D) A嵌入 B 过滤 C 包装 D 抽样 18.下面不属于创建新属性的相关方法的是:(B) A特征提取B特征修改C映射数据到新的空间D特征构造 22. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A) A 18.3 B 22.6 C 26.8 D 27.9 28. 数据仓库是随着时间变化的,下面的描述不正确的是(C) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 29. 关于基本数据的元数据是指: (D) A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B. 基本元数据包括与企业相关的管理方面的数据和信息; C. 基本元数据包括日志文件和简历执行处理的时序调度信息; D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.

最新数据挖掘考试题目——关联分析资料

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

资料员题库(带答案)

资料员考核题库 一、单项选择题(每小题有4个备选答案,其中只有1个是正确选项。) 专业基础知识 1、工程建设法律的制定主体是()。 A.国务院 B.全国人民代表大会及其常务委员会 C.国务院部委 D.最高人民法院 正确答案:B 2、工程建设诉讼时效期限为()。 A. 一年 B.两年 C.四年 D.二十年正确答案:B 3. 工程建设诉讼时效的起算时间为()。 A.合同签订之日 B.合同履行完毕之日 C .权利人知道或应当知道权利受到侵害之日 D .权利人行使权利之日 正确答案:C 4、行政复议是指公民、法人或者其他组织认为行政主体的具体行政行为违法或不当侵犯其合法权益,依法 向()提出复查该具体行政行为的申请,行政复议机关依照法定程序对被申请的具体行政行为进行合法性、适当性审查,并作出行政复议决定的一种法律制度。 A.人民法院 B.人民检察院 C.上一级行政机关 D.人民政府 正确答案:C 5、《建筑法》规定,建筑工程开工前,建设单位应当按照国家有关规定向工程所在地(许可证。 A.县级以上人民政府 B.市级以上人民政府 C.市级以上人民政府建设行政主管部门 D.县级以上人民政府建设行政主管部门 正确答案:D 6、《建筑法》规定,建设单位应当自领取施工许可证之日起( A. —个月 B.两个月—|c.三个月D.四个月)申请领取施工 )内开工。

正确答案:C 7、《建筑法》规定,在建的建筑工程因故中止施工的,建设单位应当自中止施工之日起( )内,向发证 机关报告,并按照规定做好建筑工程的维护管理工作。 A. 一个月 B.两个月 C.三个月 D.四个月 正确答案:A 8?《建筑法》规定,按照国务院有关规定批准开工报告的建筑工程,因故不能按期开工或者中止施工的,应 当及时向批准机关报告情况。因故不能按期开工超过( )的,应当重新办理开工报告的批准手续。 9、《建筑法》规定,建筑施工企业的( )对本企业的安全生产负责。 A.法定代表人 B.项目负责人 C.主要负责人 D.安全负责人 正确答案:A 10、《建筑法》规定,建筑工程实行总承包的,工程质量由( )负责。 A.分包单位 B.建设单位 C.建设单位与承包单位 ]D .工程总承包单位 正确答案:D 11、《建筑法》规定,从事建筑活动的专业技术人员,应当依法取得相应的( 建筑活动。 A.职业资格证书 B.执业资格证书 C.建筑从业证书 D.建筑专业证书 正确答案:B 12、《建筑法》规定,建筑施工企业因该项承揽工程不符合规定的质量标准造成的损失,建筑施工企业与使 用本企业名义的单位或者个人承担( )。 A.民事责任 B.行政责任 C.连带责任 D.刑事责任 正确答案:C 13、《安全生产法》规定, 生产经营单位发生生产安全事故后,事故现场有关人员应当( )报告本单 位负责人。 A.1小时内 B.2小时内 C.立即 D.24小时内 正确答案:C A.两个月 B.四个月 正确答案:C C.六个月 D.八个月 ),并在许可的范围内从事

数据挖掘试卷及答案

12/13 年第2学期《数据挖掘与知识发现》期末考试试卷及答案 一、什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。(20分) 数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。 步骤: 1)数据清理(消除噪声或不一致数据) 2) 数据集成(多种数据源可以组合在一起) 3 ) 数据选择(从数据库中检索与分析任务相关的数据) 4 ) 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 5) 数据挖掘(基本步骤,使用智能方法提取数据模式) 6) 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;) 7) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 二、元数据的定义是什么?元数据包括哪些内容?(20分) 元数据是关于数据的数据。在数据仓库中, 元数据是定义仓库对象的数据。 元数据包括: 数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义, 以及数据集市的位置和内容。 操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和审计跟踪)。 汇总算法,包括度量和维定义算法, 数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。 由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述, 数据划分, 数据提取、清理、转换规则和缺省值, 数据刷新和净化规则, 安全 (用户授权和存取控制)。 关于系统性能的数据,刷新、更新定时和调度的规则与更新周期,改善数据存取和检索性能的索引和配置。 商务元数据,包括商务术语和定义, 数据拥有者信息和收费策略。 三、在 O L A P 中,如何使用概念分层? 请解释多维数据模型中的OLAP上卷 下钻切片切块和转轴操作。(20分) 在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些 O L A P 数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。因此, O L A P 为交互数据分析提供了友好的环境。 上卷:上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。 切片:在给定的数据立方体的一个维上进行选择,导致一个子方。 切块:通过对两个或多个维执行选择,定义子方。

建筑工程资料员考试题库以及答案

《建筑资料员》科目试题库 第一章概述 第一节建筑工程资料管理基本概念 填空题 1.设计变更洽商一般是指建设单位或施工单位与设计单位就设计变更事项进行洽商。 2.工程洽商一般分为技术洽商和经济洽商。 3.《设计变更洽商记录》应记明设计变更的部位、原因及变更的内容。 4.《工程质量事故处理报告》的主要内容是事故的情况、造成的损失、事故的原因、处理情况及结果(结论)。 5.重点和大型工程施工组织设计交底应由施工企业的技术负责人对项目主要管理人员进行交底。 6.一般工程施工组织设计交底应由项目技术负责人进行。 7.专项施工方案技术交底应由专业技术负责人负责。 8.图纸会审完成形成的资料是图纸会审记录。 单项选择题 1.关于分包单位资料管理的义务中错误的是 C A.负责分包工程施工资料的收集; B.负责分包工程施工资料的整理;; C.负责施工项目资料的汇总; D.对施工资料的真实性、完整性和有效性负责 2.建筑工程事故发生后,应在 C 内,以口头、电话或者书面形式报告有关部门。 A.8小时; B.12小时; C.24小时; D.48小时 3.建筑工程质量事故发生后,应在 D 内,填报《工程质量事故报告》。 A.8小时; B.12小时; C.24小时; D.48小时 4.质量事故处理方案应由 C 出具或签认。 A.建设单位; B.监理单位; C.设计单位; D.施工单位 5.建筑工程质量事故处理中不需要的资料是 D 。 A.与事故有关的施工图; B.与施工有关的资料; C.事故调查分析报告; D.事故部位的施工操 作规程 第二节建筑工程资料的特征 填空题 1.发生质量事故的工程项目,应建立质量事故档案,主要内容包括:工程质量事故报告、处理方案、实施记录和处理验收记录

数据仓库与数据挖掘试题

武汉大学计算机学院 2014级研究生“数据仓库和数据挖掘”课程期末考试试题 要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。每张答题纸都要写上姓名和学号。 一、单项选择题(每小题2分,共20分) 1. 下面列出的条目中,()不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的,下面的描述不正确的是()。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中()是错误的。A A.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域 4. 以下关于OLAP的描述中()是错误的。A A.一个多维数组可以表示为(维1,维2,…,维n) B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中,下列()模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集

相关主题
文本预览
相关文档 最新文档