第一届太普华南杯数据挖掘竞赛试题
- 格式:doc
- 大小:379.00 KB
- 文档页数:4
1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。
2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
3.OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。
4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
5.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。
规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。
6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。
如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
8.OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩写。
前者是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。
9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。
10.MOLAP:是基于类似于“超立方”块的OLAP存储结构,由许多经压缩的、类似于多维数组的对象构成,并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。
11.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
12.广义知识:通过对大量数据的归纳、概括和抽象,提炼出带有普遍性的、概括性的描述统计的知识。
大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。
《数据挖掘》试题与答案编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(《数据挖掘》试题与答案)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为《数据挖掘》试题与答案的全部内容。
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值.若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
2022年全国大学生数据分析科普知识竞赛题库及答案2022年全国大学生数据分析科普知识竞赛题库及答案一、单选题(每题1分)1、小米摄像头记录下来的10分钟视频属于哪类数据:A、结构化数据B、半结构化数据C、非结构化数据2、结构化数据具备哪种特征:A、具备明确逻辑关系B、不具备明确逻辑关系C、不一定具备明确逻辑关系3、指纹打卡的数据属于哪些数据:A、传感数据B、交互数据C、交易数据4、大数据擅长处理哪个级别的数据?A、MBB、GBC、TBD、PB5、电子邮件是什么类型数据:A、非结构化数据B、结构化数据C、半结构化数据6、网络新闻是什么类型数据:A、非结构化数据B、结构化数据C、半结构化数据7、下列属于结构化数据的是:A、图片B、一卡通学生信息C、简历8、表1属于几维列表?表1A、二维B、三维C、四维D、五维9、图1中的警衔级别属于哪种属性?图1A、标称属性B、二元属性C、序数属性10、关系型数据库中所谓的"关系"是指什么A、数据库中的数据彼此间存在任意关联B、数据模型满足一定条件的二维表格式C、两个数据库之间有一定的关联11、下列哪种数据类型不适合MySQL存储:A、EXCEL报表B、图片和声音C、数据库里的财务数据12、以下不属于ACID原则的是:A、原子性C、隔离性D、持久性13、淘宝自主设计的自动化分布式存储系统是:A、MongoDBB、HBaseC、Oceanbase14、BeansDB 是一个由我国哪个公司网站自主开发的:A、淘宝B、豆瓣社区C、优酷D、视觉中国15、下列不是NewSQL数据库的是:A、SybaseB、MemSQLC、TokuDB16、下列不是NoSQL数据库的是:A、BigtableB、DynamoC、DB217、下列不是传统关系型数据库的是:A、MySQLB、HBaseC、Sybase18、下面关于数据挖掘的说法哪些是错误的:A、数据挖掘涉及数据融合、数据分析和决策分析和决策支持等内容B、数据源必须是真实的、大量的、含有噪声的和用户感兴趣的数据C、所有发现的知识都是绝对的19、下列不属于数据挖掘知识的方法A、数学方法B、归纳方法C、实验方法20、一般情况下,舆情监测内容不包含:A、对主流门户网站、国内外主流论坛、主流媒体、主流搜索引擎等站点进行全景扫描B、对单位相关刑事、民事、行政案件与信息进行全面收集、精确分析、清晰归类和个性统计C、对个人或家成员庭银行帐户及个人财产情况进行全面收集、分析和统计21、科学可视化、信息可视化和可视分析三者之间如何区分:A、三者从属关系B、三者属于递进关系C、三者之间没有清晰边界22、下列哪个不属于可视化的作用:A、信息传播与协调B、支持对信息的推理和分析C、对信息进行筛选和储存23、下图为百度地图显示某地区的加油站,此图为哪类可视化:A、层次与网络可视化B、时空数据可视化C、多变量数据可视化24、下图为伦敦地铁图,此图为哪类可视化:A、层次与网络可视化B、时空数据可视化C、多变量数据可视化25、下图为大数据标签云,此图为哪类可视化:A、多变量数据可视化B、时空数据可视化C、非结构化数据可视化26、目前在全球云计算市场份额占有率最高的公司是:A、谷歌B、亚马逊C、微软D、IBM27、在大数据背景下,电子商务的价值创造方式呈现出新的变化,下列说法错误的是:A、电子商务营销精准化和实时化B、产品和服务高度差异化和个性化C、价值链上企业运作差异化和静态化D、新型增值服务模式不断涌现28、下列哪个不是大数据下互联网广告的特点A、广告内容更有针对性B、提高广告决策效率C、广告以平面媒体为主D、广告传播模式的改变29、微信朋友圈的FEED流广告的推广更为准确描述是:A、大数据会使受众与产品的距离更贴近B、对于目标受众的划分更加精细C、大数据最本质的应用就在于预测D、随意投放的广告30、啤酒与尿布的营销案例应用了零售行业的哪种方法:A、发现关联购买行为B、客户群体细分C、供应链管理二、多选题(每题2分)1.Hadoop1.0平台最核心的两个项目(组件)是:A、HDFSB、HIVEC、HBaseD、MapReduce2.以下平台属于Apache软件基金会项目的是:A、HadoopB、SparkC、StormD、MongoDB3.以下属于大数据挖掘算法的是:A、决策树B、支持向量机C、极差规格化D、朴素贝叶斯4.以下属于Spark平台特点的是:A、共享变量B、离线处理C、内存计算D、弹性分布式数据集5.在分布式云计算平台中,分布式文件系统的块文件的大小可以是:A、28MB、64MC、100MD、128M三、判断题(每题1分)1.Newsql是一种新兴的非关系型数据库。
2022首届全国大学生数据分析科普知识竞赛真题题库+答案(仅供学习参考)单选题第1题从1,2,3,4这四个数中随机取2个数,则其中一个数是另一个数的2倍的概率是( )1/21/31/42/3正确答案:B第2题下面调查中,适合采用普查的是( )调查全国中学生心理健康现状调查你所在班级同学的身高情况调查我市食品的合格情况调查《人民的民义》的收视率正确答案:B第3题甲,乙,丙三人独立地译一组密码,他们每人译出此密码的概率都是0.25,则密码被译出的概率为( )1/41/6437/6463/64正确答案:C第4题0.25×9.79×4=0.25×4×9.79运用了( )乘法交换律乘法结合律乘法分配律除法交换正确答案:A第5题用简单随机抽样的方法从含有100个个体的总体中依次抽取一个容量为5的样本,则个体A被抽到的概率为( )1/1001/201/991/50正确答案:B第6题统计得到的一组数据有80个,其中最大值为141,最小值为50,取组距为10,可以分成( )10组9组8组7组正确答案:A第7题下列说法中不正确的是()-1的立方根是-1-1的立方是-1-1的平方是1-1的平方根是-1正确答案:D第8题某排球队6名场上队员的身高(单位:cm)是:180,184,188,190,192,194。
现用一名身高为186cm的队员换下场上身高为192cm的队员,与换人前相比,场上队员的身高()平均数变小,方差变小平均数变小,方差变大平均数变大,方差变小平均数变大,方差变大正确答案:A第9题如果用+0.02克表示一只乒乓球质量超出标准质量0.02克,那么一只乒乓球质量低于标准质量0.02克记作()+0.02克-0.02克0克+0.04克正确答案:B第10题方差为2的是( )1,2,3,4,50,1,2,3,52,2,2,2,22,2,2,3,3正确答案:A第11题在一个不透明的口袋中,装有6个红球4个白球,它们除颜色外都相同,从中任意摸出一个球,摸到红球的概率为( ) 1/51/33/53/10正确答案:C第12题16的平方根是()24±4±2正确答案:C多选题第13题指出下列事件中,()是不确定事件若a、b、c都是实数,则a(bc)=(ab)c没有空气,动物也能生存下去某一天内电话收到的呼叫次数为0一个袋内装有形状大小完全相同的一个白球和一个黑球,从中任意摸出1个球则为白球正确答案:C,D第14题下列调查中,调查方式选择正确的是()要了解一批灯泡的使用寿命,采用抽查方式要了解我国七年级学生的视力情况,采用普查方式要了解中央电视台春节联欢晚会的收视率,采用抽查方式要保证“神舟九号”载人飞船成功发射,对重要零部件的检查采用抽查方式正确答案:A,C第15题通过调查鞍钢、首钢、宝钢等几个大钢铁基地来了解我国钢铁的基本状况,这种调查属于()典型调查重点调查抽样调查非全面调查正确答案:B,D第16题下列调查中,不适宜采用全面调查(普查)方式的是()调查一批新型节能灯泡的使用寿命调查长江流域的水污染情况调查班级学生的视力情况为保证“神舟7号”的成功发射,对其零部件进行检查正确答案:A,B*特别注意:不同考生的试卷题目可能存在重复,但题目抽取的实操题实验数据是随机生成,切勿记录上一次题目答案进行答题。
招聘数据挖掘工程师笔试题与参考答案(某大型国企)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、下列哪种技术是专门用于处理大规模数据集的复杂性分析和模式发现的?A、数据质量管理技术B、数据备份与恢复技术C、机器学习技术D、关系数据库管理技术2、在数据挖掘过程中,以下哪个步骤不属于数据预处理阶段?A、数据清洗B、数据集成C、数据选择D、数据关联3、在数据挖掘中,以下哪项技术不属于数据预处理阶段?A. 数据清洗B. 数据集成C. 数据转换D. 机器学习算法4、在处理高维数据时,以下哪种方法可以有效地减少数据维度?A. 主成分分析(PCA)B. 决策树C. 支持向量机(SVM)D. 聚类算法5、在数据挖掘过程中,利用聚类分析技术,可以将数据集划分成多个组别,使得同一组内的数据相似度更高而不同组间的相似度更低。
以下哪种算法属于聚类算法之一?A、线性回归B、决策树C、K-MeansD、神经网络6、在数据挖掘过程中,关联规则学习主要是用来找出项集之间有趣的关联关系,同时也考虑到规则的 ____ 和 ____ 。
请选择正确的填空项。
A、准确度、覆盖率B、可信度、支持度C、召回率、精度D、覆盖率、支持度7、某大型国企在进行市场分析时,从海量的销售数据中筛选出具有高增长潜力的商品,以下哪种算法最适用于此类场景?A. 决策树B. K-Means聚类C. 主成分分析D. 支持向量机8、在数据挖掘项目中,数据预处理步骤的重要性体现在以下哪个方面?A. 提高算法的效率和准确性B. 减少处理时间和计算资源C. 提高模型的解释性D. 增加模型的复杂性9、题干:在数据挖掘过程中,以下哪种算法适用于处理分类问题?A. 聚类算法B. 关联规则算法C. 聚类算法和关联规则算法都不适用D. 决策树算法 10、题干:以下哪个指标通常用于评估分类模型的性能?A. 精确度B. 召回率C. F1分数D. 以上都是二、多项选择题(本大题有10小题,每小题4分,共40分)1、在数据挖掘中,常见的关联规则挖掘算法有哪些?A. FP-growthB. DBSCANC. AprioriD. K-means2、下列哪些技术可以用来优化数据挖掘中的模型训练?A. DropoutB. Grid SearchC. LassoD. BaggingE. Boosting3、以下哪些算法属于无监督学习算法?()A、决策树B、聚类算法C、K-最近邻D、线性回归4、在数据挖掘过程中,以下哪些技术可以用于数据预处理?()A、数据清洗B、数据集成C、数据变换D、数据归一化5、以下哪些技术或工具是数据挖掘工程师在处理大数据分析时常用的?()A、HadoopB、SparkC、MySQLD、Python6、在数据挖掘项目中,以下哪些步骤是数据预处理阶段必须完成的?()A、数据清洗B、数据集成C、数据变换D、数据归一化E、数据抽样7、以下哪些工具和技术是数据挖掘工程师在处理大规模数据集中常用的?()A、Hadoop和HDFSB、Spark和Spark SQLC、NoSQL数据库(如MongoDB)D、Python的Pandas库E、R语言的ggplot2包8、以下哪些特征是评价一个数据挖掘模型重要性的指标?()A、准确率(Accuracy)B、召回率(Recall)C、F1分数(F1 Score)D、混淆矩阵(Confusion Matrix)E、模型复杂度(Complexity of Model)9、以下哪些技术或工具是数据挖掘工程师在处理数据时常用的?()A、Python的Pandas库B、R语言的ggplot2包C、Hadoop生态系统D、Spark SQLE、MySQL数据库 10、在数据挖掘过程中,以下哪些阶段是必要的?()A、数据预处理B、特征选择C、模型训练D、模型评估E、模型部署三、判断题(本大题有10小题,每小题2分,共20分)1、在数据挖掘中,特征选择(特征筛选)的技术仅包括递归特征消除法(RFE)。
目录前言................................................................................................. 错误!未定义书签。
目录........................................................................................................................... - 0 - 一、什么是数学模型............................................................................................... - 3 -2001年B题……公交车调度......................................................................... - 4 - 2001年C题……基金使用计划..................................................................... - 9 - 2002年A题……车灯线光源的优化设计................................................... - 10 - 2002年B题……彩票中的数学................................................................... - 11 - 2003年A题……SARS的传播.................................................................... - 15 - 2003年B题……露天矿生产的车辆安排................................................... - 26 - 2003年D题……抢渡长江........................................................................... - 29 - 2004年C题……饮酒驾车........................................................................... - 32 - 2004年B题……电力市场的输电阻塞管理............................................... - 34 - 电力市场交易规则:............................................................................. - 35 -输电阻塞管理原则:............................................................................. - 36 -表1各机组出力方案(单位:兆瓦,记作MW) ............................ - 39 -表2各线路的潮流值(各方案与表1相对应,单位:MW) ......... - 41 -表3各机组的段容量(单位:MW) ................................................. - 42 -表4各机组的段价(单位:元/兆瓦小时,记作元/MWh)............. - 42 -表5各机组的爬坡速率(单位:MW/分钟) .................................... - 43 -表6各线路的潮流限值(单位:MW)和相对安全裕度 ................. - 43 -2008年B题……高等教育学费标准探讨................................................... - 43 - 2008年D题……NBA赛程的分析与评价 ................................................. - 45 - 2009年A题……制动器试验台的控制方法分析....................................... - 47 - 2009年B题……眼科病床的合理安排....................................................... - 50 - 【附录】2008-07-13到2008-09-11的病人信息 ................................ - 51 - 2009年D题……会议筹备........................................................................... - 77 - 附表1……10家备选宾馆的有关数据................................................. - 78 -附表2……本届会议的代表回执中有关住房要求的信息(单位:人)- 79 -附表3……以往几届会议代表回执和与会情况.................................. - 80 -附图(其中500等数字是两宾馆间距,单位为米)......................... - 81 -二、为什么要学习数学模型................................................................................. - 83 -1、数学模型无处不在,我们的生活、工作、学习都离不开它............... - 83 -例1买房贷款问题................................................................................. - 83 -例2物体冷却过程的数学模型............................................................. - 84 -2、是学好数学用好数学的必经之路........................................................... - 86 -3、是数学教学改革的重要手段和有效路径............................................... - 88 -4、数学建模竞赛所提唱的团队精神是现代大学生必须具备素质........... - 91 -5、数学建模竞赛鼓励学生用跳跃式的、发散式的形象思维方法,这有利于培养学生的创新意识。
航空客运信息挖掘摘要:客户流失预测被看做是航空公司如何提高自身的竞争力的重要研究方向。
本文应用国内某航空公司的会员飞行数据,通过业务理解、数据理解、数据准备等,最后使用LinearRegression方法建模来分析该航空公司客户流失的客观因素。
并利用该航空公司给出的会员飞行数据进行了实验,实验得出了能预测航空公司客户流失的一些规则,这些规则是航空公司保留客户,进行持续改进的指南。
关键词::客户流失;LinearRegression方法;航空公司关键词INFOEMATION MINING ABOUT AIR PASSENGERAbstract:Loss of customers was seen as an important research direction of the airlines how to improve their own competitiveness.In this paper, a member of airline datas are used to analyze the objective factors which cause customer churn, by some process such as business and data understanding , data preparation and LinearRegression model .Using these datas,we do some experiments and gain some rules which can predict the loss of airline customers. These rules can be a guide to the airline.Key words: Loss of customers; LinearRegression model; airline目录1.挖掘目标 (4)2.分析方法与过程 (4)2.1.总体流程 (4)2.2.具体步骤 (4)2.2.1业务理解 (5)2.2.2数据理解 (5)2.2.3缺失值处理 (5)2.2.4实例选择 (7)2.2.5属性选择 (7)2.2.6数据变换 (8)2.2.7建模 (10)2.3.结果分析 (12)3.结论 (13)4.参考文献 (14)1.挖掘目标挖掘目标本次建模目标是利用国内某航空公司的会员飞行数据,采用相应的数据挖掘技术和weka数据挖掘工具,对于客户是否流失进行预测,构建对客户流失预测的模型。
第一届太普华南杯数据挖掘竞赛试题
说明:1、参赛选手可从下述试题中任选一题作答,并在论文报告中标明
2、论文等级会综合考虑论文质量和难度系数
试题一航空客运信息挖掘(难度系数:1.0)
很多人都听说过马来西亚的亚洲航空、美国的西南航空等公司的大名。
这些公司成功的秘诀就是擅于提高上座率。
为了争到客源,有些公司甚至提出了与长途巴士进行价格竞争的口号。
如此看来,国内航空公司并不是把其它航空公司当作主要竞争对象,主要对手应当是火车或长途汽车。
适当的低票价,将使航空资源得到充分利用,如果空座率居高不下,哪怕票价卖得很高,本身就已经出现了资源性亏损。
本例就是期望从航空公司感兴趣的主题,例如流失预测、客户细分和客户价值评估等方面,通过数据挖掘技术,实现提升航空客运的上座率目标。
附件数据集来自国内某航空公司的会员数据,共有62988个样本,每个样本有63个属性,各属性说明见“变量含义”Sheet页。
除了每个客户的基本资料外,该数据集还包含了一个观测窗(2年)内8个季度的用户飞行数据,包括乘机次数、里程、积分等。
参赛者可尽量使用任何的数据挖掘技术来发现尽可能多的知识,建议的数据挖掘主题包括但不限于建立客户流失模型、客户细分和客户价值评估。
试题二道路缺陷自动识别(难度系数:1.0)
城市道路是城市建设的主要项目之一,工程建设涉及面较广,工程条件较复杂,是由多项目、多工序彼此交错和相互制约所组成的线形工程,影响工程质量的因素较多,施工中不可避免地会出现不同程度的质量问题,表错误!文档中没有指定样式的文字。
列出了主要的道路缺陷类型,如龟裂,裂痕,网裂,坑槽,剥落等,详细图像数据见附件。
请采用图像处理技术,对不同缺陷类型进行特征提取,并采用数据挖掘技术进行模式识别,实现不同道路缺陷类型的自动识别。
表错误!文档中没有指定样式的文字。
主要道路缺陷分类
)
试题三肝癌手术治疗效果评价(难度系数:0.7)
选取某医院10年来肝癌病例总共4860例,每个病例有病人近80个信息,其中包括患者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验室检验指标、影像学检查等,经过数据预处理,选取其中20个有代表性的样本,选取对预后有影响的l0个指标如表2。
表2预处理后样本数据
各指标项说明见表错误!文档中没有指定样式的文字。
表错误!文档中没有指定样式的文字。
指标变量说明
请以预后影响作为评价标准,建立数据挖掘模型,对手术的治疗效果和方案的优劣进行预测,为病人规划最佳的手术和治疗方案。