最新数据分析算法与模型(一)(附答案)

格式：docx
大小：185.14 KB
文档页数：9

下载文档原格式

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的,不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型.相似:它们都为数据挖掘提供了源数据，都是数据的组合.1。

3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩（GPA：Grade point aversge)的信息,还有所修的课程的最大数量.区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75％是四年级计算机科学专业的学生,而具有低GPA 的学生的65％不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为：major(X，“computing science”) ⇒ owns(X, “personal computer”)［support=12％， confidence=98%] 其中，X 是一个表示学生的变量。

这个规则指出正在学习的学生，12％（支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98％(置信度，或确定度）.分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

大数据算法与模型考试选择题 60题

1. 在大数据处理中，MapReduce是一种常用的计算模型，它主要由哪两个阶段组成？A. Map和FilterB. Reduce和SortC. Map和ReduceD. Filter和Reduce2. 下列哪个不是大数据的5V特征之一？A. VolumeB. VelocityC. VarietyD. Visibility3. 在数据挖掘中，K-means算法属于哪一类算法？A. 分类算法B. 聚类算法C. 关联规则算法D. 回归算法4. 下列哪个工具不是用于大数据处理的？A. HadoopB. SparkC. ExcelD. Hive5. 在机器学习中，过拟合是指模型在训练数据上表现良好，但在新数据上表现不佳。

下列哪个方法可以减少过拟合？A. 增加数据量B. 减少特征数量C. 增加模型复杂度D. 减少训练次数6. 下列哪个算法是基于决策树的集成学习方法？A. K-NNB. Random ForestC. SVMD. Naive Bayes7. 在大数据分析中，ETL代表什么？A. Extract, Transform, LoadB. Encode, Test, LoadC. Extract, Transfer, LinkD. Encode, Transform, Link8. 下列哪个不是NoSQL数据库的类型？A. 键值存储B. 文档存储C. 关系数据库D. 图形数据库9. 在数据预处理中，数据清洗的主要目的是什么？A. 增加数据量B. 减少数据量C. 提高数据质量D. 降低数据质量10. 下列哪个算法是用于推荐系统的？A. AprioriB. PageRankC. Collaborative FilteringD. K-means11. 在大数据环境中，HDFS是哪个框架的文件系统？A. HadoopB. SparkC. HiveD. MongoDB12. 下列哪个不是大数据分析的步骤？A. 数据收集B. 数据存储C. 数据加密D. 数据分析13. 在机器学习中，监督学习与非监督学习的主要区别是什么？A. 是否有标签数据B. 是否使用神经网络C. 是否使用决策树D. 是否使用回归分析14. 下列哪个算法是用于异常检测的？A. PCAB. SVMC. K-NND. DBSCAN15. 在大数据处理中，流处理与批处理的主要区别是什么？A. 数据处理的速度B. 数据处理的量C. 数据处理的类型D. 数据处理的频率16. 下列哪个不是大数据技术的优势？A. 提高数据处理速度B. 降低数据存储成本C. 减少数据分析的准确性D. 增强数据分析的能力17. 在数据挖掘中，关联规则挖掘的主要目的是什么？A. 发现数据中的模式B. 预测数据的趋势C. 分类数据D. 聚类数据18. 下列哪个不是数据仓库的特征？A. 面向主题B. 集成性C. 时变性D. 实时性19. 在大数据分析中，OLAP代表什么？A. Online Analytical ProcessingB. Offline Analytical ProcessingC. Online Application ProcessingD. Offline Application Processing20. 下列哪个算法是用于文本挖掘的？A. TF-IDFB. K-meansC. SVMD. Random Forest21. 在大数据环境中，Spark与Hadoop的主要区别是什么？A. 数据处理速度B. 数据存储方式C. 数据处理模型D. 数据分析工具22. 下列哪个不是数据可视化的工具？A. TableauB. Power BIC. ExcelD. Hadoop23. 在机器学习中，特征选择的主要目的是什么？A. 增加模型复杂度B. 减少数据量C. 提高模型性能D. 降低数据质量24. 下列哪个算法是用于时间序列分析的？A. ARIMAB. K-NNC. SVMD. Random Forest25. 在大数据处理中，数据湖与数据仓库的主要区别是什么？A. 数据存储方式B. 数据处理速度C. 数据分析工具D. 数据处理模型26. 下列哪个不是大数据分析的应用领域？A. 金融B. 医疗C. 教育D. 娱乐27. 在数据挖掘中，分类与回归的主要区别是什么？A. 输出类型B. 输入类型C. 算法类型D. 数据类型28. 下列哪个不是大数据技术的挑战？A. 数据安全B. 数据隐私C. 数据质量D. 数据简单性29. 在大数据分析中，数据治理的主要目的是什么？A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型30. 下列哪个算法是用于图像识别的？A. CNNB. K-meansC. SVMD. Random Forest31. 在大数据环境中，数据脱敏的主要目的是什么？A. 提高数据质量B. 保护数据隐私C. 增加数据量32. 下列哪个不是大数据分析的工具？A. RB. PythonC. JavaD. Excel33. 在机器学习中，交叉验证的主要目的是什么？A. 提高模型性能B. 减少数据量C. 增加数据类型D. 降低数据质量34. 下列哪个算法是用于序列挖掘的？A. AprioriB. PageRankC. Collaborative FilteringD. K-means35. 在大数据处理中，数据集成的主要目的是什么？A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型36. 下列哪个不是大数据技术的应用场景？A. 智能推荐B. 风险管理C. 数据加密D. 预测分析37. 在数据挖掘中，频繁项集挖掘的主要目的是什么？A. 发现数据中的模式B. 预测数据的趋势C. 分类数据D. 聚类数据38. 下列哪个不是数据仓库的设计原则？A. 面向主题B. 集成性C. 时变性D. 实时性39. 在大数据分析中，数据湖的主要优势是什么？A. 数据存储方式C. 数据分析工具D. 数据处理模型40. 下列哪个算法是用于社交网络分析的？A. PageRankB. K-meansC. SVMD. Random Forest41. 在大数据环境中，数据质量管理的主要目的是什么？A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型42. 下列哪个不是大数据分析的步骤？A. 数据收集B. 数据存储C. 数据加密D. 数据分析43. 在机器学习中，模型评估的主要目的是什么？A. 提高模型性能B. 减少数据量C. 增加数据类型D. 降低数据质量44. 下列哪个算法是用于推荐系统的？A. AprioriB. PageRankC. Collaborative FilteringD. K-means45. 在大数据处理中，数据清洗的主要目的是什么？A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型46. 下列哪个不是大数据技术的优势？A. 提高数据处理速度B. 降低数据存储成本C. 减少数据分析的准确性D. 增强数据分析的能力47. 在数据挖掘中，关联规则挖掘的主要目的是什么？A. 发现数据中的模式B. 预测数据的趋势C. 分类数据D. 聚类数据48. 下列哪个不是数据仓库的特征？A. 面向主题B. 集成性C. 时变性D. 实时性49. 在大数据分析中，OLAP代表什么？A. Online Analytical ProcessingB. Offline Analytical ProcessingC. Online Application ProcessingD. Offline Application Processing50. 下列哪个算法是用于文本挖掘的？A. TF-IDFB. K-meansC. SVMD. Random Forest51. 在大数据环境中，Spark与Hadoop的主要区别是什么？A. 数据处理速度B. 数据存储方式C. 数据处理模型D. 数据分析工具52. 下列哪个不是数据可视化的工具？A. TableauB. Power BIC. ExcelD. Hadoop53. 在机器学习中，特征选择的主要目的是什么？A. 增加模型复杂度B. 减少数据量C. 提高模型性能D. 降低数据质量54. 下列哪个算法是用于时间序列分析的？A. ARIMAB. K-NNC. SVMD. Random Forest55. 在大数据处理中，数据湖与数据仓库的主要区别是什么？A. 数据存储方式B. 数据处理速度C. 数据分析工具D. 数据处理模型56. 下列哪个不是大数据分析的应用领域？A. 金融B. 医疗C. 教育D. 娱乐57. 在数据挖掘中，分类与回归的主要区别是什么？A. 输出类型B. 输入类型C. 算法类型D. 数据类型58. 下列哪个不是大数据技术的挑战？A. 数据安全B. 数据隐私C. 数据质量D. 数据简单性59. 在大数据分析中，数据治理的主要目的是什么？A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型60. 下列哪个算法是用于图像识别的？A. CNNB. K-meansC. SVMD. Random Forest答案部分1. C2. D3. B4. C5. B6. B7. A9. C10. C11. A12. C13. A14. A15. D16. C17. A18. D19. A20. A21. A22. D23. C24. A25. A26. D27. A28. D29. A30. A31. B32. C33. A34. A35. A36. C37. A38. D39. A40. A41. A42. C43. A44. C45. A46. C47. A48. D49. A50. A51. A52. D53. C54. A55. A56. D57. A59. A60. A。

数据分析答案完整版(整理)

x x xj x x x 1 1 n n x xi j x x j i n 1 i j n 1 i 1 n 1 n 1 n 1 n 1
x n n x j ( x j x) n 1 n 1 n 1
n2
x j x( j ) x j
服从正态分布。故有 E xi x E i

1 n j 0 ， n j 1
1 n 1 n n 1 2 D xi x D i j E i j ，故 xi x 服从分 n n n j 1 j 1
N (0, 2 I n ) ， (1 , 2 ,
, n ) ，则
,1 .
N (0, 2 ( I n H n )) 。其中：

1
1 1 n 1 ， H n n 1, n 1 1
n n 1
n 1 n 2 n n 1 2
——证毕—— 3.条件同第 2 题，证明：（1） x N 0, n
2
（2） N 1 S 2 / 2 x2 n 1 ，（4 ） t n
x t n 1
由与此变换为正交变换知， yi 2 xi 2 ，同时 x1 , x2 , , xn 为相互独
i 1 i 1
n
n
立的正态分布。
密度函数 f x1 , x2 ,
xi 1 2 2 i 1 由于正交的雅可比行列 , xn e 2 n
2
1 , n 1 , 1 ，由正交性有 n 1
2 , 3n,
a

数据分析基础测试题附答案解析

数据分析基础测试题附答案解析一、选择题1．一组数据1，5，7，x的众数与中位数相等，则这组数据的平均数是（）A．6 B．5 C．4.5 D．3.5【答案】C【解析】若众数为1，则数据为1、1、5、7，此时中位数为3，不符合题意；若众数为5，则数据为1、5、5、7，中位数为5，符合题意，此时平均数为15574+++= 4.5；若众数为7，则数据为1、5、7、7，中位数为6，不符合题意；故选C．2．已知一组数据：6，2，8，x，7，它们的平均数是6．则这组数据的中位数是（）A．7 B．6 C．5 D．4【答案】A【解析】分析：首先根据平均数为6求出x的值，然后根据中位数的概念求解．详解：由题意得：6+2+8+x+7=6×5，解得：x=7，这组数据按照从小到大的顺序排列为：2，6，7，7，8，则中位数为7．故选A．点睛：本题考查了中位数和平均数的知识，将一组数据按照从小到大（或从大到小）的顺序排列，如果数据的个数是奇数，则处于中间位置的数就是这组数据的中位数；如果这组数据的个数是偶数，则中间两个数据的平均数就是这组数据的中位数；平均数是指在一组数据中所有数据之和再除以数据的个数．3．多多班长统计去年1～8月“书香校园”活动中全班同学的课外阅读数量（单位：本），绘制了如图折线统计图，下列说法正确的是（）A．极差是47 B．众数是42C．中位数是58 D．每月阅读数量超过40的有4个月【答案】C【解析】【分析】根据统计图可得出最大值和最小值，即可求得极差；出现次数最多的数据是众数；将这8个数按大小顺序排列，中间两个数的平均数为中位数；每月阅读数量超过40的有2、3、4、5、7、8，共六个月．【详解】A、极差为：83-28=55，故本选项错误；B、∵58出现的次数最多，是2次，∴众数为：58，故本选项错误；C、中位数为：（58+58）÷2=58，故本选项正确；D、每月阅读数量超过40本的有2月、3月、4月、5月、7月、8月，共六个月，故本选项错误；故选C．4．在只有15人参加的演讲比赛中，参赛选手的成绩各不相同，若选手要想知道自己是否进入前8名，只需要了解自己的成绩以及全部成绩的( )A．平均数B．中位数C．众数D．以上都不对【答案】B【解析】【分析】此题是中位数在生活中的运用，知道自己的成绩以及全部成绩的中位数就可知道自己是否进入前8名．【详解】15名参赛选手的成绩各不相同，第8名的成绩就是这组数据的中位数，所以选手知道自己的成绩和中位数就可知道自己是否进入前8名．故选B．【点睛】理解平均数，中位数，众数的意义.5．某学校组织学生进行社会主义核心价值观的知识竞赛，进入决赛的共有20名学生，他们的决赛成绩如下表所示：那么20名学生决赛成绩的众数和中位数分别是( )A．85，90 B．85，87.5 C．90，85 D．95，90【答案】B【解析】试题解析：85分的有8人，人数最多，故众数为85分；处于中间位置的数为第10、11两个数，为85分，90分，中位数为87.5分．故选B．考点：1.众数;2.中位数6．某单位招考技术人员，考试分笔试和面试两部分，笔试成绩与面试成绩按6:4记入总成绩，若小李笔试成绩为80分，面试成绩为90分，则他的总成绩为（）A．84分B．85分C．86分D．87分【答案】A【解析】【分析】按照笔试与面试所占比例求出总成绩即可.【详解】根据题意，按照笔试与面试所占比例求出总成绩：64⨯+⨯=（分）8090841010故选A【点睛】本题主要考查了加权平均数的计算，解题关键是正确理解题目含义.7．在学校的体育训练中，小杰投掷实心球的7次成绩如统计图所示，则这7次成绩的中位数和平均数分别是（）A．9.7m，9.9m B．9.7m，9.8m C．9.8m，9.7m D．9.8m，9.9m【答案】B【解析】【分析】将这7个数据从小到大排序后处在第4位的数是中位数，利用算术平均数的计算公式进行计算即可．【详解】把这7个数据从小到大排列处于第4位的数是9.7m，因此中位数是9.7m，++++++÷=m，平均数为：(9.59.69.79.79.810.110.2)79.8故选：B．【点睛】考查中位数、算术平均数的计算方法，将一组数据从小到大排列后处在中间位置的一个数或两个数的平均数就是这组数据的中位数，平均数则是反映一组数据的集中水平．8．下列说法：①一组对边平行，另一组对边相等的四边形是平行四边形；②经过有交通信号灯的路口，遇到红灯是必然事件；③若甲组数据的方差是0.3，乙组数据的方差是0.1，则甲数据比乙组数据稳定；④圆内接正六边形的边长等于这个圆的半径，其中正确说法的个数是（）A．1个B．2个C．3个D．4个【答案】A【解析】【分析】根据平行四边形的判定去判断①；根据必然事件的定义去判断②；根据方差的意义去判断③；根据圆内接正多边形的相关角度去计算④．【详解】一组对边平行，另一组对边相等的四边形也有可能是等腰梯形，①错误；必然事件是一定会发生的事件，遇到红灯是随机事件，②错误；方差越大越不稳定，越小越稳定，乙比甲更稳定，③错误；正六边形的边所对的圆心角是60︒，所以构成等边三角形，④结论正确．所以正确1个，答案选A．【点睛】本题涉及的知识点较多，要熟悉平行四边形的常见判定；随机事件、必然事件、不可能事件等的区分；掌握方差的意义；会计算圆内接正多边形相关．9．一组数据5，4，2，5，6的中位数是（）A．5 B．4 C．2 D．6【答案】A【解析】试题分析：将题目中数据按照从小到大排列是： 2，4，5，5，6，故这组数据的中位数是5，故选A．考点：中位数；统计与概率．10．某班有40人，一次体能测试后，老师对测试成绩进行了统计．由于小亮没有参加本次s=．后来小亮进行了补测，集体测试，因此计算其他39人的平均分为90分，方差239成绩为90分，关于该班40人的测试成绩，下列说法正确的是（）A．平均分不变，方差变大B．平均分不变，方差变小C．平均分和方差都不变D．平均分和方差都改变【答案】B【解析】【分析】根据平均数，方差的定义计算即可．【详解】解：∵小亮的成绩和其他39人的平均数相同，都是90分，∴该班40人的测试成绩的平均分为90分，方差变小，故选：B．【点睛】本题考查方差，算术平均数等知识，解题的关键是理解题意，灵活运用所学知识解决问题，属于中考常考题型．11．据统计，某住宅楼30户居民五月份最后一周每天实行垃圾分类的户数依次是：27，30，29，25，26，28，29，那么这组数据的中位数和众数分别是（）A．25和30 B．25和29 C．28和30 D．28和29【答案】D【解析】【分析】根据中位数和众数的定义进行求解即可得答案.【详解】对这组数据重新排列顺序得，25，26，27，28，29，29，30，处于最中间是数是28，∴这组数据的中位数是28，在这组数据中，29出现的次数最多，∴这组数据的众数是29，故选D．【点睛】本题考查了中位数和众数的概念，熟练掌握众数和中位数的概念是解题的关键.一组数据中出现次数最多的数据叫做众数，一组数据按从小到大（或从大到小）排序后，位于最中间的数（或中间两数的平均数）是这组数据的中位数.12．样本数据3，a，4，b，8的平均数是5，众数是3，则这组数据的中位数是（）A．2 B．3 C．4 D．8【答案】C【解析】【分析】+=，由众数是3知a、b中一个数据为3、另一个数据为先根据平均数为5得出a b107，再根据中位数的定义求解可得．【详解】解：数据3，a，4，b，8的平均数是5，3a4b825∴++++=，即a b10+=，又众数是3，a∴、b中一个数据为3、另一个数据为7，则数据从小到大为3、3、4、7、8，∴这组数据的中位数为4，故选C．【点睛】此题考查了平均数、众数和中位数，中位数是将一组数据从小到大(或从大到小)重新排列后，最中间的那个数(最中间两个数的平均数)，叫做这组数据的中位数，众数是一组数据中出现次数最多的数．13．在去年的体育中考中，某校6名学生的体育成绩统计如下表：则下列关于这组数据的说法错误的是（）A．众数是18 B．中位数是18 C．平均数是18 D．方差是2【答案】D【解析】【分析】根据众数、中位数的定义和平均数、方差的计算公式分别进行解答即可．【详解】A、这组数据中18出现了3次，次数最多，则这组数据的众数是18．故本选项说法正确；B、把这组数据从小到大排列，最中间两个数的平均数是（18+18）÷2＝18，则中位数是18．故本选项说法正确；C、这组数据的平均数是：（17×2+18×3+20）÷6＝18．故本选项说法正确；D、这组数据的方差是：16[2×（17﹣18）2+3×（18﹣18）2+（20﹣18）2]＝1．故本选项说法错误．故选D．【点睛】本题考查了众数、中位数、平均数和方差，众数是一组数据中出现次数最多的数；中位数是将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（或最中间两个数的平均数）；平均数是所有数据的和除以数据总数；一般地设n个数据，x1，x2，…x n的平均数为x ，则方差S 2=1n[（x 1-x ）2+（x 2-x ）2+…+（x n -x ）2]．14．甲、乙两位运动员在相同条件下各射击10次，成绩如下: 甲:9,10,8,5,7,8,10,8,8,7; 乙:5,7,8,7,8,9,7,9,10,10.根据上述信息，下列结论错误的是（） A ．甲、乙的众数分别是8,7 B ．甲、乙的中位数分别是8,8 C ．乙的成绩比较稳定 D ．甲、乙的平均数分别是8,8【答案】C 【解析】【分析】分别根据众数，平均数，中位数和方差的概念以及计算方法计算出结果，然后进行判断. 【详解】在甲的10次射击成绩中8环出现次数最多，有4次，故众数是8，而乙的10次射击成绩中7环出现次数最多，故众数是7，因此选项A 说法正确，不符合题意；甲的10次射击成绩按大小顺序排列为：5，7，7，8，8，8，8，9，10，10，故其中位数为：8+8=82；乙的10次射击成绩按大小顺序排列为：5，7，7，7，8，8，9，9，10，10，故其中位数为：8+8=82，所以甲、乙的中位数分别是8,8，故选项B 说法正确，不符合题意；甲的平均数为：5+72+84+9+102=810⨯⨯⨯；乙的平均数：5+73+82+92+102=810⨯⨯⨯⨯，所以，甲、乙的平均数分别是8，8，故选项D 不符合题意；甲组数据的方差为：2222221=[(58)2(78)4(88)(98)2(108)]10S -+⨯-+⨯-+-+⨯-甲=2；乙组数据的方差为：2222221=[(58)3(78)2(88)2(98)2(108)]10S -+⨯-+⨯-+⨯-+⨯-乙=2.2；所以甲乙两组数据的方差不相等，甲的成绩更稳定，故选项C 符合题意. 故选：C. 【点睛】本题考查了平均数、中位数、众数和方差的定义．方差是用来衡量一组数据波动大小的量，方差越大，表明这组数据偏离平均数越大，即波动越大，数据越不稳定；反之，方差越小，表明这组数据分布比较集中，各数据偏离平均数越小，即波动越小，数据越稳定．15．某校九年级数学模拟测试中，六名学生的数学成绩如下表所示，下列关于这组数据描述正确的是（）A．众数是110 B．方差是16C．平均数是109.5 D．中位数是109【答案】A【解析】【分析】根据众数、中位数的概念求出众数和中位数，根据平均数和方差的计算公式求出平均数和方差．【详解】解：这组数据的众数是110，A正确；16x=×（110+106+109+111+108+110）＝109，C错误；21S6= [（110﹣109）2+（106﹣109）2+（109﹣109）2+（111﹣109）2+（108﹣109）2+（110﹣109）2]＝83，B错误；中位数是109.5，D错误；故选A．【点睛】本题考查的是众数、平均数、方差、中位数，掌握它们的概念和计算公式是解题的关键．16．在一次体检中，甲、乙、丙、丁四位同学的平均身高为1.65米，而甲、乙、丙三位同学的平均身高为1.63米，下列说法一定正确的是（）A．四位同学身高的中位数一定是其中一位同学的身高B．丁同学的身高一定高于其他三位同学的身高C．丁同学的身高为1.71米D．四位同学身高的众数一定是1.65【答案】C【解析】【分析】根据平均数，中位数，众数的定义求解即可.【详解】解：A、四位同学身高的中位数可能是某两个同学身高的平均数，故错误；B、丁同学的身高一定高于其他三位同学的身高，错误；C、丁同学的身高为1.654 1.633 1.71⨯-⨯=米，正确；D．四位同学身高的众数一定是1.65，错误．故选：C．【点睛】本题考查的是平均数，中位数和众数，熟练掌握平均数，中位数和众数是解题的关键. 17．为参加学校举办的“诗意校园•致远方”朗诵艺术大赛，八年级“屈原读书社”组织了五次选拔赛，这五次选拔赛中，小明五次成绩的平均数是90，方差是2；小强五次成绩的平均数也是90，方差是14.8．下列说法正确的是（）A．小明的成绩比小强稳定B．小明、小强两人成绩一样稳定C．小强的成绩比小明稳定D．无法确定小明、小强的成绩谁更稳定【答案】A【解析】【分析】方差是反映一组数据的波动大小的一个量．方差越大，则平均值的离散程度越大，稳定性也越小；反之，则它与其平均值的离散程度越小，稳定性越好．【详解】∵小明五次成绩的平均数是90，方差是2；小强五次成绩的平均数也是90，方差是14.8．平均成绩一样，小明的方差小，成绩稳定，故选A．【点睛】本题考查方差、平均数的定义，解题的关键是熟练掌握基本知识，属于中考基础题．错因分析容易题.失分原因是方差的意义掌握不牢.18．某校九年级开展“光盘行动”宣传活动，各班级参加该活动的人数统计结果如下表，对于这组统计数据，下列说法中正确的是（）A．平均数是58 B．中位数是58 C．极差是40 D．众数是60【答案】A【解析】分别根据平均数，中位数，极差，众数的计算方法计算即可作出判断平均数是指在一组数据中所有数据之和再除以数据的个数，因此，这组数据的平均数是：526062545862586+++++=．中位数是一组数据从小到大（或从大到小）重新排列后，最中间的那个数（最中间两个数的平均数）．由此将这组数据重新排序为52，54，58，60，62，62，∴中位数是按从小到大排列后第3，4个数的平均数为：59．根据一组数据中的最大数据与最小数据的差叫做这组数据的极差的定义，这组数据的极差是： 62－52=10．众数是在一组数据中，出现次数最多的数据，这组数据中，出现次数最多的是62，故这组数据的众数为62．综上所述，说法正确的是：平均数是58．故选A ．19．在“童心向党，阳光下成长”合唱比赛中，30个参赛队的决赛成绩如下表：比赛成绩/分 9.5 9.6 9.7 9.8 9.9 参赛队个数98643则这30个参赛队决赛成绩的中位数和众数分别是（） A ．9.7，9.5 B ．9.7，9.9C ．9.6，9.5D ．9.6，9.6【答案】C 【解析】【分析】根据众数和中位数的定义求解可得．【详解】解：由表知，众数为9.5分，中位数为＝9.6（分），故选：C ．【点睛】考查了众数和中位数的定义，一组数据中出现次数最多的数据叫做众数；找中位数要把数据按从小到大的顺序排列，位于最中间的一个数（或两个数的平均数）为中位数；众数是一组数据中出现次数最多的数据，注意众数可以不止一个．20．为全力抗战疫情，响应政府“停课不停学”号召，东营市教育局发布关于疫情防控期间开展在线课程教学的通知：从2月10日开始，全市中小学按照教学计划，开展在线课程教学和答疑．据互联网后台数据显示，某中学九年级七科老师2月10日在线答疑问题总个数如下表所示则2月10日该中学九年级七科老师在线答疑问题总个数的平均数是（）A．22 B．24 C．25 D．26【答案】C【解析】【分析】把7个数相加再除以7即可求得其平均数.【详解】由题意得，九年级七科老师在线答疑问题总个数的平均数是1++++++=，(26282826242122)257故选：C【点睛】此题考查了平均数的计算，掌握计算方法是解答此题的关键.。

数据分析及应用习题库(附答案)

数据分析及应用习题库(附答案)一、单选题(共40题，每题1分，共40分)1、Python语言属于()。

A、A机器语言B、B汇编语言C、C高级语言D、D科学计算语言正确答案：C2、以下代码执行的输出结果为：()importnumpyasnparr=np.array([1,3,5,7])print(arr[2]+arr[3])A、A8B、B12C、C5D、D13正确答案：B3、对于j=10,foriinrange(j)循环内执行语句j-=1,那么该循环将执行(?)次。

A、A10B、B7C、C6D、D程序报错正确答案：A4、Thecorrectsyntaxtoaddthe1abe1s〃〃x〃〃，"V"、and""∕'"toaPandasSeries：()importpandasaspdA、Apd.DataFrame([12,z,,z13zr,,z14zz],index=["x","y","z"])"B、Bpd.1ist([12/z,'13z,,,z1Γ],index=[〃x〃，〃y〃，〃z〃])〃C、Cpd.Series([12,z∕,13,,,,z14,z],index=[〃x〃，〃y〃，〃z〃])〃D、Ddf=Pd.Series([12”,〃13〃，〃14〃],diet=[〃x〃，〃y〃，〃z〃])〃正确答案：C5、将一颗骰子投掷两次，依次记录点数，两数之差绝对值为1的概率()A、A0.1B0.2C、C0.3D、D0.4正确答案：A6、网络报文记录及分析装置告警信息可以按照多种方式进行分类，其中不包含下列哪种方式()A、Λ网络B、BIEDC、C时间段D、D模型正确答案：D7、假设有命令(P)importnumpyasnpbArraynp.array([[1,2,3],[4,5,6]])则,bΛrray.ndim的结果是A、A逻辑覆盖法B、B等价类划分C、C边界值分析D、D功能图法正确答案：A8、随机变量X、Y的协方差，记为COV(X,Y)=(?)oA、AE((X-E(X))(Y-E(Y)))B、BE(XY-E(X)E(Y))C、CE(((D(X)D(Y))71∕2))D、DE正确答案：A9^用importmatp1ot1ib.pyp1otaspt引入pyp1ot模块后，下面可以对执行的代码是()A^Apit.p1ot([1,2,3])BsBpt.p1ot([1,2,3])C>Cpit.p1ot[1,2,3]D>Dpt.p1ot[1,2,3]正确答案：B10>用importmatp1ot1ib.pyp1otaspt引入pyp1ot模块后,下面可以对执行的代码是()A、A按位取反B、B按位异或C、C按位与D、D左移一个字节正确答案：A11A importpandasaspds=pd.Series([1,2,3],index=[2,3,1])s[2]上述代码输出结果是多少？A、A数据库设计B、B软件测试C、C软件设计D、D可行性研究正确答案：D12、fractions模块中FraCtiOn类用于构造(?)类型数据。

数据分析算法与模型模拟题(附答案)

、计算题(共4题，10。

分)K通过分析关于二手车的相关变量，研究这些变量怎么影响二手车的交易价格。

吐手车抽样-预处理.CSV收集的数据包含:对数据进行预处理，分析应采用的模型，写出详细的思路和数据分析过程，用多种方法检验和解释模型，说明模型的实际意义。

答案解析：因变量采用车•辆报价数据，白变量选择除车辆报价数据之外的其他变最，进行线性回归分析可以看到删除了三个变呈，R方和调整R方都接近1,模型拟合度很好。

由于自变量中真皮座椅、外观缺陷、车身类型未通过t检验，因此需要将这三个变最删除后再做线性回归分析，可得：Y二I. 1036-0. 0646ShangPaiShijian-0. 10641iCheng-0. 4235biansu+0. 8482z houju-1.0036Pa i I i ang+0. 0154ma I i -0. 1729t i anchuang I +0. 75811 i anChllan2+0. 3974daochey i ngx i ang-0.5061GPS-0. 2864WaigUan_XiUfU+0. 5156yuanjia+0. 166 5paifang^0. 0199ChangShang模型拟合效果很好，且通过了F检验和t检验，（常数项的t检验可以不通过）可以根据此模型对二手车进行价格评估2、利用APriori算法,写出下列购物篮数据的频繁项集和强关联规则（设定支若此购物篮数据为某超市随机选取的7位顾客的交易数据，请结合之前得到的结果为该超市提一些建议。

答奉解析:先将给定的数据整理成datahoop关联分析町识别的格式，导入datahoop平台.对变屋牛肉、鸡肉、牛奶、奶酪、牠子、衣服进行关联分析。

设置就小支持度为2/7=0. 286,就小置信度为0,可以得到频繁项集（別除重复）•设垃最小支持数为2/7=0. 286、昴小过信度二0. 7・可以得到提升度〉1的冇效强关联规则（删除单项）解答：TT先对原数据进行预处理至然后再处理至A AB JCD E1 b c Cl e2F F T T3T T F T4 T F T T5F T T T6T T F T7T F T T8F F T T F9T T T F F10 T F F T T11 Tr T F F T1213导入datahoop ¥台，设置支持度为0. 286,置信度为0支持度排名项目1顶目210>克持度置彳言度提升度120> f )0.130&gt771—项的频蠻集40■90.1&gt61}■90.8翻 1.0714seUU*>0。

数据分析面试题1

答案：A 解析：
L１范数具有系数解的特性，但是要注意的是，L１没有选到的特征不代表不重要，原因是两个高相关性的特征可能只保留一个。需要通过交叉验证，确定哪个特征重要。
为什么 L1，L2 范数可以防止过拟合呢？在代价函数后面加上正则项，L１即是 Lasso 回归，L２是岭回归但是它为什么能防止过拟合呢？奥卡姆剃刀原理：能很好的拟合数据且模型简单模型参数在更新时，正则项可使参数的绝对值趋于０，使得部分参数为０，降低了模型的复杂度（模型的复杂度由参数决定），从而防止了过拟合。提高模型的泛化能力。
答案：C 解析：在 A 区犯案概率：P(C|A)=0.01% 在 B 区犯案概率：P(C|B)=0.015% 在 A 区概率：P(A)=3/8 在 B 区概率：P(B)=5/8 犯案概率：P(C)=（3/8*0.01%+5/8*0.015%) 则犯案且在 A 区的概率： P(A|C)=P(C|A)*P(A)/P(C)=0.01%*(3/8)/ （3/8*0.01%+5/8*0.015%)≈28.6%
10.执行完下列语句段后,i 值为() int f(int x){
return ((x>0)?x*f(x-1):2) } int i; i=f(f(2));
A.4 B.48 C.8 D.无限递归
答案：B 解析：
f(x) 当 x 大于 0 时，返回 x*f(x-1)，否则返回 2 f(0) = 2 f(1) = 1 * f(0) = 2 f(2) = 2 * f(1) = 4 f(3) = 3 * f(2) = 12 f(4) = 4 * f(3) = 48 f(4) = f(f(2)) = 48
DC 共享平台——数据分析岗笔试面试题

智慧树知道网课《算法分析与设计(山东联盟)》课后章节测试满分答案1

第一章测试1【判断题】(10分)一个问题的同一实例可以有不同的表示形式A.错B.对2【判断题】(10分)同一数学模型使用不同的数据结构会有不同的算法，有效性有很大差别。

A.错B.对3【判断题】(10分)问题的两个要素是输入和实例。

A.对B.错4【单选题】(10分)算法与程序的区别是（）A.有穷性B.确定性C.输出D.输入5【单选题】(10分)解决问题的基本步骤是（）。

（1）算法设计（2）算法实现（3）数学建模（4）算法分析（5）正确性证明A.(3)(1)(5)(4)(2)B.(3)(4)(1)(5)(2)C.(1)(2)(3)(4)(5)D.(3)(1)(4)(5)(2)6【单选题】(10分)下面说法关于算法与问题的说法的是（）。

A.算法是一种计算方法，对问题的每个实例计算都能得到正确答案。

B.证明算法不正确，需要证明对任意实例算法都不能正确处理。

C.如果一个算法能应用于问题的任意实例，并保证得到正确解答，称这个算法解答了该问题。

D.同一问题可能有几种不同的算法，解题思路和解题速度也会显著不同。

7【多选题】(10分)下面关于程序和算法的说法正确的是（）。

A.算法的每一步骤必须要有确切的含义，必须是清楚的、无二义的。

B.程序总是在有穷步的运算后终止。

C.程序是算法用某种程序设计语言的具体实现。

D.算法是一个过程，计算机每次求解是针对问题的一个实例求解。

8【多选题】(10分)最大独立集问题和（）问题等价。

A.最大团B.稳定匹配问题C.区间调度问题D.最小顶点覆盖9【多选题】(10分)给定两张喜欢列表，稳定匹配问题的输出是（）。

A.完美匹配B.最大匹配C.稳定匹配D.没有不稳定配对10【单选题】(10分)问题变换的目的有（）。

(1)复杂变简单(2)未知变已知(3)隐式变显式(4)难解变易解（5）以上都是。

A.（5）B.（1）C.（2）D.（3）E.（4）11【单选题】(10分)按照霍纳法则，计算p(x)=a n x n+a n-1x n-1+…+a1x1+a0的数量级为____。

数据分析经典测试题附答案

数据分析经典测试题附答案一、选择题1．某专卖店专营某品牌的衬衫，店主对上一周中不同尺码的衬衫销售情况统计如下：该店主决定本周进货时，增加一些41码的衬衫，影响该店主决策的统计量是( )A．平均数B．方差C．中位数D．众数【答案】D【解析】【分析】平均数、中位数、众数是描述一组数据集中程度的统计量；方差、标准差是描述一组数据离散程度的统计量．销量大的尺码就是这组数据的众数．【详解】由于众数是数据中出现次数最多的数，故影响该店主决策的统计量是众数．故选D．【点睛】此题主要考查统计的有关知识，主要包括平均数、中位数、众数、方差的意义．2．某学校组织学生进行社会主义核心价值观的知识竞赛，进入决赛的共有20名学生，他们的决赛成绩如下表所示：那么20名学生决赛成绩的众数和中位数分别是( )A．85，90 B．85，87.5 C．90，85 D．95，90【答案】B【解析】试题解析：85分的有8人，人数最多，故众数为85分；处于中间位置的数为第10、11两个数，为85分，90分，中位数为87.5分．故选B．考点：1.众数;2.中位数3．在某次训练中，甲、乙两名射击运动员各射击10发子弹的成绩统计图如图所示，对于本次训练，有如下结论：①22s s >甲乙；②22s s <甲乙；③甲的射击成绩比乙稳定；④乙的射击成绩比甲稳定．由统计图可知正确的结论是（）A ．①③B ．①④C ．②③D ．②④【答案】C 【解析】【分析】从折线图中得出甲乙的射击成绩，再利用方差的公式计算，即可得出答案．【详解】由图中知，甲的成绩为7，7，8，9，8，9，10，9，9，9，乙的成绩为8，9，7，8，10，7，9，10，7，10，x 甲=（7+7+8+9+8+9+10+9+9+9）÷10=8.5， x 乙=（8+9+7+8+10+7+9+10+7+10）÷10=8.5，甲的方差S 甲2=[2×（7-8.5）2+2×（8-8.5）2+（10-8.5）2+5×（9-8.5）2]÷10=0.85，乙的方差S 乙2=[3×（7-8.5）2+2×（8-8.5）2+2×（9-8.5）2+3×（10-8.5）2]÷10=1.45， ∴S 2甲＜S 2乙，∴甲的射击成绩比乙稳定；故选：C ．【点睛】本题考查方差的定义与意义：一般地设n 个数据，x 1，x 2，…x n 的平均数为x ，则方差S 2=1n[（x 1-x ）2+（x 2-x ）2+…+（x n -x ）2]，它反映了一组数据的波动大小，方差越大，波动性越大，反之也成立．4．有甲、乙两种糖果，原价分别为每千克a 元和b 元．根据调查，将两种糖果按甲种糖果x 千克与乙种糖果y 千克的比例混合，取得了较好的销售效果．现在糖果价格有了调整：甲种糖果单价下降15%，乙种糖果单价上涨20%，但按原比例混合的糖果单价恰好不变，则xy等于（） A ．34a b B ．43a bC ．34b aD ．43b a【答案】D【解析】【分析】根据已知条件表示出价格变化前后两种糖果的平均价格，进而得出等式求出即可．【详解】解：∵甲、乙两种糖果，原价分别为每千克a元和b元，两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合，∴两种糖果的平均价格为：ax byx y++，∵甲种糖果单价下降15%，乙种糖果单价上涨20%，∴两种糖果的平均价格为：1520 (1)(1)100100a xb yx y-•+++，∵按原比例混合的糖果单价恰好不变，∴ax byx y++＝1520(1)(1)100100a xb yx y-•+++，整理，得15ax＝20by∴43x by a =，故选：D．【点睛】本题考查了加权平均数，解决本题的关键是表示出价格变化前后两种糖果的平均价格．5．为全力抗战疫情，响应政府“停课不停学”号召，东营市教育局发布关于疫情防控期间开展在线课程教学的通知：从2月10日开始，全市中小学按照教学计划，开展在线课程教学和答疑．据互联网后台数据显示，某中学九年级七科老师2月10日在线答疑问题总个数如下表所示则2月10日该中学九年级七科老师在线答疑问题总个数的平均数是（）A．22 B．24 C．25 D．26【答案】C【解析】【分析】把7个数相加再除以7即可求得其平均数.【详解】由题意得，九年级七科老师在线答疑问题总个数的平均数是1(26282826242122)257++++++=，故选：C【点睛】此题考查了平均数的计算，掌握计算方法是解答此题的关键.6．某小组长统计组内6人一天在课堂上的发言次数分別为3，3，4，6，5，0．则这组数据的众数是()A．3 B．3.5 C．4 D．5【答案】A【解析】【分析】根据众数的定义，找数据中出现次数最多的数据即可．【详解】在3，3，4，6，5，0这组数据中，数字3出现了2次，为出现次数最多的数，故众数为3．故选A．【点睛】本题考查了众数的概念．众数是一组数据中出现次数最多的数据．7．在创建平安校园活动中，九年级一班举行了一次“安全知识竞赛”活动，第一小组6名同学的成绩（单位：分）分别是：87，91，93，87，97，96，下列关于这组数据说正确的是（）A．中位数是90 B．平均数是90 C．众数是87 D．极差是9【答案】C【解析】【分析】根据中位数、平均数、众数、极差的概念求解．【详解】解：这组数据按照从小到大的顺序排列为：87，87，91，93，96，97，则中位数是（91+93）÷2=92，平均数是（87+87+91+93+96+97）÷6=9156，众数是87，极差是97﹣87=10．故选C．【点睛】本题考查了中位数、平均数、众数、极差的知识，掌握各知识点的概念是解答本题的关键．8．某校在中国学生核心素养知识竞赛中，通过激烈角逐，甲、乙、丙、丁四名同学胜出，他们的成绩如表：如果要选出一个成绩较好且状态稳定的同学去参加市级比赛，应选（）A．丁B．丙C．乙D．甲【答案】B【解析】【分析】先比较平均数得到甲和丙成绩较好，然后比较方差得到丙的状态稳定，即可决定选丙去参赛．【详解】∵甲、丙的平均数比乙、丁大，∴甲和丙成绩较好，∵丙的方差比甲的小，∴丙的成绩比较稳定，∴丙的成绩较好且状态稳定，应选的是丙，故选：B．【点睛】本题考查了方差：一组数据中各数据与它们的平均数的差的平方的平均数，叫做这组数据的方差；方差是反映一组数据的波动大小的一个量，方差越大，则平均值的离散程度越大，稳定性也越小；反之，则它与其平均值的离散程度越小，稳定性越好．也考查了平均数的意义．9．多多班长统计去年1～8月“书香校园”活动中全班同学的课外阅读数量（单位：本），绘制了如图折线统计图，下列说法正确的是（）A．极差是47 B．众数是42C．中位数是58 D．每月阅读数量超过40的有4个月【答案】C【解析】【分析】根据统计图可得出最大值和最小值，即可求得极差；出现次数最多的数据是众数；将这8个数按大小顺序排列，中间两个数的平均数为中位数；每月阅读数量超过40的有2、3、4、5、7、8，共六个月．【详解】A、极差为：83-28=55，故本选项错误；B、∵58出现的次数最多，是2次，∴众数为：58，故本选项错误；C、中位数为：（58+58）÷2=58，故本选项正确；D、每月阅读数量超过40本的有2月、3月、4月、5月、7月、8月，共六个月，故本选项错误；故选C．10．某兴趣小组为了解我市气温变化情况，记录了今年月份连续6天的最低气温（单----，关于这组数据，下列结论不正确的是（）位：℃）：7,4,2,1,2,2A．平均数是B．中位数是C．众数是D．方差是【答案】D【解析】【分析】一组数据中出现次数最多的数据叫做这组数据的众数．将一组数据按照从小到大（或从大到小）的顺序排列，如果数据的个数是奇数，则处于中间位置的数就是这组数据的中位数；如果这组数据的个数是偶数，则中间两个数据的平均数就是这组数据的中位数．平均数是指在一组数据中所有数据之和再除以数据的个数．一般地设n个数据，x1，x2，…x n的平均数为，则方差S2= [（x1﹣）2+（x2﹣）2+…+（x n﹣）2]．【详解】解：有题意可得，这组数据的众数为-2，中位数为-2，平均数为-2，方差是9故选D．11．某鞋店一天卖出运动鞋12双，其中各种尺码的鞋的销售量如下表：则这12双鞋的尺码组成的一组数据中，众数和中位数分别是（）A．25，25 B．24.5，25 C．25，24.5 D．24.5，24.5【答案】A【解析】试题分析：根据众数和中位数的定义求解可得．解：由表可知25出现次数最多，故众数为25；12个数据的中位数为第6、7个数据的平均数，故中位数为25252=25，故选：A．12．校团委组织开展“医助武汉捐款”活动，小慧所在的九年级(1)班共40名同学进行了捐款，已知该班同学捐款的平均金额为10元，二小慧捐款11元，下列说法错误的是( ) A．10元是该班同学捐款金额的平均水平B．班上比小慧捐款金额多的人数可能超过20人C．班上捐款金额的中位数一定是10元D．班上捐款金额数据的众数不一定是10元【答案】C【解析】【分析】根据平均数，中位数及众数的定义依次判断.【详解】∵该班同学捐款的平均金额为10元，∴10元是该班同学捐款金额的平均水平，故A正确；∵九年级(1)班共40名同学进行了捐款，捐款的平均金额为10元，∴班上比小慧捐款金额多的人数可能超过20人，故B正确；班上捐款金额的中位数不一定是10元，故C错误；班上捐款金额数据的众数不一定是10元，故D正确，故选：C.【点睛】此题考查数据统计中的平均数，中位数及众数的定义，正确理解定义是解题的关键.13．在一次数学答题比赛中，五位同学答对题目的个数分别为7，5，3，5，10，则关于这组数据的说法不正确的是（）A．众数是5 B．中位数是5 C．平均数是6 D．方差是3.6【答案】D【解析】【分析】根据平均数、中位数、众数以及方差的定义判断各选项正误即可．【详解】A、数据中5出现2次，所以众数为5，此选项正确；B、数据重新排列为3、5、5、7、10，则中位数为5，此选项正确；C、平均数为（7+5+3+5+10）÷5=6，此选项正确；D、方差为15×[（7﹣6）2+（5﹣6）2×2+（3﹣6）2+（10﹣6）2]=5.6，此选项错误；故选：D．【点睛】本题主要考查了方差、平均数、中位数以及众数的知识，解答本题的关键是熟练掌握各个知识点的定义以及计算公式，此题难度不大．14．郑州某中学在备考2018河南中考体育的过程中抽取该校九年级20名男生进行立定跳远测试，以便知道下一阶段的体育训练，成绩如下所示：则下列叙述正确的是（）A．这些运动员成绩的众数是 5B．这些运动员成绩的中位数是 2.30C．这些运动员的平均成绩是 2.25D．这些运动员成绩的方差是 0.0725【答案】B【解析】【分析】根据方差、平均数、中位数和众数的计算公式和定义分别对每一项进行分析，即可得出答案．【详解】由表格中数据可得：A、这些运动员成绩的众数是2.35，错误；B、这些运动员成绩的中位数是2.30，正确；C、这些运动员的平均成绩是 2.30，错误；D、这些运动员成绩的方差不是0.0725，错误；故选B．【点睛】考查了方差、平均数、中位数和众数，熟练掌握定义和计算公式是本题的关键，平均数平均数表示一组数据的平均程度．中位数是将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（或最中间两个数的平均数）；方差是用来衡量一组数据波动大小的量．15．关于数据－4，1，2，－1，2，下面结果中，错误的是( ) A ．中位数为1 B ．方差为26C ．众数为2D ．平均数为0【答案】B 【解析】【分析】【详解】A ．∵从小到大排序为-4，-1，，1，2，2，∴中位数为1 ，故正确；B ．4121205x -++-+== ，()()()()222224010102022655s --+--+-+-⨯==，故不正确；C ．∵众数是2，故正确；D ．4121205x -++-+==，故正确；故选B.16．为考察两名实习工人的工作情况，质检部将他们工作第一周每天生产合格产品的个数整理成甲，乙两组数据，如下表：关于以上数据，说法正确的是（） A ．甲、乙的众数相同 B ．甲、乙的中位数相同 C ．甲的平均数小于乙的平均数 D ．甲的方差小于乙的方差【答案】D 【解析】【分析】分别根据众数、中位数、平均数、方差的定义进行求解后进行判断即可得. 【详解】甲：数据7出现了2次，次数最多，所以众数为7，排序后最中间的数是7，所以中位数是7，26778==65x ++++甲，()()()()()2222221S =26666767865⎡⎤⨯-+-+-+-+-⎣⎦甲=4.4，乙：数据8出现了2次，次数最多，所以众数为8，排序后最中间的数是4，所以中位数是4，23488==55x 乙++++，()()()()()2222221S =25354585855乙⎡⎤⨯-+-+-+-+-⎣⎦=6.4，所以只有D 选项正确，故选D. 【点睛】本题考查了众数、中位数、平均数、方差，熟练掌握相关定义及求解方法是解题的关键.17．在光明中学组织的全校师生迎“五四”诗词大赛中，来自不同年级的25名参赛同学的得分情况如图所示．这些成绩的中位数和众数分别是（）A ．96分，98分B ．97分，98分C ．98分，96分D ．97分，96分【答案】A 【解析】【分析】利用众数和中位数的定义求解．【详解】98出现了9次，出现次数最多，所以数据的众数为98分；共有25个数，最中间的数为第13个数，是96，所以数据的中位数为96分．故选A ．【点睛】本题考查了众数：一组数据中出现次数最多的数据叫做众数．也考查了中位数．18．在“童心向党，阳光下成长”合唱比赛中，30个参赛队的决赛成绩如下表：比赛成绩/分9.59.69.79.89.9参赛队个数98643则这30个参赛队决赛成绩的中位数和众数分别是（）A．9.7，9.5 B．9.7，9.9 C．9.6，9.5 D．9.6，9.6【答案】C【解析】【分析】根据众数和中位数的定义求解可得．【详解】解：由表知，众数为9.5分，中位数为＝9.6（分），故选：C．【点睛】考查了众数和中位数的定义，一组数据中出现次数最多的数据叫做众数；找中位数要把数据按从小到大的顺序排列，位于最中间的一个数（或两个数的平均数）为中位数；众数是一组数据中出现次数最多的数据，注意众数可以不止一个．19．下列说法正确的是（）A．对角线相等的四边形一定是矩形B．任意掷一枚质地均匀的硬币10次，一定有5次正面向上C．如果有一组数据为5，3，6，4，2，那么它的中位数是6D．“用长分别为5cm、12cm、6cm的三条线段可以围成三角形”这一事件是不可能事件【答案】D【解析】【分析】根据矩形的判定定理，数据出现的可能性的大小，中位数的计算方法，不可能事件的定义依次判断即可.【详解】A.对角线相等的平行四边形是矩形，故该项错误；B. 任意掷一枚质地均匀的硬币10次，不一定有5次正面向上，故该项错误；C. 一组数据为5，3，6，4，2，它的中位数是4，故该项错误；D. “用长分别为5cm、12cm、6cm的三条线段可以围成三角形” 这一事件是不可能事件，正确，故选：D.【点睛】此题矩形的判定定理，数据出现的可能性的大小，中位数的计算方法，不可能事件的定义，综合掌握各知识点是解题的关键.20．下面的统计图表示某体校射击队甲、乙两名队员射击比赛的成绩，根据统计图中的信息，下列结论正确的是（）A．甲队员成绩的平均数比乙队员的大B．乙队员成绩的平均数比甲队员的大C．甲队员成绩的中位数比乙队员的大D．甲队员成绩的方差比乙队员的大【答案】D【解析】【分析】根据平均数、中位数和方差的计算公式分别对每一项进行分析，即可得出答案．【详解】甲队员10次射击的成绩分别为6，7，7，7，8，8，9，9，9，10，则中位数882=8，甲10次射击成绩的平均数=（6+3×7+2×8+3×9+10）÷10=8（环），乙队员10次射击的成绩分别为6，7，7，8，8，8，8，9，9，10，则中位数是8，乙10次射击成绩的平均数=（6+2×7+4×8+2×9+10）÷9=8（环），甲队员成绩的方差=110×[（6-8）2+3×（7-8）2+2×（8-8）3+3×（9-8）2+（10-8）2]=1.4；乙队员成绩的方差=110×[（6-8）2+2×（7-8）2+4×（8-8）3+2×（9-8）2+（10-8）2]=1.2，综上可知甲、乙的中位数相同，平均数相同，甲的方差大于乙的方差，故选D．【点睛】本题考查了平均数、中位数和方差的定义和公式，熟练掌握平均数、中位数、方差的计算是解题的关键.。

教科版(2019)必修1《第五单元_数据分析与人工智能》2022年单元测试卷(1)+答案解析(附后)

教科版（2019）必修1《第五单元数据分析与人工智能》2022年单元测试卷（1）1. 王老师在教学与生活中经常使用电脑，请判断他使用的技术中，不属于人工智能应用范畴的是（）A. 用手写板输入汉字B. 用耳麦进行语音对话C. 将纸质试卷扫描并借助OCR软件识别成电子文档D. 用翻译软件将一篇英文稿件翻译成中文2. 下列不属于人工智能的主要方法的是（）A. 符号主义B. 联结主义C. 行为主义D. 自由主义3. 要想让机器具有智能，必须让机器具有知识。

因此，在人工智能中有一个研究领域，主要研究计算机如何自动获取知识和技能，实现自我完善，这门研究分支学科叫（）A. 机器感知B. 机器学习C. 自动化D. 机器思维4. 下列关于人工智能说法错误的是（）A. 人工智能是一门多学科广泛交叉的前沿科学B. AlphaGo Zero 不依赖人类棋手数据而在自我博弈中不断提升棋力是行为主义的体现C. AlphaGo 于 2016 年战胜围棋九段棋手李世石，是符号主义的应用D. 机器学习主要研究计算机如何自动获取知识和技能，实现自我完善5. 随着信息技术、通信技术和大数据的发展，引发了人工智能热。

下列关于人工智能的描述，错误的是（）A. 机器翻译不属于人工智能的应用B. 人工智能的不断创新，促使大量“沉睡”的数据被唤醒、被挖掘，释放出巨大价值C. 近年来，有了大数据的支持，智能算法的效果得到了极大的体现D. 人机对弈、无人驾驶、智能识图都属于人工智能的应用6. 下列2022北京冬奥会相关应用中，体现人工智能技术的是（）A. “非接触垃圾箱”的传感器检测到人的手接近时会自动开启箱盖B. 智能向导机器人发现没带口罩的人时会语音提醒C. 雪花引导牌采用五路供电技术，在电线断了3、4根时引导牌也能正常发光D. 国家游泳中心“水立方”改造时使用了5G技术7. 下列应用没有使用到人工智能技术的是（）A. 进入考场时“刷脸”验证身份B. 校门口通过摄像头识别车牌号码C. 扫描商品条形码，屏幕上显示出相应价格D. 快递分捡机器人接收工作人员的语音指令进行包裹分捡8. 以下为演绎三段论推理的过程：所有有羽毛的动物都是鸟类（大前提）某动物有羽毛（小前提）该动物是鸟类采用上述方式研究并实现人工智能的方法称为（）A. 强化学习B. 联结主义C. 行为主义D. 符号主义9. 扫地机器人事先并不知道场所布局和物品摆放，是在运动中不断从环境中学习，经过一段时间的交互，就可获悉环境的全貌。

数据结构与算法题库(含参考答案)

数据结构与算法题库（含参考答案）一、单选题（共100题，每题1分，共100分）1、在一次校园活动中拍摄了很多数码照片，现需将这些照片整理到一个PowerPoint 演示文稿中，快速制作的最优操作方法是：A、创建一个 PowerPoint 相册文件。

B、创建一个 PowerPoint 演示文稿，然后批量插入图片。

C、创建一个 PowerPoint 演示文稿，然后在每页幻灯片中插入图片。

D、在文件夹中选中所有照片，然后单击鼠标右键直接发送到PowerPoint 演示文稿中。

正确答案：A2、下面对“对象”概念描述错误的是A、对象不具有封装性B、对象是属性和方法的封装体C、对象间的通信是靠消息传递D、一个对象是其对应类的实例正确答案：A3、设栈与队列初始状态为空。

首先A,B,C,D,E依次入栈，再F,G,H,I,J 依次入队；然后依次出队至队空，再依次出栈至栈空。

则输出序列为A、F,G,H,I,J,E,D,C,B,AB、E,D,C,B,A,J,I,H,G,FC、F,G,H,I,J,A,B,C,D,E,D、E,D,C,B,A,F,G,H,I,J正确答案：A4、设表的长度为 20。

则在最坏情况下，冒泡排序的比较次数为A、20B、19C、90D、190正确答案：D5、设二叉树的前序序列为 ABDEGHCFIJ，中序序列为 DBGEHACIFJ。

则后序序列为A、DGHEBIJFCAB、JIHGFEDCBAC、GHIJDEFBCAD、ABCDEFGHIJ正确答案：A6、Excel工作表B列保存了11位手机号码信息，为了保护个人隐私，需将手机号码的后 4 位均用“*”表示，以 B2 单元格为例，最优的操作方法是：A、=REPLACE(B2,7,4,"****")B、=REPLACE(B2,8,4,"****")C、=MID(B2,7,4,"****")D、=MID(B2,8,4,"****")第 10 组正确答案：B7、小金从网站上查到了最近一次全国人口普查的数据表格，他准备将这份表格中的数据引用到 Excel 中以便进一步分析，最优的操作方法是：A、通过 Excel 中的“自网站获取外部数据”功能，直接将网页上的表格导入到 Excel 工作表中。

Python数据分析与可视化习题答案

第一章1、阐述统计分析与数据挖掘的特点。

传统的统计分析是在已定假设、先验约束的内情况下,对数据进行整理筛选和加工,由此得到一些信息。

数据挖掘是将信息需要进一步处理以获得认知,继而转为有效的预测和决策。

统计分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具。

2、数据分析的基本步骤包括哪些？（1）数据收集；（2）数据预处理；（3）数据分析与知识发现；（4）数据后处理。

3、相比R语言、MATLAB、SAS、SPSS等语言或工具，Python有哪些优点？（1）Python是面向生产的；（2）强大的第三方库的支持；（3）Python的胶水语言特性。

第二章选择题1、python之父是下列哪位？（A）A、吉多范罗苏姆B、丹尼斯里奇C、詹姆斯高林思D、克里夫默勒2、python的缩进功能有什么作用？（C）A、增加代码可读性B、方便放置各类符号C、决定程序的结构D、方便修改程序3、python的单行注释通过什么符号完成？（B）A、双斜杠（//）B、井号（#）C、三引号（‘’’）D、双分号（；；）4、以下选项中,Python数据分析方向的库是？（C）A、PILB、DjangoC、pandasD、flask5、以下选项中,Python网络爬虫方向的库是？（D）A、numpyB、openpyxlC、PyQt5D、scrapy对错题1、winpython会写入windows注册表（F）2、python与大多数程序设计语言的语法非常相近（T）3、Python的缩进是一种增加代码可读性的措施（F）4、PANDAS是一个构建在Numpy之上的高性能数据分析库（T）5、Jupyter是一个交互式的数据科学与科学计算开发环境（T）填空题1、python中的多行注释使用三引号/’’’表示。

2、pandas能对数据进行排序、分组、归并等操作。

3、Scikit_learn包括多种分类、回归、聚类、降维、模型选择和预处理的算法。

4、Matplotlib是一个绘图库。

田翠华著《算法设计与分析》课后习题参考答案

参考答案第1章一、选择题1. C2. A3. C4. C A D B5. B6. B7. D 8. B 9. B 10. B 11. D 12. B二、填空题1. 输入；输出；确定性；可行性；有穷性2. 程序；有穷性3. 算法复杂度4. 时间复杂度；空间复杂度5. 正确性；简明性；高效性；最优性6. 精确算法；启发式算法7. 复杂性尽可能低的算法；其中复杂性最低者8. 最好性态；最坏性态；平均性态9. 基本运算10. 原地工作三、简答题1. 高级程序设计语言的主要好处是：（l）高级语言更接近算法语言，易学、易掌握，一般工程技术人员只需要几周时间的培训就可以胜任程序员的工作；（2）高级语言为程序员提供了结构化程序设计的环境和工具，使得设计出来的程序可读性好，可维护性强，可靠性高；（3）高级语言不依赖于机器语言，与具体的计算机硬件关系不大，因而所写出来的程序可移植性好、重用率高；（4）把复杂琐碎的事务交给编译程序，所以自动化程度高，发用周期短，程序员可以集中集中时间和精力从事更重要的创造性劳动，提高程序质量。

2. 使用抽象数据类型带给算法设计的好处主要有：（1）算法顶层设计与底层实现分离，使得在进行顶层设计时不考虑它所用到的数据，运算表示和实现；反过来，在表示数据和实现底层运算时，只要定义清楚抽象数据类型而不必考虑在什么场合引用它。

这样做使算法设计的复杂性降低了，条理性增强了，既有助于迅速开发出程序原型，又使开发过程少出差错，程序可靠性高。

（2）算法设计与数据结构设计隔开，允许数据结构自由选择，从中比较，优化算法效率。

（3）数据模型和该模型上的运算统一在抽象数据类型中，反映它们之间内在的互相依赖和互相制约的关系，便于空间和时间耗费的折衷，灵活地满足用户要求。

（4）由于顶层设计和底层实现局部化，在设计中出现的差错也是局部的，因而容易查找也容易2 算法设计与分析纠正，在设计中常常要做的增、删、改也都是局部的，因而也都容易进行。

2021项目数据分析师理论考试真题模拟及答案(3)

2021项目数据分析师理论考试真题模拟及答案(3)共501道题1、数据挖掘技术包括三个主要的部分（）（单选题）A. 数据、模型、技术B. 算法、技术、领域知识C. 数据、建模能力、算法与技术D. 建模能力、算法与技术、领域知识试题答案：C2、下面有关HAVING子句的说法中正确的是（）（多选题）A. HAVING子句必须与GROUP BY子句同时使用，不能单独使用B. 使用HAVING子句的同时不能使用WHERE子句C. 使用HAVING子句的同时可以使用WHERE子句D. 使用HAVING子句的作用是限定分组的条件试题答案：A,C,D3、如下表student中，如何筛选type为包含数学或语文的记录？（）ID type score：A01数学78；A02语文76；A03英语90；A04数学68；A05英语84。

（多选题）A. select*from student where type=”数学”and type=”语文”B. select*from student where type=”数学”or type=”语文”C. select*from student where type in（”数学”，”语文”）D. select*from student where type in（”数学”､”语文”）试题答案：B,C4、以下哪个变量可以反映客户的忠诚度？（）（单选题）A. 购买频次B. 购买金额C. 最后一次购买时间D. 购买金额波动率试题答案：A5、下列有关Apriori算法的说法中不正确的是（）（单选题）A. Apriori算法是关联分析中最常用的算法之一B. 应用Apriori算法时，需要先设定模型的最小支持度、最小置信度等阈值C. 应用Apriori算法时，输入的数据可以是连续型数据也可以是离散型数据D. Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量试题答案：C6、关于产销量的盈亏平衡点正确的公式是（）（单选题）A. 年总变动成本/（产品销售单价×（1－销售税率）－单位固定成本）B. 年总固定成本/（产品销售单价＋单位变动成本＋单位产品销售税额）C. 年总固定成本/（产品销售单价×（1－销售税率）＋单位变动成本）D. 年总固定成本/（产品销售单价－单位变动成本－单位产品销售税额）试题答案：D7、Naive Bayes是属于数据挖掘中的什么方法？（）（单选题）A. 聚类B. 分类C. 时间序列D. 关联规则试题答案：B8、当贴现率与内部收益率相等时（）（多选题）A. 净现值等于0B. 现值指数等于0C. 净现值等于1D. 现值指数等于1试题答案：A,D9、ROC曲线凸向哪个角，代表模型越理想？（）（单选题）A. 左上角B. 右上角C. 左下角D. 右下角试题答案：A10、在假设检验中，犯一类错误的概率和犯第二类错误的概率的关系是（）（多选题）A. 只能直接控制，不能直接控制B. 和不可能同时减小C. 在其他条件不变的情况下，增大，必然后减小D. 在其他条件不变的情况下，增大，必然后增大E. 增加样本容量可以同时减小和试题答案：A,C,E11、下列度量不具有反演性的是（）（单选题）A. 系数B. 几率C. Cohen度量D. 兴趣因子试题答案：D12、等年值法需要将参与比较的方案的收益现值按约定计算期折算为均匀序列的（）（单选题）A. 永续年金B. 预付年金C. 普通年金D. 递延年金试题答案：C13、相关分析的任务有（）。

基于分布式数据流的大数据分类模型和算法

基于分布式数据流的大数据分类模型和算法一、本文概述随着信息技术的飞速发展，大数据已经成为现代社会的重要特征。

大数据的涌现不仅改变了数据的存储和管理方式，也带来了数据分析和处理的新挑战。

其中，大数据分类作为大数据处理的关键环节，对于提取数据中的有效信息、发现数据的潜在价值具有重要意义。

然而，传统的大数据分类模型往往面临着处理速度慢、准确性低等问题，无法满足日益增长的数据处理需求。

因此，研究基于分布式数据流的大数据分类模型和算法成为了当前的研究热点。

本文旨在探讨基于分布式数据流的大数据分类模型和算法的研究现状与发展趋势。

文章将介绍大数据分类的基本概念、分类模型的分类与特点，以及分布式数据流处理的相关技术。

文章将重点分析几种典型的基于分布式数据流的大数据分类模型，包括其原理、优势和应用场景。

然后，文章将探讨这些模型在实际应用中所面临的挑战和解决方法。

文章将展望基于分布式数据流的大数据分类模型和算法的未来发展方向，以期为相关领域的研究和应用提供参考和借鉴。

二、分布式数据流处理技术在大数据处理领域，分布式数据流处理技术占据了至关重要的地位。

与传统的批量数据处理不同，数据流处理要求系统能够实时、连续地处理不断产生的数据，这就对处理技术的效率和扩展性提出了极高的要求。

分布式数据流处理技术通过将数据流分散到多个节点进行处理，再通过节点间的通信与协作，实现对数据的高效处理。

分布式数据流处理技术的核心在于其能够充分利用集群的计算资源和存储资源，实现数据的并行处理。

每个节点可以独立地处理一部分数据流，并通过网络与其他节点进行数据交换和协作。

这种并行化的处理方式可以显著提高数据处理的效率，使得系统能够应对大规模的数据流。

分布式数据流处理技术还需要解决一系列技术挑战，如数据的分布与平衡、节点的容错与恢复、数据流的实时性与准确性等。

在数据的分布与平衡方面，系统需要确保数据能够均匀地分布到各个节点，避免部分节点过载而其他节点空闲的情况。

数据分析真题汇编附答案

数据分析真题汇编附答案一、选择题1．校团委组织开展“医助武汉捐款”活动，小慧所在的九年级(1)班共40名同学进行了捐款，已知该班同学捐款的平均金额为10元，二小慧捐款11元，下列说法错误的是( ) A．10元是该班同学捐款金额的平均水平B．班上比小慧捐款金额多的人数可能超过20人C．班上捐款金额的中位数一定是10元D．班上捐款金额数据的众数不一定是10元【答案】C【解析】【分析】根据平均数，中位数及众数的定义依次判断.【详解】∵该班同学捐款的平均金额为10元，∴10元是该班同学捐款金额的平均水平，故A正确；∵九年级(1)班共40名同学进行了捐款，捐款的平均金额为10元，∴班上比小慧捐款金额多的人数可能超过20人，故B正确；班上捐款金额的中位数不一定是10元，故C错误；班上捐款金额数据的众数不一定是10元，故D正确，故选：C.【点睛】此题考查数据统计中的平均数，中位数及众数的定义，正确理解定义是解题的关键. 2．某校组织“国学经典”诵读比赛，参赛10名选手的得分情况如表所示：那么，这10名选手得分的中位数和众数分别是（）A．85.5和80 B．85.5和85 C．85和82.5 D．85和85【答案】D【解析】【分析】众数是一组数据中出现次数最多的数据，注意众数可以不只一个；找中位数要把数据按从小到大的顺序排列，位于最中间的一个数（或两个数的平均数）为中位数．【详解】数据85出现了4次，最多，故为众数；按大小排列第5和第6个数均是85，所以中位数是85．故选：D．【点睛】本题主要考查了确定一组数据的中位数和众数的能力．一些学生往往对这个概念掌握不清楚，计算方法不明确而误选其它选项．注意找中位数的时候一定要先排好顺序，然后再根据奇数和偶数个来确定中位数，如果数据有奇数个，则正中间的数字即为所求．如果是偶数个则找中间两位数的平均数．3．在只有15人参加的演讲比赛中，参赛选手的成绩各不相同，若选手要想知道自己是否进入前8名，只需要了解自己的成绩以及全部成绩的( )A．平均数B．中位数C．众数D．以上都不对【答案】B【解析】【分析】此题是中位数在生活中的运用，知道自己的成绩以及全部成绩的中位数就可知道自己是否进入前8名．【详解】15名参赛选手的成绩各不相同，第8名的成绩就是这组数据的中位数，所以选手知道自己的成绩和中位数就可知道自己是否进入前8名．故选B．【点睛】理解平均数，中位数，众数的意义.4．某小组长统计组内6人一天在课堂上的发言次数分別为3，3，4，6，5，0．则这组数据的众数是()A．3 B．3.5 C．4 D．5【答案】A【解析】【分析】根据众数的定义，找数据中出现次数最多的数据即可．【详解】在3，3，4，6，5，0这组数据中，数字3出现了2次，为出现次数最多的数，故众数为3．故选A．【点睛】本题考查了众数的概念．众数是一组数据中出现次数最多的数据．5．分析题中数据，将15名运动员的成绩按从小到大的顺序依次排列，处在中间位置的一个数即为运动员跳高成绩的中位数；6．下面的统计图表示某体校射击队甲、乙两名队员射击比赛的成绩，根据统计图中的信息，下列结论正确的是（）A．甲队员成绩的平均数比乙队员的大B．乙队员成绩的平均数比甲队员的大C．甲队员成绩的中位数比乙队员的大D．甲队员成绩的方差比乙队员的大【答案】D【解析】【分析】根据平均数、中位数和方差的计算公式分别对每一项进行分析，即可得出答案．【详解】甲队员10次射击的成绩分别为6，7，7，7，8，8，9，9，9，10，则中位数882=8，甲10次射击成绩的平均数=（6+3×7+2×8+3×9+10）÷10=8（环），乙队员10次射击的成绩分别为6，7，7，8，8，8，8，9，9，10，则中位数是8，乙10次射击成绩的平均数=（6+2×7+4×8+2×9+10）÷9=8（环），甲队员成绩的方差=110×[（6-8）2+3×（7-8）2+2×（8-8）3+3×（9-8）2+（10-8）2]=1.4；乙队员成绩的方差=110×[（6-8）2+2×（7-8）2+4×（8-8）3+2×（9-8）2+（10-8）2]=1.2，综上可知甲、乙的中位数相同，平均数相同，甲的方差大于乙的方差，故选D．【点睛】本题考查了平均数、中位数和方差的定义和公式，熟练掌握平均数、中位数、方差的计算是解题的关键.7．在去年的体育中考中，某校6名学生的体育成绩统计如下表：成绩171820人数231则下列关于这组数据的说法错误的是（）A．众数是18 B．中位数是18 C．平均数是18 D．方差是2【答案】D【解析】【分析】根据众数、中位数的定义和平均数、方差的计算公式分别进行解答即可．【详解】A、这组数据中18出现了3次，次数最多，则这组数据的众数是18．故本选项说法正确；B、把这组数据从小到大排列，最中间两个数的平均数是（18+18）÷2＝18，则中位数是18．故本选项说法正确；C、这组数据的平均数是：（17×2+18×3+20）÷6＝18．故本选项说法正确；D、这组数据的方差是：16[2×（17﹣18）2+3×（18﹣18）2+（20﹣18）2]＝1．故本选项说法错误．故选D．【点睛】本题考查了众数、中位数、平均数和方差，众数是一组数据中出现次数最多的数；中位数是将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（或最中间两个数的平均数）；平均数是所有数据的和除以数据总数；一般地设n个数据，x1，x2，…x n的平均数为x，则方差S2=1n[（x1-x）2+（x2-x）2+…+（x n-x）2]．8．如图是根据我市某天七个整点时的气温绘制成的统计图，则这七个整点时气温的中位数和众数分别是（）A．中位数31，众数是22 B．中位数是22，众数是31C．中位数是26，众数是22 D．中位数是22，众数是26【答案】C【解析】【分析】根据中位数，众数的定义即可判断．【详解】七个整点时数据为：22，22，23，26，28，30，31所以中位数为26，众数为22故选：C．【点睛】此题考查中位数，众数的定义，解题关键在于看懂图中数据9．一组数据3、2、1、2、2的众数，中位数，方差分别是：（）A．2，1，2 B．3，2，0.2 C．2，1，0.4 D．2，2，0.4【答案】D【解析】【分析】根据众数，中位数，方差的定义计算即可.【详解】将这组数据重新由小到大排列为：12223、、、、平均数为：1222325++++=2出现的次数最多，众数为：2中位数为：2方差为：()()()()()22222212222222320.45s-+-+-+-=+-=故选：D【点睛】本题考查了确定数据众数，中位数，方差的能力，解题的关键是熟悉它们的定义和计算方法.10．下列说法正确的是（）A．要调查人们对“低碳生活”的了解程度，宜采用普查方式B．一组数据：3，4，4，6，8，5的众数和中位数都是3C．必然事件的概率是100%，随机事件的概率是50%D．若甲组数据的方差S甲2=0.128，乙组数据的方差是S乙2=0.036，则乙组数据比甲组数据稳定【答案】D【解析】A、由于涉及范围太广，故不宜采取普查方式，故A选项错误；B、数据3，4，4，6，8，5的众数是4，中位数是4.5，故B选项错误；C、必然事件的概率是100%，随机事件的概率是50%，故C选项错误；D、方差反映了一组数据的波动情况，方差越小数据越稳定，故D选项正确．故选D．11．下列说法正确的是（）A．对角线相等的四边形一定是矩形B．任意掷一枚质地均匀的硬币10次，一定有5次正面向上C．如果有一组数据为5，3，6，4，2，那么它的中位数是6D ．“用长分别为5cm 、12cm 、6cm 的三条线段可以围成三角形”这一事件是不可能事件【答案】D 【解析】【分析】根据矩形的判定定理，数据出现的可能性的大小，中位数的计算方法，不可能事件的定义依次判断即可. 【详解】A.对角线相等的平行四边形是矩形，故该项错误；B. 任意掷一枚质地均匀的硬币10次，不一定有5次正面向上，故该项错误；C. 一组数据为5，3，6，4，2，它的中位数是4，故该项错误；D. “用长分别为5cm 、12cm 、6cm 的三条线段可以围成三角形” 这一事件是不可能事件，正确，故选：D. 【点睛】此题矩形的判定定理，数据出现的可能性的大小，中位数的计算方法，不可能事件的定义，综合掌握各知识点是解题的关键.12．已知一组数据2a -，42a +，6，83a -，9，其中a 为任意实数，若增加一个数据5，则该组数据的方差一定（） A ．减小 B ．不变 C ．增大 D ．不确定【答案】A 【解析】【分析】先把原来数据的平均数算出来，再把方差算出来，接着把增加数据5以后的平均数算出来，从而可以算出方差，再把两数进行比较可得到答案. 【详解】解：原来数据的平均数=242683925555a a a -++++-+==，原来数据的方差=222222(25)(45)(265)(835)(95)5a a a S --+-++-+--+-=，增加数据5后的平均数=2426839530565a a a -++++-++==（平均数没变化），增加数据5后的方差=22222221(25)(45)(265)(835)(95)(55)6a a a S --+-++-+--+-+-=，比较2S ，21S 发现两式子分子相同，因此2S ＞21S （两个正数分子相同，分母大的反而小），故答案为A. 【点睛】本题主要考查了方差的基本概念，熟记方差的公式是解本题的关键，要比较增加数据后的方差的变化，可分别求出原来的方差和改变数据后的方差，再进行比较.13．如图是成都市某周内日最高气温的折线统计图，关于这7天的日最高气温的说法正确的是（）A．极差是8℃B．众数是28℃C．中位数是24℃D．平均数是26℃【答案】B【解析】分析：根据折线统计图中的数据可以判断各个选项中的数据是否正确，从而可以解答本题．详解：由图可得，极差是：30-20=10℃，故选项A错误，众数是28℃，故选项B正确，这组数按照从小到大排列是：20、22、24、26、28、28、30，故中位数是26℃，故选项C 错误，平均数是：2022242628283032577++++++=℃，故选项D错误，故选B．点睛：本题考查折线统计图、极差、众数、中位数、平均数，解答本题的关键是明确题意，能够判断各个选项中结论是否正确．14．在光明中学组织的全校师生迎“五四”诗词大赛中，来自不同年级的25名参赛同学的得分情况如图所示．这些成绩的中位数和众数分别是（）A．96分，98分B．97分，98分C．98分，96分D．97分，96分【答案】A【解析】【分析】利用众数和中位数的定义求解．【详解】98出现了9次，出现次数最多，所以数据的众数为98分；共有25个数，最中间的数为第13个数，是96，所以数据的中位数为96分．故选A．【点睛】本题考查了众数：一组数据中出现次数最多的数据叫做众数．也考查了中位数．15．某班有40人，一次体能测试后，老师对测试成绩进行了统计．由于小亮没有参加本次集体测试因此计算其他39人的平均分为90分，方差s2＝41．后来小亮进行了补测，成绩为90分，关于该班40人的测试成绩，下列说法正确的是（）A．平均分不变，方差变大B．平均分不变，方差变小C．平均分和方差都不变D．平均分和方差都改变【答案】B【解析】【分析】根据平均数、方差的定义计算即可.【详解】∵小亮的成绩和其它39人的平均数相同，都是90分，∴40人的平均数是90分，∵39人的方差为41，小亮的成绩是90分，40人的平均分是90分，∴40人的方差为[41×39+(90-90)2]÷40<41，∴方差变小，∴平均分不变，方差变小故选B.【点睛】本题考查了平均数与方差，熟练掌握定义是解题关键.16．某校九年级开展“光盘行动”宣传活动，各班级参加该活动的人数统计结果如下表，对于这组统计数据，下列说法中正确的是（）A ．平均数是58B ．中位数是58C ．极差是40D ．众数是60【答案】A 【解析】分别根据平均数，中位数，极差，众数的计算方法计算即可作出判断平均数是指在一组数据中所有数据之和再除以数据的个数，因此，这组数据的平均数是：526062545862586+++++=．中位数是一组数据从小到大（或从大到小）重新排列后，最中间的那个数（最中间两个数的平均数）．由此将这组数据重新排序为52，54，58，60，62，62，∴中位数是按从小到大排列后第3，4个数的平均数为：59．根据一组数据中的最大数据与最小数据的差叫做这组数据的极差的定义，这组数据的极差是： 62－52=10．众数是在一组数据中，出现次数最多的数据，这组数据中，出现次数最多的是62，故这组数据的众数为62．综上所述，说法正确的是：平均数是58．故选A ．17．一组数据-2，3，0，2，3的中位数和众数分别是（） A ．0，3 B ．2，2C ．3，3D ．2，3【答案】D 【解析】【分析】根据中位数和众数的定义解答即可．【详解】将这组数据从小到大的顺序排列为：﹣2，0，2，3，3，最中间的数是2，则中位数是2；在这一组数据中3是出现次数最多的，故众数是3．故选D ．【点睛】本题考查了众数与中位数的意义．将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（或最中间两个数的平均数）叫做这组数据的中位数；如果中位数的概念掌握得不好，不把数据按要求重新排列，就会出错．18．在“童心向党，阳光下成长”合唱比赛中，30个参赛队的决赛成绩如下表：比赛成绩/分9.59.69.79.89.9参赛队个数98643则这30个参赛队决赛成绩的中位数和众数分别是（）A．9.7，9.5 B．9.7，9.9 C．9.6，9.5 D．9.6，9.6【答案】C【解析】【分析】根据众数和中位数的定义求解可得．【详解】解：由表知，众数为9.5分，中位数为＝9.6（分），故选：C．【点睛】考查了众数和中位数的定义，一组数据中出现次数最多的数据叫做众数；找中位数要把数据按从小到大的顺序排列，位于最中间的一个数（或两个数的平均数）为中位数；众数是一组数据中出现次数最多的数据，注意众数可以不止一个．19．据统计，某住宅楼30户居民五月份最后一周每天实行垃圾分类的户数依次是：27，30，29，25，26，28，29，那么这组数据的中位数和众数分别是（）A．25和30 B．25和29 C．28和30 D．28和29【答案】D【解析】【分析】根据中位数和众数的定义进行求解即可得答案.【详解】对这组数据重新排列顺序得，25，26，27，28，29，29，30，处于最中间是数是28，∴这组数据的中位数是28，在这组数据中，29出现的次数最多，∴这组数据的众数是29，故选D．【点睛】本题考查了中位数和众数的概念，熟练掌握众数和中位数的概念是解题的关键.一组数据中出现次数最多的数据叫做众数，一组数据按从小到大（或从大到小）排序后，位于最中间的数（或中间两数的平均数）是这组数据的中位数.20．某中学为了了解同学们平均每月阅读课外书籍的情况，在某年级随机抽查了20名同学，结果如下表所示：这些同学平均每月阅读课外书籍本数的中位数和众数为( )A．5，5 B．6，6 C．5，6 D．6，5【答案】D【解析】【分析】根据中位数和众数的定义分别进行解答即可．【详解】把这组数据从小到大排列中间的两个数都是6，则这组数据的中位数是6；5出现了6次，出现的次数最多，则众数是5．故选D．【点睛】此题考查了中位数和众数，将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（或最中间两个数的平均数）叫做这组数据的中位数；众数是一组数据中出现次数最多的数．。

数据分析技巧及练习题附答案

A、数据中 5 出现 2 次，所以众数为 5，此选项正确；
B、数据重新排列为 3、5、5、7、10，则中位数为 5，此选项正确；
C、平均数为（7+5+3+5+10）÷5=6，此选项正确；
D、方差为 1 ×[（7﹣6）2+（5﹣6）2×2+（3﹣6）2+（10﹣6）2]=5.6，此选项错误； 5
故选：D．
D．平均分和方差都改变
【答案】B
【解析】
【分析】
根据平均数，方差的定义计算即可．
【详解】
解：∵小亮的成绩和其他 39 人的平均数相同，都是 90 分，
∴该班 40 人的测试成绩的平均分为 90 分，方差变小，
故选：B．
【点睛】
本题考查方差，算术平均数等知识，解题的关键是理解题意，灵活运用所学知识解决问
【点睛】
本题主要考查了方差、平均数、中位数以及众数的知识，解答本题的关键是熟练掌握各个
知识点的定义以及计算公式，此题难度不大．
2．甲、乙、丙三个不同品种的苹果树在同一地区进行对比试验，从每个品种的苹果树中随机各抽取 10 棵，对它们的产量进行统计，绘制统计表如下：
品种
甲
乙
丙
平均产量/(千克/棵) 90
C．平均数是 109.5
D．中位数是 109
【答案】A
【解析】
【分析】
根据众数、中位数的概念求出众数和中位数，根据平均数和方差的计算公式求出平均数和
方差．
【详解】
解：这组数据的众数是 110，A 正确；
x 1 ×（110+106+109+111+108+110）＝109，C 错误； 6

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据分析算法与模型模拟题（一）
一、计算题（共4题，100分）
1、影响中国人口自然增长率的因素有很多，据分析主要因素可能有：（1）从宏观经济上看，经济整体增长是人口自然增长的基本源泉；（2）居民消费水平，它的高低可能会间接影响人口增长率。

(3)文化程度，由于教育年限的高低，相应会转变人的传统观念，可能会间接影响人口自然增长率（4）人口分布，非农业与农业人口的比率也会对人口增长率有相应的影响。

为了全面反映中国“人口自然增长率”的全貌，选择人口增长率作为被解释变量，以反映中国人口的增长；选择“国名收入”及“人均GDP”作为经济整体增长的代表；选择“居民消费价格指数增长率”作为居民消费水平的代表。

暂不考虑文化程度及人口分布的影响。

从《中国统计年鉴》收集到以下数据（见表1）：
表1 中国人口增长率及相关数据
年份人口自然增长率
（%。

）
国民总收入
（亿元）
居民消费价格指数增长
率（CPI）%
人均GDP
（元）
1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420
1998 9.14 83024 -0.8
6796
1999 8.18
88479 -1.4 7159
2000
7.58 98000 0.4
7858
2001 6.95 108068 0.7
8622
2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024
设定的线性回归模型为：
算法1多元线性回归.xlsx
（1）求出模型中的各个参数，试从多个角度评价此线性回归模型，并检验模型的经济意义；
（2）检验模型中是否存在多重共线性问题（逐步回归），若有，试消除多重共线性。

解：
（1）首先进行数据预处理，数据经检查，无缺失值，接着将数据导入dataHoop 平台中，进行异常值检验等分析，数据基本正常，但是数据存在多重共线性，多重共线性将在第二问中详述。

然后对数据进行多元线性回归拟合，以人口自然增长率(Y)作为因变量，国民总收入(X1)、居民消费价格指数增长率(X2)和人均GDP(X3)作为自变量，得到拟合结果为：
Y = 14.7236 + 0.0003X1 + 0.0644X2 - 0.0052X3
调整R方为0.8831，F检验的p值为0，(常数项)t检验的p值为0，国民总收入t检验的p值为0.0427，居民消费价格指数增长率t检验的p值为0.1359，人均GDPt检验的p值为0.0243。

该模型解释为在其他变量不变的情况下，国民收入每增长1亿元，则人口增长率随之增长0.0003%；在其他变量不变的情况下，居民消费价格指数增长率每增长1%，则人口增长率随之增长0.0644%；在其他变量不变的情况下，人均GDP每增长1元，则人口增长率随之降低0.0052%。

居民
消费价格指数增长率CPI与人口增长率呈正增长与现实情况不符，说明模型反映出的统计学意义与实际情况不完全相符，可能是因为自变量之间存在共线性。

（2）发现国民收入与人均GDP相关系数高达0.9996，两个变量间极高度相关，因此得到回归方程存在多重共线性。

变量间的多重共性对基于最小二乘法的回归模型模拟结果有非常严重的影响，导致回归结果不准确。

采用“逐步回归法”对模型进行优化消除变量间的多重共线性。

分别对单个变量进行分析：
国民总收入(X1)：
居民消费价格指数增长率(X2)：
人均GDP(X3)：
通过对比，X3的调整R方更高，且均通过检验，所以采用X3为基础变量；人均GDP(X3)和国民总收入(X1)：
人均GDP(X3)和居民消费价格指数增长率(X2)：
显然X1和X3的组合的调整R方更大，且均通过了检验。

人均GDP(X3)、国民总收入(X1)和居民消费价格指数增长率(X2)：
当加入X2后，虽然调整R方有了一定的增加，但是X2的假设检验并没有通过，所以采用X1和X3两个变量的方程。

方程为：
Y = 15.7418 + 0.0004X1 – 0.0058X3
2、对近期上映的10部电影进行调查研究，抽取290人对这10部电影的评分（分值0~10分），结果如下表所示。

（1）根据表中数据对这10部电影的评分进行因子分析，并解析各个因子的含义；
（2）可否利用电影的评分数据对这290名观影者进行聚类分析？给出你的理由。

算法2因子分析.xlsx
解：(1)首先计算所有变量的相关系数矩阵，从结果可以看出，大部分的相关系数均大于0.3，所以，此数据适合做因子分析。

按因子为4个进行分析，结果得到第四个因子比例仅占比3%左右，所以该数据隐含因子设定为3个。

载荷矩阵如下：
所以，容易看出，第一因子为动作片，第二因子为爱情片，第三因子为动画片。

（2）同观众可能会偏好不同类型的电影，体现在对不同类型电影的评分不同。

因此可以利用电影评分数据对观众进行聚类分析。

3、某超市为了优化商品摆放结构，对近期顾客购买的商品类型进行了统计，如附表所示。

（1）写出所有有效强关联规则（minsupport=10%，minconfidence=50%）；（2）结合实际情况分析顾客喜欢的商品搭配，并对该超市提出合理的建议。

算法3关联分析.xlsx
（1）支持度大于1的均为有效强关联规则。

数据无缺失值，几个变量（商品）的值为T/F，在DATEHOOP的关联分析中可被识别，故直接将数据导入datehoop对变量果蔬、鲜肉、奶制品、蔬菜制品、肉制品、冷冻食品、啤酒、红酒、软饮料、鱼类、糖果进行关联分析。

设置最小支持度为0.1、最小置信度为0.5，得到的强关联规则中提升度大于1的有效强关联规则如下所示:{冷冻食品}->{蔬菜制品},{蔬菜制品}->{冷冻食品},{啤酒}->{冷冻食品},{冷冻食品}->{啤酒},{啤酒}->{蔬菜制品},{蔬菜制
品}->{啤酒},{鲜肉}->{红酒},{红酒}->{鲜肉},{冷冻食品,啤酒}->{蔬菜制品},{蔬菜制品,啤酒}->{冷冻食品},{蔬菜制品,冷冻食品}->{啤酒}
（2）由（1）可见，蔬菜制品、冷冻食品、啤酒之前存在较高的关联性，故建议将三类商品陈列区域互相临近；另，红酒与鲜肉之前存在较高的关联性，故建议将两类商品陈列区域互相临近。

4、某市为调查驾驶员视力情况（“1”表示视力正常，“0”表示有视力缺陷）、年龄、是否有驾驶教育经历（“1”表示有，“0”表示没有），这三个因素对是否曾引起交通事故（“1”表示发生过，“0”表示未发生过）的影响，随机抽样调查了45名驾驶员，得到数据如下：
（1）建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响，写出详细的思路过程。

（2）若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些，则还需要进行的研究步骤有哪些？请说明。

算法4逻辑回归.xlsx
（1）数据类型是数值型的不需要数值化，而且不存在缺失值。

逻辑回归要考虑异常值的影响，以及变量是否存在共线性，因此我们进行异常值分析和相关性分析。

异常值分析发现异常值较多，猜测可能是分类的影响，因此不做处理。

由相关矩阵可看出变量之间虽然也有相关，但不是很强，因此可以进行逻辑回归。

以accident为因变量，视力状况、age、drive为自变量进行逻辑回归分析，分析结果如下：
得到逻辑回归方程ln(P(Yi)/(1-P(Yi))=-0.0819+-0.7412
x1+0.032x2-1.4972x3
可以看到Accuracy、AUC、准确率召回率等都较大，模型拟合效果较好，训练误差不大。

（2）若想用此模型优化成为可以用来预测哪些人可能会引起过交通事故，则一方面需进一步丰富样本量（本题只有45个样本），在大样本量的基本上继续使用训练数据集、测试数据集训练模型的拟合度，直到泛化误差小到可接受的范围内，再进一步应用到预测中来。

最新数据分析算法与模型(一)(附答案)

合集下载

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

大数据算法与模型考试选择题 60题

数据分析答案完整版(整理)

数据分析基础测试题附答案解析

数据分析及应用习题库(附答案)

数据分析算法与模型模拟题(附答案)

数据分析面试题1

智慧树知道网课《算法分析与设计(山东联盟)》课后章节测试满分答案1

数据分析经典测试题附答案

教科版(2019)必修1《第五单元_数据分析与人工智能》2022年单元测试卷(1)+答案解析(附后)

数据结构与算法题库(含参考答案)

Python数据分析与可视化习题答案

田翠华著《算法设计与分析》课后习题参考答案

2021项目数据分析师理论考试真题模拟及答案(3)

基于分布式数据流的大数据分类模型和算法

数据分析真题汇编附答案

数据分析技巧及练习题附答案

文档推荐

最新文档

最新数据分析算法与模型(一)(附答案)

合集下载

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

大数据算法与模型考试 选择题 60题

数据分析答案完整版(整理)

数据分析基础测试题附答案解析

数据分析及应用习题库(附答案)

数据分析算法与模型模拟题(附答案)

数据分析面试题1

智慧树知道网课《算法分析与设计(山东联盟)》课后章节测试满分答案1

数据分析经典测试题附答案

教科版(2019)必修1《第五单元_数据分析与人工智能》2022年单元测试卷(1)+答案解析(附后)

数据结构与算法题库(含参考答案)

Python数据分析与可视化习题答案

田翠华著《算法设计与分析》课后习题参考答案

2021项目数据分析师理论考试真题模拟及答案(3)

基于分布式数据流的大数据分类模型和算法

数据分析真题汇编附答案

数据分析技巧及练习题附答案

文档推荐

最新文档

大数据算法与模型考试选择题 60题