第八章 分类数据分析
- 格式:doc
- 大小:103.50 KB
- 文档页数:3
第八章数据的收集与整理1 数据的收集收集数据的方法(1)调查或试验:通过设计等方式得到想要的信息,然后对数据进行整理、描述.(2)查资料:当调查或试验项目很大,我们个人无法完成时,还可以通过查阅报纸、相关文献或上网的方式,获得数据信息.数据的收集[典例]在数学、外语、语文3门学科中,某校七年级开展了同学们最喜欢学习哪一门学科的调查.(七年级共有200人)(1)调查的问题是什么?(2)调查的对象是谁?(3)在被调查的200名学生中,有40人最喜欢学语文,80人最喜欢学数学,60人最喜欢学外语,其余的人选择其他,根据调查情况,把七年级的学生最喜欢学习某学科的人数及其占学生总数的百分比填入下表:(4)根据以上调查结果,你能得到什么结论?[变式1]某学校课外活动小组为了解同学们最喜欢的电影类型,设计了如下调查问卷(不完整):准备在“①国产片,②科幻片,③动作片,④喜剧片,⑤亿元大片”中选取三个作为该问题的备选答案,选取合理的是( )A.①②③B.①③⑤C.②③④D.②④⑤[变式2]某校篮球队员的身高(单位:cm)如下:167,168,167,164,168,168, 163,168,167,160.获得这组数据所用的方法是( )A.问卷调查B.查阅资料C.实地调查D.试验[变式3]小明调查全班45名同学对绘画的喜欢程度,其结果如下:A B B B D B B A B B B D A B BB A B B BC A BD C B B C B CB C B A C B C D B C C A C C A其中A代表特别喜欢,B代表比较喜欢,C代表无所谓,D代表不喜欢. 请填写表格(百分比四舍五入精确到个位).全班同学对绘画喜欢程度的人数分布表[变式4]有关部门规定:初中学生每天的睡眠时间不得少于9 h,请对你班的同学作一次调查,了解有多大比例的学生每天睡眠不足9 h.(1)调查的问题是什么?(2)调查的对象是谁?(3)共调查多少人?每天睡眠时间不足9 h的有多少人?占多大百分比?2 普查和抽样调查1.普查、总体、个体为某一特定目的而对所有考查对象进行的全面调查叫做,所要考察对象的全体称为,而组成总体的每一个考察对象称为.2.抽样调查、样本、样本容量从总体中抽取部分个体进行调查,这种调查称为,其中从总体抽取的一部分个体叫做总体的一个,样本中个体的数量叫做.总体、个体、样本[典例1]下列抽样调查中的总体、个体、样本分别是什么?(1)为了让学生了解环保知识,增强环保意识,某中学举行了一次“环保知识竞赛”,共有900名学生参加了这次竞赛.为了了解本次竞赛的成绩情况,从中抽取了50名学生的成绩进行统计分析.(2)为了了解一批灯泡的使用寿命,从中抽取30只灯泡进行试验.[变式1]某市今年共有7万名考生参加中考,为了了解这7万名考生的数学成绩,从中抽取1 000名考生的数学成绩进行统计分析.以下说法正确的有( )①这种调查方式是抽样调查;②7万名考生是总体;③每名考生的数学成绩是个体;④被抽取的1 000名考生的数学成绩是总体的一个样本;⑤1 000名考生是样本容量.A.1个B.2个C.3个D.4个普查和抽样调查[典例2]下面调查中,最适合采用普查的是( )A.对全国中学生视力状况的调查B.了解某市八年级学生身高情况C.调查人们垃圾分类的意识D.对某飞船零部件的调查[变式2]下列调查中,最适合采用抽样调查方式的是( )A.对某飞机上旅客随身携带易燃易爆危险物品情况的调查B.对国产航母各零部件质量情况的调查C.对某中学八(1)班数学期末成绩情况的调查D.对全国公民知晓某电视节目的调查[变式3]下列调查中,哪些是用全面调查的方式,哪些是用抽样调查方式来收集数据的?(1)为了了解所在班级的每名同学的身高,在全班范围内进行调查.(2)为了了解所在班级的同学每天的学习时间,选取班级中学号为单号数的所有同学进行调查.(3)为了了解某奶牛场中500头奶牛的产奶量,从中抽取出50头进行分析测量.3 数据的表示第1课时扇形统计图1.扇形统计图是利用圆和扇形来表示和的关系,扇形的大小反映部分占总体的百分比的大小.2.在扇形统计图中,每部分占总体的百分比等于该部分所对应扇形的圆心角的度数与的比.3.扇形统计图可以直观地反映各部分在总体中所占的.4.扇形统计图中各部分所占的百分比之和应等于.5.绘制扇形统计图的一般步骤(1)计算各部分数量占总量的百分比;(2)计算圆心角的度数;(3)画出各个扇形;(4)标上名称.扇形统计图的绘制[典例1]体育老师对六(1)班学生最喜爱的体育项目进行了调查,结果如表所示:请你根据以上数据画出扇形统计图.[变式]以“月球上是否有水”为例,对育才中学七(1)班60名同学的调查结果如表所示:请根据上述调查结果,回答下列问题.(1)计算每种看法的同学人数占全体同学人数的百分比;(2)计算扇形统计图中各种看法对应扇形的圆心角度数;(3)在圆中依次画出各种看法对应的扇形,并标上百分比(如图所示).扇形统计图与条形统计图的综合[典例2]学习了统计知识后,小亮的数学老师要求每名学生就本班同学的上学方式进行一次调查,如图所示是小亮通过收集、整理数据后绘制的两幅不完整的统计图,请根据图中提供的信息,解答下列问题:(1)该班共有名学生;(2)将条形统计图补充完整;(3)在扇形统计图中,求出“乘车”部分所对应的圆心角的度数.第2课时频数直方图1.当遇到大量数据或数据连续取值时,我们通常先将数据适当分组,然后可以制作直方图直观地反映整体状况.2.制作频数直方图的大致步骤(1)确定所给数据的和;(2)将数据适当;(3)统计每组中数据出现的;(4)绘制.绘制频数直方图[典例1]某地某月1~20日中午12时的气温(单位:℃)如下:22 31 25 15 18 23 21 20 27 1720 12 18 21 21 16 20 24 26 19 (1)将频数分布表补充完整:(2)补全频数直方图;(3)根据频数分布表或频数直方图,分析数据的分布情况.[变式]如图所示是某校八(2)班学生的一次体检中每分心跳次数的频数分布直方图(次数均为整数).该班李红同学参加了此次体检,她心跳每分68次,有下列说法:①李红每分心跳次数落在第1小组;②第3小组的频数为0.15;③每分心跳次数低于80次的人数占该班体检人数的3.4其中正确的是( )A.①②B.①③C.②③D.①②③扇形统计图与频数直方图[典例2]某学校就假期“平均每天与父母一起共同干家务所用时长”进行了调查,如图所示是根据相关数据绘制的统计图的一部分,根据上述信息,回答下列问题:(1)在本次随机抽取的样本中,调查的学生人数是多少?(2)求m,n的值.(3)补全频数分布直方图.(4)若该校共有学生3 000人,请你估计“平均每天与父母一起共同干家务所用时长不少于30 min”的学生大约有多少人.4 统计图的选择1.三种常用统计图生活中常用的统计图有统计图、统计图和统计图,频数直方图是特殊的统计图.2.各种统计图的特点(1)条形统计图能清楚地表示出每个项目的.(2)折线统计图能清楚地反映事物的.(3)扇形统计图能清楚地表示出各部分在总体中所占的.统计图的选择[典例1](2021盘锦)空气是由多种气体混合组成的,为了直观地介绍空气各成分的百分比,最适合使用的统计图是( )A.条形统计图B.扇形统计图C.折线统计图D.频数分布直方图[变式1]要反映某市一周大气中PM2.5的变化情况,最宜采用( ) A.条形统计图 B.扇形统计图C.折线统计图D.频数分布直方图[变式2]某校食堂有甲、乙、丙三种套餐,为了解哪种套餐更受欢迎,随机调查了该校200名学生,根据调查数据绘制统计图,为了更直观地表示出喜欢每种套餐的具体人数,应选择( )A.条形统计图B.折线统计图C.扇形统计图D.无法确定统计图的综合应用[典例2]某校数学实践小组就近期人们比较关注的五个话题:A.5G通讯; B.民法典;C.北斗导航;D.数字经济; E.小康社会,对某小区居民进行了随机抽样调查,每人只能从中选择一个本人最关注的话题,根据调查结果绘制了如图所示的两幅不完整的统计图.请结合统计图中的信息,解决下列问题:(1)在这次活动中,被调查的居民共有人;(2)将最关注话题条形统计图补充完整;(3)最关注话题扇形统计图中的a= ,话题D所在扇形的圆心角是度;(4)假设这个小区居民共有10 000人,请估计该小区居民中最关注的话题是“民法典”的人数.[变式3]在某次疫情发生后,根据疾控部门发布的统计数据,绘制出如图所示统计图:图①为A地区累计确诊人数的条形统计图,图②为B地区新增确诊人数的折线统计图.(1)根据图①中的数据,A地区星期三累计确诊人数为,新增确诊人数为.(2)已知A地区星期一新增确诊人数为14人,在图②中画出表示A地区新增确诊人数的折线统计图.(3)你对这两个地区的疫情进行怎样的分析、推断?参考答案:第八章数据的收集与整理1 数据的收集(1)调查问卷[典例]解:(1)调查的问题:在数学、外语、语文3门学科中,你最喜欢学习哪一门学科?(2)调查的对象:该校七年级的全体同学.(4)该校七年级学生最喜欢学习外语的人数最多(答案不唯一).[变式1]C [变式2]C[变式3]解:填表如下:全班同学对绘画喜欢程度的人数分布表[变式4]解:(1)调查的问题:了解有多大比例的学生每天睡眠不足9 h.(2)调查的对象:本班所有学生.×100%=40%.(根据实际情(3)共调查45人,每天睡眠时间不足9 h的有18人,所占百分比为1845况作答即可)2 普查和抽样调查1.普查总体个体2.抽样调查样本样本容量[典例1]解:(1)总体是900名学生参加这次竞赛的成绩,个体是每一名学生参加这次竞赛的成绩,样本是被抽取的50名学生参加这次竞赛的成绩.(2)总体是这批灯泡的使用寿命,个体是每只灯泡的使用寿命,样本是被抽取的30只灯泡的使用寿命.[变式1]C[典例2]D [变式2]D[变式3]解:(1)为了了解所在班级的每名同学的身高,在全班范围内进行调查.属于全面调查.(2)为了了解所在班级的同学每天的学习时间,选取班级中学号为单号数的所有同学进行调查.属于抽样调查.(3)为了了解某奶牛场中500头奶牛的产奶量,从中抽取出50头进行分析测量.属于抽样调查.3 数据的表示第1课时扇形统计图1.总体部分2.360°3.比例4.1[典例1]解:学生总数为18+15+12+9+6=60.最喜爱各体育项目学生人数所占的百分比:篮球:18÷60×100%=30%;乒乓球:15÷60×100%=25%;足球:12÷60×100%=20%;排球:9÷60×100%=15%;其他:6÷60=10%.最喜爱各体育项目学生人数所对应扇形圆心角的度数:篮球:360°×30%=108°;乒乓球:360°×25%=90°;足球:360×20%=72°;排球:360×15%=54°;其他:360×10%=36°.画扇形统计图如图所示.[变式]解:(1)认为“有水”:15×100%=25%;60认为“没有水”:27×100%=45%;60×100%=30%.“不知道”:1860(2)认为“有水”:360°×25%=90°;认为“没有水”:360°×45%=162°;“不知道”:360°×30%=108°.(3)如图所示:[典例2]解:(1)50(2)50-25-15=10(人),补全的条形统计图如图所示.=108°.(3)360°×1550答:“乘车”部分所对应的圆心角的度数为108°.第2课时频数直方图1.频数2.(1)最大值最小值(2)分组(3)次数(4)频数直方图[典例1]解:(1)补充完整的频数分布表如下:划记(2)补全频数直方图如图所示:(3)由频数分布直方图,知气温在17≤x<22的天数最多,有10天.(答案不唯一)[变式]B[典例2]解:(1)在本次随机抽取的样本中,调查的学生人数是60÷30%=200(人).(2)因为20~30 min的人数为200-(60+40+50+10)=40(人),所以m%=40×100%=20%.200×100%=25%.n%=50200所以m=20,n=25.(3)补全的频数分布直方图如下:=900(人).(4)3 000×50+10200答:估计“平均每天与父母一起共同干家务所用时长不少于30 min”的学生大约有900人.4 统计图的选择1.条形折线扇形条形2.(1)具体数目(2)变化情况(3)百分比[典例1]B [变式1]C [变式2]A[典例2]解:(1)200(2)补全的条形统计图如图所示.(3)2536(4)10 000×30%=3 000(人).答:该小区居民中最关注的话题是“民法典”的人数大约有3 000人.[变式3]解:(1)4113(2)分别计算A地区这一周每一天的“新增确诊人数”为14,14,13,16,17,14,14.绘制的折线统计图如图所示.(3)A地区的累计确诊人数可能还会增加,防控形势十分严峻,并且每一天的新增确诊人数在13人及13人以上,变化不明显;而B地区的“新增确诊人数”不断减少,疫情防控向好的方向发展,说明防控措施比较到位.(答案不唯一)。
第八章成对数据的统计分析 8.3 分类变量与列联表一、选择题(共40小题;共200分)1. 某市政府在调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3000人,计算发现K2的观测值k=6.023,根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系这一断言犯错误的概率不超过( )P(K2≥k0)0.500.400.250.150.100.50.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828A. 0.1B. 0.05C. 0.025D. 0.0052. 某医疗研究所为了检验新开发的流感疫苗对甲型H7N9流感的预防作用,把1000名注射了疫苗的人与另外1000名未注射疫苗的人半年的感冒记录作比较,提出假设H o:“这种疫苗不能起到预防甲型H7N9流感的作用”,并计算出P(χ2≥6.635≈0.01),则下列说法正确的是( )A. 这种疫苗能起到预防甲型H7N9流感的有效率为1%;B. 若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H7N9;C. 有1%的把握认为“这种疫苗能启动预防甲型H7N9流感的作用”;D. 有99%的把握认为“这种疫苗能启动预防甲型H7N9流感的作用”.3. 通过随机询问110名大学生是否爱好某项运动,得到如下的列联表男女总计爱好402060不爱好203050总计6050110由上表算得k≈7.8,因此得到的正确结论是( )A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性别有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”4. 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女合计爱好402060不爱好203050合计6050110由K方公式算得:K2≈7.8,附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表:得到的正确的结论是( )A. 在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别无关”B. 在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别有关”C. 有99%以上的把握认为“爱好该运动与性别有关”D. 有99%以上的把握认为“爱好该运动与性别无关”5. 某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持该活动有关系”.P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828A. 0.1%B. 1%C. 99%D. 99.9%6. 考察棉花种子经过处理跟生病之间的关系得到如表数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则( )A. 种子经过处理与是否生病有关B. 种子经过处理与是否生病无关C. 种子经过处理决定是否生病D. 以上都是错误的7. 下列关于卡方(K2)的说法中正确的是( )A. K2在任何相互独立问题中都可以用于检验是否相关B. K2的值越大,两个事件的相关性越大C. K2是用来判断两个相互独立事件相关与否的一个统计量,它可以来判断两个事件是否相关这一类问题D. K2=n(n11n22−n12n21)n11+n12+n21+n228. 已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程为y^=b^x+a^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=bʹx+aʹ,则以下结论正确的是( )A. b^>bʹ,a^>aʹB. b^>bʹ,a^<aʹC. b^<bʹ,a^>aʹD. b^<bʹ,a^<aʹ9. 某企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了72名员工进行调查,所得的数据如表所示:积极支持改革不太支持改革合计工作积极28836工作一般162036合计442872对于人力资源部的研究项目,根据上述数据能得出的结论是(参考公式与数据:X2=n(n11n22−n12n21)2(n11+n12)(n11+n21)(n12+n22)(n21+n22).当Χ2>3.841时,有95%的把握说事件A与B有关;当Χ2>6.635时,有99%的把握说事件A与B有关;当Χ2<3.841时认为事件A与B无关.)( )A. 有99%的把握说事件A与B有关B. 有95%的把握说事件A与B有关C. 有90%的把握说事件A与B有关D. 事件A与B无关10. 下列说法中正确的是( )A. 若分类变量X和Y的随机变量K2的观测值k越大,则“X与Y相关”的可信程度越小B. 对于自变量x和因变量y,当x取值一定时,y的取值具有一定的随机性,x,y间的这种非确定关系叫做函数关系C. 相关系数r2越接近1,表明两个随机变量线性相关性越弱D. 若分类变量X与Y的随机变量K2的观测值k越小,则两个分类变量有关系的把握性越小11. 某校为了研究“学生的性别”和“对待某项运动的喜爱程度”是否有关,运用2×2列联表进行独立性检验,经计算K2=6.669,则认为“学生性别与对待某项运动的喜爱程度有关系”的犯错误的概率不超过( )附:P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828A. 0.1%B. 1%C. 99%D. 99.9%12. 通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由X2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)计算得,X2=110×(40×30−20×20)260×50×60×50≈7.8.附表:P(X2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是( )A. 有99%以上的把握认为“爱好该项运动与性别有关”B. 有99%以上的把握认为“爱好该项运动与性别有无关”C. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”13. 某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为( )附:参考公式和临界值表:K 2.706 3.841 6.63610.828 P(χ2≥k)0.100.050.0100.001χ2=n(n11n22−n12n21)2n1+⋅n2+⋅n+1⋅n+2A. 90%B. 95%C. 99%D. 99.9%14. 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)算得K2=110×(40×30−20×20)260×50×60×50≈7.8附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是( )A. 在犯错误的概率不超过0.1%的前提下,认为"爱好该项运动与性别有关"B. 在犯错误的概率不超过0.1%的前提下,认为"爱好该项运动与性别无关"C. 有99%以上的把握认为"爱好该项运动与性别有关"D. 有99%以上的把握认为"爱好该项运动与性别无关"15. 如果根据性别与是否爱好数学的列表,得到χ2≈3.843>3.841,所以判断性别与数学有关,那么这种判断出错的可能性为( )A. 5%B. 10%C. 1%D. 95%16. 考察棉花种子经过处理跟生病之间的关系,得到下表中的数据:种子经过处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据可以判断( )A. 种子经过处理跟是否得病有关B. 种子经过处理跟是否得病无关C. 种子是否经过处理决定是否得病D. 以上都是错误的17. 利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好某项运动,利用2×2列联表,由计算可得K2≈8.806P(K2>k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参照附表,得到的正确结论是( )A. 有99.5%以上的把握认为“爱好该项运动与性别无关”B. 有99.5%以上的把握认为“爱好该项运动与性别有关”C. 在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”18. 为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:优秀非优秀总计A班14620B班71320总计211940则下列说法正确的是( )附:参考公式及数据:(n=a+b+c+d).(1)统计量:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)(2)独立性检验的临界值表:P(K2≥k0)0.0500.010k0 3.841 6.635A. 有99%的把握认为环保知识测试成绩与专业有关B. 有99%的把握认为环保知识测试成绩与专业无关C. 有95%的把握认为环保知识测试成绩与专业有关D. 有95%的把握认为环保知识测试成绩与专业无关19. 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30合计附:P(K2≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879已知在全部105人中随机抽取1人,成绩优秀的概率为2,则下列说法正确的是( )7A. 列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”20. 在一个2×2列联表中,由其数据计算得k2=13.097,则其两个变量间有关系的可能性为(P(k>10.828)=0.001)( )A. 99%B. 95%C. 90%D. 无关系21. 在独立性检验中,统计量K2有两个临界值:3.841和6.635;当K2>3.841时,有95%的把握说明两个事件有关,当K2>6.635时,有99%的把握说明两个事件有关,当K2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算得K2=20.87,根据这一数据分析,认为打鼾与患心脏病之间( )A. 有95%的把握认为两者有关B. 约有95%的打鼾者患心脏病C. 有99%的把握认为两者有关D. 约有99%的打鼾者患心脏病22. 为了增强环保意识,某校从男生中随机抽取了60人,从女生中随机制取了50人参加环保知识测试,统计数据如下表所示:优秀非优秀总计男生402060女生203050总计6050110附:χ2=n(n11n22−n12n21)2n1+n2+n+1n+2P(χ2≥k)0.5000.1000.0500.0100.001k0.455 2.706 3.841 6.63510.828则有( )的把握认为环保知识是否优秀与性别有关.A. 90%B. 95%C. 99%D. 99.9%23. 为了增强环保意识,某校从男生中随机抽取了60人,从女生中随机抽取了50人参加环保知识测试,统计数据如下表所示:优秀非优秀总计男生402060女生203050总计6050110,附:χ2=n(n11n22−n12n21)2(n11+n12)(n21+n22)(n11+n21)(n12+n22)P(χ2≥k)0.5000.1000.0500.0100.001k0.455 2.706 3.841 6.63510.828则有( )的把握认为环保知识是否优秀与性别有关.A. 90%B. 95%C. 99%D. 99.9%24. 某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜偏爱肉类合计50 岁以下481250 岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为 ( )附:参考公式和临界值表P (K 2≥k )0.0500.0100.001k 3.841 6.63510.828由 K 2=n (ad−bc )2(a+b )(c+d )(a+c )(b+d )A. 90%B. 95%C. 99%D. 99.9%25. 给出如下列联表:患心脏病患其它病合计高血压201030不高血压305080合计5060110参照公式 K 2=n (ad−bc )2(a+b )(c+d )(a+c )(b+d ),P (K 2≥10.828)≈0.001,P (K 2≥6.635)≈0.01,得到的正确结论是 ( ) A. 有 99% 以上的把握认为“高血压与患心脏病无关” B. 有 99% 以上的把握认为“高血压与患心脏病有关”C. 在犯错误的概率不超过 0.1% 的前提下,认为“高血压与患心脏病无关”D. 在犯错误的概率不超过 0.1% 的前提下,认为“高血压与患心脏病有关”26. 某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量之间的关系,随机抽查了 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是 ( )A. 成绩B. 视力C. 智商D. 阅读量27. 春节期间,“厉行节约,反对浪费”之风悄然吹开.某市通过随机询问 100 名性别不同的居民是否能做到“光盘”行动,得到如下列联表:做不到"光盘"能做到"光盘"男4510女3015附表:P (k 2≥k )0.100.050.025k 2.706 3.841 5.024k 2=n (ad −bc )2(a +b )(c +d )(a +c )(b +d ).参照附表,得到的正确结论是 ( ) A. 在犯错误的概率不超过 1% 的前提下,认为“该市居民能否做到'光盘'与性别有关” B. 在犯错误的概率不超过 1% 的前提下,认为“该市居民能否做到'光盘'与性别无关” C. 有 90% 以上的把握认为“该市居民能否做到'光盘'与性别有关” D. 有 90% 以上的把握认为“该市居民能否做到'光盘'与性别无关”28. 考察棉花种子经过处理与生病之间的关系得到如下表数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则 ( ) A. 种子经过处理与是否生病有关 B. 种子经过处理与是否生病无关 C. 种子经过处理决定是否生病D. 以上都是错误的29. 某同学寒假期间对其 30 位亲属的饮食习惯进行了一次调查,列出了如下 2×2 列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为 ( )附:参考公式和临界值表: x 2=n (n 11n 22−n 12n 21)2n 1+⋅n 2+⋅n +1⋅n +2k 2.706 3.841 6.63610.828P (x 2≥k )0.100.050.0100.001 A. 90% B. 95%C. 99%D. 99.9%30. 通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=n(ad−bc)2(a+d)(c+d)(a+c)(b+d)算得,K2=110×(40×30−20×20)260×50×60×50≈7.8.附表:p(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是( )A. 有99%以上的把握认为“爱好该项运动与性别有关”B. 有99%以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”31. 某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列表:文化程度与月收入列表单位:人月收入2000元以下月收入2000元及以上总计高中文化以上104555高中文化及以下203050总计3075105由上表中数据计算得K2=105×(10×30−20×45)255×50×30×75≈6.109,请根据下表:p(K2≥k)0.150.100.050.0250.0100.0050.001k 2.072 2.706 3.841 5.024 6.6357.87910.828估计有多大把握认为“文化程度与月收入有关系” ( )A. 1%B. 99%C. 2.5%D. 97.5%32. 随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线一线总计愿生452065不愿生132235总计5842100附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828由K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=100×(45×22−20×13)258×42×35×65≈9.616.参照附表,得到的正确结论是( )A. 在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C. 有99%以上的把握认为“生育意愿与城市级别有关”D. 有99%以上的把握认为“生育意愿与城市级别无关”33. 某同学利用课余时间做了一次社交软件使用习惯调查,得到2×2列联表如下:偏爱微信偏爱QQ合计30岁以下481230岁以上16218合计201030则下列结论正确的是( )A. 在犯错误的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关B. 在犯错误的概率超过0.005的前提下认为社交软件使用习惯与年龄有关C. 在犯错误的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关D. 在犯错误的概率超过0.001的前提下认为社交软件使用习惯与年龄有关34. 假设有两个分类变量X和Y的2×2列联表:XY y1y2总计x1a10a+10x2c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )A. a=45,c=15B. a=40,c=20C. a=35,c=25D. a=30,c=3035. 某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1000名成年人调查是否吸烟及是否患有肺病,得到2×2列联表,经计算得K2=5.231.已知在假设吸烟与患肺病无关的前提条件下,P(K2≥3.841)=0.05,P(K2≥6.635)=0.01,则该研究所可以( )A. 有95%以上的把握认为“吸烟与患肺病有关”B. 有95%以上的把握认为“吸烟与患肺病无关”C. 有99%以上的把握认为“吸烟与患肺病有关”D. 有99%以上的把握认为“吸烟与患肺病无关”36. 为了解疾病A是否与性别有关,在一医院随机地对入院50人进行了问卷调查得到了如下的列联表:患疾病A不患疾病A合计男20525女101525合计302050请计算出统计量χ2,你有多大的把握认为疾病A与性别有关( )下面的临界值表供参考:P(χ2≥k)0.050.0100.0050.001k 3.841 6.6357.87910.828A. 95%B. 99%C. 99.5%D. 99.9%37. 下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y^=3−5x,变量x增加一个单位时,y平均增加5个单位;③线性回归方程y^=b^x+a^必过(x,y);④在一个2×2列联中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( )本题可以参考独立性检验临界值表:P(K2≥k)0.50.400.250.150.100.050.250.0100.0050.001 k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.5357.87910.828A. 0B. 1C. 2D. 338. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A. 若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关系,我们说某人吸烟,那么他有99%的可能患有肺病C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D. 以上三种说法都不正确39. 给出下列四个命题,其中正确的一个是( )A. 在线性回归模型中,相关指数R2=0.80,说明预报变量对解释变量的贡献率是80%B. 在独立性检验时,两个变量的2×2列联表中对角线上数据的乘积相差越大,说明这两个变量没有关系成立的可能性就越大C. 相关指数R2用来刻画回归效果,R2越小,则残差平方和越大,模型的拟合效果越好D. 随机误差e是衡量预报精确度的一个量,它满足E(e)=040. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A. 越大B. 越小C. 无法判断D. 以上都不对二、填空题(共40小题;共201分)41. 对过度看电视与近视之间关系的一项调查,根据样本数据计算得K2的值大于3.841,则我们至少有的把握认为过度看电视与近视有关.42. 若由一个2∗2列联表中的数据计算得K2=4.013,那么有把握认为两个变量有关系.43. 若由一个2×2列联表中的数据计算得K2=4.013,那么有把握认为两个变量有关系.44. 在H1:分类变量X与Y有关的情况下,K2=9.8,则P(K2≥k)=;此时说" X与Y有关"的可信度为 %.45. 为了判断高中学生选修文科是否与性别有关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720≈已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到k=50×(13×20−10×7)223×27×20×304.844.则认为选修文科与性别有关系出错的可能性为.46. 2008 年北京奥运会期间,北京某五星级宾馆上调了住宿价格.为了调查上调价格与客人所处地区是否有关系,奥运会后,统计本国客人与外国客人的人数,与去年同期相比,结果如下:本国客人外国客人合计2007年2182384562008年123354477合计341592933通过计算,可得统计量χ2=,我们可以得到结论:.47. 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720≈已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到k=50×(13×20−10×7)223×27×20×304.844.则认为选修文科与性别有关系出错的可能性为.48. 考察棉花种子经过处理跟生病之间的关系得到如下表所示的数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则统计量χ2的值是.49. 考察棉花种子经过处理跟生病之间的关系得到如下表所示的数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则统计量χ2的值是.50. 在吸烟与患肺病这两个分类变量的计算中,"若χ2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系"这句话的意思:①是指"在100个吸烟的人中,必有99个人患肺病;②是指"有1%的可能性认为推理出现错误";③是指"某人吸烟,那么他有99%的可能性患有肺病";④是指"某人吸烟,如果他患有肺病,那么99%是因为吸烟".其中正确的解释是.51. 已知表中数据:(单位:亩)有病虫害无病虫害浸种处理20100没浸种处理8080则进行种子浸种处理与发生病虫害(填"有"或"没有")明显关系.52. 为了研究服用某种新药是否会患某种慢性病,调查了200名服用此种新药和100名未服用此种新药的人,调查结果见下表:患慢性病未患慢性病合计服用新药40160200未服用新药1387100合计53247300根据列联表中的数据可得χ2=.53. 在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是(有关,无关)的.54. 在一项打鼾与患心脏病的关系的调查中,共调查了2000人,经计算得χ2=20.87,根据这一数据分析,我们有的把握认为打鼾与患心脏病是的.55. 相应于显著性水平0.05,观测值为10组的相关系数临界值为.56. 某高校《统计学初步》课程的教师随机调查了选该课的一些学生的情况,具体数据见下表:非统计专业统计专业合计男131023女72027合计203050≈为了判断主修统计专业是否与性别有关系,根据表中的数据求得χ2=50×(13×20−10×7)220×30×23×274.844.因为χ2>3.841,所以主修统计专业与性别有关系.这种判断出错的可能性为.57. 若两个分类变量X与Y的2×2列联表为:y1y2x1515x24010则"X与Y之间有关系"的概率是.58. 给出2×2列联表如下表所示:则(1)①;②;③;④;⑤;(2)A1与B1相互(填“独立”或“不独立”).59. 在对某小学的学生进行吃零食的调查中,得到如下数据:吃零食不吃零食合计男学生243155女学生82634合计325789根据上述数据分析,我们得出的K2=.(结果保留4个有效数字)60. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算K2=(结果精确到0.01),比较这两种手术对病人又发作心脏病的影响有没有差别.61. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算χ2≈.62. 下面是2×2列联表:y1y2合计x1a2835x2113445合计b6280则表中a=,b=.63. 2008年北京奥运会期间,北京某五星级宾馆上调了住宿价格.为了调查上调价格与客人的所处地区是否有关系,奥运会后,统计本国客人与外国客人的人数,与2007年同期相比,结果如下表:本国客人外国客人合计2007年2182384562008年123354477合计341592933通过计算,可得统计量χ2=,我们可以得到结论:.64. 为了考察某种药物预防疾病的效果,进行动物试验,得到了如下的列联表,认为这种药物对预防疾病有效果的把握有.患病未患病合计服用药104656没服用药223254合计327811065. 为调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下:患慢性气管炎未患慢性气管炎合计吸烟43162205不吸烟13121134合计56283339根据列联表数据,求得χ2=.66. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算χ2=.(保留两位小数)比较这两种手术对病人又发作心脏病的影响有没有差别:.67. 对某种产品进行用户市场调查,请被调查者对产品质量回答:差、好,并回答是否接受过该产品的广告宣传,回答情况如下表.根据列联表的数据,我们有理由认为广告与人们对产品的评价是(有关,无关)的.差好合计听过广告宣传112940未听过广告宣传102030合计21497068. 以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样,②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,③某项测量结果ξ服从正态分布N(1,a2),P(ξ≤5)=0.81,则P(ξ≤−3)=0.19,④对于两个分类变量X与Y的随机变量K2的观测值k来说,k越小,判断“X与Y有关系”的把握程度越大.以上命题中其中真命题的个数为.69. 某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,则他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是.(把你认为正确的命题序号都填上)①p∧¬q;②¬p∧q;③(p∧¬q)∧(r∨s).70. 某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太积极参加班级工作合计学习积极性高18725学习积极性一般61925合计242650则至少有的把握认为学生的学习积极性与对待班级工作的态度有关.(请用百分数表示).独立性检验界值表P(χ2≥k)0.0250.0100.0050.001k 5.024 6.6357.87910.82871. 调查了520名中年人,其中136人有高血压史,其他384人无高血压史.有高血压史的136人中有48人有冠心病,在无高血压史的384人中有36人有冠心病.根据上述数据分析,我们得出χ2=.72. 给出列联表如下:优秀不优秀合计甲班331245乙班232245合计563490根据表中数据,估计“成绩与班级有关系”犯错误的概率不超过.73. 某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:"这种血清不能起到预防感冒的作用",利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学做出了以下的判断:p:有95%的把握认为"这种血清能起到预防感冒的作用"q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒r:这种血清预防感冒的有效率为95%s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是.(把你认为正确的命题序号都填上)①p∧¬q;②¬p∧q;③(¬p∧¬q)∧(r∨s);④(p∨¬r)∧(¬q∨s).74. 有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠不冷漠总计多看电视6842110不多看电视203858总计8880168则大约有的把握认为多看电视与人变冷漠有关系.。
《统计学》课程教学大纲一、说明(一)课程定义:《统计学》是一门通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域,是经济学专业本科的必修课程之一。
(二)编写依据:根据XXXXX学院XXXX专业本科人才培养方案(2018年7月修订)修订培养目标而制定的。
(三)目的任务:通过本课程的教学,让学生能理解和掌握统计学的基本知识和技能。
了解统计学对认识社会的作用;能运用正确的立场、观点和方法,学会对社会经济现象进行调查研究;并能结合社会经济发展中的有关情况,学会各种基本的统计分析方法。
(四)学时数与学分数:本课程理论36学时,实践/实验18学时,共54学时,3学分。
(五)适用对象:经济学专业, 2018-2021年级学生。
(六)课程编号:KY1811B06二、教学安排与学时分配三、教学内容与知识点第一章绪论第一节统计学的产生与发展知识点:统计的起源、统计学的发展历史第二节统计学的性质与特点知识点:统计的含义、统计学的研究对象与特点、统计学的主要研究方法第三节统计工作的基本任务和工作过程知识点:统计工作的基本任务、统计工作的过程第四节统计学的基本概念知识点:总体和总体单位、标志与指标、变异与变量、统计指标与指标体系、流量与存量第五节统计指标的形成及表现形式知识点:统计指标的形式、统计指标的表现形式第二章数据的搜集第一节统计调查方案设计知识点:统计调查的意义、要求和种类、统计调查方案设计第二节搜集资料的方式和方法知识点:搜集资料的方式、搜集资料的方法第三章数据的图表展示第一节数据的预处理知识点:数据审核、筛选、排序第二节品质数据的整理与展示知识点:分类数据的整理与图示、频数及其分布表、条形图、饼图、顺序数据的整理与图示、累积频数及其分布表第三节数值型数据的整理与展示知识点:分组数据、组中值、组距、直方图、雷达图、线图第四节合理使用图表知识点:SPSS基本操作实践第四章数据的概括性度量第一节集中趋势的度量知识点:集中趋势、众数、中位数、平均数第二节离散程度的度量知识点:异众比、四分位差、方差、标准差、离散系数第三节偏态与峰态的度量知识点:偏态及其测度、峰态及其测度第四节SPSS实践操作知识点:描述性统计上机实践第五章概率与概率分布、统计量及其抽样分布第一节概率与概率分布知识点:概率的基本概念、概率的统计定义、离散型和连续性随机变量的概率分布、正态分布、标准正态分布第二节统计量及其抽样分布知识点:统计量的概念、常用的统计量、抽样分布、卡方分布、t分布、F分布第三节样本均值的分布与中心极限定理知识点:样本均值的分布、中心极限定理第六章参数估计第一节参数估计的基本原理知识点:估计量与估计值、点估计与区间估计、评价估计量的标准第二节一个总体参数的区间估计知识点:一个总体均值、比例、方差的区间估计第三节两个总体参数的区间估计知识点:两个总体均值之差、比例之差、方差比的区间估计第四节样本量的确定知识点:估计总体均值的样本量的确定、估计总体比利时样本量的确定第五节 SPSS实践操作知识点:推断统计的上机实践第七章假设检验第一节假设检验的基本问题知识点:假设问题的提出、假设的表达式、两类错误、假设检验的流程、利用P值进行决策、单侧检验第二节一个总体参数的检验知识点:检验统计量的确定、总体均值的检验、总体比例的检验、总体方差的检验第三节两个总体参数的检验知识点:检验统计量的确定、两个总体比例之差的检验、两个总体方差比的检验、检验中的匹配样本第四节检验问题的进一步说明知识点:关于检验结果的解释、单侧检验中假设的建立第五节SPSS实践操作知识点:推断统计的上机实践第八章分类数据分析第一节分类数据与卡方统计量知识点:分类数据、卡方统计量第二节拟合优度检验知识点:案例分析第三节列联分析:独立性检验知识点:案例分析第四节列联表中的相关测量知识点:相关系数的定义、公式及应用第五节SPSS实践操作知识点:推断统计的上机实践第九章方差分析第一节方差分析引论知识点:方差分析及其有关术语、基本思想和原理、基本假定第二节单因素方差分析知识点:数据结构、分析步骤、关系强度的测量、多重比较第三节双因素方差分析知识点:双因素方差分析机器类型、无交互作用的双因素方差分析、有交互作用的双因素方差分析第四节 SPSS实践操作知识点:推断统计的上机实践第十章指数第一节基本问题知识点:指数的概念、分类、编制问题第二节简单指数与加权指数的应用知识点:简单指数案例分析、拉氏与帕氏指数的案例分析第三节典型指数介绍知识点:CPI(居民消费价格指数)的概念、计算及其作用四、实践/实验教学(一)项目名称:学生团队统计报告(二)目的要求:为促进学生掌握并运用统计学的理论与方法,规定由学生团队(原则上要求3-6人)自行选择统计对象,合力完成统计报告并于学期第十八周上交电子版。
SPSS统计分析第八章聚类分析与判别分析聚类分析与判别分析是SPSS统计分析中非常重要的两个方法。
聚类分析是寻找数据之间的相似性,将相似的数据划分为一个簇,从而实现对数据的归类和分组。
判别分析则是寻找数据之间的差异性,帮助我们理解不同因素对于数据的影响程度,从而实现对数据的分类预测。
首先,我们来介绍聚类分析。
聚类分析是根据数据之间的相似性进行归类的一种方法,通过度量数据之间的相似性,将相似的数据归为一类。
它在寻找数据内在组织结构和特点上具有很大的作用。
在SPSS中进行聚类分析的步骤如下:1.载入数据集:在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行聚类分析的数据集。
2.选择聚类变量:在"分析"->"分类"->"聚类"中,选择需要进行聚类分析的变量。
可以选择一个或多个变量作为聚类变量,决定了聚类的维度。
3.设置聚类参数:在设置参数的对话框中,可以选择使用不同的距离测度和聚类算法。
距离测度可以选择欧氏距离、曼哈顿距离、切比雪夫距离等,而聚类算法可以选择层次聚类、K均值聚类等。
根据具体的数据特点,选择合适的参数。
4.进行聚类分析:点击"确定"按钮,SPSS会自动进行聚类分析,并生成聚类的结果。
聚类结果可以通过树状图、散点图等形式展示,便于我们对数据的理解和分析。
接下来,我们来介绍判别分析。
判别分析是一种通过建立数学模型,根据不同的预测变量对数据进行分类和预测的方法。
判别分析可以帮助我们理解不同因素对于数据分类的重要性,从而进行有针对性的分析和预测。
在SPSS中进行判别分析的步骤如下:1.载入数据集:同样,在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行判别分析的数据集。
第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。
2.解释描述统计与推断统计。
描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计研究的是如何利用样本数据来推断总体特征的统计方法。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。
4.解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。
5.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。
6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。
分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。
7.举例说明离散型变量和连续型变量。
离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。
使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
教学建议1.强调样本估计总体的思想用样本估计总体是统计的基本思想.在义务教育阶段,学生学习了用统计图表表示数据,用平均数和方差等数字特征刻画数据的特征,虽然也会沙及样本估计总体,但重点在于对数据本身的统计特征的描述和刻画,数据的随机性考虑不多到高中阶段,统计的内容开始强调数据的随机性,要求通过随机样本数据对总体作出估计.估计的目标是得到总体的有关结论,此时对样本数据本身的刻画不再是最终目标,而是达到目标的一种手段.因此在高中统计教学中应该强调样本估计总体的思想.必修课程的统计主要是关于单变量总体的估计或推断,例如通过样本数据的均值、方差、分位数估计总体相应的数字特征.在选择性必修课程的统计中,样本估计总体仍然是基本的统计思想,只是数据由一维变为二维,总体由一个变量变为两个变量.在本章中,通过样本相关系数估计两个变量的相关性,通过一元线性回归模型刻画两个变量的相关关系,通过χ2统计量检验两个分类变量的独立性,都是关于两个变量这个总体的估计或推断,在教学中应充分重视.2.准确把握统计的学科逻辑我们知道,函数、代数、几何、概率等内容是从定义出发,主要使用演绎推理的方法证明结论.演绎推理是从一般到特殊的推理,只要前提正确、推理形式正确,得到的结论必然正确.因此得出的结论具有确定性.而统计是从样本数据出发,根据样本数据的结论推断总体的结论,这是从部分到总体、特殊到一般的推理,在推理方法上属于不完全归纳.不完全归纳的特点是前提正确并不意味着得到的结论正确,也就是说统计的推断有可能犯错误,结论具有不确定性,由于出发点和推理方法的不同,统计与函数、代数等内容在对结论的判断标准上也不一样,前者是好与坏,后者是对与错.在教学中对此要准确把握.只有从整体上准确把握统计学科逻辑的特点,才能准确理解统计教学的内容,准确把握教科书的编写意图并展开教学.3.注重统计概念和方法的产生和形成过程统计中每一个概念和方法的引入都有其必要性,之所以成为目前的形式也都有其合理性.在教学中体现好这个过程,不但有利于明确学习的方向和任务、让学生感受到知识的产生是自然的、合理的,还有利于在概念和方法的形成过程中让学生体会统计的思想方法,积累数据分析的经验.在本章中,教科书特别强调从统计直观到数学表达的转化过程,在教学中应该较为完整地展现这个过程并让学生参与其中.例如,对于估计一元线性回归模型参数所用的最小二乘法,教学中可以让学生从寻找与散点在直觉上整体最接近的直线开始,逐步过渡到对整体最接近的数学刻画,再在若干表达式中选择平方和最小的作为标准.通过让学生经历这个过程,既可以体会统计方法从统计直观到数学表达的转化过程,从中体会统计思想,积累数据分析的经验,培养数据分析素养,又可以体会标准不同结论就不同的统计方法的特点.当然.数据分析素养的培养涉及很多方面,也是一个长期过程,但不断经历概念和方法形成的过程是重要的方面.4.加强信息技术工具的使用信息技术既是现代统计的组成部分,也是统计学习的有效辅助手段.《标准(2021年版)》明确要求在这部分内容中“会利用统计软件进行数据分析”.因此,在统计教学中,应该明确要求学生使用信息技术探索数据的规律,提高教学的效率和质量.当然,利用信息工具画图和计算应该在理解统计思想和方法的基础上进行.例如,对于一组样本数据,利用统计软件可以快速地进行排序等整理,计算出各种数字特征,画出各种统计图等,利用它们可以从不同的角度探索数据的规律.又如,用一元线性回归模型刻画两个变量之间关系,会涉及画散点图、计算样本相关系数、求经验回归方程、画残差图等一系列画图和计算.如果每一项工作都用纸笔进行,且样本数据又较多的话,那么工作量就会非常大,而且很多是重复、机械的工作.如果利用统计软件,一旦输入数据,那么上面每一项工作,只需要进行简单的菜单操作或函数调用即可完成,而且输出结果既快捷又准确.。
第九章 列联分析
一、填空题
1、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为 。
2、设0f 为列联表中观察值频数,e f 为期望值频数,则进行拟合优度检验时所用统计量2χ= 。
3、在列联分析中,观察值总数为n ,RT 为列联表中给定单元的行合计,CT 为给定单元列合计,则该给定单元频数期望值为 。
4、在列联分析中,观察值总数为500,列联表中给定单元的行合计数为140,列合计数为162,则该给定单元频数期望值为 。
5、在3×4列联分析中,统计量2
2
0()e e f f f χ-=∑(其中0f 为观测值频数,e f 为期望值频数)的自由度为____________。
6、对来自三个地区的原料质量进行检验时,先把它们分成三个等级,在随机抽取400间进行检验,经分析得知原料质量与地区之间的关系实现著的,现计算得2300χ=,则ϕ相关系数等于 。
7、ϕ相关系数是描述两个分类变量之间相关程度的统计量,它主要用于描述
的列联表数据。
8、若两个分类变量之间完全相关。
则ϕ相关系数的取值为 。
9、当列联表中两个变量相互独立时,计算的列联相关系数C= 。
10、利用2
χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须 。
二、单项选择题
1、列联分析是利用列联表来研究( )
A 、两个分类变量的关系
B 、两个数值型变量的关系
C 、一个分类变量和一个数值型变量的关系
D 、连个数值型变量的分布
2、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为( )
A 、R
B 、
C C 、R ×C
D 、(R-1)×(C-1)
3、若两个分类变量之间完全相关。
则ϕ相关系数的取值为( )
A 、0
B 、小于1
C 、大于1
D 、1=ϕ
4、当列联表中两个变量相互独立时,计算的列联相关系数C ( )
A 、等于1
B 、大于1
C 、等于0
D 、小于0
5、利用2χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须( )
A 、等于或大于1
B 、
C 值等于ϕ值 C 、等于或大于5
D 、等于或大于10
6、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男生和120名女生进行调查,得到结果如下:
A 、48和39
B 、102和81
C 、15和14
D 、25和19
7、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名
男生和120名女生进行调查,得到结果如下:
A 、27021==ππ
B 、8721==ππ
C 、15021==ππ
D 、3222.021==ππ
8、ϕ相关系数是描述两个分类变量之间相关程度的统计量,它主要用于描述( )
A 、2×2列联表数据
B 、2×3列联表数据
C 、3×3列联表数据
D 、3×4列联表数据
9、ϕ相关系数的取值范围是( )
A 、[0,1]
B 、[-1,0]
C 、[-1,1]
D 、大于1
10、如果列联表有两个以上的单元,不能应用2χ检验的条件是( )
A 、20%的单元期望频数大于5
B 、20%的单元期望频数小于5
C 、10%的单元期望频数大于5
D 、10%的单元期望频数小于5
三、简答题
1、简述列联分析中一致性检验和独立性检验的主要区别。
2、简述列联表的构造与列联表的分布。
3、简述ϕ相关系数、C 系数、V 系数的概念与各自特点。
四、计算题
1、一种原料来自三个不同的地区,原料质量被分成三个不同等级。
从这批原料中随机抽取500件进行检验,结果如下表所示。
要求以的显著性水平检验各个地区和原料质量之间是否存在依赖关系。
(2220.05(3)0.05(4)0.05(9)7.81,9.49,16.92χχχ===)
2、为了提高市场占有率,某行业两个最主要的竞争对手A 公司和B 公司同时开展了广告宣传。
在广告宣传战之前,A 公司的市场占有率为45%,B 公司的市场占有率为40%,其他公司的市场占有率为15%。
为了解广告战之后A 、B 和其他公司的市场占有率是否发生变化,随机抽取了200名消费者,其中102人表示准备购买A 公司产品,82人表示准备购买B 公司产品,另外16人表示准备购买其他公司产品。
以0.05α=的显著性水平检验广告战前后各公司的市场占有率是否发生了变化。
(222
0.05(2)0.05(3)0.05(6)5.99,7.81,12.59χχχ===)
3、欲研究不同收入群体对某种特定商品是否有相同的购买习惯,市场研究人员调查了四个不同收入组的消费者共527人,购买习惯分为:经常购买、不购买、有时购买。
调查结果如下表所示。
要求:(1)提出假设;(2)计算2χ值;(3)以0.1α=的显著性水平进行检验。
(22220.1(3)0.1(4)0.1(6)0.1(12)6.25,7.78,10.65,18.55χχχχ====)
4、教学改革后学生有了更多的选课自由,但学院领导在安排课程上也面临新的问题。
例如:MBA 研究生班的学生选课学年之间的变化常常很大,去年的学生很多人选会计课,而今年的学生很多人选市场营销课。
由于事先无法确定究竟有多少学生选各门课程,所以无法有效地进行教学资源的准备。
有人提出学生所选课程与其本科所学专业有关。
为此,学院领导将学生本科所学专业和MBA 三门课程的选修课程情况做了
以的显著性水平检验学生本科所学专业是否影响其读MBA 期间所选课程。
(220.05(6)0.05(12)12.59,21.03χχ==)。