【精选】统计学 统计学-——典型案例、问题和思想-精心整理
- 格式:doc
- 大小:390.78 KB
- 文档页数:57
使用统计学方法解决实际问题的案例分析统计学是一种应用数学,它通过收集、整理、分析和解释数据,来帮助人们理解和解决实际问题。
统计学方法可以应用于各个领域,包括商业、医疗、环境、教育等。
本文将通过案例分析的形式,了解如何使用统计学方法解决实际问题。
案例一:零售业销售数据分析某零售业公司想要了解其销售数据的走势,以便做出更好的营销决策。
他们提供了过去一年的销售数据,包括每月销售额、销售量、促销活动等信息。
首先,利用统计学方法对销售数据进行分析。
通过统计学方法,我们可以计算出销售额和销售量的平均值、中位数和标准差,以了解销售数据的分布情况。
同时,我们可以利用相关系数分析销售额和促销活动之间的关系,以确定促销活动对销售额的影响程度。
接下来,我们可以利用数据可视化工具,如折线图、柱状图等,将销售数据进行可视化展现。
通过可视化分析,我们可以清晰地看到销售额和销售量的变化趋势,以及促销活动对销售额的影响程度。
司提供相关建议,比如哪些产品在不同月份的销售额最高,何时进行促销活动效果最好等。
这些建议将帮助零售业公司改进营销策略,提高销售业绩。
案例二:医疗数据分析某医疗机构想要了解患者的就诊情况,以便改进医疗服务。
他们提供了过去一年的门诊和住院病例数据,包括就诊人数、疾病种类、就诊费用等信息。
首先,利用统计学方法对就诊数据进行分析。
我们可以计算出就诊人数和就诊费用的平均值、中位数和标准差,以了解就诊数据的分布情况。
同时,我们可以利用频数分析疾病种类的分布情况,以确定不同疾病在就诊人群中的比例。
接下来,我们可以利用数据可视化工具,如饼状图、条形图等,将就诊数据进行可视化展现。
通过可视化分析,我们可以清晰地看到不同疾病在就诊人群中的比例,以及不同疾病的就诊费用情况。
提供相关建议,比如哪些疾病在就诊人群中的比例较高,哪些疾病的就诊费用较高等。
这些建议将帮助医疗机构改进医疗服务,提高患者满意度。
综上所述,统计学方法可以帮助人们理解和解决实际问题。
案例2 美国国家健康照顾协会美国国家健康照顾协会的主要任务是了解健康照顾人力资源的短缺情况,并为未来制定发展规划。
为了掌握护理人员对所从事工作的满意程度,该协会发起了一场全国性的有关医院护理人员的调查研究。
调查项目包括:工作满意度、收入、晋升机会等,填答方式采用打分制,从0~100分,分值高表示满意度高。
下面是其中的一部分调查结果:工作收入晋升工作收入晋升714958727631845363712574847437694716876649905623725979842862723786863759725740703854634878867272846029875157906266779051735655713655946052755392844266745982855664765154885552956652747051896662714568855767884942654268902767823754858946826056795941898064726045744763883647824891776075907670644361785272另外,按医院招募护理人员的方式,对上述资料的分组结果如下:私人医院退伍军人医院大学附属医院工作收入晋升工作收入晋升工作收入晋升7259407149588453639062668474378766498442667237867259798556646348768855527145688460297470518849427356558589464 11 01628726045946052795941883647902767494716776075727637905623644361863759779051712574867272713655842862956652755392703854654268765154875157823754898064745982826056896662907670855767785272744763824991要求:运用描述统计方法对资料进行处理,采用的表示方法要让人能够方便地获取相应的信息,对你发现出的问题给予讨论。
统计学误用案例案例一:平均数的陷阱。
咱就说有个小公司,老板想显示员工工资待遇还不错。
公司有10个员工,1个经理月薪10万,然后9个普通员工月薪3000。
老板一算,平均工资=(100000 + 9×3000)÷10 = 12700元。
然后对外宣称公司平均月薪12700元,好多人一听,哇,这工资挺高啊。
但实际上呢,除了那个经理,大部分普通员工的工资少得可怜,这个平均数就完全误导了大家对这个公司工资水平的真实印象。
这就像是拿姚明的身高和一群小学生的身高求平均,然后说这个平均身高就代表大家的身高水平,那可太扯了。
案例二:样本偏差。
有个保健品公司想做个产品调查,证明他们的保健品特别有效。
他们就在自己的专卖店门口找那些来买保健品的人做调查,问“您觉得我们的保健品效果好不好呀?”结果大部分人都说好。
为啥呢?因为来专卖店买的人本来就是相信这个产品才来买的呀,这就是一个有偏差的样本。
就好比你想知道大家喜不喜欢吃榴莲,你专门跑到榴莲专卖店门口去问,那肯定大部分人都说喜欢,这根本就不能代表全体人群的真实想法。
这保健品公司就拿着这个不靠谱的调查结果到处宣传,这就是对统计学的误用。
案例三:相关性误为因果性。
你看,有人发现,在某个城市,冰淇淋的销量和溺水死亡人数在夏天都上升了。
然后就有个“天才”说,冰淇淋会导致溺水。
这可就太荒谬了。
其实呢,这两者只是有相关性,因为夏天到了,天气热,吃冰淇淋的人多了,同时去游泳的人也多了,所以溺水死亡人数也增加了。
这就像每次公鸡打鸣之后太阳就升起来了,但我们不能说公鸡打鸣是太阳升起的原因一样,这种把相关性硬说成因果性的事儿,在统计学里可是个大错特错的事儿。
《统计学》案例——相关回归分析案例一质量控制中的简单线性回归分析1、问题的提出某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。
通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。
经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。
2、数据的收集目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的30组数据(如上表),进行简单直线回归分析。
3.方法的确立设线性回归模型为εββ++=x y 10,估计回归方程为x b b y10ˆ+= 将数据输入计算机,输出散点图可见,液化气收率y 具有随着回流温度x 的提高而降低的趋势。
因此,建立描述y 与x 之间关系的模型时,首选直线型是合理的。
从线性回归的计算结果,可以知道回归系数的最小二乘估计值b 0=21.263和b 1=-0.229,于是最小二乘直线为x y229.0263.21ˆ-= 这就表明,回流温度每增加1℃,估计液化气收率将减少0.229%。
(3)残差分析为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。
从图中可以看到,残差基本在-0.5—+0.5左右,说明建立回归模型所依赖的假定是恰当的。
误差项的估计值s=0.388。
(4)回归模型检验 a.显著性检验在90%的显著水平下,进行t 检验,拒绝域为︱t ︱=︱b 1/ s b1︱>t α/2=1.7011。
由输出数据可以找到b 1和s b1,t=b 1/ s b1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。
b.拟合度检验判定系数r 2=0.792。
《统计学》案例——综合分析关于居民月收入和居民金融资产影响因素关系的调查1、问题的提出改革开放以来。
中国居民家庭财富的效量不断增长。
居民储蓄存款持续稳定的增加。
从1978年的210.6亿元一路攀升,到2008年已达217885.4亿元。
在三十年的时间里增加了一千多倍。
与此同时,经济的货币化程度大大提高,金融市场特别是资本市场得到发展,使得居民金融资产选择的空同逐步扩大,导致了家庭金融资产多样化。
影响家庭金融资产组合的主要因素家庭金融资产选择主要受三类因素的影响:l、家庭内部因素(收入水平以及家庭财务状况;家庭的特征:成员的性别、年龄、婚姻状况、受教育程度、职业、健康状况、以及家庭人口数等;家庭成员的风险厌恶程度;住房所有权)。
2、金融资产特性随着资本市场的发展。
3、经济金融环境。
这些影响因素对居民金融资产的影响程度到底孰重孰轻呢?2、数据的收集为确定各类因素对居民金融资产的大小影响,有效地解居民关于金融资产和有关因素的现状,做了以下调查。
随机抽取了64户温州居民代表,以下为64位家庭各行业月收入和家庭金融资产(各种储蓄、有价证券、手存现金等)资料。
表1温州64位家庭各行业月收入和家庭金融资产信息表表1是一个样本总体,由随机抽取的64户居民家庭组成,总体则是温州市的全体居民家庭。
从这64户家庭中所调查登记的月收入和金融资产的具体数据是标志值。
3、方法的确定3.1.按标志对数据分组对这64户的调查资料进行整理,按月收入和金融资产两标志进行分组。
对于按月收入进行分组整理的结果见表2。
表2.按月收入分组(元)户数月收入(元)金融资产(万元)甲(1)(2)(3)500以下 3 1466 2.95500-1000 6 4125 8.931000-1500 13 16556 33.43表2中的各组和总体的“户数”是单位总量,各组和总体的“月收入”、“金融资产”是标志总量,它们是反映总体综合数量特征的指标。
对原始数据进行因果依存关系分组,见表3。
统计学案例案例一我国高等教育国际竞争力的分析研究一、教学目的1、明确对高等教育国际竞争力进行研究的意义及方法;2、学会根据研究的问题,正确、科学地设置对该问题进行评价的统计指标;3、掌握统计数据的收集与整理的方法,认识到统计数据在统计分析中的重要性;4、在综合掌握各种统计分析方法的基础上,根据所提问题的性质,能选择合适的统计分析方法;5、明确指标无量纲化的意义,掌握无量纲化的一般方法;6、掌握统计分析中权数的确定方法,明确模糊综合评价法在统计分析中应用;7、学会根据统计资料,对所研究的问题进行分析研究,并提供有情况、有分析、有对策的分析研究报告。
二、背景材料我国高等教育国际竞争力的分析研究经济全球化趋势及知识经济浪潮使包括人才在内的资源竞争更加激烈,信息共享程度更高,我国高等教育面临严峻的考验和挑战,对现代大学教育提出了新的要求和使命。
研究我国高等教育国际竞争力,科学发展我国的高等教育,应站在全球化高度,优化资源配置,增强创新能力,提高高等教育的竞争力,把握机遇,谋划未来,深化改革,提高教学质量,增强其国际竞争力。
因此,进行高等教育国际竞争力的研究,保持我国高等教育的可持续发展,具有非常重要的理论意义和现实意义。
一、高等教育国际竞争力的基本理论1、竞争、竞争力及高等教育国际竞争力的基本涵义“竞争系个人(或集团)间的角逐;凡两方或多方力图取得并非各方均能获得的某些东西时,就会有竞争,竞争与人类历史同样悠久。
”竞争是市场经济的基本法则,它不仅是经济学家和生物学家研究的对象,也是教育学家常常思考的问题。
从理论上讲,竞争力具有相对与绝对两种含义:绝对竞争力指个人、单位或国家在竞争日趋激烈的条件下其持续发展的能力,它很难用一个准确的计量单位来衡量。
而相对竞争力指个人、单位或国家其持续发展的能力在相互比较中所处的位置,一般可通过比较排名来相对体现。
从统计学的角度来说,绝对竞争力采用的是定距尺度,而相对竞争力采用的是定序尺度。
统计学案例总量指标与相对指标案例1:指出下面的统计分析报告摘要错在哪里?并改正:1、本厂按计划规定,第一季度的单位产品成本应比去年同期降低10%,实际执行结果是,单位产品成本较去年同期降低8%,仅完成产品成本计划的80%(即8%÷10%=80%)。
2、本厂的劳动生产率(按全部职工计算)计划在去年的基础上提高8%,计划执行结果仅提高4%,劳动生产率的计划任务仅实现一半(即4%÷8%=50%)。
3、该车间今年1月份生产老产品的同时,新产品首次小批投产,出现了2件废品(按计算,车间废品率为1.2%)。
2月份老产品下马,新产品大批投产,全部制品1000件,其中废品8件,废品量是1月份的4倍,因此产品质量下降了。
4、在组织生产中,本厂先进小组向另一组提出高产优质的挑战竞赛。
本月先进小组的产量超过了另一小组的1倍,但是在两组废品总量中该组却占了60%,所以在产品质量方面,先进小组明显地落后了。
案例11试计算所有可能计算的相对指标。
案例2:根据下表资料分析哪个企业对社会贡献更大?平均指标与变异指标案例3、以组平均数补充说明总平均数案例4:某单位有10个人,其中1人月工资为10万元,9人每人月工资为1000元。
该单位职工月平均工资为10900元。
即:)(109001091000100000元=⨯+你认为这个平均数有代表性吗?如果缺乏代表性应如何改正?案例5:以下是各单位统计分析报告的摘录1、 本局所属30个工厂,本月完成生产计划的情况是不一致的。
完成计划90%的有3个,完成96%的有5个,完成102%的有10个,完成110%的有8个,完成120%的有4个。
平均全局生产计划完成程度为104.33%。
即:304%1208%11010%1025%963%90⨯+⨯+⨯+⨯+⨯=104.33%2、 本厂开展增产节约运动以后,产品成本月月下降,取得显著的成绩,根据财务部门的报告,1 月份开支总成本15000元,平均单位产品成本为15元,2月份开支总成本25000元,平均单位产品成本下降为10元,3月份开支总成本45000元,平均单位产品成本仅8元。
《统计学》案例——描述性分析大学毕业生的表现1、问题的提出某大学是一所综合性大学,有三个附属学院,分别是商贸学院、生物学院和医学院。
近期高校管理层为了了解社会对本校学生的满意程度,以此促进本校教学改革,其中进行了一项对本校的毕业生调查,随机抽取了48名毕业生组成样本,要求他们所在的工作单位对其工作表现、专业水平和外语水平三个方面的表现进行评分,评分由0到10,分值越大表明满意程度越高。
2、数据的收集表:48名毕业生工作表现、专业水平和外语水平评分资料表表:三个学院的48名毕业生的工作表现、专业水平和外语水平评分汇总表校管理层希望在调查分析报告中阐述以下几个问题:(1)用人单位对该校毕业生哪个方面最为满意? 哪个方面最不满意?应在哪些方面做出教学改革?(2)用人单位对该校毕业生哪个方面的满意程度差别最大?什么原因产生?(3)社会对三个学院的毕业生的满意程度是否一致?能否提出提高社会对该校毕业生的满意程度的建议?2、方法的确定将数据输入计算机,我们用Excel中的数据分析功能实现对数据的描述。
输出结果如下图表。
表:48名毕业生的评分统计汇总表表7 三个学院的48名毕业生的评分统计汇总表图24、结果分析从图可看出,随机抽取48名毕业生是由附属商贸学院、生物学院和医学院毕业生组成,各学院毕业生人数分别是17人、17人和14人,分别占样本的35.4%、35.4%和29.2%,可见各学院抽取毕业生人数大致相同,样本具有一定代表性。
从表可看出:①用人单位对某大学毕业生的工作表现评估分最高,而外语水平评估分最低。
工作表现平均评估分为8.04分,外语水平平均评估分为5.08分,两者平均评估分相差2.96分,由此可见用人单位最满意该校毕业生的工作表现,最不满意毕业生的外语水平,这反映出某大学注意培养学生社会实践能力,也反映出毕业生适应能力较强。
从用人单位对毕业生外语水平评分普遍偏低看,反映出该校的外语教学方面存在严重问题,今后需要在外语教学方面加大力度全面改革。
统计学案例简介统计学是一门研究如何收集、整理、分析和解释数据的学科。
它是现代社会科学中不可或缺的一部分,广泛应用于各个领域,如经济学、医学、社会学等。
本文将介绍一个统计学案例,以便读者更好地理解统计学的应用和意义。
案例背景假设我们是一家制药公司的市场营销团队成员,我们的公司最近开发了一种新的镇痛药,并希望通过市场调查来了解目标患者对该药物的需求和接受程度。
我们决定进行一项调查研究,以便更好地了解市场需求,从而能够制定出更好的推广策略。
调查目的我们的调查目的是测量目标患者对我们的新镇痛药的需求和接受程度。
通过收集和分析相关数据,我们希望能够回答以下问题:1.目标患者对新药的认知程度如何?2.目标患者使用镇痛药的频率和用途是什么?3.目标患者对新药的满意度如何?4.目标患者是否愿意推荐给其他患者?调查设计为了回答上述问题,我们决定设计一份问卷调查。
问卷包括以下几个方面的问题:1.基本信息:包括患者年龄、性别、教育水平等。
2.药物认知程度:包括患者是否了解过该药物,了解程度如何。
3.使用频率和用途:包括患者使用镇痛药的频率、使用的原因和目的等。
4.满意度评价:包括患者对新药的满意度评级。
5.推荐意愿:包括患者是否愿意向其他患者推荐该药物。
我们将根据实际情况,选择合适的调查方式,如在线调查、电话访谈或面对面访谈。
为了提高问卷回收率,我们可能采取一些奖励措施,如抽奖或赠送小礼品。
数据收集与分析在进行调查时,我们将努力收集尽可能多的数据样本,以确保结果的可靠性和准确性。
通过统计学的方法,我们可以对数据进行分析,并得出一些有意义的结论。
例如,通过计算样本中不同年龄和性别的患者所占的比例,我们可以了解患者的分布情况。
通过计算药物认知程度的回答情况,我们可以找出不同患者群体对该药物的认知程度有何差异。
我们还可以计算患者使用镇痛药的频率和用途的统计数据,如平均值、中位数和众数等,以更好地了解患者对药物的需求和使用情况。
统计学数据分析案例在统计学中,数据分析是一项重要的工作。
通过对数据的收集、整理、分析和解释,我们可以发现数据背后的规律和趋势,为决策提供支持和参考。
下面,我们将通过几个实际案例来展示统计学数据分析的应用。
案例一,销售数据分析。
某公司在过去一年的销售数据显示,不同产品的销售额有所不同。
为了更好地了解产品销售情况,我们对销售额进行了统计分析。
通过对比不同产品销售额的均值、中位数和标准差,我们发现其中一款产品的销售额波动较大,而另一款产品的销售额相对稳定。
结合市场情况和产品特点,我们提出了针对性的销售策略建议,以优化产品组合和提高销售效益。
案例二,用户行为数据分析。
某互联网平台收集了大量用户的行为数据,包括浏览量、点击量、购买量等。
我们通过对用户行为数据的分析,发现了不同用户群体的行为特点。
通过构建用户行为模型,我们可以预测用户的行为偏好和购买意向,为平台运营和营销活动提供了有力的数据支持。
案例三,医疗数据分析。
在医疗领域,数据分析对于疾病预测、诊断和治疗具有重要意义。
通过对患者的临床数据进行统计分析,我们可以发现不同疾病的发病规律和影响因素。
同时,结合医学知识和统计模型,我们可以建立疾病预测和诊断模型,为临床决策提供科学依据。
通过以上案例,我们可以看到统计学数据分析在不同领域的广泛应用。
通过对数据的深入挖掘和分析,我们可以发现隐藏在数据背后的规律和价值,为决策和实践提供有力支持。
因此,数据分析不仅是统计学的重要内容,也是现代社会决策和管理的重要工具。
希望通过本文的案例分析,能够加深对统计学数据分析的理解,提高数据分析能力,为工作和生活带来更多的价值和意义。
第1篇一、引言统计学是一门研究数据的收集、整理、分析和解释的学科。
在教育领域,统计学发挥着至关重要的作用。
通过对学生成绩的统计分析,教育工作者可以更好地了解学生的学习状况,从而制定有效的教学策略。
本文将以一个经典案例为例,探讨统计学在教育中的应用。
二、案例背景某市一所中学为了提高教学质量,决定对七年级全体学生的数学成绩进行一次全面调查。
学校希望通过统计分析,了解学生的整体学习水平,为教师提供有针对性的教学建议。
三、数据收集该校七年级共有300名学生,其中男生150人,女生150人。
在调查中,学校采用了问卷调查和考试成绩两种方式收集数据。
问卷调查主要收集学生的基本信息,如年龄、家庭背景等;考试成绩则反映了学生在数学学科的学习水平。
四、数据分析1. 数据整理首先,将收集到的数据进行整理,包括学生的基本信息和数学考试成绩。
将数据录入Excel表格,便于后续分析。
2. 描述性统计(1)计算平均成绩、中位数、众数、标准差等指标,了解学生数学成绩的集中趋势和离散程度。
平均成绩 = 总成绩 / 学生人数中位数 = 将所有成绩从小到大排序后,位于中间的数值众数 = 出现次数最多的成绩标准差 = 各个成绩与平均成绩之差的平方和的平均数的平方根(2)分析性别对成绩的影响,比较男生和女生在数学成绩上的差异。
3. 相关性分析(1)计算数学成绩与年龄、家庭背景等变量的相关系数,了解这些因素对成绩的影响。
(2)分析各科成绩之间的相关性,判断是否存在学科间的相互影响。
4. 交叉分析(1)根据性别、家庭背景等变量,将学生分为不同群体,分析各群体在数学成绩上的差异。
(2)根据学生的成绩水平,将学生分为优秀、良好、一般、较差四个等级,分析各等级学生的性别、家庭背景等特征。
五、结果与讨论1. 描述性统计结果显示,该校七年级学生的数学平均成绩为75分,中位数为70分,众数为80分,标准差为10分。
说明该校学生的数学成绩整体处于中等水平,但存在一定程度的波动。
经济管理类“十二五”规划教材统计学-基于典型案例、问题和思想主讲林海明第一章绪论【引言】我们从如下9个重要事例,说明统计学有什么用。
事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。
事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。
由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发言权”的科学论断。
事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。
这说明了统计学中调查的重要性。
事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。
事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。
该学科现已发展到了6σ质量管理原则。
事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。
事例7:在产品质量检验方面,英国统计学家戈赛特(1908)、波兰统计学家奈曼(1934)找到了统计学的t-检验方法,为企业、质量监督部门、消费者的产品质量检验,大大提高了工作效率,t-检验成为二十世纪质量改进的第一次大贡献。
统计学典型案例想象有个医院,要比较两种治疗方法,一种是传统疗法,一种是新疗法。
医院有两个科室,内科和外科。
在内科呢,用传统疗法治疗了100个病人,有80个人康复了,康复率那就是80%。
用新疗法治疗了50个病人,有40个人康复了,康复率是80%。
看起来两种疗法在内科效果一样好。
再看外科,传统疗法治疗了50个病人,有20个康复了,康复率是40%。
新疗法治疗了100个病人,有60个康复了,康复率是60%。
在外科新疗法更好。
但是啊,如果把内科和外科的数据合起来看,传统疗法总共治疗了100 + 50=150个病人,康复的有80 + 20 =100个,康复率是100/150≈66.7%。
新疗法总共治疗了50+100 =150个病人,康复的有40+60 =100个,康复率也是100/150≈66.7%。
你看,单独看每个科室的时候,新疗法在外科表现更好,和传统疗法在内科表现一样好。
但整体看呢,两种疗法又好像一样好。
这就是辛普森悖论,它告诉我们在看统计数据的时候,可不能光看总体,有时候得拆开不同的分组来看,不然就很容易被数据骗啦。
还有个关于平均数的有趣例子。
有个小公司,老板想给员工涨工资,来激励大家好好干活。
这个公司里有普通员工和经理。
普通员工的工资普遍比较低,比如有5个普通员工,工资分别是3000、3500、4000、4500、5000元。
那普通员工的平均工资就是(3000 + 3500 + 4000 + 4500 + 5000)÷5 = 4000元。
有3个经理,工资分别是10000、12000、15000元,经理的平均工资就是(10000 + 12000 + 15000)÷3 = 12333元左右。
整个公司员工(5个普通员工 + 3个经理)的平均工资就是(3000 + 3500 + 4000 + 4500 + 5000+10000 + 12000 + 15000)÷8 = 6750元左右。
统计案例分析及典型例题§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40基础自测典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系;基础自测②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-∙-ni ini i i x n xyx n y x 1221≈0.813 6,aˆ=1.42-1.74×0.813 6≈0.004 3,13分 ∴回归方程yˆ=0.813 6x+0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx+a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.880 9.aˆ=y -bˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x+67.173.3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n=6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx=71+1.82×3.5=77.37.回归方程为yˆ=aˆ+bˆx=77.37-1.82x.(2)因为单位成本平均变动bˆ=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x=6,代入回归方程:yˆ=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案a,c,b2.回归方程yˆ=1.5x-15,则下列说法正确的有个.①y=1.5x-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为yˆ=8.25x+60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x+5.75 5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx+a ˆ表示的直线一定过定点 . 答案 (4,5) 二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.196 2aˆ=y -bˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x+1.814 2.11.某公司利润y 与销售总额x(单位:千万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y=71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -∙-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -bˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x=24(千万元)代入方程得,yˆ=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -bˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x+17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据 2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r=-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③基础自测例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++-2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r=)4)(4(42412241241y yx xyx yx i ii ii ii --∙-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x-0.857 1. (3)要使yˆ≤10⇒0.728 6x-0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.解 作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y 与x 之间应是非线性相关关系.与已学函数图象比较,用y ˆ=e a x b ˆˆ来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx+a ˆ,题中数据变成如下表所示:相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r ≈-0.996.|r|>r 0.05.认为x 与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,a ˆ≈8.165,所以z ˆ=-0.298x+8.165,最后回代z ˆ=ln y ˆ,即y ˆ=e -0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y=71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r=)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为yˆ=4.746x+51.386.3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u=x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u, 最后回代u=x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.一、填空题1.对于独立性检验,下列说法中正确的是 . ①2χ的值越大,说明两事件相关程度越大 ②2χ的值越小,说明两事件相关程度越小 ③2χ≤2.706时,有90%的把握说事件A 与B 无关 ④2χ>6.635时,有99%的把握说事件A 与B 有关 答案 ①②④2.工人月工资y (元)依劳动生产率x(千元)变化的回归方程为y ˆ=50+80x ,下列判断正确的是 .①劳动生产率为1 000元时,工资为130元。
统计案例引言统计学是一门研究数据收集、数据分析、数据解释的学问,它通过收集和分析数据来推断和描述现象背后的规律性。
统计案例是统计学的一个重要组成部分,通过实际案例的分析,帮助人们理解统计学的概念和方法,并将其应用于解决实际问题。
本文将介绍两个有关统计案例的例子,分别是餐厅销售数据分析和医院疾病统计分析。
餐厅销售数据分析背景某餐厅希望通过统计和分析销售数据,了解不同菜品的受欢迎程度,以便合理调整菜单和优化经营。
数据收集餐厅在一段时间内,记录每个菜品的销售数量和销售额,包括早餐、午餐和晚餐三个时间段的数据。
数据分析通过统计分析可以得到以下结果:1.各时间段销售量排名前三的菜品是什么?2.销售额最高的时间段是哪个?3.各时间段的平均销售额是多少?数据解释1.根据销售量排名,我们可以了解到顾客对不同菜品的喜好程度,此信息可以用于调整菜单和供应量。
2.销售额最高的时间段可能是餐厅的客流量最大的时间段,我们可以针对该时间段增加服务质量和经营策略。
3.平均销售额的数据可以作为餐厅经营状况的指标,用于评估餐厅的经营状况和制定经营策略。
医院疾病统计分析背景某医院希望通过统计和分析疾病数据,了解疾病的发病率、就诊率和疗效,以便改善医疗服务和制定预防措施。
数据收集医院在一段时间内,记录每种疾病的发病人数、就诊人数和治愈人数,并将其划分为不同的年龄段。
数据分析通过统计分析可以得到以下结果:1.哪些疾病的发病率较高?2.哪些疾病的就诊率较高?3.哪些年龄段的疾病较多?4.治愈率高的疾病有哪些?数据解释1.通过发病率较高的疾病,可以了解到人们在某个时间段内易患的疾病,有助于制定预防策略和健康教育。
2.就诊率较高的疾病可能是重要的公共卫生问题,可通过提供更好的医疗服务和加强预防工作来应对。
3.了解不同年龄段的疾病情况,可以为医院合理配置资源和制定不同年龄段的健康管理计划提供依据。
4.治愈率高的疾病可能是医院在治疗该疾病方面的特长,这一信息可以用于宣传和引导患者就医。
统计学1、⽔泥⼚⽤⾃动包装机包装⽔泥,每袋额定重量是50kg ,某⽇开⼯后随机抽查了9袋,称得重量如下:49.6 49.3 50.1 50.0 49.2 49.9 49.8 51.0 50.2设每袋重量服从正态分布,要求:(1)确定该种⽔泥平均重量的95%的置信区间(2)问包装机⼯作是否正常(0.05α= /2(8) 2.306t α=)解:(1)已知n=9, 0.05α=,/2(8) 2.306t α=样本均值为1n ii x x n==∑=49.649.350.150.049.249.949.851.050.2 49.99++++++++=由于是⼩样本,且2σ未知所以该种⽔泥平均重量的95%的置信区间为/20.05/2(49.9x t n t α±-=±=49.90.413=± (2)建⽴假设01:50,:50H H µµ=≠计算检验的统计量:49.9500.560.536/3t -=== 由于0.56 2.306t = ,故应接受0H ,即认为包装机⼯作正常。
2、某企业⽣产的袋装⾷品采⽤⾃动打包机包装,每袋标准重量为100克。
现从某天⽣产的⼀批产品中按重复的抽样随机抽取50包进⾏检查,测得每包重量如下:假定⾷品包重服从正态分布,要求:(1)确定该种⾷品平均重量的95%的置信区间。
(2)采⽤假设检验⽅法检验该批⾷品的重量是否符合要求(0.05α=,/2 1.96z α=)解:(1)已知n=50, 0.05/2 1.96z =样本均值为15066101.32(50k i i i M fx n ====∑克)样本标准差为 1.634(s ===克)由于是⼤样本,所以⾷品的平均重量95%的置信区间为:/2x zα±101.32 1.96101.320.453±=± (2)提出假设:01:100,:100HH µµ=≠计算检验的统计量: 5.712z === 由于0.05/25.712 1.96z z == ,所以拒绝原假设,该批⾷品的重量不符合标准。
经济管理类“十二五”规划教材统计学-基于典型案例、问题和思想主讲林海明努力第一章绪论【引言】我们从如下9个重要事例,说明统计学有什么用。
事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学方法找到了危险区域,英军用钢板加固了努力这些危险区域,使英军取得了空战的胜利。
事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。
由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发言权”的科学论断。
努力事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。
这说明了统计学中调查的重要性。
事例4:在居民收入贫富差距的测度方努力面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。
事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提高了企业的产品质量,其产品畅销海内外,努力日本因此成为当时的第二经济强国。
该学科现已发展到了6σ质量管理原则。
事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。
事例7:在产品质量检验方面,英国统努力计学家戈赛特(1908)、波兰统计学家奈曼(1934)找到了统计学的t-检验方法,为企业、质量监督部门、消费者的产品质量检验,大大提高了工作效率,t-检验成为二十世纪质量改进的第一次大贡献。
事例8:在身高方面,矮父亲儿子的身高有比父亲高的趋势吗?高父亲儿子的身高有比父亲矮的趋势吗?英国统计学家高尔顿(1 886)用德国数学家高斯的最小二努力乘法(1801)找到了统计学的回归分析方法,解决了该问题。
该方法推广应用到经济学中,获得了三届诺贝尔经济学奖。
事例9:某些商品或大量商品价格的骤然上涨,会给老百姓的生活带来恐慌,会引起社会的普遍关注,如何及时反映市场商品价格的变化呢?德国经济学家帕歇(1 874)找到了统计学的指数分析方法,为政府解决问题提供了政策依据。
努力上述事例,我们看到了统计学在军事、政治、教育、社会、经济、质量管理、生物学领域的重要应用,看到了学者领袖瓦尔德、毛泽东、洛仑兹、基尼、田口玄一、费歇尔、戈赛特、高斯、高尔顿、帕歇的人文贡献和力量,看到了如下变量的数据:战机空战中的危险区域,革命的主力军和道路,大学的核心,居民收入,产品质量,坦克产量,身高,商品价格。
这些事例的努力进一步描述是本书一些章节开头部分的典型案例,通过这些典型案例读者可以对统计学的作用有一个较深入的了解,由此衔接各章所要学习的内容。
经济学家萨缪尔森认为:在许多与经济学有关的学科中,统计学特别重要。
事实上,在诺贝尔经济学奖获奖者中,三分之二以上的成果与统计和定量分析有关。
杜邦公司总经理理查德指出:现代公努力司在许多方面是根据统计来行事的。
2001年,我国经济学家、教育学家顾海良认为,统计学是二十一世纪最有前途的一门学科。
鉴于统计学为世界社会经济、科学技术的发展和进步作出了巨大贡献,2010年,第64届联合国大会第90次会议通过决议,每年10月20日为“世界统计日”。
2011年,我国将统计学上升为一级学努力科。
事实上,统计学和数据已渗透到社会生活、科学技术的方方面面。
统计学如此重要,那么究竟什么是统计学?统计学是如何解决实际问题的?统计学与数学、经济学等实质性学科有何区别与联系?这些是本章第一节所要介绍的内容。
第一节统计学的含义和作用努力一、什么是统计学?统计学发展至今已有300多年。
历史上,英文中的统计statistics与“国家”同一词根,即自从有了国家,统治者就用统计来管理国家。
1846年,比利时统计学家凯特勒在他的《概率论书简》《社会物理学》中认为:统计学是一门既研究社会现象又努力研究自然现象的方法论科学。
我们将从如下案例来认识统计学的含义和作用:【典型案例1】瓦尔德帮助英军找到了英军战机空战中的危险区域二战时期,英国和德国在英吉利海峡上空的空战非常惨烈,正义与邪恶达到了你死我活的胶着状态,为了提高英国空军的战斗力,英国统计学家瓦尔德被英国空军司令咨询:飞机上什么区域应该加强钢努力板?计,他和助手拿了飞机模型到机场,查看从空战中返航的军机受敌军创伤的弹孔位置,在他的飞机模型上逐个不重不漏地标示返航军机受敌军创伤的弹孔位置,英国统计学家瓦尔德努力几天后,他的飞机模型上几乎布满了有弹孔的区域,因为没有弹孔区域被击中的飞机都没有返航,有弹孔区域被击中的飞机照样返航,故没有弹孔区域是军机的危险区域,于是他提议,把剩下少数几个没有弹孔的区域加强钢板(颠覆了事前哪里有弹孔,钢板就加强哪里的传统做法)。
英国人按此加固了飞机,在最后一次空战后,英国空军司令说:如果德国再发动一次空努力战,我们就完了……但德国再也没有对英国发动一次空战了,英国胜利了!该案例是军事问题+统计学+智慧的成果,生动而充满人性的力量!瓦尔德因在统计决策领域的贡献而成为该领域的领袖。
从典型案例1中分析和提炼有《大不列颠百科全书》中的定义:统计学是收集、处理、分析和解释数据,以便更好决策的一门方法论学科。
努力数据是反映客观事物的特征及其表现,是统计学的研究对象。
当其表现是非数值时,是定性数据,如飞机员的姓名、性别等;当其表现是数值时,是数量数据,如飞机的弹孔位置等;当其表现是图像时,是图像数据,如飞机模型上布满了弹孔的区域等;当其表现是声音时,是声音数据,如飞机的轰鸣声等。
分析数据的方法有描述统计、推断统努力计。
如典型案例1中,“瓦尔德在他的飞机模型上逐个不重不漏地标示从空战中返航军机受敌军创伤的弹孔位置,几天后,他的飞机模型上几乎布满了有弹孔的区域”是描述统计及其结果。
描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。
“他的飞机模型上没有弹孔区域是军努力机的危险区域”是推断统计及其结果。
英军所有军机称为总体,总体的部分称为样本,推断统计就是根据样本数据特征去估计或检验总体的数据特征。
典型案例1的调查有特殊性:所掌握的数据只有样本数据-从空战中返航军机受敌军创伤的弹孔位置,这里的调查是破坏性的,不可能对总体的所有个体都进行观察和实验取得结果,而我们所需要的是总体的数据特征-英军所努力有军机空战中的危险区域。
这时必须用推断统计来解决问题,这是现代统计学的主要内容。
从典型案例1中分析和归纳有统计学的作用:在结合实质性学科的过程中,统计学是能发现客观世界规律,更好决策,改变世界和培养相应领域领袖的一门学科。
当然,领袖是少数,执行者和参与者努力是多数,每个人都有自己的合理位置。
面对事例3中美国培养各领域领袖和当今各学科领域尖端知识、技术的严峻挑战,中国各学科领域应努力践行“探索、调查、发现”,培养和拥有自己各领域的领袖,这些领袖能引领中国人在相应的领域获得应有的独立性、自主性、平等性和话语权。
各学科领域培养和拥有自己的领袖应该是每个学科领域应有的使命和奋斗目标。
努力要发现客观世界规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。
客观性是指能反映客观事实而不受任何偏见的影响或任何势力的干扰;适用性是指统计数据能适应解决问题的目的;准确性是指统计数据能够反映真实情况,不出现较大的误差;及时性是指统计数据应及时收集、整理、使用。
努力二、统计学是如何解决实际问题的?古人云:与其给人一堆猎物,不如给人一杆猎枪。
因此,统计学解决实际问题的思路(步骤)很重要。
从典型案例1中分析和提炼有统计学解决实际问题的基本思路(步骤)是:①提出与统计有关的实际问题;②建立有效的指标体系;努力③收集数据;④选用或创造有效的统计方法整理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量的知识作出合理推断;⑥根据推断给出更好决策的建议。
不解决问题时,重复第②-⑥步。
学习中,当我们识别了这六步,就有了一个结构较完整的知识理解。
上述第一努力步尤其重要,数学家哈尔莫斯指出“问题是数学的心脏”,同样我们认为,问题是科学的心脏,因为有问题才知道目的,有问题才知道做什么,有问题才有进步、提高和希望。
三、统计学的发展和应用领域上述引言的重要事例中,从统计学的努力深入发展看,产生了统计调查、统计分布、参数估计、假设检验、相关与回归分析、时间序列分析、多元统计分析等丰富的统计学理论。
从统计学在各领域的应用上看,产生了应用统计学领域及其家族,见表1- 1。
事实上,只要有数据的地方,就会有统计学的应用,而各个领域都有数据,因此,统计学在各个领域都在发挥发现客观世界规律,更好决策的作用。
努力表1-1 应用统计学一览表努力统计学理论和应用统计学总是互相促进,共同提高的。
统计理论的研究为应用统计提供方法论基础,应用统计学在对统计方法的实际应用中,常会对统计学理论提出新的问题,开拓统计学理论的研究领域。
当然,统计学也可从自身不完善的理论中提出新问题。
作为经济和管理类的学生,所要学习的统计学主要是社会经济统计学。
其是一努力门以社会经济现象的数据为特定研究对象的应用统计学。
由于社会经济现象所具有的复杂性和特殊性,社会经济统计学不仅要应用一般的统计方法,而且还需要研究自己独特的方法,如核算的方法、指数方法、综合评价方法等。
通过社会经济统计,国家可以准确、及时、全面、系统地掌握国民经济和社会发展情况,对国民经济和社会运行监督和努力预警,为宏观调控和决策提供依据。
企业可以及时了解商品市场和要素市场运行的状况和企业自身的经营动态,为企业营销决策、投资理财决策提供参考。
四、统计学与数学、经济等实质性学科的联系与区别(一)统计学与数学努力在典型案例1中,数学只用到了空间解析几何的飞机模型。
即在统计学解决实际问题的步骤中,在数据的特征描述环节中会用到数学的一些公式和结论,但用得不多,会用就行,基本上不需要数学推导和证明。
数学中的概率论等,为统计学提供了数量分析的理论基础。
统计学理论以抽象的数量为研究对象,其大部分内容也可以看作是数学的分支。
努力统计学与数学的区别:从成果评价标准看,数学注重从假设到结论逻辑推导的正确性,而统计注重从客观世界发现规律及其更好决策。