应用统计学 第3章
- 格式:ppt
- 大小:1.60 MB
- 文档页数:79
1.1.4 统计学的学科体系现代统计学是一门多分支的科学。
根据研究的侧重点不同将统计学科划分为理论统计学和应用统计学两个大类,统计学学科体系如图1.1所示。
图1.1 统计学学科体系1.2 统计研究的特点、方法和作用1.2.1 统计的含义所谓统计,顾名思义就是统而计之,即汇总分析。
具体指根据研究目的和要求,运用科学的方法,对客观事物或人类实践活动的数据资料进行调查、整理、分析的过程。
统计学则是研究如何对社会总体的数量特征和规律进行描述、推断、认识的一门学科。
1.统计活动统计活动也称为统计实践、统计工作,是指根据统计目的及要求,利用科学的方法,对所研究客观事物或者活动的数据资料进行调查、整理、分析的过程。
统计调查、统计整理和统计分析是基本的统计活动,所提供的统计资料包括原始统计资料、整理结果和分析结论。
统计活动一般按照统计设计、统计调查、统计整理、统计分析和统计资料的开发利用这几个阶段依次进行,如图1.2所示。
是非曲直的背后,引导学生如何做事、如何做人,培养他们正确的人生价值取向。
统计是静止的历史,历史是流动的统计。
统计虽然不能创造历史,但用数字真实记录了历史的发展。
作为一项社会实践,也是一部人类生活和斗争的历史,更是社会文明积累的结果。
统计学发展史中蕴含着大量做人的道理,统计学的发展和完善是众多统计学者和研究者孜孜不倦不断探索的结果,了2图1.3 统计方法体系图1.2.4 统计的作用与职能随着社会主义市场经济体制的逐步建立和完善,统计职能将越来越重要。
统计已由单纯的统计信息搜集整理职能转变为信息、咨询、监督三大职能。
统计部门已成为社会经济信息的主体部门和国民经济核算的中心,成为国家重要的咨询和监督机构。
统计的作用主要体现在信息、咨询、监督三大功能上。
具体表现为:①为党和政府各级领导机构决策和宏观调控提供资料;②为企业、事业单位经营管理提供依据;③为社会公众了解情况,参与社会经济活动提供资料;④为科学研究提供资料;⑤为国际交往提供资料。
一、思考题1.数据的预处理包括哪些内容?答:数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
(1)数据审核就是检查数据中是否有错误。
对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核;对于通过其他渠道取得的二手数据,则应着重审核数据的适用性和时效性(2)数据筛选是根据需要找出符合特定条件的某类数据。
(3)数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。
除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。
2.分类数据和顺序数据的整理和图示方法各有哪些?答:(1)分类数据的整理方法:首先列出分类数据所分的类别,然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表。
图示方法:条形图、帕累托图、饼图和环形图。
(2)顺序数据的整理方法:首先按照一定的顺序将数据进行分类,然后计算出每一类别的频数、比例、百分比、比率等,对于顺序数据,除了可使用分类数据的整理和图示技术外,还可以计算累积频数和累积频率(百分比)。
图示方法:条形图、饼图、帕累托图、累积频数分布图和环形图。
3.数值型数据的分组方法有哪些?简述组距分组的步骤。
答:(1)数据分组的方法有单变量值分组和组距分组两种。
①单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且变量值较少的情况下使用;②在连续变量或变量值较多的情况下,通常采用组距分组。
它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。
(2)组距分组步骤①确定组数。
组数的确定应以能够显示数据的分布特征和规律为目的。
一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15;②确定各组的组距。
组距是一个组的上限与下限的差。
组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数;③根据分组编制频数分布表。
1 3.1 独立性检验 1.了解独立性检验的概念,会判断独立性检验事件. 2.能列出2×2列联表,会求χ2(卡方统计量的值). 3.能够利用临界值,作出正确的判断.(重点) 4.应用独立性检验分析实际问题.(难点)
[基础·初探] 教材整理1 2×2列联表的意义 阅读教材P91~P94“例1”以上部分,完成下列问题
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下表所示的抽样数据: Ⅱ 类1 类2 合计
Ⅰ 类A a b a+b 类B c d c+d 合计 a+c b+d a+b+c+d 形如上表的表格称为2×2列联表,2×2列联表经常用来判断Ⅰ和Ⅱ之间是否有关系.
下面是一个2×2列联表: y1 y2 合计 x1 a 21 73 x2 8 25 33 合计 b 46
则表中a,b处的值分别为________. 【解析】 ∵a+21=73,∴a=52. 又b=a+8=52+8=60. 【答案】 52,60 教材整理2 独立性检验 阅读教材P93~P94“例1”以上部分完成下列各题.
1.独立性检验 2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,结果并不唯一.因此,由某个样本得到的推断有可能正确,也有可能错误.为了使不同样本量的数据有统一的评判标准,统计学中引入下面的量(称为卡方统计量):
χ2=nad-bc2a+bc+da+cb+d(*),
其中n=a+b+c+d为样本容量. 用χ2统计量研究这类问题的方法称为独立性检验(test of independence). 2.独立性检验的基本步骤 要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行: (1)提出假设H0:Ⅰ与Ⅱ没有关系; (2)根据2×2列联表与公式(*)计算χ2的值; (3)查对临界值(如下表),作出判断. P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10 x0 0.455 0.708 1.323 2.072 2.706 P(χ2≥x0) 0.05 0.025 0.010 0.005 0.001 x0 3.841 5.024 6.635 7.879 10.828
统计学课后习题答案+模拟题库2套选择题第一章统计学及其基本概念一、单项选择题1. 推断统计学研究()。
(知识点:1.2 答案:D)A.统计数据收集的方法B.数据加工处理的方法C.统计数据显示的方法D.如何根据样本数据去推断总体数量特征的方法2. 在统计史上被认为有统计学之名而无统计学之实的学派是()。
(知识点:1.3 答案:D)A.数理统计学派B.政治算术学派C.社会统计学派D.国势学派3. 下列数据中哪个是定比尺度衡量的数据()。
(知识点:1.4 答案:B)A.性别B.年龄C.籍贯D.民族4. 统计对现象总体数量特征的认识是()。
(知识点:1.6 答案:C)A.从定性到定量B.从定量到定性C.从个体到总体D.从总体到个体5. 调查10个企业职工的工资水平情况,则统计总体是()。
(知识点:1.6 答案:C)A.10个企业B.10个企业职工的全部工资C.10个企业的全部职工D.10个企业每个职工的工资6. 从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体是().(知识点:1.6 答案:A)A. 样本B. 总体单位C. 个体D. 全及总体7. 三名学生期末统计学考试成绩分别为80分、85分和92分,这三个数字是()。
(知识点:1.7 答案:D)A. 指标B. 标志C. 变量D. 标志值8. 以一、二、三等品来衡量产品质地的优劣,那么该产品等级是()。
(知识点:1.7 答案:A)A. 品质标志B. 数量标志C. 质量指标D. 数量指标9. ()表示事物的质的特征,是不能以数值表示的。
(知识点:1.7 答案:A)A. 品质标志B. 数量标志C. 质量指标D. 数量指标10. 在出勤率、废品量、劳动生产率、商品流通费用额和人均粮食生产量五个指标中,属于数量指标的有几个()。
(知识点:1.7 答案:B)A. 一个B. 二个C. 三个D. 四个二、多项选择题1.“统计”一词通常的涵义是指()。
(知识点1.1 答案:ABC)A.统计学B.统计工作C.统计资料D.统计局 E. 统计核算体系2、描述统计内容包括()()()()()。
完整版)统计学名词解释统计学名词解释第一章绪论在统计学上,随机变量指的是取值之间不能预料到的变量。
总体,又称母全体或全域,是指具有某种特征的一类事物的全体。
构成总体的每个基本单元称为个体。
从总体中抽取的一部分个体称为样本。
次数指的是某一事件在某一类别中出现的数目,又称为频数。
频率,又称相对次数,指某一事件发生的次数被总的事件数目除,即某一数据出现的次数被这一组数据总个数去除。
概率指某一事物或某一情在某一总体中出现的比率。
一旦确定了某个值,就称这个值为某一变量的观测值。
参数,又称为总体参数,是描述一个总体情况的统计指标。
样本的那些特征值叫做统计量,又称特征值。
第二章统计图表统计表是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
统计图一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
简单次数分布表适合数据个数和分布范围比较小的时候用,它是依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。
而分组次数分布表适合数据个数和分布范围比较大的时候用。
数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来。
分组次数分布表的编制步骤包括求全距、定组距和组数、列出分组组距、登记次数和计算次数。
相对次数分布表用频数比率或百分数来表示次数,而累加次数分布表则把各组的次数由下而上或由上而下加在一起。
最后一组的累加次数等于总次数。
双列次数分布表用同一个表表示有联系的两列变量的次数分布。
而不等距次数分布表则适用于像工资级别和年龄分组这样的不等距数据。
需要注意的是,归组效应是分组次数分布表的缺点之一,因为原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差。