高级社会统计学第九部分 列联表
- 格式:ppt
- 大小:611.50 KB
- 文档页数:34
1.社会统计学社会统计学是运用统计学的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种专门方法与技术。
人们既用它来分析已经发生和正在发生的现象,也用它来估计预测未来可能发生的现象。
2.国势学派产生于德国,其创始人为康令和阿亨瓦尔。
该学派一直以统计学为名,但只用文字记述,不用数字计量,历史上人们将该学派称为“有名无实”学派。
3.政治算术学派该学派的创始人为英国人格朗特和威廉·配第。
该学派“用数字、重量、尺度来表达自己想说的问题”,虽然没有使用统计学这一名词,但所使用的社会宏观数量对比和分析方法揭示了统计学所要研究的内容,因此历史上人们将这一学派称为“有实无名”学派。
马克思对配第评价很高,誉他为“政治经济学之父,在某种程度上也可以说是统计学的创始人”。
4.数理统计学派该学派的创始人未比利时人凯特勒,其最大的贡献就是将法国的古典概率论引入统计学,用纯数学的方法对社会现象进行研究。
由于把概率论引进统计学,使社会随机现象数量方面的研究提高了准确性。
因此,一门兼有数学和统计学双重意义的学科被命名为“数理统计学”。
凯特勒也被人称为“现代统计学之父”。
5.大量观察法大量观察法,就是就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征。
大量观察法是统计调查阶段的重要方法6.大数规律大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。
7.描述性统计描述性统计,就是讨论范围仅以搜索的资料本身为限,而不予以扩大。
早期的统计都是描述统计。
8.推论性统计推论性统计,主要是依据概率论,研究如何依据有限资料对总体性质作推断,从而使统计的功能大为扩充。
是在树立统计学派之后发展起来的,属于比较现代的统计分析方法。
9.样本和(或)样本总体样本或样本总体,是通过抽样得到的用以推断总体特征的那个“部分”。
社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比拟大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比拟大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比拟定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次〔或频率〕分布的一种工具。
2.统计表必备的容:(1)表号、标题(2)标识行:变量名、对应数据说明〔频次、频率〕(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数〔cf↑〕和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组适宜,分为等距分组和非等距分组。
(2)组限:包括上限〔up〕和下限〔low〕(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
列联表和卡方检验的定义及应用概述在统计学中,列联表和卡方检验是重要的分析工具。
列联表是用于比较两个或多个变量之间关系的一种表格形式,而卡方检验则是用于检验这些变量之间是否存在显著的关联性。
本文将介绍列联表和卡方检验的定义、原理和应用。
一、列联表1.1 定义列联表是一种展示两个或多个变量之间关系的二元频数表,用于比较不同组别之间的差异。
它通常由两个或多个分类变量和个体数(或频数)组成。
例如,我们可以用一个列联表来比较男女学生在一个考试中的得分情况,或者比较不同疾病在不同年龄段中的发生情况。
1.2 列联表的应用列联表可以用于研究任何两个或多个变量之间的关系。
它可以帮助我们发现隐藏在数据中的模式,并在研究中提供有关变量之间关系的信息。
列联表还可以用于产生一些其他的统计工具,例如卡方检验和残差分析等。
二、卡方检验2.1 定义卡方检验是一种用于分析列联表数据的统计方法。
它基于一个假设:假设两个变量之间不存在显著的关联性。
如果列联表数据显示这种关联性可能存在,则拒绝这个假设,说明两个变量之间存在显著的关联性。
2.2 卡方检验的原理卡方检验的原理很简单。
它比较观测值和期望值之间的差异,其中期望值是假设两个变量之间不存在关系时的期望结果。
卡方值则是这些差异之和的平方除以期望值的总和,其值越大就意味着观测值与期望值之间的差异越大,显著性水平也越高。
2.3 卡方检验的步骤卡方检验可以分为三个主要步骤。
第一,建立研究假设。
我们需要制定研究假设:H0假设两个变量之间不存在关系,H1假设两个变量之间存在关系。
如果我们无法拒绝H0假设,则可以认为数据中不存在两个变量之间的显著关联性。
第二,计算卡方值。
我们需要计算出卡方值。
从列联表中计算每个单元格的观测值和期望值,然后计算出所有单元格观测值和期望值之间的差异。
将这些差异加起来,并用期望值的总和除以卡方值。
如果卡方值越大,则差异越大,两个变量之间的关系也越显著。
通常,我们需要将卡方值与指定的显著性水平进行比较。
第一章科学方法与社会研究历程1·社会学研究:就是运用科学的方法来搜集和分析社会事实,以理解社会现象之间的关系。
2·科学研究:就是运用客观的、逻辑的和系统的方法来搜集事实及分析事实。
3·社会学研究的整个历程,大致上可以分为三个阶段:(1)筹划,(2)执行,(3)总结。
4·初步探索步骤:(1)收集有关的文献,(2)咨询那些对研究的题目有经验、有知识的人,进行了解,(3)观察个案.5·假设:就是根据我们对问题的了解,假定现象与现象之间的关系。
就是假定某一现象的变化与另一种现象的变化具有某种关系.假设的方式:函数式(要求变项之数值有高低之分)、差异式(不存在高低之分)6·较为常用的研究方式:实验法、社会调查法.(皆可验证假设)①实验法的逻辑:有意的改变A变项,然后看看B变项是否随着变化;如果B变项显然是随着A变项的变化而变化,就说明A变项对B变项有影响。
②社会调查法特点:在研究过程中不改变社会现状,只求就地取材,然后以统计方法推算变项与变项之间的关系。
7·能够有效地验证假设的实验法称为典型或理想实验法8·社会调查法可以分为两大类:一是叙述性调查(重点是报道社会事实,较少分析社会事实(即变项)之间的因果关系),一是解释性调查(目的是要证明不同的变项之间是否有因果关系)。
9·全体调查:就是从所有研究对象中搜集资料。
抽样调查:就是从全体的研究对象中科学的抽出一个数目较少的样本,然后据此样本的资料推论全体的情况。
10·个案研究:就是选择一个或几个个案(即研究对象),作深入的接触和观察,目的是对所研究的问题作深入的了解.11·横剖研究:指的是在同一时期搜集资料,目的是理解各种社会现象(即变项)在某时期的相关情况的研究.纵贯研究:是指在不同时期搜集的,目的在了解社会现象(即变项)在不同时期中的变动情况的研究.12·纵贯研究分为两种:趋势研究、同组研究(指的是在不同时期调查相同的样本).同组分析的问题:遗失个案的问题。
第九章统计(公式、定理、结论图表)1.全面调查和抽样调查调查方式全面调查(普查)抽样调查定义对每一个调查对象都进行调查的方法,称为全面调查,又称普查根据一定目的,从总体中①抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查相关概念总体:在一个调查中,我们把调查对象的全体称为总体.个体:组成总体的每一个调查对象称为个体样本:把从总体中抽取的那部分个体称为样本.样本量:样本中包含的个体数称为样本量2.简单随机抽样的概念放回简单随机抽样不放回简单随机抽样一般地,设一个总体含有N(N为正整数)个个体,从中②逐个抽取n(1≤n<N)个个体作为样本如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都③相等,我们把这样的抽样方法叫做放回简单随机抽样如果抽取是不放回的,且每次抽取时总体内④未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本3.抽签法先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个⑤不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.4.随机数法(1)定义:先把总体中的个体编号,用随机数工具产生已编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本,重复上述过程,直到抽足样本所需要的个体数.(2)产生随机数的方法:(i)用随机试验生成随机数;(ii)用信息技术生成随机数.5.总体均值和样本均值(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,Y N,则称Y=⑥Y1+Y2+…+Y NN ⑦1N∑i=1NY i为总体均值,又称总体平均数.(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数f i(i 1,2,…,k),则总体均值还可以写成加权平均数的形式Y⑧1 N∑i=1kf i Y i.(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,y n,则称y=⑨y1+y2+…+y nn ⑩1n∑i=1ny i为样本均值,又称样本平均数.6.分层随机抽样的相关概念(1)分层随机抽样的定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行①简单随机抽样,再把所有子总体中抽取的样本②合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.(2)比例分配:在分层随机抽样中,如果每层③样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.7.画频率分布直方图的步骤(1)求极差:极差为一组数据中①最大值与②最小值的差;(2)决定组距与组数:当样本容量不超过100时,常分成③5~12组,为方便起见,一般取等长组距,并且组距应力求“取整”;(3)将数据分组;(4)列频率分布表:一般分四列:分组、④频数累计、频数、⑤频率.其中频数合计应是样本容量,频率合计是⑥1;(5)画频率分布直方图:横轴表示分组,纵轴表示⑦频率组距.小长方形的面积组距×⑧频率组距⑨频率,各小长方形的面积的总和等于1.8.其他统计图表统计图表主要应用扇形图直观描述各部分数据在全部数据中所占的比例条形图和直方图直观描述不同类别或分组数据的频数和频率折线图反映统计对象在不同时间(或其他合适情形)的发展变化情况9.第p百分位数一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有①p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.10.计算一组n个数据的第p百分位数的步骤第1步,按②从小到大排列原始数据.第2步,计算i ③n×p%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的④平均数.11.四分位数⑤第25百分位数,⑥第50百分位数,⑦第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.12.众数、中位数和平均数的定义(1)众数:一组数据中①出现次数最多的数.(2)中位数:一组数据按大小顺序排列后,处于②中间位置的数.如果这组数据是偶数个,则取③中间两个数据的平均数.(3)平均数:一组数据的④和除以数据个数所得到的数.13.众数、中位数、平均数与频率分布直方图的关系(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的⑤横坐标与小矩形的⑥面积的乘积之和近似代替.(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该⑦相等.(3)众数:众数是⑧最高小矩形底边的中点所对应的数据.【特别提醒】众数、中位数和平均数的比较名称优点缺点平均数与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大中位数不受少数几个极端数据(即排序靠前或靠后的数据)的影响对极端值不敏感众数体现了样本数据的最大集中点众数只能传递数据中信息很少的一部分,对极端值不敏感14.一组数据x1,x2,…,x n的方差和标准差数据x1,x2,…,x n的方差为①1n∑i=1n(x i-x)2②1n∑i=1nx i2-x2,标准差为③√1n∑i=1n(x i-x)2.15.总体方差和总体标准差(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,Y N,总体的平均数为Y,则称S2④1N∑i=1N(Y i-Y)2为总体方差,S ⑤√S2为总体标准差.(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数为f i(i 1,2,…,k),则总体方差为S2⑥1N∑i=1kf i(Y i-Y)2.16.样本方差和样本标准差如果一个样本中个体的变量值分别为y1,y2,…,y n,样本平均数为y,则称s2⑦1n∑i=1n(y i-y)2为样本方差,s ⑧√s2为样本标准差.17.标准差的意义标准差刻画了数据的⑨离散程度或⑩波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.【特别提醒】对标准差和方差概念的理解(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.(2)标准差、方差的取值范围:[0,+∞).标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.(3)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.18.分层随机抽样的方差设样本容量为n,平均数为x,其中两层的个体数量分别为n1,n2,两层的平均数分别为x1,x2,方差分别为s12,s22,则这个样本的方差为s2n1n [s12+(x1-x)2]+n2n[s22+(x2-x)2].<解题方法与技巧>1.使用分层随机抽样法应遵循的原则(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;(2)分层随机抽样为保证每个个体等可能入样,需在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.2.进行分层随机抽样的相关计算时,常用到的关系(1)样本容量n总体容量N 该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比;(3)样本的平均数和各层的样本平均数的关系:w mm+n x+nm+ny MM+Nx+NM+Ny.典例1:某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样,采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.【解析】依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B.【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定.3.频率分布直方图的性质(1)因为小长方形的面积组距×频率组距=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小.(2)在频率分布直方图中,各小长方形的面积的总和等于1.(3)样本容量频数相应的频率.4.频率分布直方图中第p百分位数的计算方法方法一:(1)确定百分位数所在的区间[a,b);(2)确定小于a和小于b的数据所占的百分比分别为f a%,f b%,则第p百分位数为a+p%-f a%f b%-f a%×(b-a).方法二:设出百分位数的值,利用百分位数的定义计算.典例2:为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是()(A)20 (B)30 (C)40 (D)50【答案】C;【解析】根据运算的算式:体重在〔56.5,64.5〕学生的累积频率为2×0.03+2×0.05+2×0.05+2×0.07=0.4,则体重在〔56.5,64.5〕学生的人数为0.4×100=40.5.利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.6.利用样本数字特征进行决策时的两个关注点(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响较大;中位数是样本数据所占频率的等分线,不受极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.(2)当平均数大于中位数时,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.7.众数、中位数、平均数与频率分布直方图的关系众数众数是最高小长方形底边的中点所对应的数据,表示样本数据的中心值中位数①在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差;②表示样本数据所占频率的等分线平均数①平均数等于每个小长方形的面积乘小长方形底边中点的横坐标之和;②平均数是频率分布直方图的重心,是频率分布直方图的平衡点8.计算分层随机抽样的方差s 2的步骤(1)确定x 1,x 2,s 12,s 22;(2)确定x ;(3)应用公式s 2 n1n [s 12+(x 1-x)2]+n2n [s 22+(x 2-x)2]计算s 2.9.数据分析的要点要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从平均数的大小去决定哪一组的成绩好,解决像这样的实际问题还得从实际的角度去分析.典例3:甲、乙两人在一次射击比赛中各射靶5次.两人成绩的统计表如甲表、乙表所示,请根据你所学统计知识,进一步判断这两个人这次比赛中的成绩情况. 甲表:乙表:【解析】甲、乙两人比赛的中位数、平均数如下:甲的平均数是4567865x ++++==甲;乙的平均数是536965x ⨯++==乙;甲、乙的平均数都是6,甲的中位数是6,乙的中位数是5,甲的总体成绩好些; 从方差看,甲的方差是2222221[(2)(1)012]25s =-+-+++=甲, 乙的方差是22221[3(1)03] 2.45s =⨯-++=乙;甲的成绩较乙的成绩好;甲的极差是8―4=4,乙的极差是9―5=4.【总结升华】平均数、众数、中位数描述了数据的集中趋势,极差、方差和标准差描述了数据的波动大小,也可以说反映了各个数据与其平均数的离散程度,方差越大,数据的离散程度越大,越不稳定;方差越小,数据的离散程度越小,越稳定.。