统计学第3章(参数估计)
- 格式:ppt
- 大小:677.50 KB
- 文档页数:97
统计学各章计算题公式及解题方法第四章数据的概括性度量1.组距式数值型数据众数的计算:确定众数组后代入公式计算:下限公式:;上限公式:,其中,L为众数所在组下限,U为众数所在组上限,为众数所在组次数与前一组次数之差,为众数所在组次数与后一组次数之差,d为众数所在组组距2.中位数位置的确定:未分组数据为;组距分组数据为3.未分组数据中位数计算公式:4.单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组-对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)5.组距式数列的中位数计算公式:下限公式:;上限公式:,其中,为中位数所在组的频数,为中位数所在组前一组的累积频数,为中位数所在组后一组的累积频数6.四分位数位置的确定:未分组数据:;组距分组数据:7.简单均值:8.加权均值:,其中,为各组组中值统计学各章计算题公式及解题方法9.几何均值(用于计算平均发展速度):10.四分位差(用于衡量中位数的代表性):11.异众比率(用于衡量众数的代表性):12.极差:未分组数据:;组距分组数据:13.平均差(离散程度):未分组数据:;组距分组数据:14.总体方差:未分组数据:;分组数据:15.总体标准差:未分组数据:;分组数据:16.样本方差:未分组数据:;分组数据:17.样本标准差:未分组数据:;分组数据:18.标准分数:19.离散系数:第七章参数估计1.的估计值:置信水平α90%0.1 0。
05 1.65495% 0。
05 0.025 1.9699% 0.01 0。
005 2。
58统计学各章计算题公式及解题方法2.不同情况下总体均值的区间估计:总体分布样本量σ已知σ未知大样本(n≥30)正态分布小样本(n<30)非正态分布大样本(n≥30)其中,查p448 ,查找时需查n—1的数值3.大样本总体比例的区间估计:4.总体方差在置信水平下的置信区间为:5.估计总体均值的样本量:,其中,E为估计误差6.重复抽样或无限总体抽样条件下的样本量:,其中π为总体比例第八章假设检验1.总体均值的检验(已知或未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]假设双侧检验左侧检验右侧检验假设形式已知统计量未知拒绝域值决策,拒绝2.总体均值检验(未知,小样本,总体正态分布)假设双侧检验左侧检验右侧检验统计学各章计算题公式及解题方法假设形式已知统计量未知拒绝域值决策,拒绝注:已知的拒绝域同大样本3.一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中为假设的总体比例)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝4.总体方差的检验(检验)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝5.统计量的参考数值0.1 0。
变量,是说明总体或个体某种特征的概念。
按性质分,1确定性变量(在一定条件下取值是确定的变量)2随机变量(指在一定条件下取值是不确定的变量)按变量取值的不同分,1离散变量(数值可以一一列举,都是以整数位断开)2连续变量(数值不能一一列举,其数值是连续不断的)样本:从总体中抽取出来的,用来代表总体的个体的集合体(数理统计中n≥30为大样本)计量尺度4层次:1定类尺度2定序尺度3定距尺度4定比尺度统计调查:根据统计研究的目的,运用科学手段向调查单位取得原始资料和次级资料的过程。
原始资料是指直接向调查单位取得的未经加工整理,只能说明个体状况的数据资料;次级资料是指已经经过加工整理,在一定程度上能说明总体状况的资料。
统计调查要求:及时、准确、完整。
统计调查的组织形式:一、统计报表:是按照国家相关法律的规定,自上而下统一布置,自下而上逐级定期提供基本统计资料的一种调查方式。
统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。
二、普查:是为某一特定的目的而专门组织的一次性的全面调查。
三、抽样调查。
四、重点调查:是一种非全面调查,是从调查对象中,只选择重点单位所进行的调查。
重点单位,是指在总体中举足轻重的那些单位,这些单位在总体中虽然数目不多,所占比重不大,但就调查的标志性来说却在总体标志总量中占有很大的比重。
五、典型调查:一种非全面调查,是根据调查目的和任务,在对调查对象初步分析基础上,有意识的从中选出少数几个具有代表性的典型单位进行深入细致的调查研究,借以认识现象总体发展变化的规律。
统计调查误差:统计调查过程中所得到的统计数字,与客观实际数量之间存在的差别。
分类:根据产生原因不同:1登记性误差2代表性误差(分为系统性误差和随机性误差)误差的防止:1对于登记性误差:第一要正确制定调查方案,第二要切实抓好调查方案的执行工作。
2对于代表性误差:如果为重点调查、典型调查,选择调查单位时,要从多方面研究,务必使调查单位有较高的代表性;如果是抽样调查,一定要遵循随机原则,确定适当的样本容量,改进抽样组织,达到控制误差的目的。
统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。
2、用均数和标准差可以全面描述正态分布资料的特征。
3、各观察值均加(或减)同一数后标准差不变。
4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。
5、偏态分布宜用中位数描述其分布的集中趋势。
6、各观察值同乘以一个不等于0的常数后,变异系数不变。
7、正态分布的资料,均数等于中位数。
8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。
第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。
2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。
3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。
7、在两样本均数比较的t检验中,无效假设为两总体均数相等。
8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。
10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。
第一章统计和统计数据名词解释1.统计学:收集处理分析解释数据并从数据中得出结论的科学。
2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。
3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。
4.分类数据:只能归于某一类别的非数字型数据。
5.顺序数据:只能归于某一有序类别的非数字型数据。
6.数值型数据:按数字尺度测量的观察值。
7.总体:包含所研究的全部个体(数据)的集合。
8.样本:从总体中抽取的一部分元素的集合。
9.参数:用来描述总体特征的概括性数字度量。
10.变量:说明现象某种特征的概念。
11.分类变量:说明事物类别的一个名称。
12.顺序变量:说明事物有序类别的一个名称。
13.数值型变量:说明事物数字特征的一个名称。
14.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
15.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
16.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。
17.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。
18.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
19.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。
20. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差简答题。
1.概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。
操作简便,时效快,成本低,专业要求不很高。
概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。
提出精度要求。
2.数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求3.误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。
第一章 绪论习题一、选择题1.统计工作和统计研究的全过程可分为以下步骤:(D )A . 调查、录入数据、分析资料、撰写论文B . 实验、录入数据、分析资料、撰写论文C . 调查或实验、整理资料、分析资料 D. 设计、收集资料、整理资料、分析资料 E. 收集资料、整理资料、分析资料2.在统计学中,习惯上把(B )的事件称为小概率事件。
A.10.0≤PB. 05.0≤P 或01.0≤PC. 005.0≤PD.05.0≤PE. 01.0≤P 3~8A.计数资料B.等级资料C.计量资料D.名义资料E.角度资料3.某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。
该资料的类型是( A )。
4.分别用两种不同成分的培养基(A 与B )培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长的活菌数如下,A :48、84、90、123、171;B :90、116、124、225、84。
该资料的类型是(C )。
5.空腹血糖测量值,属于( C )资料。
6.用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。
该资料的类型是(B )。
7.某血库提供6094例ABO 血型分布资料如下:O 型1823、A 型1598、B 型2032、AB 型641。
该资料的类型是(D )。
8. 100名18岁男生的身高数据属于(C )。
二、问答题1.举例说明总体与样本的概念.答:统计学家用总体这个术语表示大同小异的对象全体,通常称为目标总体,而资料常来源于目标总体的一个较小总体,称为研究总体。
实际中由于研究总体的个体众多,甚至无限多,因此科学的办法是从中抽取一部分具有代表性的个体,称为样本。
例如,关于吸烟与肺癌的研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取的一定量的个体则组成了研究的样本。
第8章参数估计1.什么是统计推断?统计推断的两类问题是什么?答:统计推断就是根据样本的信息,对总体的特征作出推断,它包括参数估计和假设检验,其中参数估计可分为点估计和区间估计两大类。
2.什么是点估计?什么是区间估计?两者各有什么优缺点?答:点估计是根据样本数据计算的一个估计值,其优点在于它通过样本资料就能够明确地估计总体参数。
不足之处是,一般点估计值不会等于总体参数的真值,并且无法给出它与真值的误差以及估计可靠性程度。
区间估计是通过样本来估计总体参数可能位于的区间。
优点是指出了未知参数所在区间的上下限,同时指出该区间包含真值的可靠度(置信度),弥补了点估计的不足。
3.评判一个估计量好坏的标准有哪些?答:评判一个估计量的好坏有以下三个标准:(1)无偏性如果样本统计量的期望值等于该统计量所估计的总体参数,则这个估计量叫做无偏估计量。
这是一个好的估计量的一个重要条件。
(2)一致性当样本容量n增大时,如果估计量越来越接近总体参数的真值时,就称这个估计量为一致估计量。
估计量的一致性是从极限意义上讲的,它适用于大样本的情况。
(3)有效性有效性是指估计量的离散程度。
如果两个估计量都是无偏的,其中方差较小的(对给定的样本容量而言)就可认为相对来说是更有效的。
4.确定样本容量大小的因素有哪些? 答:决定样本容量大小的因素有以下三点: (1)受总体方差σ2数值大小的影响总体方差大,抽样误差大,则应多抽一些样本容量,反之,则可少抽一些。
当然,总体方差为0时,那么只需抽出其中一个就能代表总体。
但实际工作中,我们往往不知道总体方差,因而必须做试验性调查,或以过去的历史资料做参考。
(2)可靠性程度的高低要求可靠性越高,所必需的样本容量就越大。
也就是说,为获得所需精度而指定的概率越大,所需要的样本容量就越大。
(3)允许误差的大小这主要由研究的目的而定。
若要求推断比较精确,允许误差应该低一些,随之抽取的样本容量也要求多一些;反之,若允许误差可以大一些,样本容量也可以少一些。