当前位置:文档之家› 统计学方法分析

统计学方法分析

统计学方法分析
统计学方法分析

一、两组或多组计量资料的比较

1.两组资料:

1)大样本资料或服从正态分布的小样本资料

(1)若方差齐性,则作成组t检验

(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验

2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验

2.多组资料:

1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。

2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。

二、分类资料的统计分析

1.单样本资料与总体比较

1)二分类资料:

(1)小样本时:用二项分布进行确切概率法检验;

(2)大样本时:用U检验。

2)多分类资料:用Pearson c2检验(又称拟合优度检验)。

2. 四格表资料

1)n>40并且所以理论数大于5,则用Pearson c2

2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s 确切概率法检验

3)n£40或存在理论数<1,则用Fisher’s 检验

3. 2×C表资料的统计分析

1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon秩和检验

2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验

3)行变量和列变量均为无序分类变量

(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2

(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验

4. R×C表资料的统计分析

1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验

2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c2

3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析

4)列变量和行变量均为无序多分类变量,

(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2

(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验

三、Poisson分布资料

1.单样本资料与总体比较:

1)观察值较小时:用确切概率法进行检验。

2)观察值较大时:用正态近似的U检验。

2.两个样本比较:用正态近似的U检验。

配对设计或随机区组设计四、两组或多组计量资料的比较

1.两组资料:

1)大样本资料或配对差值服从正态分布的小样本资料,作配对t检验

2)小样本并且差值呈偏态分布资料,则用Wilcoxon的符号配对秩检验

2.多组资料:

1)若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。

2)如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman的统计检验。如果Fredman 的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。

五、分类资料的统计分析

1.四格表资料

1)b+c>40,则用McNemar配对c2检验或配对边际c2检验

2)b+c£40,则用二项分布确切概率法检验

×C表资料:

1)配对比较:用McNemar配对c2检验或配对边际c2检验

2)一致性问题(Agreement):用Kap检验

变量之间的关联性分析六、两个变量之间的关联性分析

1.两个变量均为连续型变量

1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析

2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析

2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析

3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析

七、回归分析

1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。

2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。

1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素

2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

3.二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

1)非配对的情况:用非条件Logistic回归

(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素

(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

2)配对的情况:用条件Logistic回归

(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素

(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素

2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

5.无序多分类有序的Logistic回归:应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素

2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

应用统计学试题和答案分析

六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为元,标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区 间;(φ(2)=)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额%的置信区间为(,) 3 要求:①、利用最小二乘法求出估计的回归方程;②、计算判定系数R 。 附:10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为:y ) =+x ② 计算判定系数: 4 计算下列指数:①拉氏加权产量指数;②帕氏单位成本总指数。 4题 解: ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题(每小题1分,共10题) 1、我国人口普查的调查对象是 ,调查单位是 。 2、___ 频数密度 =频数÷组距,它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用 饼图 条图 图来显示。 4、某百货公司连续几天的销售额如下:257、276、297、252、238、310、240、236、265,则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元,2005年3季度完成的GDP=36亿元,则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%,职工人数增加了2%,则该企业工资总额增长了 % 。 7、对回归系数的显着性检验,通常采用的是 t 检验。 8、设置信水平=1-α,检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲>σ乙,x 甲>x 乙,由此可推断 ( )

统计学五几种常见的假设检验

定义 假设检验就是用来判断样本与样本,样本与总体的差异就是由抽样误差引起还就是本质差别造成的统计推断方法。其基本原理就是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还就是接受作出推断。 基本原理 (1)先假设总体某项假设成立,计算其会导致什么结果产生。若导致不合理现象产生,则拒绝原先的假设。若并不导致不合理的现象产生,则不能拒绝原先假设,从而接受原先假设。 (2)它又不同于一般的反证法。所谓不合理现象产生,并非指形式逻辑上的绝对矛盾,而就是基于小概率原理:概率很小的事件在一次试验中几乎就是不可能发生的,若发生了,就就是不合理的。至于怎样才算就是“小概率”呢?通常可将概率不超过0、05的事件称为“小概率事件”,也可视具体情形而取0、1或0、01等。在假设检验中常记这个概率为α,称为显著性水平。而把原先设定的假设成为原假设,记作H0。把与H0相反的假设称为备择假设,它就是原假设被拒绝时而应接受的假设,记作H1。 假设的形式 H0——原假设, H1——备择假设 双侧检验:H0:μ = μ0 , 单侧检验: ,H1:μ < μ0 或, H1:μ > μ0假设检验就就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。 假设检验的种类 下面介绍几种常见的假设检验 1、T检验 亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。 目的:比较样本均数所代表的未知总体均数μ与已知总体均数μ0。 计算公式:统计量: 自由度:v=n - 1 适用条件: (1) 已知一个总体均数; (2) 可得到一个样本均数及该样本标准误; (3) 样本来自正态或近似正态总体。 T检验的步骤 1、建立虚无假设H0:μ1= μ2,即先假定两个总体平均数之间没有显著差异; 2、计算统计量T值,对于不同类型的问题选用不同的统计量计算方法; 1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量T值

统计学期末考试试题和答案解析

统计学期末综合测试 一、单项选择题(每小题1分,共20分) 1、社会经济统计的数量特点表现在它是( )。 A 一种纯数量的研究 B 从事物量的研究开始来认识事物的质 C 从定性认识开始以定量认识为最终目的 D 在质与量的联系中,观察并研究社会经济现象的数量方面 2、欲使数量指标算术平均法指数的计算结果、经济内容与数量指标综合法指数相同,权数应是( )。 A 00p q B 11p q C 01p q D 10p q 3、如果你的业务是销售运动衫,哪一种运动衫号码的度量对你更为有用( )。 A 均值 B 中位数 C 众数 D 四分位数 4、某年末某地区城市人均居住面积为20平方米,标准差为8.4平方米,乡村人均居住面积为30平方米,标准差为11.6平方米,则该地区城市和乡村居民居住面积的离散程度( )。 A 乡村较大 B 城市较大 C 城市和乡村一样 D 不能比较 5、某厂某种产品生产有很强的季节性,各月计划任务有很大差异,今年1月超额完成计划3%,2月刚好完成计划,3月超额完成12%,则该厂该年一季度超额完成计划( )。 A 3% B 4% C 5% D 无法计算 6、基期甲、乙两组工人的平均日产量分别为70件和50件,若报告期两组工人的平均日产量不变,乙组工人数占两组工人总数的比重上升,则报告期两组工人总平均日产量( )。 A 上升 B 下降 C 不变 D 可能上升也可能下降

7、同一数量货币,报告期只能购买基期商品量的90%,是因为物价( )。 A 上涨10.0% B 上涨11.1% C 下跌11.1% D 下跌10.0% 8、为消除季节变动的影响而计算的发展速度指标为( )。 A 环比发展速度 B 年距发展速度 C 定基发展速度 D 平均发展速度 9、计算无关标志排队等距抽样的抽样误差,一般采用( )。 A 简单随机抽样的误差公式 B 分层抽样的误差公式 C 等距抽样的误差公式 D 整群抽样的误差公式 10、我国统计调查方法体系改革的目标模式是以( )为主体。 A 抽样调查 B 普查 C 统计报表 D 重点调查 11、设总体分布形式和总体方差都未知,对总体均值进行假设检验时,若抽取一个容量为100 的样本,则可采用( )。 A Z 检验法 B t 检验法 C 2χ检验法 D F 检验法 12、要通过移动平均法消除季节变动得到趋势值,则移动平均项数( )。 A 应选择奇数 B 应和季节周期长度一致 C 应选择偶数 D 可取4或12 13、回归估计标准差的值越小,说明( )。 A 平均数的代表性越好 B 平均数的代表性越差 C 回归方程的代表性越好 D 回归方程的代表性越差 14、某企业最近几批同种产品的合格率分别为90%、95.5%、96%,为了对下一批产品的合格率 进行抽样检验,确定抽样数目时P 应选( )。 A 90% B 95.5% C 96% D 3 % 96%5.95%90++ 15、假设检验中,第二类错误的概率β表示( )。 A 0H 为真时拒绝0H 的概率 B 0H 为真时接受0H 的概率

医学统计学 检验方法

医学统计学检验方法(转) 医学论文中统计方法的正确应用 医用统计方法是医学科研和论文撰写的一个基本工具,但是不少医学科研及临床工作者对统计方法的正确应用缺乏足够的知识,在实际应用过程中常常出现一些不妥用法甚至误用现象。正确使用统计方法,能使研究结果具有科学性和说服力;反之,如果使用不当,不仅不能准确地反映科研结果,而且可能带来错误的结论。 1、所选统计方法脱离了资料的性质不同的资料类型和不同的研究目的采用不同的统计方法。按照资料的性质测定指标的多少,确定资料是计数资料还是计量资料,应用单因素分析还是多因素分析。 1.1 多因素资料是对每个研究对象测量的多个指标同时进行的综合分析,其分析计算过程相对复杂。常用的有回归分析;相关分析以及判别分析、聚类分析、主成分分析和因子分析等。多因素分析多用于计量资料。 1.2 单因素分析应用较多,按获取资料的方法,分计数资料和计量资料。首先,计数资料主要是针对要求某现象的频率和比例,利用率或比的相应计算方法。如做不同样本间的比较则采用计数资料的显著性检验,样本率与总体率的比较用u 检验;两个样本率的比较可用u 检验或四格表的x 检验,多个样本率的比较可用行乘列的卡方检验或2XC 表的卡方检验。其次,计量资料要结合研究目的确定相应的统计方法。对于显著性检验通常有T 检验和F 检验,T 检验是用于两个均数问的比较,按研究设计与比较内容的不同又分为样本均数和总体均数的比较,两个样本均数差别的检验,配对资料的显著性检验。F 检验用于多个样本均数的比较,按设计类型分完全随机设计的方差分析、随机区组设计的方差分析和组内分组资料的方差分析。 2、根据研究目的选用统计分析方法不同的统计方法说明不同的问题,同样不同的问题要应用不同的统计方法来分析和表达。研究者在做统计分析前,首先要明确资料分析的目的、意图是什么,通过分析最终达到什么样的期望,临床工作者科研通常的目的主要有: 2.1 某现象发生的频率或比例如人群中重复癌的发生率,采用频率指标,构成指标或相对比,可计算发病、患病、感染、阳性频率或构成等。

统计学试题及答案分析-共20页

统计学考试题一 一、 单项选择题(请将正确答案的番号写在括号内,每小题1分,共20分) 1. 统计学名称来源于 A .政治算术学派 B .国势学派 C .数理统计学派 D .社会经济统计学派 2. 统计学是一门关于研究客观事物数量方面和数量关系的 A .社会科学 B .自然科学 C .方法论科学 D .实质性科学 3. 几位学生的统计学考试成绩分别为55,60,70,80,85,60,这几个数字是 A .指标 B .变量 C .标志 D .变量值 4. 重点调查中的重点单位就是 A .有关国际名声的单位 B .在总体中其单位数目占绝大比重的单位 C .特殊的单位 D .其单位数虽少,但被调查的标志值在总体标志值中占绝大比重的单位 5. 调查某大学学生学习情况,则总体是 A .该大学所有学生 B .该大学每一名学生的学习成绩C .该大学每一名学生 D .以上都不正确 6. 某公司员工的工资分为:(1)800元以下;(2)800~1500元;(3)1500~2019元;(4) 2019元以上,则第四组的组中值近似为 A .2019元 B .1750元 C . 2250元 D .2500元 7. 分配数列是 A .按数量标志分组的数列 B .按品质标志分组的数列 C .按指标分组的数列 D . 按数量标志或品质标志分组的数列 8. 统计表的形式构成由总标题、横行标题、纵栏标题 A .数据资料 B .主词 C .宾此 D .以上都不正确 9. 反映同类现象在不同时期发展变化一般水平的指标是 A .算术平均数 B .序时平均数 C .众数 D . 调和平均数 10. 某企业5月份计划要求成本降低3%,实际降低5%,其成本计划完成程度为 A .97.94% B .166.67% C .101.94% D .1.94% 11. 若两总体的计量单位不同,在比较两总体的离散程度时,应采用 A .全距 B .平均差 C .标准差 D .标准差系数 12. 下列指标中,属于强度相对数的是 A .某企业的工人劳动生产率 B .人均国民收入 C .某种商品的平均价格 D .某公司的平均工资 13. 拉氏指数所用的同度量因素是固定在 A .基期 B .报告期 C .固定时期 D .任意时期 14. 某市工业总产值增长了10%,同期价格水平提高了3%,则该市工业生产指数为 A .113.3% B .13% C .106.8% D .10% 15. 我国消费价格指数的编制方法 A .∑∑= 0q p q p K K p p B . ∑∑= 1 1111 q p K q p K p p C .∑∑= 1q p q p K p D .∑∑= 1 011q p q p K p

医学统计学检验方法

医学统计学检验方法(转) 医学论文中统计方法的正确应用 医用统计方法是医学科研和论文撰写的一个基本工具,但是不少医学科研及临床工作者对统计方法的正确应用缺乏足够的知识,在实际应用过程中常常出现 一些不妥用法甚至误用现象。正确使用统计方法,能使研究结果具有科学性和说服力;反之,如果使用不当,不仅不能准确地反映科研结果,而且可能带来错误的结论。 1、所选统计方法脱离了资料的性质不同的资料类型和不同的研究目的采用不同的统计方法。按照资料的性质测定指标的多少,确定资料是计数资料还是计量资料,应用单因素分析还是多因素分析。 1.1多因素资料是对每个研究对象测量的多个指标同时进行的综合分析,其分析计算过程相对复杂。常用的有回归分析;相关分析以及判别分析、聚类分析、 主成分分析和因子分析等。多因素分析多用于计量资料。 1.2单因素分析应用较多,按获取资料的方法,分计数资料和计量资料。首 先,计数资料主要是针对要求某现象的频率和比例,利用率或比的相应计算方法。如做不同样本间的比较则采用计数资料的显著性检验,样本率与总体率的比较用 u检验;两个样本率的比较可用u检验或四格表的x检验,多个样本率的比较可用行乘列的卡方检验或2XC表的卡方检验。其次,计量资料要结合研究目的确定相应的统计方法。对于显著性检验通常有T检验和F检验,T检验是用于两个均数问的比较,按研究设计与比较内容的不同又分为样本均数和总体均数的比较,两个样本均数差别的检验,配对资料的显著性检验。F检验用于多个样本均数的比较,按设计类型分完全随机设计的方差分析、随机区组设计的方差分析和组内分组资料的方差分析。 2、根据研究目的选用统计分析方法不同的统计方法说明不同的问题,同样不同的问题要应用不同的统计方法来分析和表达。研究者在做统计分析前,首先要明确资料分析的目的、意图是什么,通过分析最终达到什么样的期望,临床工作者科研通常的目的主要有: 2.1某现象发生的频率或比例如人群中重复癌的发生率,采用频率指标,构成指标或相对比,可计算发病、患病、感染、阳性频率或构成等。

地统计分析

实验五加利佛尼亚州的大气臭氧浓度的地统计分析 (综合实验) 实验目的: 通过对数据的具体分析,掌握ArcGIS下地统计分析模块的功能,了解完整的地统计分析过程,并能使用其解决科研问题中的实际问题。 实验内容: 美国环保局负责对加利佛尼亚州的大气臭氧浓度进行监测。利用地统计分析模块提供的许多工具,通过检测所有采样点之间的关系,对生成一个关于臭氧浓度值、预测标差(不确定性)的连续表面,从而使对其他点的浓度值进行最佳预测成为可能。 1、数据检查 2、模型拟合 3、模型精度比较 4、臭氧浓度制图 实验数据: 数据集描述 Ca_outline 加州轮廓图 Ca_ozone_pts 臭氧采样点数据(单位:ppm) Ca_cities 加州主要城市位置图 实验步骤: 一、数据加载 1、生成子集 将特定位置上的预测值同这些区域内的实测值相对比,是评价一个输出表面质量的最严格的方法。其方法是将原始数据集划分成两个部分:一个部分用于建立模型,也就是用来生成输出表面;另外一个部分用于测试,即验证输出表面。 (1)在Geostatistical Analyst 工具栏中单击Create Subsets命令; (2)Input Layer:选择要划分子集的图层; (3)拖动滑块到合适位置,来选择训练和测试数据的相对百分比; (4)单击完成,训练和测试数据集会在Personal Geodatabase中。 2、应用子数据集进行验证 (1)validation:input 选择测试数据集 (2)attribute:选择与生成表面时相同的属性 (3)打开验证图层 二、数据检查 你可以用三种方式对数据进行检验: (1)检测数据分布

(完整版)社会统计学试卷A及答案解析

级专业2010学年第 1 学期《社会统计学》试卷 A 姓名:学号: (□开卷□闭卷) 一、选择题:2*10=20分 1、要了解400个学生的学习情况,则总体单位是( B ) 。 A 400个学生 B 每一个学生 C 400个学生的成绩 D 每一个学生的成绩 2、只与一个自由度有关的是( A ) χ分布 B 超几何分布C 泊松分布 D F分布 A 2 3、将总体按与研究有关的标志进行分组,然后再随机地从各组中抽选单位组成样本。这种 抽样方式叫( B )。 A 简单随机抽样 B 类型抽样 C 等距抽样 D 整群抽样。 4、在方差分析中,自变量是(A )。 A 定类变量 B 定序变量 C 定距变量 D 定比变量 5、某城市男性青年27岁结婚的人最多,该城市男性青年结婚平均年龄为26.2岁,则该城 市男性青年结婚的年龄分布为(B)。 A.正偏B.负偏 C.对称D.不能作出结论 6、分析统计资料,可能不存在的平均指标是( A )。 A 众数 B 算术平均数 C 中位数 D 几何平均数 7、在一个左偏的分布中,小于平均数的数据个数将( C )。 A 超过一半 B 等于一半 C 不到一半 D 视情况而定 8、若P(A)=0.2,P(B)=0.6,P(A/B)=0.4,则) P I=( D )。 A (B A 0.8 B 0.08 C 0.12 D 0.24。 9、关于学生t分布,下面哪种说法不正确(B )。 A 要求随机样本 B 适用于任何形式的总体分布

C 可用于小样本 D 可用样本标准差S 代替总体标准差σ 10、对于大样本双侧检验,如果根据显著性水平查正态分布表得 Z α/2=1.96,则当零假 设被否定时,犯第一类错误的概率是( C )。 A 20% B 10% C 5% D .1% 二、判断题:2*10=20分 1、所有的统计指标都是变量。 ( 对 ) 2、统计所研究的对象就是社会经济现象的数量方面。 (错 ) 3、随机变量在相同的条件下进行观测,其可能实现的值不止一个。 (对 ) 4、在社会现象中,即使相同的意识作用也完全可能有不确定的结果,这就提供了概率论应用的可能性。 ( 对 ) 5、成功次数的期望值λ是决定泊松分布的关键因素。 ( 对 ) 6、进行区间估计,置信水平总是预先给定的。 ( 对 ) 7、可以对置信水平作如下解释:“总体参数落在置信区间的概率是(1-α)”。(错 ) 8、将收集到得的数据分组,组数越多,丧失的信息越多。 (错 ) 9、N 个变量值连乘积的平方根,即为几何平均数。 (错 ) 10、当样本容量n 无限增大时,样本均值与总体均值的绝对离差小于任意正数的概率趋于零。 (错 ) 三、简答题:5*7=35分 1、大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 2、配对样本 所谓配对样本,指只有一个总体,双样本是由于样本中的个体两两匹配成对而产生的。 3、消减误差比例 变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关 系时预测Y 的误差1E ,再将其化为比例来度量。将削减误差比例记为PRE 。 4、同分对 如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i j Y =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。 5、什么是分层抽样? 分层抽样也叫类型抽样,就是先将总体按某种特征或属性分若干类别或层次,再按照一定比 例在各个子类别或层次中随机抽取,最后将各抽取的单位合并成样本。 6、简述回归分析和相关分析之间的密切联系。 一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。相关程度越高,回归预测越准确。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。与此同时,相关关系往往要通过回归分析才能阐释清楚,例如皮尔逊相关系数的PRE 性质。回归分析具有推理的性质,而相关分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。因而从分析层次上讲,回归分析更深刻一些。 7、P 值决策与统计量的比较 P 值是被称为观察到的(或实测的)显著性水平。用P 值进行检验比根据统计量检验提供更多

统计学常用检验方法

统计中经常会用到各种检验,如何知道何时用什么检验呢,根据结合自己的工 作来说一说: t检验有单样本t检验,配对t检验和两样本t检验。单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对 象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受 试对象处理前后。 u检验:t检验和就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样 本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t 分布),当x为未知分布时应采用秩和检验。F检验又叫方差齐性检验。在两样本t检验中要用到F检验。从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等,就可以用F检验。 简单的说就是检验两个样本的方差是否有显著性差异这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。 在t检验中,如果是比较大于小于之类的就用单侧检验,等于之类的问题就用双侧检验。 卡方检验 是对两个或两个以上率(构成比)进行比较的统计方法,在临床和医学实验中应用十分广泛,特别是临床科研中许多资料是记数资料,就需要用到卡方检验。 方差分析 用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家,以F命名其统计量,故方差分析又称F检验。其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。我们要学习的主要内容包括 单因素方差分析即完全随机设计或成组设计的方差分析(one-way ANOVA): 用途:用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。完全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。 两因素方差分析即配伍组设计的方差分析(two-way ANOVA): 用途:用于随机区组设计的多个样本均数比较,其统计推断是推断各样本所代表的各总体均数是否相等。随机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。值得注意的是,同一受试对象不同时间(或部位)重复多次测量所得到的资料称为重复测量数据

统计学的数据分析

2012-2013第一学期《统计学原理》课程期末测试关于第三产业旅游业的调研报告 -------基于数据的分析 班级: ------- 姓名: ====== 学号: -------- 总分: 完成时间:2112 年 12 月10 日评分标准:(总分100分)(四号字,宋体) 一、数据方面(最高分15分) 1.数据量的多少(0-5分) 2.数据的真实性(0-5分) 3.数据选取的合理性(0-5分) 二、分析方法的选择(最高分15分) 1.方法的合理性(0-5分) 2.方法选取的难度(0-5分) 3.方法的多样性(0-5分) 三、分析过程(最高分55分) 1.分析思路的条理性(0-15分) 2.分析过程中的图表利用(0-10分) 3.计算过程的正确情况(0-15分) 4.分析过程中的解释和说明(0-15分)

四、结论的解释(最高分15分) 1.只有简单的解释(0-8分) 2..能做到定性和定量结合的分析解释(8-15分) 特别说明:如发现有抄袭,成绩按0分处理。 一:调研目的 中国经济实力不断争强,进入21世纪的中国面临的机遇又是挑战,第一、第二产业不足以支撑起整个中国经济的命脉,势必会加大对第三产业的重视,第三产业的发展,也是我们国家的一项重要的工作,我今天就从第三产业中的旅游业作为一个考察对象,针对当前的社会情况,中国国民近几年掀起一股旅游高潮来进行此项调研,分析中国旅游业发展的情况。 二:调研方式 本次作业调研方式,采用数据收集,主要从人均GDP的各项数据、CPI指数和旅游业的各项数据结合分析。针对获得的数据进行数据整理,利用统计学相关知识进行相关计算。 三:调研数据分析 (一)表1 1999-2009年全国国内旅游收入、CPI、人均GDP及国内旅游人数

统计分析考试试题及答案解析

模考吧网提供最优质的模拟试题,最全的历年真题,最精准的预测押题! 统计分析考试试题及答案解析 一、单选题(本大题17小题.每题1.0分,共17.0分。请从以下每一道考题下面备选答案中选择一个最佳答案,并在答题卡上将相应题号的相应字母所属的方框涂黑。) 第1题 某国国内生产总值2009年为2008年的109.1%,这是( )。 A 比例相对数 B 动态相对数 C 比较相对数 D 计划完成相对数 【正确答案】:B 【本题分数】:1.0分 【答案解析】 [解析] 动态相对数是指用指标的当前状态数值除上期水平、历史最好水平和上年同期水平的结果。题中,指标是当前状态数值除上期水平数值所得的结果,属于动态相对数。 第2题 移动平均修匀方法较多地应用于( )。 A 含有季节影响的时间数列 B 无季节影响的时间数列 C 项数较少的时间数列 D 预测未来 【正确答案】:A 【本题分数】:1.0分 【答案解析】 [解析] 移动平均修匀较多地被应用于含有季节影响的时间数列,如果让移动平均的项数等于季节周期的长度,则所得到的移动平均数列中消除了季节影响。 第3题

模考吧网提供最优质的模拟试题,最全的历年真题,最精准的预测押题! 指数平滑平均数的计算公式是( )。 A S t =αx 0+(1-α)S t-1 B S t =αx t+1+(1-α)S t-1 C S t )=αx t-1+(1-α)S t-1 D S t =αx t +(1-α)S t-1 【正确答案】:D 【本题分数】:1.0分 第4题 某产品单位成本计划今年比去年降低10%,实际降低15%,则计划完成相对数为 ( )。 A 150% B 94.4% C 104.5% D 66.7% 【正确答案】:B 【本题分数】:1.0分 【答案解析】 [解析] 计划完成相对数是指用指标的当前状态数值除计划水平的结果。计划完成相对数以降低率的形式时,计划完成相对数=(1-实际降低率)/(1-计划降低率)×100%=(1-15%)/(1-10%)×100%=94.4%。 第5题 评价某一指标的当前状态的基本方法是找出一个( )作为“参照物”,将指标的当前状态与之进行比较。 A 标准水平 B 发展水平 C 一般水平 D 相对水平

统计学分析方法

统计分析方法总结 分享 胡斌 00:06分享,并说:统计 1.连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确** (3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。 2.分类资料

2019年统计学数据分析报告

统计学数据分析报告 一、调查研究方案的设计与组织实施 (一)调查目的 (1)描述和反映本校商学院14级金融系学生对于毕业去向的意向,分析并研究各意向的分布情况; (2)在专业,性别,家庭因素,个人因素等方面对毕业意向的分布进行研究,探究这些因素对于毕业意向分布的影响。(3)分析和解释形成毕业意向分布差异的因素和原因; (二)调查对象和调查单位 本次调查的基本调查对象是本校商学院金融类的部分同学。调查单位为此范围内的每一个同学。 在此基础上,在每个专业内随机抽取样本进行抽样调查,进而对整体进行推断。 (三)调查的组织和实施方法 获取资料的方法:问卷法、文献法本小组采用的基本方法为问卷法,发放问卷60份,收回问卷54份。辅助方法为文献法,通过图书馆和网络获取相关背景资料,对研究素材进行丰富和补充。调查方法:抽样调查抽样方法:分层抽样 将调查对象按专业分为金融工程、金融学和信用管理三个类别,然后从各个类别中随机抽取组成样本,用于对整体进行推断。数据资料整理结果如下:

在全部被调查对象中,男生23人,占43%,女生31人,占57%,金融学18人,占总体1/3,信用管理18人,占总体1/3,金融工程18人,占总体1/3。选择考研的有14人,占总体的26%。选择出国深造的有1人,占总体的2%。选择自主创业的有3人,占总体6%。选择直接就业的有29人,占总体54%。选择考公务员的有7人,占总体12%。 (四)调查时间和调查期限 调查时间:20XX年5月9日 调查期限:20XX年5月9日―20XX年5月14日(五)调查项目和调查表 调查项目:性别年级专业毕业意向家庭收入情况性格特点就业优势调查表如下: 二、统计数据的整理和分析 (一)总体分布情况与相关分析 根据问卷统计的数据得到的频数分布表和毕业意向分布饼图如下: 由上表可以得到以下结论: 选择直接就业的人数占总体的比例最大,占总体的54%其次是选择考研和考公务员,分别占总体的26%和12%。 选择出国深造和自主创业的人数最少,只占总体的2%和6%。可以看出大部分同学的毕业意向集中在直接就业和考研两个方面,而出国深造和自主创业对本校商学院来说仍旧是比较冷僻的意向。

统计学数据分析报告记录

统计学数据分析报告记录

————————————————————————————————作者:————————————————————————————————日期:

统计学数据分析报告 一、调查研究方案的设计与组织实施 (一)调查目的 (1)描述和反映本校商学院14级金融系学生对于毕业去向的意向,分析并 研究各意向的分布情况; (2)在专业,性别,家庭因素,个人因素等方面对毕业意向的分布进行研 究,探究这些因素对于毕业意向分布的影响。 (3)分析和解释形成毕业意向分布差异的因素和原因; (二) 调查对象和调查单位 本次调查的基本调查对象是本校商学院金融类的部分同学。 调查单位为此范围内的每一个同学。 在此基础上,在每个专业内随机抽取样本进行抽样调查,进而对整体进行推断。 (三)调查的组织和实施方法获取资料的方法:问卷法、文献法 本小组采用的基本方法为问卷法,发放问卷60份,收回问卷54份。 辅助方法为文献法,通过图书馆和网络获取相关背景资料,对研究素材进行丰富和补充。 调查方法:抽样调查 抽样方法:分层抽样 将调查对象按专业分为金融工程、金融学和信用管理三个类别,然后从各个类别中随机抽取组成样本,用于对整体进行推断。 数据资料整理结果如下:

在全部被调查对象中,男生23人,占43%,女生31人,占57%,金融学18人,占总体1/3,信用管理18人,占总体1/3,金融工程18人,占总体 1/3。选择考研的有14人,占总体的26%。选择出国深造的有1人,占总体的2%。选择自主创业的有3人,占总体6%。选择直接就业的有29人,占总体54%。选择考公务员的有7人,占总体12% 。 (四)调查时间和调查期限 调查时间:2016年5月9日 调查期限:2016年5月9日―2016年5月14日 (五)调查项目和调查表 调查项目:性别年级专业毕业意向家庭收入情况性格特点就业优势 调查表如下: 毕业意向 专业性别 考研出国深造自主创业直接就业考公务员金融工程男7 0 0 0 6 1 女11 2 0 0 8 1 金融学男8 2 1 0 4 1 女10 6 0 1 2 1 信用管理男8 1 0 1 5 1 女10 3 0 1 4 2 合计54 14 1 3 29 7 二、统计数据的整理和分析

统计学分析报告

. . . 统计学调查报告 (08级) 上海商学院学生消费状况调查报告 (奉浦校区) 徐伟杰,景宝龙,苏淳,张玮,贾金诚小组成员 指导教师姓名崔峰 物流管理系 系名称 论文提交日期2010.12.23

目录 一,调查目的: (3) 二,调查对象: (3) 三,调查项目: (3) 四,调查时间和时限 (3) 五,调查的组织工作 (4) 六,调查结果: (4) 七,调查问卷 (4) 上海市大学生消费状况调查问卷 (4) 八,调查分析: (6) (一)基本信息 (6) (二)消费结构状况分析: (7) (三)具体消费情况: (8) 九,预测分析 (14) 十,调查分析 (16) 十一,附录:调查统计汇总表 (17)

一,调查目的: 随着社会的发展,大学生的消费方式及消费状况引起了社会各界的极大关注,社会消费观念的转变和周围环境影响他们的消费观念和行为。大学生有着较为前卫的消费观念,消费来源主要有家庭父母供给,构成了一个比较特殊的消费群体,随着大学生数量的不断攀升,他们的消费行为在一定程度上形象着整个社会的消费观念和消费行为。而上海有拥有30所本科院校,大学生的数量比较庞大,并且有着更加前卫的消费观念。就此我们针对上海商学院学生的消费情况展开调查,了解我校学生的消费特征,进而探求更为科学的消费方式和行为,提高大学生的消费效益。 二,调查对象: 统计调查对象:上海上海商学院奉浦校区在读学生 统计调查单位:每一位在上海商学院奉浦校区就读的学生 统计填报单位:物流管理082班景宝龙、徐伟杰 三,调查项目: 统计标志:户籍所在地、就读年级、家庭月收入、个人月生活费、生活费来源、各方面的消费金额分配、是否满意目前的消费金额、期望月消费金额、消费计划、期望消费项目、超前消费的情况 四,调查时间和时限 调查时间:2010年10月 调查时限:两个月 五,调查分工: 问卷设计:徐伟杰 问卷校验:苏淳,张玮,景宝龙 问卷调查:景宝龙,张玮,苏淳,徐伟杰,贾金诚

统计学第三章课后题及答案解析

第三章 一、单项选择题 1.统计整理的中心工作是() A.对原始资料进行审核B.编制统计表 C.统计汇总问题D.汇总资料的再审核 2.统计汇总要求资料具有() A.及时性B.正确性 C.全面性D.系统性 3.某连续变量分为五组:第一组为40—50,第二组为50—60,第三组为60—70,第四组为70—80,第五组为80以上,依习惯上规定() A.50在第一组,70在第四组B.60在第二组,80在第五组 C.70在第四组,80在第五组D.80在第四组,50在第二组 4.若数量标志的取值有限,且是为数不多的等差数值,宜编制() A.等距式分布数列B.单项式分布数列 C.开口式数列D.异距式数列 5.组距式分布数列多适用于() A.随机变量B.确定型变量 C.连续型变量D.离散型变量 6.向上累计次数表示截止到某一组为止() A.上限以下的累计次数B.下限以上的累计次数 C.各组分布的次数D.各组分布的频率 7.次数分布有朝数量大的一边偏尾,曲线高峰偏向数量小的方向,该分布曲线属于()A.正态分布曲线B.J型分布曲线 C.右偏分布曲线D.左偏分布曲线 8.划分连续变量的组限时,相临组的组限一般要() A.交叉B.不等 C.重叠D.间断 二、多项选择题 1.统计整理的基本内容主要包括() A.统计分组B.逻辑检查 C.数据录入D.统计汇总 E.制表打印 2.影响组距数列分布的要素有() A.组类B.组限 C.组距D.组中值 E.组数据 3.常见的频率分布类型主要有() A.钟型分布B.χ型分布 C.U型分布D.J型分布 E.F型分布 4.根据分组标志不同,分组数列可以分为() A.组距数列B.品质数列 C.单项数列D.变量数列 E.开口数列 5.下列变量一般是钟型分布的有()

应用统计学试题和答案分析

六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为12.6元,标准差为2.8元。试以95.45%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间;(φ(2)=0.9545)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==?n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额95.45%的置信区间为(11.8,13.4) 附: 10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 179005 1 2 =∑=i x i 1043615 1 2 =∑=i y i 424305 1 =∑=y x i i i 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β ==-??-?290 217900572129042430554003060 =0.567 =-= ∑∑n x n y ββ 1 0144.2 – 0.567×58=111.314 估计的回归方程为:y =111.314+0.567x ② 计算判定系数:

22 212 2 ()0.56710800.884392.8 () x x R y y β-?= ==-∑∑ 4、某家具公司生产三种产品的有关数据如下: 计算下列指数:①拉氏加权产量指数;②帕氏单位成本总指数。 4题 解: ① 拉氏加权产量指数 = 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷( 二) 一、填空题(每小题1分,共10题) 1、我国人口普查的调查对象是 ,调查单位是 。 2、___ 频数密度 =频数÷组距,它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用 饼图 条图 图来显示。 4、某百货公司连续几天的销售额如下: 257、276、297、252、238、310、240、236、265,则其下四分位数5、某地区2005年1季度完成的GDP=30亿元,2005年3季度完成的GDP=36亿元,则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%,职工人数增加了2%,则该企业工资总额增长了 7.1% 。 7、对回归系数的显著性检验,通常采用的是 t 检验。 8、设置信水平=1-α,检验的P 值拒绝原假设应该满足的条件是 p

相关主题
文本预览
相关文档 最新文档