第八章 二维列联表:双变量关系考察
- 格式:ppt
- 大小:504.50 KB
- 文档页数:2
双变量回归与相关两变量间的关系1、确定性关系:函数2、不确定性关系:回归关系或相关关系现实生活中,许多现象之间有相互联系,然而并不像函数那样是确定性关系。
例如:身高与体重、体温与脉搏、年龄与医疗费用等。
在这些有关系的现象中,它们之间联系的程度和性质也各不相同。
有些变量间关系密切,有些不密切;有些是因果关系,有的只是伴随关系。
直线(线性)回归(Linear regression)“regression”一词的来源F Galton的研究为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。
把1078对数字表示在坐标上,如图。
用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。
它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。
*为了描述两变量之间的关系,首先在直角坐标系上描述这些点,这一组点集称为散点图(scatter diagram )图1078对父子身高间的关系直线回归分析就是用来描述一个变量(Y)如何依赖于另一个变量(X)的统计方法。
dependent variable(应变量,Y) independent variable(自变量,X)回归方程直线回归的任务就是要找出因变量(Y)随自变量(X)变化的直线方程,该方程叫做直线回归方程。
式中的是由自变量X 推算应变量Y 的估计值。
a 是回归直线在Y 轴上的截距,称为常数项(constant),即X=0时的Y 值;b 为回归直线的斜率,称为回归系数(reg. Coeff.),即表示当X 每改变一个单位时,Y 平均变动b 个单位。
ˆY a bX=+ˆY求偏导数得正规方程组22ˆ()i Q e Y y ==-∑∑2[()]Y a bX =-+∑min →00Q aQ b∂=∂∂=∂最小二乘法(least square method, LS):使各散点到直线的纵向距离的平方和最小。
国开(中心电大)本科《社会统计学》网上形考任务试题及答案通过整理的国开(中心电大)本科《社会统计学》网上形考任务试题及答案相关文档,渴望对大家有所扶植,感谢观看!国开(中心电大)本科《社会统计学》网上形考任务试题及答案章节测试试题及答案一、试题部分1.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。
这种调查方法属于( )。
2.以下关于因变量与自变量的表述不正确的是( )。
3.为了解某地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。
此处5000户是( )。
4.某班级有100名学生,为了了解学生消费水平,将全部学生依据学习成果排序后,在前十名学生中随机抽出成果为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。
这种调查方法属于( )。
1.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为( )。
2.下表为某专业一年级学生平均每周上网时间的频率分布表,依据向上累积的方法计算第5组的累积频率是( )。
3.以下关于条形图的表述,不正确的是( )。
等距分组和不等距分组有什么区分?请举例说明。
某行业管理局所属40个企业2021年产品销售额数据如下所示。
要求:(1)对2021年销售额按由低到高进行排序,求出众数、中位数和平均数。
(2)假如依据规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。
某高校有六门选修课,全校学生可以随意选择,不受任何限制。
1.选择题(单选2分*5题;多选3分*5题, 共25分)2.信度和效度的含义和类型1)信度: 测量一致性或稳定性;(用一个磅秤多次测同一个人的体重)2)再测信度: 考察对于同样的问答题, 对同一组被访者或受测试者前后两次测量结构是否一致(计算两次测量之间的相关系数, 越接近1, 表达稳定性越好);A.复本信度: 假如一套测量可以有两个以上的复本, 则可以根据同一群研究对象同时接受这两个复本测量所得的分数来计算其相关系数;B.折半信度:将量表中的项目提成两半计算这两部分的总得分的相关系数rh(假如量表具有较高的内在一致性, 那么这两部分应当是高度相关的);1)效度: 测量的有效度或准确度;(用磅秤秤一个人的身高)2)表面效度:主观判断, 一般根据测量量表所选的题项来判断——仅从表面上来观测判断其是否可以代表想测量的内容或主题;3)内容效度: 做好文献回顾;4)准则效度:用一种不同以往的测量方式或指标对同一事物或变量进行测量时, 将原有的一种测量方式或指标作为准则, 用新的方式或指标所得到的结果与原有准则的测量结果作比较, 看两者相关限度;C.结构效度: 评价量表测量的结果是否与理论假设或框架相关;(因子分析法)3.注意——信度与效度的关系:测量的信度是效度的必要非充足条件, 即, 无信度必然无效度, 但有信度未必有效度;反之, 效度是信度的充足非必要条件, 有效度必然有信度, 但无效度未必无信度。
4.注意——研究有效限度:在一些研究中, 研究者常用信度系数来近似的说明效度,但这是有缺陷的, 由于在社会研究中, 其他无控制的变量对资料的效度有很大影响。
所以还是应当通过对内容效度、准则效度和建构效度的检查来说明研究的有效限度。
5.抽样方法的种类及其含义分为概率抽样和非概率抽样。
概率抽样涉及——简朴随机抽样、系统抽样、分层抽样、整群抽样、多段抽样、PPS抽样和户内抽样;非概率抽样涉及——偶遇抽样、判断抽样和定额抽样。
第八章列联表中的相关性测量第一节列联表相关测量的有关问题、交互分类和列联表来自某个总体的样本,同时按两个或两个以上的标准进行分类。
分类的资料可以排列成一个行、列交织的表,称为列联表,也叫交互分类表。
如:妇女的教育水平与志愿列联表可以清楚反映在变化的条件下,的次数分布情况。
因此,列联表又称为条件次数表。
列和:行边缘次数行和:列边缘次数表中的次数:条件次数,表示在自变量的每个条件,因变量各个值的数目。
、条件频率妇女的教育水平与志愿(%教育水平(X)愿望(Y) ------------------------------- -----------------高低第二节McNmar检验这种检验方法适用于非独立样本的2*2表,即单因素两水平。
Cochran检验是该检验方法在多样本条件下的推广。
例为了评估一位政党候选人竞选活动的效果,由60个选民组成的随机样本在候选人McNma 检验思路:在竞争演说前后有15个人改变了观点,我们分析的焦点在改变了观点的 15个人。
H 0 :竞争演说无效应 H i :竞争演说有效应在原假设为真的条件下,认为n 个人改变观点的人是随机的选择“ +”或“-”。
可以认为,选择“ +”的人数是服从 B (n , 0.5 )分布。
则检验的p 值:(n 为前后改变了选择的样本点 )。
i5P 二' C i 50.5i(^0.5)i5-L =0.000488i 432或 P=' C 1i 50.5i (^0.5)15」i z0故拒绝原假设,竞争演说有显著的正效应。
注:当样本容量(改变观点或发生改变)大于 50时,可以将 2检验用于McNmar 检验。
因为「詐~2(1)2 2 2 a - np ia - np i n -d -n np ?= !2 2a - np id - np ?np 2np in(1 - P i ) nP i nP 2nP i 在原假设为真时,W g 二〒'则上式为「22(1)等价的公式为22(1)第三节 列联表中的2检验及相关测量一、四格表资料的X 2检验(两个样本率比较)两因素两水平,两因素是否相互独立。
列联表可以检验变量之间的因果关系列联表分析是通过分析多个变量在不同取值情况下的数据分布情况,从而进一步分析多个变量之间相互互相关系的一种描述性分析方法。
案例试分析山东省两所高中学校的高三毕业生的升学情况,研究两所学校的学生的升学率之间有无明显的差别。
数据spss统计分析与行业应用案例详解+配套光盘+示例>02>正文>原始数据>案例2.4;数据分析执行analyze/descriptivestatistics/crosstabs,选择卡方检验,得到如下图:列联表结果由上图结果可知:甲中学的升学率为90.0%,占总升学率的39.1%;未升学率为10.0%。
乙中学升学率为71.4%,占总的升学率为60.9%,未升学率为28.6%。
卡方显著性检验从卡方检验结果可知:pearson卡方值为0.000,小于显著性水平,说明两学校间的升学率是显著相关的。
列联表检验是检验列联表中的两个分类变量是否独立。
它也是假设检验的重要内容。
它被称为列联表分析或列联表测试。
在统计实践中,人们经常需要对样本资料进行各种各样的分类,以便分析研究。
如果对样本资料按照两个指标变量进行复合分组,其结果必然就是各种双向列联表。
对于列联表资料,人们经常需要检验所依据分类的两个变量是否独立或相关。
如在市场调查中,将被调查者对所拟推销商品的状态与被调查者的性别或年龄以及职业等指标变量进行双向复合分组,然后检验分类变量是否独立或相关,可发现和确定潜在的购买者群体,等等。
这种对列联表中两分类变量是否独立的检验,也是假设检验的一个重要内容,称为列联表分析或列联表检验。
用什么测试来证明变量之间的因果关系因果关系检验。
经济学家已经开发出一种可以用来分析变量之间因果关系的方法,即格兰杰因果检验。
这一测试方法是由Clive W.J. Granger于2022获得诺贝尔经济学奖的。
它用于分析经济变量之间的因果关系。
①格兰杰因果关系检验只适用于时间序列数据,他的哲学思想是原因一定早先于结果发生;② 测试结果对变量的滞后长度非常敏感。