当前位置:文档之家› 计量经济学读书笔记

计量经济学读书笔记

计量经济学读书笔记
计量经济学读书笔记

计量经济学读书笔记

第一章:统计基础 (2)

第二章:计量经济学总论 (7)

第三章:双变量回归分析 (9)

第3.1回归方法 (9)

第3.2结果检验 (10)

第3.3回归参数的分布 (11)

第四章:多变量回归分析 (13)

第五章:OLS的基本假设 (13)

第六章:多重共线性 (15)

第七章:异方差性 (16)

第八章:自相关 (17)

第九章:时间序列分析 (19)

第十章:面板数据分析 (29)

第十一章:其他重要的分析方法 (47)

******加权最小二乘法 (48)

******二阶段最小二乘法TSLS (48)

******非线性最小二乘法 (49)

******多项分布滞后(PDLS) (49)

******广义矩估计 (50)

******logit和probit模型 (50)

******因子分析 (51)

******Granger因果分析 (52)

****** 广义线性回归(Generalized least squares) (52)

******格兰格因果检验 (55)

******误差修正模型(ECM) (55)

第十二章:EVIEWS (55)

第12.1节EVIEWS基本操作 (55)

第12.3节EVIEWS时间序列分析 (57)

第十三章:SPSS (58)

第13.1SPSS基本操作 (58)

第十四章:数据分析实战经验 (67)

第一章:统计基础

0 常用英文词汇的统计意义 panel data=longitudinal data 是对各个个体进行连续观察的截面数据。回归时的扰动项u=unobserved是影响因变量的其他变量之和,Univariate 单个变量的,如Univariate descriptives 意思是单个变量的统计指标

1 基本概念

统计总体是我们所关心的一些个体组成,如由多个企业构成的集合,统计意义上的总体通常不是一群人或一些物品的集合,而是一组对个体某种特征的观测数据。

参数总体的数值特征描述,如均值、标准差等。

统计量是用样本数据计算出来总体参数的估计值,从一个给定的总体中抽取容量为N的所有可能的样本,对于每一个样本我们可计算出某个统计量的值,不同的样本得到的该统计量的值是不一样的,该统计量的不同的值是不同抽样的结果(根据这些不同抽样计算出的对同一参数进行估计的统计量,可以计算出由各个统计量构成的集体的方差,该方差就是在统计软件中参数后面扩号内的方差),这符合随机变量的定义,因此该统计量也是随机变量,这个统计量的分布称之为抽样分布,它是从同一总体所抽出,同样大小的所有可能样本,其统计量的值的分布,一般情况下是一个正态分布,因为所有的估计值都是对总体参数的近似估计,因而服从以真实值为中心的正态分布,如果总体的分布是已知的则可以根据公式计算统计量

抽样分布的分布参数(均值为总体的均值,标准差为总体的标准差与N的比值)。 4在一个样本之中

包含若干个样本点,各个样本点所对应的个体的某种特征是一个变量,不同个体的该变量的取值相互独立,并且服从某种分布,因此根据样本计算的统计量可以看成是若干个独立变量的函数形式,其分布参数如均值、标准差可用数学公式推导。

时间序列是指同一现象在不同时间的相继观察值排列而成的序列,平稳序列,它的各种统计指标不随着时间而变化,在时间序列的散点图中表现为各点分布在一个以均值为中心的条状带中,同一时间序列的因素分析是指区分时间序列中各种不同因素的影响,确定长期趋势(找一条长期的趋势线)、季节变动(确定季节比率)、循环变动和不规则变动。时间序列分析时一项重要的内容就是根据过去已有的数据来预测未来的结果,利用时间序列数据进行预测时,通常假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行预测。

统计决策是指根据样本的信息对总体的情况做出判断。

点估计是根据样本用与计算总体参数相同的法则(如求平均数)+估计总体参数的具体值,因而叫点估计如用样本的平均身高作为总体的平均身高。

区间估计就是点估计值 边际误差,边际误差是根据显著性水平及统计量的标准差,如大样本时在0.05的水平下边际误差为1.96*标准差。95%置信区间是用样本数据计算出来的对总体参数一个区间估计,保证根据所有样本计算的置信区间中,有95%会把真正的总体参数包含在区间之中,根据不同样本数据对同一总体参数进行估计的相同概率的置信区间不同,根据一个样本计算的对参数进行估计的置信区间是对总体参数的一个区间估计,是总体参数的若干置信区间中的一个,如果继续不断的抽样下去。每个样本会产生一个新的对总体参数的置信区间,如果我们如此不停的抽样下去,所有区间中有95%会包含真正的参数值。区间的概念提醒我们,因为我们只有样本数据,所以我们对于总体的所有叙述都不是确定的。

变量是说明个体的某种特征的概念,如“受教育程度”、“身高”等,说明事物类别的名称叫做分类变量(categorical variable),如性别就有两个分类变量男、女;说明事物有序类别的一个名称,称为顺序变量(rank variable),如一等品、二等品、小学、初中、大学等;说明事物数字特征并且有米、或者公里、年、吨等度量衡单位的

叫做数值型变量(metric variable 或者scale variable)是量数据如产品产量年龄等。数值型数据围绕其平均值分布的集中程度称为数据的离差。

根据不同度量可以定义不同的离差,最常用的有全距、标准差等。以变量X 的标准差S 为单位来度量X 与其平均值X 之间的偏差的变量Z 称为标准化变量,它是一个无量纲量,标准化变量的数值称为标准分数或Z 分数。

偏度是一个分布中不对称程度或偏离对称程度的反映,如果分布的频数曲线右边的尾部比左边的长,则称分布是向右偏反之则称分布是向左偏。偏度=(均值-众数)/标准差。峰度是分布陡峭程度的反映,通常是相对于正态分布言,其值叫做峰度系数,用四阶中心矩与标准差的四次方的比值表示。

变异系数是指变量的标准差与平均值之比。

相关系数反映两个变量之间线性关系的强弱。

假设检验分为参数检验和非参数检验,前者是指对总体分布函数中未知参数提出某种假设,然后利用样本信息对所提出的假设进行检验并做出判断,参数检验需要样本所依赖的总体的分布作出一系列假定如总体服从正态分布且标准差相等,但实际情况中,上述的假定不一定完全合理,或者在应用中对这些假定有怀疑,因此统计学家设计了许多与总体的分布及相关参数无关的检验方法,称之为非参数检验。如一个人号称罚球命中率为80%,为了检验他是不是吹牛皮,于是让他现场投20个球,这就是显著性检验,结果他只投进了4个,计算得在命中率为80%情况下,投20个只进4个的概率为0.2%,则此0.2%就是通常所说的P 值。如果P 值很低(通常小于5%)则可以拒绝原假设。假设检验是为了比较两个值是否有显著的差别,在很多情况下我们给出一个原假设仅仅是为了拒绝它,因此原假设通常是与数据表面所显现出来的现象的相对立的现象。在假设检验中研究者如要确定某参数是否等于某个值须用双尾检验,如检验零件直径是否等于10;如果要确定参数大于或小于某值则用单尾检验如检验奶粉中蛋白质的含量是否大于30%。两者的区别仅仅在于拒绝域不同。在做假设检验时犯第一类错误(原假设正确却遭到拒绝)的最大概率称为显著性水平,显著性水平越高则表明限制条件越严格,在正态分布图豉肚部分的面积越小同时两侧的阴影部分的面积就越大,原假设被拒绝的可能性就越大,回归结果中某系数的精确显著性水平越高则越有可能接受原假设,即系数越有可能为0,系数在越高的显著性水平下显著则越有可能接受原假设即系数越有可能为0,系数不为0的可能性越小,在越低的显著性水平下显著则表明系数不为0的可能性越大。

假设一个统计量(如灯泡寿命)A 服从均值为μ标准差为δ的正态分布,则(A-μ)/δ叫做Z 分数(也叫标准化变量),它服从均值为0标准差为1的标准正态分布。t 统计量是模仿Z 分数而建立的,区别在于后者用于小样本标准差未知的情况下的均值检验而前者用于大样本标准差已知情况下的均值的检验(Z 或t 统计量计算公式中的μ都取原假设中的值),此时作为分母的是s/1 N 代替(s 为样本标准差),也就是用多个变量的均值的标准差代替,因为该统计量是根据样本的均值计算而得,也是用于均值的检验。T 和Z 检验用于检验回归方程中某个自变量的系数是否为0,F 检验用于检验是不是所有的系数都为0。

方差分析用于从方差的角度比较两个或多个总体的均值是否相等,研究分类型自变量对数值型自变量是否有影响,包括它们之间有没有关系、关系的强度如何等,所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响,如行业不同是否对受到投诉的数量有影响,行业是称为因素,旅游、零售、家电具体的行业叫做因素水平(在SPSS 中相当于一个VARIABLE 的不同的值)。计算旅游、零售、家电各行业各自的标准差,然后平均得到组内方差,并认为组内方差是完全是由随机因素造成的,根据各行业的各自的平均值与总均值之差的平方和得到组间方差,并认为组间方差是由于不同的因素水平所造成的,如果各因素水平对因变量(投诉量)无影响,则组内方差与组间方差应该相等,或者说两者的差别在统计上是不显著的,组间与组内方差之比是一个F 统计量,通过检验这两个方差的差别是否显著来判断不同行业接受投诉量的均值是否有明显差别。

17 描述性统计量是对(相当于SPSS中的)某一变量特征进行描述的一些统计指标,均值是对一个变量的中心位置的度量,其计算方法是先加总所有CASE的值然后除以数据的个数,其应用如应收帐款的平均帐龄为45天。中位数是对中心位置的度量,它是当CASE按照升序排列时,处于中间位置的CASE的变量值,它是对均值的补充,如在年度收入和资产价值数据的报告中,这是因为个别异常大的收入或资产价值能够使均值膨胀,此时中位数是对中心位置的更好的度量,如应收帐款的帐龄的中位数为35天表示超过一半的应收帐款帐龄的天数在35天以上。众数也是对均值的补充,是在各CASE中出现频率最高的数据的值,如应收帐款帐龄的众数为31天,表示应收帐款最普通的帐龄为31天。四分位数是先把数据进行升序排列,然后把数据依次分为四段,每段含有25%的观察值,中间的三个分段点从小到大分别称为第一二三四分数点,如帐龄的第一四分数点为12天表示有25%的CASE的帐龄小于12天有75%的CASE的帐龄大于12天。极差是各CASE的某变量值的最大和最小值的差,该指标容易受异常值的影响,很少单独用来表示变异程度,如帐龄的极差为18表示最长的帐龄比最短的帐龄多18天。方差是利用所有的CASES对某变量值的变异程度的度量,在单位相同时可以用于比较两个变量的变异程度,可以用来度量与股票投资相关的风险,它给出每月收益如何围绕和期平均收益波动。如零件的尺寸的标准差表明了生产加工技术的稳定性。变异系数是标准差与均值的比值,常用于比较变量的变异程度,如A加工零件尺寸的变异系数为15%,而B为10%,表明A加工技术要比B稳定。切比雪夫定理认为与均值距离在Z个标准差以内的CASE例至少

为1-1/Z2,一般情况下68%的数据与均值距离在一个标准差以内,95%的数据在2个标准差以内,几乎所有的数据都在3个标准差以内,以上所述可以用于异常值的检测,然后确定异常值是否正确。

4 参数检验分为一个总体参数的检验和两个总体参数的比较检验,前者是为了确定某一总体的参数是不是某一个值,而后者是为了比较两个总体的参数是不是相等。检验(z检验和T检验)什么参数则需要根据样

本计算什么参数的值及该参数的标准差(δ/N或S/N),如要检验均值是否为某个值则需要根据样本计算样本均值及样本均值的标准差。

5大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化,我们可以用“平均”,“差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。

6概率分布是关于总体的概念。有了概率分布就等于知道了总体。

6统计中各种常用分布

①CHI-SQUARE分布,一个正态分布的变量的平方服从自由度为1的CHI-SQUARE分布,K个独立的正态分布变量的平方和则服从自由度为K的CHI-SQUARE分布,在统计中CHI-SQUARE的自由度的意义是独立观察值的个数K,自由度是卡方分布的参数就像均值和标准差是正态分布的参数一样,如样本中每个灯泡的寿命服从正态分布,则5个灯泡的寿命的平方和服从自由度为5的卡方分布。CHI-SQUARE可以用于总体标准差是否为某值的假设检验。

②T分布,X来自一个正态总体样本,则变量服从T分布,其中U是总体的均值,S是样本方差,N是样本中样本点的数量,自由度为N-1,T统计量是根据样本数据计算而得。

③F分布,两个相互独立样本的样本方差之比在代入样本数据之前叫做F变量,代入样本数据之后叫做F统计量,服从F分布,F统计量经常用于比较两个样本的方差是否相等的假设检验,分子分母的样本方差的计算公式分别为

、,记为F (M-1,N-1)。另外它也可以用于检验拟合优度的显著性此时,n 是观察值的个数,k 是包括截距在内的解释变量的个数。F-分布变量为两个2x -分布变量(在除以它们各自自由度之后)的比;而两个2x -分布的自由度则为F-分布的自由度,因此,F-分布有两个自由度;第一个自由度等于在分子上的2x -分布的自由度,第二个自由度等于在分母的2x -分布的自由度。

④二项分布,二项试验是指把相同的试验进行N 次,并且每次试验只有两种可能的结果,单次试验成功的概率为P ,每一次试验都独立进行,如果对于卖保单的例子,如果随时间推移推销员疲劳并失去了热情,则不能保证“单次试验成功概率为P ”。在一个二项试验中,我们关心的是在N 次试验中出现成功的次数,如果以X 表示N 次试验中成功的次数,我们可以看到X 可取的值为0、1、2……N 因为值的个数是有限的,故X 是离散型随机变量,与该随机变量有关的概率分布叫做二项分布(属于离散型),如果知道每个顾客进店买某商品的概率和进店顾客的数量(根据以往的经验取得),则可以估计每天需要的货量。二项分布是指做有限次只有两个结果的试验中,实验成功次数为B 的概率,泊松分布是指做无限次只有两个结果的试验中,实验成功次数为B 的概率。

⑤泊松分布,泊松试验是指事件在任意两个等长度的区间内发生一次的概率相等,并且事件在一区间发生与否与其他区间独立,则事件发生的次数服从泊松分布(属于离散型)。在已知一个区间内事件发生次数的平均值μ时,事件在一个区间内发生X 次的概率为μx e μ-/x !,花旗银行用此公式计算1分钟内到达某ATM 机的人数为2及以上以上的概率以确定是否增加ATM 机的数量。

7

8对于连续型随机变量X ,a 下侧分位数(又称为a 分位数,a-quantile )定义为数x α,它满足关系 ()p x x αα≤=。上侧分位数定义为满足关系()p x x αα≥=的x α。通常用z α表示标准正态分布的a 上侧分位数,即对于标准正态分布变量Z ,有()p z z αα≥=。

一个由正态变量导出的分布是2

x -分布(chi-square distribution ,也翻译为卡方分布)。该分布在一些检验中会用到。n 个独立正态变量平方和称为有n 个自由度的2x -分布。

正态变量的样本均值也是正态变量,能利用减去其均值再除以其(总体)标准差来得到标准正态变量。但用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为t-分布(t-distribution ,或学生分布,Student ’s t)。

9判明一个事情的真伪,需要用事实说话。在统计中事实总是来源于数据。假定某药厂声称该厂生产的某种药品有60%的疗效。但是当实际调查了100名使用该药物的患者之后,发现有40名患者服后有效。这个数据是否支持药厂的说法呢?药厂所支持的模型实际上是一个参数为0.6的Bernoulli试验模型。100名患者的服药,实际上等于进行了100次试验。这就是二项分布B(100,0.6)模型。由于使用了药厂的0.6成功概率。这个模型是基于药厂的观点的。可以基于这个模型计算100名患者中有少于或等于40名患者治疗有效的概率。通过计算(或查表,后面会详细描述)易得,在药厂观点正确的假定下,这个概率为0.000042。这说明,如果药厂正确,那么只有40名患者有效这个事实是个小概率事件,即“少于或等于40名患者有效”的可能性只有大约十万分之四。这样在药厂的观点和事实之间有了矛盾。是事实准确还是药厂准确呢?显然人们一般不会认为药厂的说法可以接受。这样,就利用小概率事件来拒绝了药厂的说法。这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础。

5 建模是一个建立估计回归方程的过程,经过这一过程,我们可以得到描述一个因变量和一个或多个自变量之间关系的估计回归方程。建模的主要结果应该是找到合适的函数形式来描述变量之间的关系,并且选择该模型所应包含的自变量。

6 假设检验中的原假设是从数据表面所显现出来的现象的相对立的现象。

7 假设检验时T、CHI-SQUARE、F、Z都是以正态总体的样本为基础的统计量,在代入样本的观察值以前叫做变量,服从抽样分布,并且它们的分布事先已知。只所以要用这些统计量是因为它们可以根据样本很容易的算出,然后可以比对在原假设正确的条件下取得该(T、F、Z、CHI-SQUARE)值的概率(P值),如果该概率小于确定的显著性水平,或者在无预先确定的显著性水平下小于5%,则拒绝原假设,否则接受原假设。也可以与确定的显著性水平下的Critical value相比对,如果大于Ccritical value则拒绝原假设。

8 假设检验中最重要的就是根据要检验的参数构造一个其分布情况已知的统计量,第二步是根据统计量的分布及事先人为规定的显著性水平确定一个大概率事件和小概率事件(大概率事件是指根据样本计算的统计量与原假设值距离在一定范围之内,小概率事件是指根据样本计算统计量与原假设值的距离在一定范围之外),第三步是根据样本统计量看是小概率事件发生还是大概率事件发生,如果大概率事件发生则原假设正确否则拒绝原假设。

9 无论是Z检验还是t检验归根到底都是要在一定的显著性水平下看根据样本计算的统计量与原假设值距离的远近,当然此距离是以标准差来计量,当此距离超过某一标准则认为原假设不正确,此标准是根据显著性水平通过查表来确定。越显著也就是显著性水平越高,检验标准越严格,接受原假设的区域越窄,如果要接受原假设则要求抽样值离原假设值越近,如0.1的显著性水平下要接受原假设要求的抽样值比在0.05水平下接受原假设要求的抽样值离原假设值近。

14 协方差是二元变量(X,Y)中X 和Y之间线性关系强弱的度量指标,在统计中用于度量两个变量间线性关系的强弱(因此SPSS的COVARIANCE MATRIX用于观察在度量单位相同的条件下各变量间相互

关系的强弱),是根据样本点计算而得,其定义式为,但是这个定义式用于样本协

方差的估计是有偏的,协方差的无偏估计量,如果协方差为大

的正值则表示存在强烈的正相关关系,如果协方差为大的负值则表示存在强烈的负相关关系,但是用协方差作为线性关系强度的度量指标时,存在的一个严重问题是协方差的值依赖于X和Y的度量单位,如使用厘米为单位计算的协方差要大于使用米作单位计算的协方差。为避免这种麻烦用相关系数代替,相关系数

的计算公式为。自变量和因变量之间的相关系数与用OLS回归方程中自变量的

系数不是一回事后者的计算公式为

,但是两者的符号是相同的。

15 为什么协方差能表示线性关系的强弱呢?因为如果以X=X 和Y=Y 将散点图分为四个象限,如果协方差为正,则对他有最大影响的点一定在一和三象限,因此协方差为正值表示X 与Y 之间存在正线性关系.也就是说,当X 增大时,Y 的值也增大.如果协方差为负,对它有最大影响的点一定在二四象限。因此协方差为负就表明X 和Y 之间存在负线性关系。也就是说,当X 的值增大时,Y 的值减小。最后,如果各点是均匀分布在四个区域内,则协方差的值将接近于零,表示X 和Y 之间不存在线性关系。

第二章:计量经济学总论

1计量经济学的内容框架,包括最小二乘法基本原理、最小二乘法的假设条件和不满足假设条件时的处理办法三个大的部分。

最小二乘法的基本原理包括参数估计、估计参数的性质(BLUE )、估计结果的统计推断。首先是OLS 的原理,即最小二乘法是找一条线,使样本点与线之间距离的平方和最小,具体做法是首先假设一条线,然后求得用这条线的参数表示的距离的平方和,然后用求距离极值的一阶条件,求出这些参数,就得到了最小二乘法的估计结果,得到结果后就是对结果的统计推断,包括可决系数、T 检验、F 检验、以及假设条件是否满足前提假设的检验。

最小二乘法是在一系列假设的基础上进行的,这些假设主要是关于自变量与因变量关系、自变量间的关系,自变量与扰动项的关系、扰动项之间的关系。

接下来讨论的就是假设不满足的条件下的回归分析,包括的主要内容有非线性模型的线性化、特殊变量、异方差、自相关和多重共线性(概念、检验、原因、影响和处理办法)。

******最小二乘法的基本原理

最小二乘法是估计变量间相关关系的一种方法,变量间的相互关系总本而言有两种,其一是函数关系,其二是相关关系,变量间相互依赖相互影响,但是变量间所表现出的却不是确定的函数关系,如图,影响Y 的因素除了主要有X 之外,还有若干不重要的因素,把这些不确定的因素归并到一个变量中,建立变量之间关系的数学模型i i i Y a bX u =++,在这个数学模型中,a 和b 是有待估计的系数,最小二乘法就是估

计系数a 和b 的一种方法,具体的原理是,首先令X 和Y 之间的关系为??i i

Y a bX =+,然后把各个样本点的自变量值代入该式,计算出对应于各样本点的自变量i X 的因变量的值?i Y ,此?i

Y 是以?a 和?b 为参数的表达式,然后计算各样本点对应的i Y 与?i

Y 的差的平方和,该平方和是以?a 和?b 为参数的二元函数,接下来为了得到?a

和?b 的估计值就要求这个二元函数对?a 和?b 的偏导数,然后利用函数求极值的一阶条件,令二个偏导数分别等于0,然解方程组得到?a

和?b 的估计值,体现在图中是什么意思呢,就是找到一条最佳的线,

使各样本点到该线的纵向距离的平方和最小,求得

?a 和?b 的估计值分别为X b Y a ??-=,和∑∑=2

?i i i

x y

x b ,由这两个估计式的形式可以发现,要先估计?b

后估计?a ,这两个式子中i x 表示第i 个样本点的自变量值与各样本点的自变量的均值的差,∑表示加和,这是最简单的一元线性回归模型的估计方法,也是最小二乘法的一个最简单的应用,对于多变量的最小二乘法与此基本一样。其中最关键的一点是通过求极值条件,将各个样本点所代表的自变量和因变量关系转化为关于估计系数的方程。

通过最小二乘法把a 和b 的值估计出来以后,接下来一个问题就是估计结果的准确性了。

①a 和b 的准确性,由各样本点得到的a 和b 的估计值,只是根据抽样得到的样本点计算的,不一定就是真值,要得到真值就必然根据总体中所有的样本点进行估计,而这通常是不可能的,如对于灯炮内所充惰性气体的量与灯泡寿命的关系,不可以把所有的灯泡都拿来做试验,这在经济上是不可行的,我们所能做的只是根据其分布情况进行统计推断,看看这个统计量是不是无偏的,有效的。所谓无偏就是估计值的数学期望等于真值,其含义可以近似的理解为当我们对做若干次试验后得到的估计值的均值就是真值,即Y 和X 的真实的关系。有效性就是估计值的方差最小,通过概率分析可以知道,OLS 估计量是具有BLUE 的性质。

②a 和b 的显著性,根据概率论的知识可知,a 和b 是服从t 分布的,并且其方差也可以根据概率论的知识计算得到,可以根据样本计算出a 和b 的t 值,看估计得到的a 和b 是否具有统计显著性。

③a 和b 估计出以后的另一个问题是看这个方程的显著性和对Y 的变化情况的解释力,这要通过F 值和2R 来判断。

④最后,还要回过头来总体的看一下这个回归的结果,首先就是要问你怎么知道X 和Y 之间就是一种线性关系,如果不是线性关系,又该怎么办。这也就牵扯到最小二乘法的假设。从假设可以演生出计量经济学的其他的主要内容。

1 回归分析研究 一个变量对另一些变量的依赖关系,但他并不意味着因果关系。

2虚拟变量是指定性变量或者分类变量。

3在进行时间序列数据分析时首先要验证数据的平稳性,平稳是指一个时间序列的均值和方差在时间上都没系统性的变化,要看一时间序列是否平稳,可以计算一个时间段上的均值和方差然后与另一时间段上的均值与方差比较,如果相等则平稳否则不平稳。

4面板数据的缺点是异方差性,即样本中的样本点不是一帮人,相当于不能把苹果和桔子混同起来,如果必须把两者放在一起考虑如看水果的重量与光照的关系,可以加一个虚拟变量用以曲别苹果和桔子两种水果,时间序列数据的缺点是平稳性问题。

5通过经济数据了解经济变量的变化规律有时是存在相当大的局限性的,所以在建立模型时,必须依靠经济理论,同时对参数进行假设检验。

******不同回归方法的选择

在决定使用各种具体的回归方法之前,首先用OLS 进行一下回归,然后根据回归的结果考察使用哪种具体的方法进行回归。

第三章:双变量回归分析

第3.1回归方法

******回归模型bx a Y +=中Y 是一个数学期望的概念,解释变量x 取某一个确定值i x 时(在回归模型中i x 不是随机的而是确定的值),因变量由于扰动项的原因可以取得若干个值,可以认为对应自变量i x 的因变量是一个随机变量,回归模型中的Y 是在自变量取i x 时因变量所有可能取值的数学期望,因此在回归模型中的)x E(Y Y i =,根据回归方程每一个因变量的值可以分为数学期望和扰动项两部分的和。

3 线性回归方程Y=B1+B2*X1的完整表示应该是E (Y |Xi ) =B 1+B 2Xi ,E (Y |Xi )表示给定X 值相应的(或条件的) Y 的均值,也就是说回归方程的因变量的值是当解释变量为某个值时因变量所有可能取值的均值。

4线性回归方程的线性有两方面的含义,其一为解释变量线性,其二为系数线性,也就是说方程右边只能是系数与解释变量的乘积,其中的任何一个都不能是任何的函数形式。

1在一般的情况下,回归模型中要含有截距项,这样做有如下两点好处,第一,尽管模型中含有截距项,但若该项的出现是统计上不显著的,则可以认为回归结果是一个过原点的回归模型。第二,如果实际模型中含有截距而我们的回归模型中无截距则我们的模型就有了设定模型错误。因此模型中要含有截距项。

2在双变量模型中,如果因变量与自变量的单位都是货币,那么以元为单位与万元为单位的回归结果中的斜率是相同的,不同的是截距项要根据度量单位的变化而相应的扩大或缩小计量单位之间换算比例倍,如果因变量与自变量单位不同,一个是元一个是公斤,那么换成吨后的斜率将会发生变化。

3双对数log-log 模型是指等号两边的变量都采取对数的形式,如i i i u blnX a lnY ++=,这个模型用于估计因变量对自变量的弹性,系数b 就是就表示Y 对X 的弹性。

4log-linear 模型是指等号左边是logY ,等号右边是bx 的形式,如i i i u bX a lnY ++=,用于测量X 变化1时Y 变化的百分比,其大小为b ,当X 表示时间时,b 为因变量的瞬时增长率。

5linear-log 模型是指等号左边为Y ,等号右边为i bLnX 的形式,如i i i u blnX a Y ++=,用于确定X 变化1%时,Y 变化的绝对量。

6回归系数的方差1var()b 、2var()b 的计算,每一个样本点都可由一个向量表示,该向量的分量由自变量和因变量构成,自变量和因变量相当于一个样本点的坐标,自变量是确定的值,因变量的数值是由自变量的值和扰动项决定的,对于每一个样本点在回归之前解释变量和因变量的关系虽然是未知的,但却是确定的,因此,因变量的分布是由扰动项的分布决定的,根据扰动项的分布可以计算出因变量的分布,而回归的系数是由各样本点的自变量和因变量值确定的,因此,可以根据因变量的分布来计算出回归系数的分布,从而计算出这些系数的期望和方差。

7在计量中一个向量如无特殊说明都是指列向量。因为,通常情况下每个观察点都有一个自变量和因变量的关系方程,放在一起,各个变量对应一个列向量。

4在回归模型中,解释变量是确定的,对应每一个解释变量的值,因变量都是一个随机变量,因变量序列中有多少个CASE 则对应的有多少个作为随机变量的因变量,只所以是随机变量,是因为扰动项是随机变量。

2用最小二乘法估计的方程的系数是线性无偏一致最小估计量,最小是指方差最小,极大似然估计法也是估计方程系数的方法但其结果是有偏的不如最小二乘法的结果好。

第3.2结果检验

由于回归的结果是根据样本计算出的估计值,因此必须要检验其统计可靠性,统计可靠性的检验分为系数可靠性的检验和方程可靠性的检验,前者主要是t 检验,后者主要是F 检验和2R ,进行统计检验的前提条件就是要知道待检验变量的分布情况,这也是3.3的主要内容。

******对于一个样本总体因变量和自变量之间存在着一个总体回归函数,即在样本中包含总体中的所有的点时自变量与因变量之间的关系,这种关系是肯定存在的,但是由于在样本中不可能包括总体中的所有点,只能根据样本回归函数来代替总体回归函数,并且根据样本数据回归出的样本回归函数只能是总体回归函数的一个近似,并且不同的样本得到的样本回归函数不同,这就使得回归函数中的系数可以取得若干个值,因此就有了在SPSS 回归结果中的某个回归系数的方差指标的由来,不同的样本回归函数对样本中因变量与自变量的关系的解释力不同,解释力的大小用R 2指标来衡量。

******因变量各个值与其均值的离差的平方和TSS 可以分解为估计的Y 值围绕其均值的离差的平方和ESS

加上残差的平方和RSS=2i u ∑,即TSS =2i y ∑ESS +RSS =2

i 2i 2u x b ∑+∑,即因变量的观测值围绕其均值的变异可以分为两部分,一部分来自回归线,这部分相当于固定的,另一部分来自随机势力,回归结果好坏的统计指标TSS

ESS R 2=,当两个模型的因变量不同如一个是Y 另一个是LnY 时2R 不具有可比性。

1置信区间是在区间估计时用到的一个概念,求一个参数的置信区间首先根据样本计算出该参数的点估计值,然后再加减对应显著性水平的一段区间,这段区间通常是根据样本计算出的标准误的多少倍,具体多少倍要根据显著性水平确定。

2在用OLS 等方法估计出系数的数值后,还要检验一下这个点估计值是否是真值为0的情况下的一个随机值,也就是这个估计值可以在真值为0的情况下由于扰动项的原因而出现,如果检验的结果是估计值不可能在真值为0的情况下由于扰动项的原因而出现,那么就认为估计值是显著的。检验方法有两种,一种是置信区间检验法,即看在真值为0,标准误为根据样本计算出的标准误的情况下,根据显著性水平确定一个置信区间如果,估计值落在置信区间的外面则拒绝原假设认为真值不为0,估计值显著,由于显著性水平越低时对应的置信区间越长,因此在越低的显著性水平上拒绝原假设则估计值的显著性水平越高;第二种方法是T 值和F 值检验法,如果根据估计值和原假设值以及标准误计算出的T 值或F 值大于在规定显著性水平下,由T 值或F 值表查出的值,则拒绝原假设认为估计值是显著的。

3统计显著的概念 在统计学中,当我们拒绝虚拟假设时,我们说我们的发现是统计上显著的,反之,我们不拒绝虚拟时,我们说我们的发现不是统计上显著的。

4根据原假设和调查数据估计出的系数计算出的该系数的t 值越大,表示离原假设中该系数的假设值越远,越应拒绝原假设,估计的系数越显著。t 值可以理解为估计值距离原假设值几个标准误的距离。

5方差分析(ANOVA, analysis of variance)是指对因变量与其均值的离差的平方和TSS 的构成部分进行分析,给出的最终结果是F 值,以及这个F 值的精确显著性水平,F 值是ESS 除以其自由度1与RSS 除以其自由度n-1的比值,如果F 值大于由F 值表中查到的在参考显著性水平下的临界值,或者是这个F 值的精确显著性水平小于参考的显著性水平,就认为F 值显著,表明估计方程中所有参数不能同时为0,估计方程有意义。

第3.3回归参数的分布

最小二乘法的回归结果,都是根据样本的自变量和因变量估计的,根据假设可知样本的自变量是确定的数值,样本的因变量的数值为i i i Y a bX u =++,其中的a 和b 代表X 和Y 之间关系的系数的真值,虽然不知道但却是一个确定的数值,i X 是已知的确定数值,i Y 是与i u 服从相同分布的随机变量,因此,根据样本的自变量和因变量值估计的系数和残差也是服从一定分布的,在假定i u 服从正态分布的条件下,这些估计量

都是服从正态分布的。

******回归系数的估计值及其分布

根据样本用OLS 可以估计线性回归方程Y a bX u =++的系数a 、b ,它们是根据样本数据计算而得,

因此a 、b 是样本统计量,其无偏估计值分别为?a

、?b 22()()cov(,)?()()()i i i i i i X X Y Y X X X Y b Y Var X X X X X ??---=== ? ?--??

∑∑∑∑ ??a

Y bX =- 在上面的表达式中i X 和X 是已知的自变量的数值,是确定的(根据假设A5),因此2()i i

X X X X --∑是确定的常数,而i i i Y a bX u =++,其中a 和b 虽然是待估的系数,但确是一个确定的数, i X 也是确定的数,而i

u 是服从正态分布的变量,因此i Y 是服从正态分布的,并且其分布密度由i u 决定,而?b 是若干个i

Y 的线性组合,因此?b

也服从正态分布,其方差为22?var()()u i b X X σ=-∑,其均值根据无偏性为真值b 。其具体的推导过程

如下: ()?i i i i

i i i i i i b K Y K a bX u a K b K X K u ==++=++∑∑∑∑∑ 而22

222220()1i i i i i i i i i i i i i i i i i x x K x x x x X x X x x X K X x x x x ===+===+=∑∑∑

∑∑∑∑∑∑∑

∑∑∑∑ 所以?i i

b b K u =+∑ 于是22?var()var()var()i i i i u

i b b K u K u K σ=+==∑∑∑ 其中2i i i x K x =∑、()22222221i i i i i i

x x K x x x ??=== ? ???∑∑∑∑∑∑、i i x X X =- 因此,22?var()u i b x σ=∑

同理,?a 服从正态分布,?a 的方差为222?var()()i u i X b n X X σ=-∑∑,其均值为真值a 。

在实际计算时u 的方差是无法得到的,只能用残差的方差代替。

******回归残差的估计值及其分布

i Y 的估计值???i i Y a bX =+是服从正态分布的变量?a 和?b 的线性组合,因此也服从正态分布,残差?i i i

e Y Y =-是正态分布的变量i Y 和正态分布的变量?i

Y 的线性组合,因此,也是服从正态分布的。残差的方差的估计值为2

2

?2i

u e n σ=-∑

******回归的真值和估计值

回归方程系数的真值用a 和b 来表示,估计的系数用?a

和?b 表示,两者不同,真值就是一个具体的数值,而估计值由于是根据样本估计出的,因此,估计值是服从一定分布的随机变量。

第四章:多变量回归分析

1当回归模型中因变量和自变量各有一个时,回归方程中的系数叫做回归系数,当自变量多于1个时,回归方程中的系数叫做偏回归系数,表示在其他变量保持不变时某个自变量变化1单位所引起的因变量变化的大小。

2多自变量回归模型中可能面临多重共线性问题,即各个解释变量之间是线性关系,当各个变量之间不是线性关系而存在着其他关系时,模型不面临多重共线性的问题,多重共线性是模型设定时各个变量间的相互关系导致的问题,异方差性是由于样本数据扰动项的方差不同面而导致的问题。

3一般情况下只要解释变量的数量增加估计方程的2R 就要增加。adjusted 2R 是考虑自变量个数的拟合集成度的判定标准。

4偏相关系数用于衡量在多个自变量的回归模型中,其他变量不变时两个变量间的相关性的大小。

1时间序列分析时应引入一个时间或趋势变量。

2在SPSS 回归结果中F 值对应的原假设是所有的系数同时为0,对这样一个假设的检验被称为对所估计回归线的总显著性检验,检验Y 与所有自变量有线性关系。

3要看因变量与自变量之间的关系是否随着时间的发展而改变,即由t t t u bX a Y ++=变为t t t u dX c Y ++=,用周检验。

第五章:OLS 的基本假设

1OLS 的估计量a 和b 都是扰动项u i 的线性函数,因此OLS 的估计量a 和b 的分布依赖于u i

的概率分布状况,通过样本估计出a 和b 是为了对总体的a 和b 进行推断,而在推断之前必须要知道X b -Y a =、2i

i i x y x b ∑∑=这两个统计量的分布情况,而a 和b 都是扰动项u i 的线性函数,因此对u i 的分布情况做出假定后就知道了a 和b 的分布情况,

u i 正态分布时a 和b 也正态分布。

2u i 代表自变量取x i

时所对应的扰动项,它是一个变量可以取多个不同的值,服从一定的分布,因为自变量为x i 时因变量可以取多个不同的值,

******OLS 基本假设

这些基本假定总体上可以分为两大类,即针对各个变量之间关系的假定和各个CASE 之间关系的假定,各个变量之间关系又可分为三小类,一类是自变量之间的关系A2,如果有则去掉一些变量,另一类是因变量和自变量之间的关系A5,A5说明因变量不影响自变量,只有自变量对因变量的影响,即没有内生性的问题,第三类是自变量与扰动项之间的关系A7,如果不满足则用二阶段最小二乘法和工具变量法;各个CASE 之间的关系A3、A4和A6,A3和A4要求各CASE 的扰动项之间是独立同分布的,A6表明使用时间序列进行回归时数据要是平稳的,没有趋势。

A1:因变量与自变量之间呈线性关系即:y X βε=+,在每一观察点都有i i i y x βε'=+。

A2:无多重共线性,解释变量之间无线性相关关系,即矩阵X 是n k ?矩阵,并且秩k 。

A3:各观察点对应的扰动项的期望或均值为零(每个观察点都对应一个扰动项变量,不同观察点的扰动项是不同变量,可以有不同的分布参数,此处假定各个扰动项的期望都为0)即()0i E X ε=。

A4:无异方差性,各个观察点对应的扰动项的方差相同都为一常数,并且各扰动项之间的协方差为0,

即对于所有观察点i 都有2var()i X εδ= 并且cov(,)0i j X εε=,在残差图上表现为残差不是分布于以0

为中心的一条带上,而是呈现喇叭口等形状。

A5:各观察点自变量是确定的值并且已知,即矩阵X 已知。

A6:无自相关,各个扰动项都独立服从期望为0方差为2δ的正态分布,即向量X ε服从2

(0,)N I δ,由于I 是一个单位矩阵所以2I δ即表明各扰动项的方差为2

δ,也表明扰动项之间协方差为0, A7:自变量与扰动项不相关,

******假设是否满足的检验方法

A1:

A2:

A3:

A4:

A5:

A6: 扰动项之间如自相关,在残差图上表现为一个大都大,一个小都小,像老鹰捉小鸡游戏中小鸡的行动一样,其存在于否的检验主要靠DW 值,DW 值如果比较严重的偏离了2则表明有自相关问题的存在。

A7:表现为残差图中残差的大小随着自变量的大小而有规律的变动。

******假设不满足时的处理方法

A1:

A2:

A3:

A4:

A5:

A6:自相关的处理方法主要是把自变量和因变量同时减掉自身的2DW 倍,然后对减掉后的因变量和自变量的关系进行回归。

A7:如扰动项与自变量相关则用二阶段最小二乘法处理,

残差提供了有关扰动项的最佳信息,因此对于残差的分析是判断以上假定是否满足的基础,各种残差图直观的描述了残差的基本特征,如果假定对所有的X 值e 的方差都相等并且假定的X 与Y 之间的模型是合理的,则残差图中的所有点都应落在以0为中心的一条水平带中,并且大多数落在距离均值两个标准差的范围以内。关于自变量的残差图和关于预测值的残差图适用于A3;关于自变量的标准残图和残差的P-P 图可以判断A6,因为如果是正态分布则95%以上的标准残差应该在-2—+2之间;在使用OLS 时得到的残差均值肯定为0,因此残差不能提供关于是否满足A2的信息。A4可以通过残差的自相关图判断。 2var()i X εδ=中的X 表明在已知的观察点数据的基础上,2var()i X εδ=是说在观察点数据的基础上第i 个扰动项的方差为2δ。

A5表明自变量不能受因变量的影响,即自变量不能具有内生性,自变量影响因变量而因变量不能影响自变量。

4 为什么要有这些基本假设

使用最小二乘法根据各个样本点计算出各个回归系数之后,还要对回归系数进行统计推断,而进行统计推断的前提是要知道这些回归系数的分布情况,表明分布情况的最重要参数就是期望和方差,回归系数的期望和方差会受到假设中的相互关系的影响。2

2var()var()var(bX)()i i u X a Y n X X =-=-∑∑

相关主题
文本预览
相关文档 最新文档