当前位置:文档之家› 用R语言做非参数和半参数回归笔记

用R语言做非参数和半参数回归笔记

用R语言做非参数和半参数回归笔记
用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习

根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出!

教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008.

-------------------------------------------------------------------------

第一章introduction: Global versus Local Statistic

一、主要参考书目及说明

1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书

2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰

3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难

4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典

5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错

6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143)

7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3)

8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24)

【其他参看原ppt第一章】

二、内容简介

方法:

——移动平均(moving average)

——核光滑(Kernel smoothing)

——K近邻光滑(K-NN)

——局部多项式回归(Local Polynormal)

——Loesss and Lowess

——样条光滑(Smoothing Spline)

——B-spline

——Friedman Supersmoother

模型:

——非参数密度估计

——非参数回归模型

——非参数回归模型

——时间序列的半参数模型

——Panel data 的半参数模型

——Quantile Regression

三、不同的模型形式

1、线性模型linear models

2、Nonlinear in variables

3、Nonlinear in parameters

四、数据转换Power transformation(对参数方法)

In the GLM framework, models are equally prone(倾向于) to some misspecification(不规范)from an incorrect functional form.

It would be prudent(谨慎的)to test that the effect of any independent variable of a model does not have a nonlinear effect. If it does have a nonlinear effect, analysts in the social science usually rely on Power Transformations to address nonlinearity.

[ADD: 检验方法见Sanford Weisberg. Applied Linear Regression (Third Edition). A John Wiley & Sons, Inc., Publication.(本科的应用回归分析课教材)]

----------------------------------------------------------------------------

第二章 Nonparametric Density Estimation

非参数密度估计

一、三种方法

1、直方图Hiatogram

2、Kernel density estimate

3、K nearest-neighbors estimate

二、Histogram 对直方图的一个数值解释

Suppose x1,…xN – f(x), the density function f(x) is unknown.

One can use the following function to estimate f(x)

【与x的距离小于h的所有点的个数】

三、Kernel density estimate

Bandwidth: h; Window width: 2h.

1、Kernel function的条件

The kernel function K(.) is a continuous function, symmetric(对称的) around zero, that integrates(积分) to unity and satisfies additional bounded conditions:

(1) K() is symmetric around 0 and is continuous;

(2) ,,;

(3) Either

(a) K(z)=0 if |z|>=z0 for z0

Or

(b) |z|K(z) à0 as ;

(4) , where is a constant.

2、主要函数形式

3、置信区间

其中,

4、窗宽的选择

实际应用中,。其中,s是样本标准差,iqr是样本分位数级差(interquartile range)

四、K nearest-neighbors estimate

五、R语言部分

lines(den5,lty=1,col="blue")

----------------------------------------------------------------------------

第三章 smoothing and local regression

一、简单光滑估计法 Simple Smoothing

1、Local Averaging 局部均值

按照x排序,将样本分成若干部分(intervals or ―bins‖);将每部分x对应的y值的均值作为f(x)的估计。

三种不同方法:

(1)相同的宽度(equal width bins):uniformly distributed.

(2)相同的观察值个数(equal no. of observations bins):k-nearest neighbor.

(3)移动平均(moving average)

K-NN:

等窗宽:

2、kernel smoothing 核光滑

其中,

二、局部多项式估计Local Polynomial Regression

1、主要结构

局部多项式估计是核光滑的扩展,也是基于局部加权均值构造。

——local constant regression

——local linear regression

——lowess (Cleveland, 1979)

——loess (Cleveland, 1988)

【本部分可参考:

Takezana(2006). Introduction to Nonparametric Regression.(P185 3.7 and P195 3.9) Chambers and Hastie(1993). Statistical models in S. (P312 ch8)】

2、方法思路

(1)对于每个xi,以该点为中心,按照预定宽度构造一个区间;

(2)在每个结点区域内,采用加权最小二乘法(WLS)估计其参数,并用得到的模型估计该结点对应的x值对应y值,作为y|xi的估计值(只要这一个点的估计值);

(3)估计下一个点xj;

(4)将每个y|xi的估计值连接起来。

【R操作

library(KernSmooth) #函数locpoly()

library(locpol) #locpol(); locCteSmootherC()

library(locfit) #locfit()

#weight funciton: kernel=‖tcub‖. And ―rect‖, ―trwt‖, ―tria‖, ―epan‖, ―bisq‖, ―gauss‖

3、每个方法对应的估计形式

(1)变量个数p=0, local constant regression (kernel smoothing)

min

(2)变量个数p=1, local linear regression

min

(3)Lowess (Local Weighted scatterplot smoothing)

p=1:

min

【还有个加权修正的过程,这里略,详见原书或者PPT】

(4)Loess (Local regression)

p=1,2:

min

【还有个加权修正的过程,这里略,详见原书或者PPT】

(5)Friedman supersmoother

symmetric k-NN, using local linear fit,

varying span, which is determined by local CV,

not robust to outliers, fast to compute

supsmu( ) in R

三、模型选择

需要选择的内容:(1)窗宽the span;(2)多项式的度the degree of polynomial for the local regression models;(3)权重函数the weight functions。

【其他略】

四、R语言部分

----------------------------------------------------------------------------

第四章样条估计spline

一、基本思想

按照x将样本分成多个区间,对每个区间分别进行估计。不同于核估计,这里不用移动计算,从而减小了计算量。

二、最简单的形式

Linear Spline with k knots:

其中,,

三、其他样条模型

1、p次样条估计

——二次样条Quadratic Spline (basis functions with k knots)

——三次样条Cubic Spline (with k knots, use quadratic basis functions)

——p-order spline (with k knots)

2、B-splines (with k knots cubic B-spline basis)

其中,

3、Natural Splines

以上估计方法对结点(knots)之间的估计比较准确,但对边界的拟合效果较差。自然样条的思想是,在自变量最小值和最大值处各增加一个结点,用线性模型拟合边界位置的样本点。

4、k的选择和模型比较

采用AIC准则

四、光滑样条smoothing spline

基于如果目标得到参数估计值

min

五、模型比较的F检验

六、R语言部分

legend(0,-0.8,c("spm","sm.spline","smooth.spline"),lty=c(1,5,6),col=c(1,5,6),cex=0.8,bty="n")

----------------------------------------------------------------------------

第五章 Automated Smoothing Techniques自动光滑技术

一、Span by Cross-Validation

其中s指窗宽span。

【CV和GCV在LPR中表现不佳】

二、自动光滑技术

两种方法:1、采用MLE(极大似然估计);2、采用CV选择。

1、MLE方法

得到。其中,是随机效应(the random effect)的方差估计,是随机误差项(the error term)的方差估计

2、最小化CV或GCV

三、R语言部分

---------------------------------------------------------------------------- 第六章 Additive and Semiparametric Regression Models

可加回归模型和半参数回归模型

R语言部分

---------------------------------------------------------------------------- 第七章 Generalized Additive Models

广义可加模型

一、广义线性模型GLM

logit model: ;

possion regression:

二、广义可加模型

三、估计方法

MLE: use Newton-Raphson algorithm

IRLS: backfitting algorithm (in ch5)

四、假设检验

LR=-2(LogLikelihood0 – LogLikelihood1)【这是两个模型进行比较】五、R语言部分

向量自回归模型简介

一、Var模型的基本介绍 向量自回归模型(Vector Autoregressive Models,VAR)最早由Sims(1980)提出。他认为,如果模型设定和识别不准确,那么模型就不能准确地反应经济系统的动态特性,也不能很好地进行动态模拟和政策分析。因此,VAR模型通常使用最少的经济理论假设,以时间序列的统计特征为出发点,通常对经济系统进行冲击响应(Impulse-Response)分析来了解经济系统的动态特性和冲击传导机制。由于VAR模型侧重于描述经济的动态特性,因而它不仅可以验证各种经济理论假设,而且在政策模拟上具有优越性。 VAR模型主要用于替代联立方程结构模型,提高经济预测的准确性。用联立方程模型研究宏观经济问题,是当前世界各国经济学者的一种通用做法,它把理论分析和实际统计数据结合起来,利用现行回归或非线性回归分析方法,确定经济变量之间的结构关系,构成一个由若干方程组成的模型系统。联立方程模型适合于经济结构分析,但不适合于预测:联立方程模型的预测结果的精度不高,其主要原因是需要对外生变量本身进行预测。与联立方程模型不同,VAR模型相对简洁明了,特别适合于中短期预测。目前,VAR模型在宏观经济和商业金融预测等领域获得了广泛应用。 二、VAR模型的设定 VAR模型描述在同一样本期间内的n个变量(内生变量)可以作为它们过去值的线性函数。 一个VAR(p)模型可以写成为: 或: 其中:c是n × 1常数向量,A i是n × n矩阵,p是滞后阶数,A(L)是滞后多项式矩阵,L是滞后算子。是n × 1误差向量,满足: 1. —误差项的均值为0 2. Ω—误差项的协方差矩阵为Ω(一个n × 'n正定矩阵) 3.(对于所有不为0的p都满足)—误差项不存在自相关 虽然从模型形式上来看比较简单,但在利用VAR模型进行分析之前,对模型的设定还需要意以下两点: 一是变量的选择。理论上来讲,既然VAR模型把经济作为一个系统来研究,那么模型中

用R语言做非参数和半参数回归笔记学习资料

用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

非参数回归模型资料

非参数回归模型

精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 非参数回归模型 非参数回归模型也叫多元回归模型,它是一种脱离于混沌理论的多条路段分析方法。它是对当前路段和几条相邻路段的交通流信息对当前路段进行交通流预测的单条路段分析的扩展。它不需要先验知识,只需要有足够的历史数据即可。它的原理是:在历史数据库中寻找与当前点相似的近邻,并根据这些近邻来预测下一时间段的流量。该算法认为系统所有的因素之间的内在联系都蕴含在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。非参数回归最为一种无参数、可移植、预测精度高的算法,它的误差比较小,且误差分布情况良好。尤其通过对搜索算法和参数调整规则的改进,使其可以真正达到实时交通流预测的要求。并且这种方法便于操作实施,能够应用于复杂环境,可在不同的路段上方便地进行预测。能够满足路网上不同路段的预测,避免路段位置和环境对预测的影响。随着数据挖掘技术左键得到人们的认可和国内外学者的大量相关研究,使得非参数回归技术在短时交通流预测领域得到广泛应用。 非参数回归的回归函数()X g Y =的估计值()X g n 一般表示为: ()()∑==n i i i i n Y X W X g 1 其中,Y 为以为广策随机变量;X 为m 维随机变量;(Xi,Yi )为第i 次观测值,i=1,...,n ;Wi(Xi)为权函数.非参数回归就是对g(X)的形状不加任何限制,即对g (X )一无所知的情况下,利用观测值(Xi,Yi ),对指定的X 值去估计Y 值。由于其不需要对系统建立精确的数学模型,因此比较适合对事变的、非线性的系统进行预测,符合对城市交通流的预测,同时可以与历史平均模型实现优缺点的互补。 K 近邻法 Friedman 于1977年提出了K 近邻法。其并不是让所有的数据都参与预 测,而是以数据点到X 点的距离为基础,甲醛是只有离X 最近的K 个数据被用来估计相应的g(X)值。可以引入欧式空间距离d ,然后按这个距离将X1,X2,...,Xn 与X 接近的程度重新排序:Xk1,...,Xkn,取权值如下: Wki(X:X1,...,Xn)=ki,i=1,..,n 将与X 最近的前K 个观测值占有最大的权K=1,其余的观测值赋予权值k=0.最终得到应用于短时交通流预测的K 近邻法可表示为:

CY非参数回归介绍

非参数回归简介 一、参数回归与非参数回归的特点 无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 参数回归与非参数回归的优缺点比较: 参数回归: 优点: (1).模型形式简单明确,仅由一些参数表达(eg: y=a+bx+e, a,b为待估参数) (2).在经济中,模型的参数一般都具有明确的经济含义 (3).当模型参数假设成立,统计推断的精度较高,能经受实际检验 (4).模型能够进行外推运算 (5).模型可以用于小样本的统计推断 缺点: (1).回归函数的形式预先假定 (2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足正态假设,解释变量间独立,解释变量与随机误差不相关,等

(3).需要对模型的参数进行严格的检验推断,步骤较多 (4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果不好,需要修正或者甚至更换模型 非参数回归: 优点; (1).回归函数形式自由,受约束少,对数据的分布一般不做任何要求 (2).适应能力强,稳健性高,回归模型完全由数据驱动 (3).模型的精度高 (4).对于非线性、非齐次问题,有非常好的效果 缺点: (1).不能进行外推运算 (2).估计的收敛速度慢 (3).一般只有在大样本的情况下才能得到很好的效果,而小样本的效果较差 (4).高维诅咒, 光滑参数的选取一般较复杂 二、非参数回归的方法简介 非参数回归方法 样条光滑 正交回归 核回归:N-W估计、P-C估计、G-M估计 局部多项式回归:线性、多项式 光滑样条:光滑样条、B样条近邻回归:k-NN、k近邻核、对称近邻 正交级数光滑 局 部 回 归 Fourier级数光滑 wavelet光滑

非参数统计模型

非参数统计第二次作业 ——局部多项式回归与样条回归 习题一: 一、本题是研究加拿大工人收入情况,即年龄(age)和收入(income)的关系。 此次共调查了205个加拿大工人的年龄和收入,所有工人都是高中毕业。且本题设定因变量为log.income,协变量为age,运用统计方法来拟合log.income 与age之间的函数关系。 二、模型的建立 1.估计方法的选取 拟合两个变量之间的函数关系,即因变量和协变量之间的关系,用回归估计的方法,回归估计包括参数回归估计和非参数回归估计。参数估计是先假定某种数学模型或已知总体的分布,例如总体服从正态分布,其中某些参数未知,如总体均值、方差等,然后利用样本去估计这些未知参数,常用的方法有极大似然估计,Bayes估计等,线性模型可以用最小二乘法估计。 非参数估计是不假定具有某种特定的数学模型,或总体分布未知,直接利用样本去估计总体的数学模型,常用的方法有局部多项式回归方法和样条函数回归方法。 本题调查了205个加拿大工人的年龄和收入,但是加拿大工人年龄和收入的具体分布未知,即这两个变量所能建立的数学模型未知,而且由协变量和因变量所形成的散点图可以看出它不符合某种特定的已知模型,需要进一步研究,然后拟合它们之间的函数关系。因此本题选用非参数回归估计的方法,来拟合因变量和协变量之间的关系。 针对此问题分别采用非参数估计中的局部多项式回归和样条函数回归方法对log.income 与age之间的函数关系进行估计。 2.局部多项式回归方法 局部多项式的思想是在某个点x附近,用一个多项式函数来逼近未知的光滑函数g(x)。选定局部邻域的大小h,对于任意给定某个点x 0,在其小邻域内展开泰勒公式,用一个p阶多项式来局部逼近g(x),然后再用极大似然估计。 (1)加拿大工人的收入(log.income)与年龄(age)之间的散点图如下所示:

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型 第一节 非参数回归与权函数法 一、非参数回归概念 前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 设Y 是一维观测随机向量,X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数,即称 g (X ) = E (Y |X ) (7.1.1) 为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小,即 22)]([min )]|([X L Y E X Y E Y E L -=- (7.1.2) 这里L 是关于X 的一切函数类。当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。 细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。 所以我们知道,参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。 二、权函数方法 非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式: ∑==n i i i n Y X W X g 1 )()( (7.1.3)

非参数回归模型

非参数回归模型 非参数回归模型也叫多元回归模型,它是一种脱离于混沌理论的多条路段分析方法。它是对当前路段和几条相邻路段的交通流信息对当前路段进行交通流预测的单条路段分析的扩展。它不需要先验知识,只需要有足够的历史数据即可。它的原理是:在历史数据库中寻找与当前点相似的近邻,并根据这些近邻来预测下一时间段的流量。该算法认为系统所有的因素之间的内在联系都蕴含在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。非参数回归最为一种无参数、可移植、预测精度高的算法,它的误差比较小,且误差分布情况良好。尤其通过对搜索算法和参数调整规则的改进,使其可以真正达到实时交通流预测的要求。并且这种方法便于操作实施,能够应用于复杂环境,可在不同的路段上方便地进行预测。能够满足路网上不同路段的预测,避免路段位置和环境对预测的影响。随着数据挖掘技术左键得到人们的认可和国内外学者的大量相关研究,使得非参数回归技术在短时交通流预测领域得到广泛应用。 非参数回归的回归函数()X g Y =的估计值()X g n 一般表示为: ()()∑==n i i i i n Y X W X g 1 其中,Y 为以为广策随机变量;X 为m 维随机变量;(Xi,Yi )为第i 次观测值,i=1,...,n ;Wi(Xi)为权函数.非参数回归就是对g(X)的形状不加任何限制,即对g (X )一无所知的情况下,利用观测值(Xi,Yi ),对指定的X 值去估计Y 值。由于其不需要对系统建立精确的数学模型,因此比较适合对事变的、非线性的系统进行预测,符合对城市交通流的预测,同时可以与历史平均模型实现优缺点的互补。 K 近邻法 Friedman 于1977年提出了K 近邻法。其并不是让所有的数据都参与预测,而是以数据点到X 点的距离为基础,甲醛是只有离X 最近的K 个数据被用来估计相应的g(X)值。可以引入欧式空间距离d ,然后按这个距离将X1,X2,...,Xn 与X 接近的程度重新排序:Xk1,...,Xkn,取权值如下: Wki(X:X1,...,Xn)=ki,i=1,..,n 将与X 最近的前K 个观测值占有最大的权K=1,其余的观测值赋予权值k=0.最终得到应用于短时交通流预测的K 近邻法可表示为: ()()()()K t V t V g t V K i i ∑=+==+111

用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele:Semiparametric Regression for the Social Sciences.John Wiley &Sons,Ltd.2008. ------------------------------------------------------------------------- 第一章introduction:Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994).Applied Nonparametic Regresstion.较早的经典书 2、Hardle etc(2004).Nonparametric and semiparametric models:an introduction. Springer.结构清晰 3、Li and Racine(2007).Nonparametric econometrics:Theory and Practice.Princeton.较全面和深入的介绍,偏难 4、Pagan and Ullah(1999).Nonparametric Econometrics.经典 5、Yatchew(2003).Semiparametric Regression for the Applied Econometrician.例子不错 6、高铁梅(2009).计量经济分析方法与建模:EVIEWS应用及实例(第二版).清华大学出版社.(P127/143) 7、李雪松(2008).高级计量经济学.中国社会科学出版社.(P45ch3) 8、陈强(2010).高级计量经济学及Stata应用.高教出版社.(ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型 第一节 非参数回归与权函数法 一、非参数回归概念 前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 设Y 是一维观测随机向量,X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数,即称 g (X ) = E (Y |X ) (7.1.1) 为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小,即 22)]([min )]|([X L Y E X Y E Y E L -=- (7.1.2) 这里L 是关于X 的一切函数类。当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。 细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。 所以我们知道,参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。 二、权函数方法 非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式: ∑==n i i i n Y X W X g 1 )()( (7.1.3)

用R语言做非参数和半参数回归笔记.docx

由詹鹏整理 ,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改 ,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍 ,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大 学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

第11章 非参数回归(非参数统计,西南财大)范文

第十二章 非参数回归及其相关问题 第一节 参数回归问题的回顾 在线性回归模型中,我们总是假定总体回归函数是线性的,即 多元线性回归模型一般形式为: i Ki K i i i X X X Y μββββ+++++= 33221 总体回归函数(PRF ) Ki K i i ki i i i X X X X X X Y E X m ββββ++++== 3322132),,,()( 但是,经验和理论都证明,当)(X m 不是线性函数时,基于最小二乘的回归效果不好,非参数回归就是在对)(X m 的形式不作任何假定的前提下研究估计)(X μ。 例 设二维随机变量,其密度函数为 ?? ?≤≤≤≤+=其它 10,10),(y x y x y x f ,求)/(x X Y E =. 解:1 02 1),()(1 ≤≤+ == ? x x dy y x f x f x ?==1 ) () ,()/(dy x f y x f y x X Y E x ?++=1 021dy x y x y ?++=1 )(2 11 dy y x y x )()321(122x m x x =++= 从例可知,)/(x X Y E =仅与x 有关,条件期望)/()(x X Y E x m y ===表明Y 与X 在条件期望的意义下相关。 由样本均值估计总体均值的思想出发,假设样本),(11Y X ,),(22Y X ,…,),(n n Y X 中有相当i X 恰好等于x ,()(/)m x E Y x =,不妨记为1i X ,2i X ,…,k i X ,自然可取相应 的Y 的样本1i Y ,2i Y ,…,k i Y ,用他们的平均数∑=k j i j Y k 1 1去估计)/()(X Y E X m =。可是

人口增长率的非参数自回归预测模型

收稿日期:2006201204 作者简介:巩永丽(1980—),女,山西永济人,西安理工大学硕士研究生,主要从事应用概率统计方面的研究. 山西师范大学学报(自然科学版)第21卷第1期Journal of Shanxi Nor mal University Vol .21 No .12007年3月 Natural Science Editi on M ar .2007 文章编号:100924490(2007)0120038205 人口增长率的非参数自回归预测模型 巩永丽1 ,张德生1 ,武新乾2 ,姜爱平 1 (11西安理工大学理学院,陕西西安710054;21西北工业大学,陕西西安710072) 摘 要:针对传统的人口增长预测模型不能理想地捕获我国人口增长率数据的非线性性特征,本文基于局部线性非参数估计理论,对我国建国以来的年人口增长率建立了非参数自回归NAR (1)模型,并对 2000年~2003年的年人口增长率进行了预测,计算结果表明,相对于参数自回归模型而言,非参数自回 归模型能够很好地解决人口增长预测这一非线性问题,预测精度较高.关键词:非参数估计;非参数自回归模型;预测中图分类号:O29 文献标识码:A 0 引言 我国是一个发展中国家,又是世界上人口最多的国家,人口问题一直是制约我国经济和社会发展的首要因素,因此,能否对人口增长做出比较准确的预测,对于加速推进我国现代化建设有着极为重要的现实 意义.对于人口增长预测,传统的方法有增长曲线模型、灰色系统模型、系统动力学模型、自回归模型等.增长曲线模型预测方法 [1] 相对简单,但是精度不高;灰色系统模型 [1] 主要是对人口增长趋势波动进行分析, 它在预测资料不全或资料的波动太大、不平稳的发展趋势效果较好;系统动力学模型[1] 在分析问题、收集 资料、建立模型和求证的过程中都要消耗一定的财力、物力和人力,还需要占用大量的计算机工作时间,而且建模人员的专业水平也直接影响模型的质量和结果.自回归模型由于是线性参数化形式,难以较好的解决人口增长预测这一非线性问题.因此,本文尝试利用非参数估计方法,建立我国人口增长率的非参数自回归预测模型,结果表明非参数自回归模型用于人口预测可以获得令人满意的结果,可为相关部门制定人口政策提供科学的依据. 1 非参数自回归预测模型基本原理 1.1 非参数自回归模型 非参数自回归模型(NAR (p ))为:Y t =m (X t )+εt ,其中,解释性变量X t ∈R p 由响应变量(或被解释性变量)Y t ∈R 的一些滞后项所组成(p 为正整数);随机误差序列{εt }独立同分布,E (εt )=0, E (ε2t )=σ2 ,并且εt 与X s ,s ≤t 相互独立;未知函数m (? )称为条件均值函数(或自回归函数).1.2 非参数预测 对一组平稳时间序列{Y t },t =1,2,...,n,我们的目的是对确定的正整数k,k ≥1,预测Y n +k 的值.非参数自回归模型对未知值Y n +k 进行预测的计算步骤如下: (1)对这组平稳时间序列建立相应的非参数自回归模型 Y t =m (X t )+εt (1)

第七章分布滞后模型与自回归模型答案(最新整理)

第七章 分布滞后模型与自回归模型 一、判断题 1.无限分布滞后模型不可以转换为一阶自回归模型。( F ) 2.局部调整模型变换后得到的一阶自回归模型可以应用OLS 法估计。( T ) 3.估计自回归模型的问题仅在于滞后被解释变量的存在可能导致它与随机扰动项相关。(F ) 4.自回归模型的产生背景都是相同的。( F ) 5.库伊克模型和自适应预期模型都存在解释变量与随机扰动项相关问题。( T ) 二、单项选择题 1.设无限分布滞后模型为,且该模型满足t 0t 1t-12t-2t Y = + X + X +X ++ U αβββ Koyck 变换的假定,则长期影响系数为( C )。 A . B . C . D .不确定0βλ01βλ+01βλ -2.对于分布滞后模型,时间序列的序列相关问题,就转化为( B )。 A .异方差问题 B .多重共线性问题 C .多余解释变量 D .随机解释变量 3.在分布滞后模型中,短期影响乘数为( 01122t t t t t Y X X X u αβββ--=+++++ D )。 A . B . C . D .11βα-1β01βα -0β4.对于自适应预期模型变换后的自回归模型,估计模型参数应采用( D ) 。 A .普通最小二乘法 B .间接最小二乘法 C .二阶段最小二乘法 D .工具变量法 5.经过库伊克变换后得到自回归模型,该模型参数的普通最小二乘估计量是( D ) 。 A .无偏且一致 B .有偏但一致 C .无偏但不一致 D .有偏且不一致 6.下列属于有限分布滞后模型的是( D )。 A . B . 01122t t t t t Y X Y Y u αβββ--=+++++ 01122t t t t k t k t Y X Y Y Y u αββββ---=++++++ C . D . 01122t t t t t Y X X X u αβββ--=+++++ 01122t t t t k t k t Y X X X X u αββββ---=++++++ 7.消费函数模型,其中为收入,则当期收入对未来12 ?4000.50.30.1t t t t C I I I --=+++I t I 消费的影响是:增加一单位,增加( C )。 2t C +t I 2t C +A .0.5个单位 B .0.3个单位 C .0.1个单位 D .0.9个单位

非参数计量经济学

【内容提要】 内容简介 本书分为四部分.第一部分为密度函数和条件密度函数,包括密度函 数的非参数估计、一元条件密度函数的非参数估计和多元条件密度函数的 投影追踪估计;第二部分为非参数计量经济模型,包括非参数计量经济模 型的核估计和变窗宽核估计、局部线性估计和变窗宽局部线性估计、非参 数计量经济模型的异方差问题和多重共线性问题;第三部分为非参数计 量经济联立方程模型,包括非参数计量经济联立模型的局部线性工具变量 估计和变窗宽局部线性工具变量估计、局部线性两阶段最小二乘估计和变 窗宽局部线性两阶段最小二乘估计、局部线性广义矩估计和变窗宽局部线 性广义矩估计;第四部分为半参数计量经济模型和联立方程模型,包括半 参数计量经济模型的最小二乘估计、半参数计量经济联立模型的工具变量 估计和其他工具变量估计.本书的附录包括准备知识和R软件介绍.本书适合高等院校经济、管理学科的研究生和研究人员使用. 【节选】 序言 非参数计量经济学作为现代计量经济学的一个分支,近20年来得到了迅速的

发展.从国际权威的计量经济学学术刊物的论文中,我们不难发现,关于非参数计量经济学理论方法的研究,一直是理论计量一个重要的和前沿的研究领域.在应用研究方面,将非参数、半参数模型方法与微观计量、宏观计量以及金融计量结合,也成为这些计量经济学分支领域的研究热点.在国外著名大学的经济学研究生课程表中,非参数计量经济学已经成为计量经济学高级课程重要的一部分.在国内,近年来,一批年青学者将该领域作为主要研究方向,在跟踪研究的同时,取得了一些创新成果;不少大学已经将非参数计量经济学纳入研究生高级计量经济学的教学内容,甚至为博士研究生开设了专门的课程. 但是,国内目前关于非参数计量经济学的出版物相当少.2003年7月,南开 大学出版社出版了叶阿忠教授的《非参数计量经济学二》一书,在它的序言中,我写下了如下一段话:“在国内,尚缺少全面系统的、既具有学术水平又具有应用 指导价值的著作奉献给广大读者.在这个意义上,这本《非参数计量经济学》填补了这个空白.”时隔几年,这种状况没有改变.从这个意义上说,叶阿忠教授即将出版的《非参数和半参数计量经济模型理论》专著对于推动国内的计量经济学研究与教学都具有十分重要的价值. 叶阿忠教授近10年来以非参数计量经济学模型理论为自己的主要研究方向, 取得了显著的成绩,完成了国家自然科学基金项目“半参数计量经济联立模型单 方程估计方法的理论研究”、教育部人文社会科学基金项目“非参数计量经济模 型的理论研究”和教育部人文社会科学重点研究基地重大项目“非经典计量经济

非参数统计学讲义相关与回归

非参数统计学讲义 主讲:统计系 袁靖 第五章 相关和回归 §1 引言 所谓相关,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X 和文盲率Y 之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。 在数理统计学中,我们使用相关系数定义变量X 和变量Y 之间的相关性。 ) var()var(),cov(),(Y X Y X Y X corr = =ρ1 (0.1>对于样本),(11Y X ,),(22Y X ,……,),(n n Y X 来说,Pearson 相关系数为 ∑∑∑∑∑∑----= ----= 2 2 2 2 11) ()())(() ()() )((Y Y X X Y Y X X Y Y X X Y Y X X r i i i i i i n i i n (0.2>如果在这个样本中的n 个观察值独立,则r 是ρ的渐近无偏估计;如果它又是二元正态分布,则r 是 ρ的ML 估计。 为了检验0:0=ρH ,0:1≠ρH ,可以选取统计量)2(~122 ---=n t r n r t 结论:Pearson 相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman 秩相关系数s r 和Kendall τ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。§2 两个样本的相关分析 一、 等级相关 等级相关(Rank Correlation>也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定 研究背景 1 ρ度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。

用R语言做非参数

用R语言做非参数

用R语言做非参数&半参数回归 笔记 由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24)【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型

用R语言做非参数

用R语言做非参数&半参数回归 笔记 由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出!教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. --------------------------------------------------------- ---------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经 典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24)【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型

基于非参数回归模型的短期风电功率预测 (1)

基于非参数回归模型的短期风电功率预测 王彩霞,鲁宗相,乔 颖,闵 勇,周双喜 (电力系统国家重点实验室,清华大学电机系,北京市100084) 摘要:随着风电接入规模的增加,风电功率预测日益重要。非参数估计方法是模型估计和预测的典型方法之一,在国内短期风电功率预测中尚无应用。文中将非参数回归技术应用于短期风电功率预测,包括风电功率点预测和风电功率概率区间预测。首先,基于非参数回归模型,建立风速与风电功率之间的转换模型,得到风电功率的点预测值;其次,基于经验分布模型与非参数回归技术,建立风电功率预测误差的概率分布函数,得到风电功率预测值的概率区间。以内蒙古某风电场为例,验证了将非参数回归技术应用于风电功率预测的有效性。关键词:风力发电;功率预测;点预测;概率区间预测;非参数回归 收稿日期:2010 02 13;修回日期:2010 06 17。 0 引言 近年来,并网型风电发展迅猛,风电的波动性已给电网调度带来严峻的挑战。风电功率预测是解决风电波动、实现风电与电力系统传统电源联合优化运行的关键技术之一。 风电功率预测按照预测的时间尺度划分一般分为超短期、短期和中长期预测[1]。超短期预测一般指6h 以内的预测,预测结果用于电力系统的在线优化运行,常采用基于历史风电功率数据的时间序列分析方法进行预测,例如自回归滑动平均(ARM A)模型[2 3]、Kalman 滤波[4]等。短期预测一般指对未来6h~48h 风电功率输出的预测,预测结果是电网安排日发电计划或进行电力市场交易的基础。中长期预测一般指未来几天的预测,预测结果主要用于安排风电机组的检修计划等。在实际应用中,短期预测和超短期预测应用较多。本文的研究对象为短期预测。 由于天气状况在未来6h~48h 内一般有较大的变化,因此,短期预测主要依赖于数值天气预报(numeric w eather predictio n,NWP ),通过建立NWP 的气象信息与风电功率输出之间的关系模型,将预测时段内的气象信息转换为风电功率输出。按建模方法的不同,短期风电功率预测可进一步分为物理方法和统计方法[5]。本文研究方法属于统计方法的范畴。 经过多年的积累,欧洲和美国已经有多款商业化的风电功率预测软件[6],如丹麦的WPPT 和Prediktor 、西班牙的SIPREOLICO 等。由于中国 的气候条件与欧美相比差异较大,因此有必要研究 适合中国风电场的风电功率预测方法。近几年,中国的风电功率预测研究也在逐步发展,但受气象服务条件的影响,预测方法大多基于历史数据和时间序列方法[7 9],对超短期预测较为有效,但对短期(如日前24h)风电功率的预测效果往往较差。随着风电的大规模接入,为电网安排发电计划服务的短期风电功率预测亟需展开。中国电力科学研究院开发 的基于NWP 的短期风电功率预测软件[10 11] ,采用的预测方法为反向传播(BP)神经网络,是一种在风电功率预测中应用广泛的典型方法。但是,神经网络方法对模型训练的时间较长,并且需要不断调试合适的隐含层神经元个数、合适的隐含层输出函数及合适的输出层输出函数等,才能得到收敛性较好的神经网络。非参数回归方法也是模型估计的典型方法之一,在国外已有采用基于统计模型的风电功率预测方法的范例[12]。非参数统计模型只需调整合适的窗宽即可应用模型进行预测,实用性比神经网络模型更佳。 本文以内蒙古某风电场为例,研究将非参数回归方法应用于国内短期风电功率预测的有效性。内蒙古气象局引进了美国国家大气研究中心(NCAR)和美国宾州大学(PSU)开发研制的第5代中尺度模式M M5(M esoscale Mo del 5),直接提供风机轮毂高度的NWP 信息,如风速、风向等。本文采用内蒙古气象局提供的NWP 数据,建立NWP 与风电功率输出之间的转换模型,得到风电功率的点预测值;基于经验分布模型和非参数回归方法,建立风电功率预测误差的概率分布函数,进而得到风电功率预测值的概率区间,辅助电网运行决策。 78 第34卷 第16期2010年8月25日V o l.34 No.16A ug.25,2010

相关主题
文本预览
相关文档 最新文档