模型设定与数据问题
- 格式:docx
- 大小:156.54 KB
- 文档页数:47
模型与数据1988年,巴塞尔委员会正式发布资本协议,之后资本协议的变迁反映了西方商业银行及监管机构推崇风险计量的过程。
采用一种“搭积木”的方式,银行将不同类型的风险采用同一种标准进行度量,然后将度量的结果进行累加,得到总的风险承担数量,并依此设定监管资本数量。
这种度量至少在形式上是“科学”的,与国内银行传统意义上的管理决策“艺术”相比,选择的天平毫无疑问正在向前者倾斜。
风险度量技术的发展,客观上重塑了西方商业银行的业务版图,由此带来的冲击,中国的商业银行已经有所体验。
2008年,银监会正式公布了中国商业银行实施新资本协议的路线图。
实际上,国内商业银行在风险度量技术上的探索已经走过了不短的时间。
上世纪90年代,风险计量技术还更多见之于学术领域。
但从99年起,国内商业银行就开始了第一代客户评级技术的探索,并很快在评级、授信等领域得到应用。
银监会推行新资本协议的决定对银行风险度量技术的发展起到了加速作用,近几年来,以工、农、中、建、交、招等大型银行为代表,风险模型技术和实践有了质的突破。
在风险管理中,模型的使用建立在几个前提条件上:一是“历史会重演”,这意味着可以从历史规律中寻找出可重复的模式,并以此预测违约事件是否会发生。
如果历史不会重演,模型也失去了意义。
(对历史是否会重演的探讨)。
二是模型方法的局限性,模型能否判别客户好坏、准确性是否可靠、是否稳定等。
最重要的,是数据是否准确。
有了好的数据,不一定能建立好的模型;但如果差的数据,是一定建立不了准确的模型的。
理论上,风险度量模型的建立要依赖于长期积累的高质量的数据。
但在实践中一般是不具备这个条件的。
中国商业银行的信息系统建设、业务管理模式在近二十年中处于巨变过程,在90年代初期,银行甚至没有统一的会计账务体系,依赖总账传输的模式才能汇总产生全行资产负债表,客户明细信息的汇总无从谈起;到95年开始,银行才逐步建立了适应统一法人管理体系的账务系统、信贷管理信息系统。
第9章模型设定和数据问题的深入探讨9.1复习笔记考点一:函数形式设误检验(见表9-1)★★★★表9-1函数形式设误检验考点二:对无法观测解释变量使用代理变量★★★1.代理变量代理变量就是某种与分析中试图控制而又无法观测的变量相关的变量。
(1)遗漏变量问题的植入解假设在有3个自变量的模型中,其中有两个自变量是可以观测的,解释变量x3*观测不到:y=β0+β1x1+β2x2+β3x3*+u。
但有x3*的一个代理变量,即x3,有x3*=δ0+δ3x3+v3。
其中,x3*和x3正相关,所以δ3>0;截距δ0容许x3*和x3以不同的尺度来度量。
假设x3就是x3*,做y对x1,x2,x3的回归,从而利用x3得到β1和β2的无偏(或至少是一致)估计量。
在做OLS之前,只是用x3取代了x3*,所以称之为遗漏变量问题的植入解。
代理变量也可以以二值信息的形式出现。
(2)植入解能得到一致估计量所需的假定(见表9-2)表9-2植入解能得到一致估计量所需的假定2.用滞后因变量作为代理变量对于想要控制无法观测的因素,可以选择滞后因变量作为代理变量,这种方法适用于政策分析。
但是现期的差异很难用其他方法解释。
使用滞后被解释变量不是控制遗漏变量的唯一方法,但是这种方法适用于估计政策变量。
考点三:随机斜率模型★★★1.随机斜率模型的定义如果一个变量的偏效应取决于那些随着总体单位的不同而不同的无法观测因素,且只有一个解释变量x,就可以把这个一般模型写成:y i=a i+b i x i。
上式中的模型有时被称为随机系数模型或随机斜率模型。
对于上式模型,记a i=a+c i和b i=β+d i,则有E(c i)=0和E(d i)=0,代入模型得y i=a+βx i+u i,其中,u i=c i+d i x i。
2.保证OLS无偏(一致性)的条件(1)简单回归当u i=c i+d i x i时,无偏的充分条件就是E(c i|x i)=E(c i)=0和E(d i|x i)=E(d i)=0。
教学用PPT ,《高级计量经济学及Stata 应用》,陈强编著,高等教育出版社,© 2010年第9章 模型设定与数据问题9.1遗漏变量假设真实模型为,1122ββε′′=++i i i i y x x (9.1)其中,12,x x 可以是向量,且与扰动项ε不相关。
而实际估计的模型为,11β′=+i i i y x u (9.2)遗漏变量22β′i x 进入新扰动项22i i i u x βε′=+。
考虑两种情形。
(1)遗漏变量2i x 与解释变量1i x 不相关,即12Cov(,)0i i x x =,则,OLS 依然一致。
(2)遗漏变量2i x 与解释变量1i x 相关,即12Cov(,)0≠i i x x ,则,OLS 不再是一致估计,其偏差被称为“遗漏变量偏差”。
解决遗漏变量偏差的主要方法有, (i )加入尽可能多的控制变量 (ii )使用“代理变量” (iii )工具变量法(第10章) (iv )使用面板数据(第11, 12章)(v)随机实验与自然实验(第15章)当控制变量不可得时,可以考虑第(ii)种方法“代理变量法”。
比如,在教育投资回归中,可以使用智商(IQ)来作为个人能力的代理变量。
理想的代理变量应满足,(1)多余性:即代理变量仅通过影响遗漏变量而作用于被解释变量。
比如,“智商”仅通过对“能力”的作用来影响工资收入。
假如有“能力”的数据,再引入“智商”作为解释变量就是多余。
(2)遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不相关。
命题如果上述两个条件满足,则使用代理变量能获得一致估计。
9.2无关变量假设真实模型为,11i i i y x βε′=+ (9.3)其中,1Cov(,)0i i x ε=。
而实际估计的模型为,N 1122220()i i i i i y x x x ββεβ=′′′=++− (9.4)其中,加入了无关变量2′i x 。
由于真实参数20β=,故可将模型写为1122i i i i y x x ββε′′=++,即扰动项仍是原来的i ε。
统计师如何进行数据模型建立和分析数据模型是统计师在工作中常用的一种技术工具。
通过数据模型的搭建和分析,统计师可以更好地理解和解释数据背后的规律,为决策提供科学依据。
本文将介绍统计师如何进行数据模型建立和分析的方法和步骤。
一、确定研究目标和问题在进行数据模型建立和分析之前,统计师首先需要明确研究的目标和问题。
这包括确定要研究的变量、数据来源、分析的角度和目的等。
例如,如果要研究某产品的销售情况,目标可能是找出销售量与哪些因素相关,问题可能是如何预测未来的销售趋势。
二、数据收集和预处理数据模型的建立离不开有效的数据。
统计师需要收集与研究目标相关的数据,可以通过调查问卷、实地观察、数据库查询等方式获取。
在收集到数据后,还需要进行数据的预处理,包括数据清洗、数据变换、缺失值处理等。
预处理的目的是保证数据的准确性和一致性,为后续的统计分析做好准备。
三、选择合适的模型根据研究目标和问题,统计师需要选择合适的数据模型来进行分析。
常用的数据模型包括回归分析、时间序列分析、因子分析等。
不同的模型适用于不同的问题和数据类型,统计师需要根据实际情况来选择合适的模型。
在选择模型时,还需要考虑模型的复杂度、解释能力和预测精度等指标。
四、模型的建立和验证在确定了模型之后,统计师需要根据已有的数据来建立模型。
这包括确定模型的参数和拟合方法,利用最小二乘法等技术来估计参数的值。
建立模型后,还需要对模型进行验证和评估。
这可以通过残差分析、模型的拟合程度等指标来判断模型的质量和可靠性。
五、模型的分析和应用在完成了模型的建立和验证之后,统计师可以利用模型来进行进一步的分析和应用。
这包括对模型的参数进行解释和理解,通过模型来预测未来的趋势,进行灵敏度分析等。
模型的分析和应用可以帮助统计师更好地理解和解释数据,为决策提供科学依据。
六、模型的优化和改进数据模型建立和分析是一个动态的过程,统计师需要不断地对模型进行优化和改进。
这可以通过增加更多的变量、改进模型的参数估计方法、引入更复杂的模型等方式来实现。
建模与数据分析利用数据驱动的方法进行和分析建模与数据分析:利用数据驱动的方法进行建模和分析在当今数字化时代,数据被广泛应用于各行各业。
建模与数据分析作为其中的重要一环,通过利用数据驱动的方法,帮助我们更好地理解问题、预测趋势和做出决策。
本文将探讨建模与数据分析的基本原理和常用方法,并详细介绍如何运用这些方法进行数据驱动的建模和分析。
一、数据驱动的建模1. 数据收集与准备在进行建模与数据分析之前,首先需要收集相关数据并进行准备。
数据可以来自于各种渠道,如传感器、数据库、互联网等。
在收集数据时,需要注意数据的准确性和完整性,并进行清洗和预处理,以确保数据的质量。
2. 数据探索与可视化数据探索是建模的第一步,它通过对数据的可视化和统计分析,帮助我们了解数据的特征和分布。
常用的数据探索方法包括统计指标分析、数据可视化、相关性分析等。
通过数据探索,我们可以根据数据的特点选择适合的建模方法。
3. 特征工程特征工程是建模的关键环节之一。
通过对原始数据进行特征提取和特征选择,将数据转化为具有更好判别能力的特征。
常用的特征工程方法有主成分分析(PCA)、因子分析、特征选择等。
良好的特征工程能够提高模型的性能和准确性。
4. 模型选择与建立在进行建模之前,需要选择适合的模型。
常用的建模方法有回归分析、分类分析、聚类分析等。
根据问题的性质和数据的特点,选择适合的模型,并通过参数估计或模型训练,建立预测模型。
5. 模型评估与优化建立模型后,需要对模型进行评估和优化。
评估指标可以包括准确率、召回率、F1值等,根据评估结果对模型进行调整和优化。
常用的优化方法有参数调整、集成学习、交叉验证等。
二、数据驱动的分析1. 数据分析目标设定在进行数据分析之前,需要明确分析的目标和问题。
通过问题的设定,可以帮助我们确定分析的方向和方法,并更好地利用数据来解决问题。
2. 数据预处理数据预处理是数据分析的前提,它包括数据清洗、数据集成、数据转换等过程。
数学建模竞赛中模型假设与问题解决方案数学建模竞赛一直以来都是学生们锻炼数学思维和解决实际问题的重要平台。
在这个竞赛中,模型的假设和问题的解决方案是至关重要的。
本文将探讨数学建模竞赛中模型假设的重要性以及如何选择合适的问题解决方案。
首先,让我们来了解一下数学建模竞赛中模型假设的作用。
模型假设是建立数学模型的基础,它决定了模型的适用范围和可行性。
一个合理的假设可以使模型更加准确地描述实际问题,从而提高解决问题的效果。
在选择模型假设时,需要考虑到问题的实际情况和数据的可靠性。
假设过于理想化或者与实际情况不符的模型,往往无法解决实际问题,甚至会导致错误的结论。
因此,选择合适的模型假设是解决问题的关键。
接下来,我们来看一下如何选择合适的问题解决方案。
在数学建模竞赛中,问题解决方案通常包括模型的建立和求解。
首先,我们需要选择适合问题的数学模型。
模型的选择应该基于问题的特点和要求。
例如,对于时间序列预测问题,可以选择ARIMA模型或者神经网络模型;对于路径规划问题,可以选择最短路径算法或者遗传算法。
选择合适的模型可以提高问题解决的效率和准确性。
在模型建立之后,我们需要选择合适的求解方法。
求解方法的选择应该基于模型的特点和问题的要求。
一般来说,可以使用数值计算方法或者符号计算方法进行求解。
数值计算方法适用于模型较为复杂或者无法得到解析解的情况,它通过数值迭代的方式逼近问题的解。
符号计算方法适用于模型较为简单且能够得到解析解的情况,它通过代数运算的方式得到问题的解。
选择合适的求解方法可以提高问题解决的效率和准确性。
除了模型假设和问题解决方案,数学建模竞赛中还需要考虑到实际问题的约束条件和评价指标。
约束条件是指问题解决过程中需要满足的条件,如资源限制、时间限制等。
评价指标是指评价问题解决方案好坏的标准,如准确性、可行性等。
考虑到实际问题的约束条件和评价指标可以使问题解决更加符合实际需求。
综上所述,数学建模竞赛中模型假设和问题解决方案的选择至关重要。
第 9 章模型设定与数据问题如果模型设定(model specification)不当,如解释变量选择不当、测量误差、函数形式不妥等,会出现“设定误差”(specification error)。
数据本身也可能存在问题,如多重共线性、对回归结果影响很大的极端数据等。
29.1 遗 漏 变 量假设真实的模型为y i = x i '1β1 + x i '2 β2 + εi其中,x 1, x 2 可以是向量,且与扰动项 不相关。
而实际估计的模型(estimated model)为y i = x i '1β1 + u i遗漏变量(omitted variables) x i '2 β2 ,被归入新扰动项u i = x i '2 β2 + εi 。
3考虑以下两种情形:(1) Cov(x i 1, x i 2 ) = 0 。
OLS 一致。
遗漏变量x i '2 β2 归入扰动项u i 中,可能增大扰动项的方差,影响估计精度。
(2) Cov(x i 1, x i 2 ) ≠ 0OLS 不一致,其偏差为“遗漏变量偏差”(omitted variable bias)。
解决遗漏变量偏差的方法主要有:(i)加入尽可能多的控制变量(control variable);(ii)使用“代理变量”(proxy variable);(iii)工具变量法(第10 章);(iv)使用面板数据(第15-17 章);(v)随机实验与自然实验(第18 章)。
4第(i)种方法:尽可能去收集数据。
或从理论上说明,遗漏变量不会与解释变量相关,或相关性很弱。
例李宏彬等(2012)通过就业调查数据,研究“官二代”大学毕业生的起薪是否高于非官二代。
由于可能存在遗漏变量,该文包括了尽可能多的控制变量,比如年龄、性别、城镇户口、父母收入、父母学历、高考成绩、大学成绩、文理科、党员、学生会干部、兼职实习经历、拥有技术等级证书等。
5第(ii)种方法,即代理变量法。
比如,在教育投资回归中,可用智商(IQ)来作为个人能力的代理变量。
理想的代理变量应满足以下两个条件:(1)多余性(redundancy):即代理变量仅通过影响遗漏变量而作用于被解释变量。
比如,“智商”仅通过对“能力”的作用来影响工资收入。
假如有“能力” 的数据,引入“智商”量就是多余的。
(2)剩余独立性:遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不6相关。
78命题 如果上述两个条件满足,使用代理变量能获得一致估计。
证明:假设真实模型为y = β0 + β1x 1 + + βK x K + γ q + ε其中,q 为不可观测的遗漏变量。
假定Cov(x k , ε ) = 0, ∀ k ,但 q 与某解释变量x m 相关(1 ≤ m ≤ K ),即Cov(x m , q ) ≠ 0,故 OLS 不一致。
假设找到代理变量 z ,满足q = δ0 + δ1z + v , Cov(z ,v ) = 0根据第一个条件(多余性),代理变量 z 只通过 q 对 y 发生作用,9故在回归方程已经包含 q 的情况下,z 与 y 的扰动项 不相关,即 Cov(z ,ε ) = 0。
根据第二个条件,q 的扰动项v 与所有解释变量均不相关,即 Cov(x k ,v ) = 0, ∀ k 。
将 q 的表达式代入原模型可得y = (β0 + γδ0 ) + β1x 1 + + βK x K + γδ1z + (γ v + ε )容易证明,新扰动项(γ v + ε ) 与所有解释变量均不相关,Cov(x k ,γ v + ε ) = γ C o v (x k , v ) + C o v (x k , ε ) = 0 + 0 = 0 (∀ k )condition 2 assumptionCov(z ,γ v + ε ) = γ C ov (z , v ) + C ov (z , ε ) = 0 + 0 = 0assumption condition 1故 OLS 一致。
如果代理变量不满足这两个条件,则不一致。
10任何实证研究中几乎总是存在遗漏变量。
论文应说明,如何在存在遗漏变量的情况下避免遗漏变量偏差。
9.2 无 关 变 量假设真实模型为y i = x i '1β1 + εi其中,Cov(x i 1,εi ) = 0 。
而实际估计的模型为y i = x i '1β1 + x i '2 β2 + (εi - x i '2 β2 ) =011由于真实参数β2 = 0,故可将模型写为y i = x i '1β1 + x i '2 β2 + εi 。
由于x 2 与 y 无关,故x 2 也与 y 的扰动项 无关,即Cov(x i 2 , εi ) = 0。
故 OLS 一致,即plim βˆ = β ,plim βˆ = β = 0。
11n →∞22n →∞但引入无关变量后,估计量βˆ 的方差一般会增大。
9.3 建模策略:“由小到大”还是“由大到小”“由小到大”(specific to general)的建模方式,首先从最简单的小模型开始,逐渐增加解释变量。
1但小模型很可能存在遗漏变量,导致估计量不一致,t 检验、F 检验都将失效,很难确定该如何取舍变量。
“由大到小”(general to specific)的建模方式,从尽可能大的模型开始,收集所有可能的解释变量,逐步剔除不显著的解释变量。
虽冒着包含无关变量的危险,但危害性没有遗漏变量严重。
但在实际操作上,常常很难找到足够多的解释变量。
实践中,常采用这两种策略的折衷方案。
129.4 解释变量个数的选择加入过多解释变量可提高模型解释力,但牺牲模型的简洁性(parsimony)。
权衡标准:(1)校正可决系数R2:选择解释变量的个数K 以最大化R2。
(2)“赤池信息准则”(Akaike Information Criterion,简记AIC):选择解释变量的个数K,使得以下目标函数最小化:min AIC ≡ ln(e'e / n) +2 KK n13右边第一项为对模型拟合度的奖励(减少残差平方和),第二项为对解释变量过多的惩罚(解释变量个数K 的增函数)。
当K 上升时,第一项下降而第二项上升。
(3)“贝叶斯信息准则”(Bayesian Information Criterion,简记BIC)或“施瓦茨信息准则”(Schwarz Information Criterion,简记SIC 或SBIC):min BIC ≡ ln(e'e / n) + K ln nK n一般来说,ln n>2,故BIC 准则对于解释变量过多的惩罚比AIC 严厉。
BIC 准则更强调模型的简洁性。
14(4)“汉南-昆信息准则”(Hannan-Quinn Information Criterion,简记HQIC):min HQIC ≡ ln(e'e / n) + K ln[ln(n)]Kn在时间序列模型中,常用信息准则来确定滞后阶数。
比如,AR(p)模型:yt=β0+β1 y t -1 + +βp y t -p+εt , t = 1, ,T根据BIC 或HQIC 计算的pˆ是p 的一致估计,即当T→∞时,Pr(pˆ< p)→0,Pr(pˆ= p)→1,Pr(pˆ> p) → 0。
15根据AIC 计算的pˆ不一致,在大样本中可能高估p ,虽然Pr(pˆ< p)→0,但Pr(pˆ> p) →c > 0。
在实践中,常用AIC 与BIC。
虽然BIC 一致而AIC 不一致,但现实样本有限,而BIC 准则可能导致模型过小,故AIC 准则依然常用。
9.5 对函数形式的检验如果回归方程中存在非线性项,则边际效应不再是常数。
1617【例】y = β+ β x + β x + β x + γ x 2+ δ x x + ε1 12 23 312 3各变量的边际效应为:E( y ) = β + 2γ x , E( y ) = β + δ x , E( y ) = β + δ x∂x 1 1 ∂x 23 ∂x 3 2 1 2 3如怀疑边际效应非常数,应考虑中引入非线性项。
182 3 4“Ramsey’s RESET 检验”(Regression Equation Specification Error Test)的基本思想是,如怀疑遗漏非线性项,则引入非线性项,并检验其系数是否显著。
假设线性回归模型为y = x 'β + ε回归拟合值y ˆ = x 'b 。
y ˆ 是x 的线性组合,y ˆ2包含解释变量二次项 (含平方项与交叉项)的信息,y ˆ3包含解释变量三次项的信息,等等。
考虑回归方程: y =x 'β+ δ y ˆ2 + δ y ˆ3+ δ y ˆ4+ ε对H 0 : δ2 = δ3 = δ4 = 0作 F 检验。
如拒绝H 0 ,说明应有高次项;192如接受H 0 ,可使用线性模型。
RESET 检验的缺点是,拒绝H 0 时,不知道具体遗漏哪些高次项。
另一检验为“连接检验”(link test)。
“连接”指的是,将解释变 量与被解释变量连接在一起的函数形式是否正确。
进行以下回归:y = δ0 + δ1 y ˆ + δ yˆ2+ error检验“ H 0 : δ2 = 0”。
如果模型设定正确,则yˆ2不应对 y 有解释 力。
如果拒绝H 0 : δ2 = 0,则认为模型设定有误,可考虑加入非线 性项或改变回归的函数形式(比如,取对数)。
20k K在确定回归方程的函数形式时,最好从经济理论出发。
如缺乏理论指导,可从线性模型出发,再进行 RESET 或连接检验,看是否应加入非线性项。
9.6 多重共线性如果数据矩阵X 不满列秩,即某一解释变量可由其他解释变量线性表出,则存在“严格多重共线性”。
近似的多重共线性表现为,将第 k 个解释变量x k 对其余的解释变量{x 1 , , x k -1, x k +1 , , x }进行回归,所得可决系数(记为R 2)较高。
在多重共线性下,OLS 仍是BLUE,但不表示OLS 估计量方差在绝对意义上小。
由于存在多重共线性,矩阵( X 'X ) 变得几乎不可逆,( X 'X )-1变得很“大”,致使方差Var(b|X ) =σ2 ( X 'X )-1增大,系数估计不准确。
X 中元素轻微变化就会引起( X 'X )-1很大变化,导致OLS 估计值b 发生很大变化。
通常的“症状”是,虽然整个回归方程的R2较大、F 检验也很显著,但单个系数的t 检验却不显著。