虚拟变量在金融和经济中的作用
- 格式:doc
- 大小:292.50 KB
- 文档页数:7
对金融领域的虚拟经济综述随着互联网技术和电子商务的普及,虚拟经济在全球范围内得到了迅猛发展,尤其是在金融领域。
虚拟经济是指基于计算机技术和网络技术运作的经济系统,其主要特征是信息化、虚拟化和数字化。
在金融领域,虚拟经济主要以数字货币、虚拟股票、虚拟期货、电子支付、网络投资等形式体现。
现在,虚拟货币已经成为了金融领域中最热门的话题之一。
比特币是最著名的数字货币之一,它由算法设计,使用点对点技术进行交易。
比特币采用了区块链技术,每笔交易被记录在一个分布式的公共账本中,这使得比特币的交易记录具有完全的可追溯性和不可篡改性。
虚拟股票是指通过互联网、手机、电视等多种形式进行股票交易的一种股票。
能够快速方便的完成股票交易,这对于普通投资者来说是非常有利的。
虚拟期货是指通过互联网等电子手段实现的原始商品期货买卖。
它解决了实物交货困难、不变更品种等难题。
电子支付是指通过网络提供支付服务的一种支付方式。
它既可以是由银行等金融机构提供的电子支付方式,也可以是由第三方支付平台提供的支付方式。
目前,支付宝、微信支付、银联在线等第三方支付平台已经成为了中国的主流支付方式,为人们提供了更为快捷方便的支付方式。
网络投资是指依托于互联网平台开展投融资活动的一种新型投融资方式,它是一种全新的融资方式,可以有效的缓解小微企业融资难的问题。
同时,由于投资金额低,对于广大投资者来说,也是一种低门槛的投资方式。
虚拟经济在金融领域的发展,伴随着一些问题的出现。
首先,由于虚拟经济缺乏实物资产作为支撑,因此其严重依赖于技术,一旦技术出现问题,将可能导致整个系统的瘫痪。
其次,虚拟经济的运行过程缺乏监管,这容易导致虚假信息的泛滥以及假冒虚拟资产等问题。
最后,虚拟经济还存在着黑客攻击、内部人员失职等安全隐患。
总体而言,随着虚拟经济在金融领域中的蓬勃发展,未来将有更多的创新成果出现,并为社会带来更多的改变。
然而,我们也需要密切关注其带来的风险和问题,并加强监管,维护市场秩序和消费者权益。
第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
通过本次虚拟变量实验,我对虚拟变量有了更加深入的理解和认识,感受到了其在计量经济学中的重要作用。
以下是我对本次实验的一些感想。
一、虚拟变量的重要性虚拟变量在计量经济学中具有举足轻重的地位。
它可以将定性变量转化为定量变量,使模型更加全面地反映经济现象。
在现实生活中,许多因素都是定性因素,如性别、民族、地区等,这些因素无法直接用数值表示,但它们对经济现象的影响却是客观存在的。
虚拟变量恰好能够将这些定性因素纳入模型,使模型更加准确、全面地反映经济现象。
二、虚拟变量的设定在本次实验中,我们学习了如何设定虚拟变量。
首先,要明确虚拟变量的含义和作用,然后根据研究目的和实际数据情况,确定虚拟变量的个数。
需要注意的是,当定性变量含有m个类别时,应引入m-1个虚拟变量,以避免多重共线性问题。
此外,虚拟变量的取值应遵循互斥和完备的原则,即每个样本只能属于一个类别。
三、虚拟变量的估计与检验在本次实验中,我们运用Eviews软件对虚拟变量模型进行了估计和检验。
通过观察模型的回归结果,我们可以了解虚拟变量对因变量的影响程度。
此外,我们还可以通过t检验、F检验等方法对虚拟变量的显著性进行检验。
在检验过程中,要注意控制其他变量的影响,以确保检验结果的可靠性。
四、虚拟变量的应用虚拟变量在实际应用中非常广泛。
以下是一些常见的应用场景:1. 时间序列分析:在时间序列分析中,虚拟变量可以用来表示季节性、节假日等因素对经济现象的影响。
2. 州际差异分析:在分析不同地区经济现象时,可以引入地区虚拟变量,以反映地区间的差异。
3. 政策效应分析:在分析政策对经济现象的影响时,可以引入政策虚拟变量,以观察政策实施前后经济现象的变化。
4. 模型设定:在构建计量经济模型时,可以引入虚拟变量来表示定性因素,使模型更加全面。
五、实验收获通过本次虚拟变量实验,我收获颇丰。
首先,我掌握了虚拟变量的基本原理和操作方法,为今后的研究奠定了基础。
其次,我学会了如何设定虚拟变量、估计模型和检验结果,提高了自己的实践能力。
变量选择与建模技术在金融分析中的应用一、引言对于金融领域,建模和数据分析是至关重要的,主要因为金融领域的二元性,易受到不确定性和外在的冲击,而数据分析和建模技术能够帮助金融机构更好地预测市场走势和风险,并且在风险管理和投资决策方面提供实质性帮助。
因此,变量选择和建模技术对于金融分析是至关重要的。
本文将讨论在金融分析中变量选择和建模技术的应用。
二、变量选择的重要性选择正确的变量,是一个成功的模型的关键之处。
在金融分析中,各种指标通常用于对金融市场和资产进行定性和定量分析。
例如股票价格、货币汇率、失业率等等都是被广泛使用的指标。
对于金融领域,变量的选择是重中之重,因为通过选择适当的变量,可以提高模型的准确性并且减少偏差。
相较于传统的方法,比如经验法和主观判断,现今金融学领域更倾向于嵌入式方法和基于机器学习的方法来选择变量。
这些方法可以更好地剔除无关变量和降低过拟合的可能性。
对于模型选择中的变量,Another重要的考虑方面是经济学或整合指标。
三、建模技术的应用许多建模技术在金融领域已经得到广泛应用,比如回归分析,神经网络和随机森林等等。
下面将以离散选择模型和神经网络模型讨论这些技术在金融领域的应用。
1.离散选择模型离散选择模型广泛应用于金融领域,通过对不同行为进行编码,并观察不同影响因素对不同行为的影响,以它们之间的关系作为变量进行分析,这种方法的优点在于可以直观地解释各个变量的意义。
离散选择模型的最终结果是对不同行为的预测,并且可以比较不同行为的风险和效益,来作为投资决策的参考。
2.神经网络模型神经网络模型是一种广泛使用的基于机器学习的方法,它通过学习数据中隐藏的模式来预测结果。
在金融领域,神经网络模型常用于预测股票价格和汇率变化。
神经网络模型的优点是具有很好的自适应性,可以处理非线性问题,并且在具有一定的准确性的同时可以自我更新。
另外,它也可以帮助金融机构快速地处理大量数据。
四、应用案例一些金融机构已经利用变量选择和建模技术进行金融分析和预测。
第二节 虚拟变量一、虚拟变量及其作用经济变量的影响因素中间有时还包括一些定性因素,例如,消费习惯、地区差异将直接影响居民的消费支出;季节因素对产品的生产和销售都会产生影响。
舍弃定性因素,一方面不能真实地描述经济变量之间的相关关系,增大模型的设定误差,同时也不能计量这些定性因素的影响。
10D ⎧=⎨⎩ ,1为城镇居民,0为农村居民1D ⎧=⎨⎩ ,1为销售旺季,0为销售淡季10D ⎧=⎨⎩, 1政策紧缩,0为政策宽松10D ⎧=⎨⎩,1为本科以上学历,0以本科以下学历在计量经济模型中引入虚拟变量有以下作用: (1) 可以描述和测量定性因素的影响(2) 能够正确反映经济变量之间的相互关系,提高模型的精度。
(3) 便于处理异常数据;当样本资料中存在异常数据时,一般有三种处理方式,一是在样本容量较大的时候直接剔除异常数据;二是用平均数方式修匀异常数据;三是设置虚拟变量:虚拟变量的设置有规律吗?练习:中日关系的冷热也是一个定性因素,如果让你设置,你怎么设置呢? 表 一个局部数据列表012wage female edu u βββ=+++问:如果1表示女性,0表示男性,那么1β的经济含义是什么呢^-^通过图形来说明。
二、虚拟变量的设定(一) 虚拟变量的引入方式:加法方式,乘法方式,一般方式。
1.加法方式居民家庭的教育费用支出除了受收入水平的影响之外,还与子女的年龄结构密切相关。
如果家庭中有适龄子女,教育支出就多一些。
1D ⎧=⎨⎩ ,1为有适龄子女,0为无适龄子女。
将家庭教育费用支出函数取成: 012i i i i Y X D βββε=+++ 这样,就形成了两个函数:没有适龄子女家庭的教育费用支出:01i i i Y X ββε=++有适龄子女家庭的教育费用支出:012i i i Y X βββε=+++=021()i i X βββε+++画出样本回归方程的图像可知,以加法方式引入虚拟变量时,反映的是定性因素对截矩的影响,即平均水平的差异情况。
第二节 虚拟变量一、虚拟变量及其作用经济变量的影响因素中间有时还包括一些定性因素,例如,消费习惯、地区差异将直接影响居民的消费支出;季节因素对产品的生产和销售都会产生影响。
舍弃定性因素,一方面不能真实地描述经济变量之间的相关关系,增大模型的设定误差,同时也不能计量这些定性因素的影响。
10D ⎧=⎨⎩ ,1为城镇居民,0为农村居民1D ⎧=⎨⎩ ,1为销售旺季,0为销售淡季10D ⎧=⎨⎩, 1政策紧缩,0为政策宽松1D ⎧=⎨⎩,1为本科以上学历,0以本科以下学历在计量经济模型中引入虚拟变量有以下作用: (1) 可以描述和测量定性因素的影响(2) 能够正确反映经济变量之间的相互关系,提高模型的精度。
(3) 便于处理异常数据;当样本资料中存在异常数据时,一般有三种处理方式,一是在样本容量较大的时候直接剔除异常数据;二是用平均数方式修匀异常数据;三是设置虚拟变量: 虚拟变量的设置有规律吗?练习:中日关系的冷热也是一个定性因素,如果让你设置,你怎么设置呢?012w age fem ale edu u βββ=+++问:如果1表示女性,0表示男性,那么1β的经济含义是什么呢^-^通过图形来说明。
二、虚拟变量的设定(一) 虚拟变量的引入方式:加法方式,乘法方式,一般方式。
1.加法方式居民家庭的教育费用支出除了受收入水平的影响之外,还与子女的年龄结构密切相关。
如果家庭中有适龄子女,教育支出就多一些。
1D ⎧=⎨⎩ ,1为有适龄子女,0为无适龄子女。
将家庭教育费用支出函数取成: 012i i i i Y X D βββε=+++ 这样,就形成了两个函数:没有适龄子女家庭的教育费用支出:01i i i Y X ββε=++有适龄子女家庭的教育费用支出:012i i i Y X βββε=+++=021()i i X βββε+++画出样本回归方程的图像可知,以加法方式引入虚拟变量时,反映的是定性因素对截矩的影响,即平均水平的差异情况。
第二节 虚拟变量一、虚拟变量及其作用经济变量的影响因素中间有时还包括一些定性因素,例如,消费习惯、地区差异将直接影响居民的消费支出;季节因素对产品的生产和销售都会产生影响。
舍弃定性因素,一方面不能真实地描述经济变量之间的相关关系,增大模型的设定误差,同时也不能计量这些定性因素的影响。
10D ⎧=⎨⎩ ,1为城镇居民,0为农村居民1D ⎧=⎨⎩ ,1为销售旺季,0为销售淡季10D ⎧=⎨⎩, 1政策紧缩,0为政策宽松10D ⎧=⎨⎩,1为本科以上学历,0以本科以下学历在计量经济模型中引入虚拟变量有以下作用: (1) 可以描述和测量定性因素的影响(2) 能够正确反映经济变量之间的相互关系,提高模型的精度。
(3) 便于处理异常数据;当样本资料中存在异常数据时,一般有三种处理方式,一是在样本容量较大的时候直接剔除异常数据;二是用平均数方式修匀异常数据;三是设置虚拟变量:虚拟变量的设置有规律吗?练习:中日关系的冷热也是一个定性因素,如果让你设置,你怎么设置呢? 表 一个局部数据列表012wage female edu u βββ=+++问:如果1表示女性,0表示男性,那么1β的经济含义是什么呢^-^通过图形来说明。
二、虚拟变量的设定(一) 虚拟变量的引入方式:加法方式,乘法方式,一般方式。
1.加法方式居民家庭的教育费用支出除了受收入水平的影响之外,还与子女的年龄结构密切相关。
如果家庭中有适龄子女,教育支出就多一些。
1D ⎧=⎨⎩ ,1为有适龄子女,0为无适龄子女。
将家庭教育费用支出函数取成: 012i i i i Y X D βββε=+++ 这样,就形成了两个函数:没有适龄子女家庭的教育费用支出:01i i i Y X ββε=++有适龄子女家庭的教育费用支出:012i i i Y X βββε=+++=021()i i X βββε+++画出样本回归方程的图像可知,以加法方式引入虚拟变量时,反映的是定性因素对截矩的影响,即平均水平的差异情况。
虚拟变量陷阱名词解释计量经济学1.引言概述部分主要介绍虚拟变量陷阱的基本概念和背景信息。
以下是对概述部分内容的一种可能的编写方式:1.1 概述在统计学和经济学等领域中,虚拟变量是一种常用的数据处理技术,用于将非连续的定性变量转化为对应的哑变量或二进制变量。
虚拟变量的引入有助于通过回归分析研究变量之间的关系,并且常用于解释定性因素对于结果变量的影响程度。
然而,虚拟变量的应用也存在着一个潜在的问题,即虚拟变量陷阱。
虚拟变量陷阱(Dummy Variable Trap)指的是在回归分析中,由于自变量之间存在完全多重共线性,导致回归系数估计出现扭曲、不稳定甚至无意义的现象。
具体来说,虚拟变量陷阱会使得回归模型的解释变得困难,而且可能会对模型的预测能力产生负面影响。
通常情况下,虚拟变量陷阱会在引入全部虚拟变量作为自变量时出现。
这是因为当我们引入一个包含K个类别的定性变量时,一般会通过引入K-1个虚拟变量来表征不同的类别,其中一个类别作为基准类别。
然而,如果我们同时引入了全部K个虚拟变量,就会引入完全多重共线性,从而导致虚拟变量陷阱的发生。
在本文中,我们将详细探讨虚拟变量陷阱的概念、影响和避免方法。
通过了解虚拟变量陷阱的本质和原因,我们可以更准确地应用虚拟变量,并确保回归分析的结果可信、有效。
接下来的章节将从定义和作用开始,逐步展开对虚拟变量陷阱的解释和分析。
然后,我们将探讨虚拟变量陷阱可能产生的影响,并提供一些避免虚拟变量陷阱的实用经验和方法。
通过深入研究和论证,我们旨在为读者提供一个全面且实用的虚拟变量陷阱指南。
【1.2 文章结构】本文将分为以下几个部分来讨论虚拟变量陷阱,以帮助读者更好地理解和避免这个常见的统计分析问题。
首先,在引言部分,我们将概述文章的主题和目的。
然后,我们将介绍文章的整体结构,以指导读者对整篇文章的理解和阅读方式。
接下来,我们将进入正文部分。
首先,我们会对虚拟变量进行定义和解释其作用。
虚拟变量在金融和经济中的作用摘要在现代经济计量分析中,利用模型进行回归分析是应用比较广泛的一种数量分析技术。
一般回归分析中变量都是定量变量,这是因为模拟回归需要样本数据。
但实际中有时模型仅考虑定量变量是不够的。
因为经济现象不仅受一些定量因素的影响,还可能受到一些定性因素的影响。
比如,不同时期的不同政策、战争、自然灾害等非常时期,人的不同性别、文化程度、婚姻状况等。
如果某一应变量的确存在这种定性影响,那么仅用定量变量对被解释变量进行解释显然是不够的,利用虚拟变量技术可以解决此类问题。
所谓虚拟变量技术就是把定性变量虚拟化,并把它作为解释变量或者是自变量纳入回归模型的一种方法。
在这里,定性变量就是虚拟化的变量,即虚拟变量。
一般可根据定性因素的二分特性进行人工赋值,即0和1,其中“1”表示具备某种属性或受到某种因素影响,而“0”则表示不受某种因素影响或不具备某种属性。
定性变量虚拟化后就可以纳入回归模型,从而进行模拟分析或预测。
一.虚拟变量模型的性质与方法1. 为了区分两个类别,只引入一个虚拟变量Di。
一般规则是:如果一个定性变量有m个属性值,则仅引入m-1个虚拟变量。
2. 虚拟变量0,1值的分配可以是任意的,但解释模型时一定注意1,0是怎样分配的。
3. 被分配0的类别或级别通常被用于比较的基础。
4. 虚拟变量的系数可以称为级差截距系数,表明取值1的类别截距项与基底类的截距项的差距虚拟的通常使用方法是,对一些通常表明“品质”或“属性”是否存在的属性变量,将其量化,给其赋值为“1”或“0”来表示虚拟变量出现某种属性和未出现某种属性。
设某个回归模型含有p个数量变量和一个品质变量,该品质变量可以有k+1个(k≥1)水平,据此,可建立以下回归模型:其中x i,p+1 ,…x i,p+k为k个引入的虚拟变量,并且需要拟合的回归方程为通常情况下,该方程能较好地通过线性性检验,弥补仅用数量变量拟合的不足。
二.虚拟变量的其他使用方法除此之外,虚拟变量也有一些其他的使用方法,例如将虚拟变量出现某种属性赋值为任意常数“a”,未出现某种属性赋值为“0”,并验证这种赋值方式,所得到的参数估计值是赋值“1”或“0”时的1/a,预测结果相一致。
实验二虚拟变量在金融数据处理中的作用一、实验目的:了解虚拟变量、方差分析模型、协方差分析模型、虚拟变量陷阱、季节调整、分段线性回归、级差截距、级差斜率系数、周内效应等基本概念及虚拟变量的引入原则、虚拟变量模型中参数的意思。
掌握虚拟变量模型在回归分析中的应用,及如何在Eviews中实现相应的操作。
二、基本概念:由于其不能直接度量,为研究方便,可构造一个变量,令其取值为1或为0,取值为0时表示某一性质出现(不出现),取值为1时表示某性质不出现(出现),该变量即为虚拟变量(dummy variables),也称指标变量(indicator variables)、二值变量(binary variables)、定性变量(qualitative variables)和二分变量(dichotomous variables),通常我们记为D。
一般的,在虚拟变量的设置中,基础类型、否定类型取值为“0”,称为基底(base)类、基准(benchmark)类或参考(reference)类;而比较类型、肯定类型取值“1”。
许多按月度或季度数据表示的金融时间序列,常呈现出季节变化的规律性,如公司销售额、通货膨胀率、节假日储蓄额等。
在研究中,有时需要消除季节性因素的影响,即需要进行季节调整(seasonal adjustment),利用虚拟变量进行季节调整是较为简单的一种。
另外,在金融理论中,常常会出现一种情况:当某影响因素越过某一临界值,或时间过了某一临界点之后,因变量对影响因素的变化率将发生变化,在图形中就表现为斜率不同的两段连续折线,利用虚拟变量模型进行分段线性回归可有效地解决在分界点处两边因变量取值不相等,与理论图形不一致这个问题。
三、实验内容及要求:内容:我们利用上海股票市场上证指数1997年1月1日到2004年12月31日的日收盘价数据,共1926个观测值,通过建立虚拟变量模型来检验实行涨跌停板制度后的上海股票市场是否存在周内效应。
虚拟变量在金融数据处理中的应用实验目的了解虚拟变量、方差分析模型、协方差分析模型、虚拟变量陷阱、季节调整、分段线性回归、极差截距、极差斜率系数、周内效应等基本概念及虚拟变量的引入原则、虚拟变量模型中参数的意思。
掌握虚拟变量模型在回归分析中的应用,及如和在Eviews中实现相应的操作。
理论依据根据有效市场理论,在有效市场中,股票价格可以及时反应出投资者需要的所有信息,因此股价将随机波动,没有规律性。
但是随着事实并不如此,许多对股票市场进行的实证分析发现了某些与有效市场理论相背离的现象,例如周内效应。
周内效应是指一周之中,股票价格从周一到周五呈显著地周期性变化的现象。
本实验将利用虚拟变量模型对这一现象进行实证分析。
实验步骤1.数据下载与处理从网上下载2001年到2008年期间,上证综指的日收盘价数据,共1932个。
利用公式Rt =ln(Pt/Pt-1)求出日收益率,共1931个。
其中Pt为第t天的收盘价,Pt-1为第t-1天的收盘价。
2.数据统计描述特征将1931个日收益率导入Eviews软件,利用软件得到日收益率R的统计特征图如下图所示。
得到日收益率统计特征描述如下。
利用Eviews软件也可以作出日收益率线形图如下图所示。
3.建立虚拟变量模型建立虚拟变量模型如下:R t =α+α1D1t+α2D2t+α3D4t+α4D5t+εt其中,Rt表示第t天的收益率,虚拟变量Di在每周的第i天取1,其他时间取0(i=1,2,4,5),εt为随机误差项。
从模型假设中可以得知,α0表示周三的平均收益,而α1、α2、α3、α4分别表示周一、周二、周四、周五与周三平均收益的差异。
若这个差异是显著的,则可以表明上证市场存在着周内效应。
利用Excel中的weekday函数得到每天是该周的第几天,星期一就是第一天,以此类推。
然后利用Excel的筛选和下拉功能对每天的四个虚拟变量D赋值。
赋值结束后将R、D1、D2、D4、D5t导入Eviews软件,对这五个变量进行最小二乘回归,回归结果如下图所示。
虚拟变量在金融和经济中的作用摘要在现代经济计量分析中,利用模型进行回归分析是应用比较广泛的一种数量分析技术。
一般回归分析中变量都是定量变量,这是因为模拟回归需要样本数据。
但实际中有时模型仅考虑定量变量是不够的。
因为经济现象不仅受一些定量因素的影响,还可能受到一些定性因素的影响。
比如,不同时期的不同政策、战争、自然灾害等非常时期,人的不同性别、文化程度、婚姻状况等。
如果某一应变量的确存在这种定性影响,那么仅用定量变量对被解释变量进行解释显然是不够的,利用虚拟变量技术可以解决此类问题。
所谓虚拟变量技术就是把定性变量虚拟化,并把它作为解释变量或者是自变量纳入回归模型的一种方法。
在这里,定性变量就是虚拟化的变量,即虚拟变量。
一般可根据定性因素的二分特性进行人工赋值,即0和1,其中“1”表示具备某种属性或受到某种因素影响,而“0”则表示不受某种因素影响或不具备某种属性。
定性变量虚拟化后就可以纳入回归模型,从而进行模拟分析或预测。
一.虚拟变量模型的性质与方法1. 为了区分两个类别,只引入一个虚拟变量Di。
一般规则是:如果一个定性变量有m个属性值,则仅引入m-1个虚拟变量。
2. 虚拟变量0,1值的分配可以是任意的,但解释模型时一定注意1,0是怎样分配的。
3. 被分配0的类别或级别通常被用于比较的基础。
4. 虚拟变量的系数可以称为级差截距系数,表明取值1的类别截距项与基底类的截距项的差距虚拟的通常使用方法是,对一些通常表明“品质”或“属性”是否存在的属性变量,将其量化,给其赋值为“1”或“0”来表示虚拟变量出现某种属性和未出现某种属性。
设某个回归模型含有p个数量变量和一个品质变量,该品质变量可以有k+1个(k≥1)水平,据此,可建立以下回归模型:其中x i,p+1 ,…x i,p+k为k个引入的虚拟变量,并且需要拟合的回归方程为通常情况下,该方程能较好地通过线性性检验,弥补仅用数量变量拟合的不足。
二.虚拟变量的其他使用方法除此之外,虚拟变量也有一些其他的使用方法,例如将虚拟变量出现某种属性赋值为任意常数“a”,未出现某种属性赋值为“0”,并验证这种赋值方式,所得到的参数估计值是赋值“1”或“0”时的1/a,预测结果相一致。
这可增加虚拟变量赋值的灵活性,同时根据这种思想,对变量数据进行放大或缩小处理以便于计算。
为了简化运算设模型为01122i i i i Y b b x b x ε=+++,将X2赋值为:所对应的观测资料为表a1和a2所示。
由表a1得100(')x x -=b=1000(')'x x x Y -=于是回归方程为:将X2i 取不同的值时代入所求得的方程得由表a2得1(')x x -=于是得这种赋值的回归方程为:将X2取不同的值代入(d)得:将上面两式进行比较可知X1i 前的系数相同, 0b 也相同,2b 表明将时2b 为时的1/3,即只有X2i 前的系数发生了变化。
由上可知虚拟变量出现(或出现)某种属性时的最终回归方程是一样的,即估计值不受赋值方式的影响。
三.虚拟变量与t 检验的有效性t 检验是假设检验的一项重要内容,它常用来考察两个独立的正态分布的总体的均值是否相等,在经济学、管理学、社会学和医学中有着广泛的应用。
除了t 检验之外,方差分析的F 检验也是考察两个或者两个以上独立的正态分布的总体的均值是否相等的一种方法,因此人们经常将t 检验和F 检验联系起来讨论,将单因素的方差分析看作是比较两个独立总体均值的t 检验的一种等效的同一的方法。
基于这两者的联系,很多学者还讨论了t 检验和F 检验的差异,如陶庄在2005年第7期的《统计研究》中讨论了t 检验对多重比较的适用性问题,姚俊在2007年第2期的《统计教育》中讨论了t 检验不能替代方差分析的原因。
由于回归分析通常是用于分析一个变量与另一个变量或另一组变量的变动关系,因此很少有人认为回归分析能够代替t 检验来考察两个独立的正态分布的总体的均值是否相等的问题。
虚拟变量是在回归分析中的一种处理定性因素的技术,它能够从定量的角度区分存在某种情况和不存在某种情况对因变量的影响,对于引入虚拟变量的加法模型(只考虑两种状态对模型截距水平的影响)来说,虚拟变量回归考察的是从均值上看这两种状态的差异对因变量有无显著影响,而t 检验的两个独立的总体可以看作是两种不同的状态,所以从这个角度上来说回归分析是能够代替t 检验来考察两个独立的正态分布总体的均值是否相等的。
举一个例子来说明,一个科学家提出,如果人们在早餐中食用高纤维的谷类食物,那么平均而言,与早餐没有食用谷物的人群相比,食用谷物这在午餐中摄取的热量将会减少。
如果这个观点成立,谷物食品的生产商又将获得一个很好的机会,他们会宣传说:“多吃谷物吧,早上也吃,这样将有助于减肥。
”为了验证这个假设,随机抽取了35个人,询问他们早餐和午餐的通常食谱,根据他们的食谱,将其分为两类,一类为经常的谷类食用者(总体1),一类为非经常谷物食用者(总体2)。
然后测度每人午餐的大卡摄取量。
经过一段时间的实验,得到的结果如下表1。
为了检验这个假设,可以建立一个虚拟变量回归来进行。
设置因变量Y和虚拟变量D如下表2:根据回归分析得到的结果如下:虚拟变量前面的参数对应的t值为2.4135,在5%的显著性水平下大于其临界值2.034515,说明虚拟变量的取值0或者1对因变量Y的影响显著,即这两个总体的均值水平在5%的显著性水平下是不相同的,是有差异的。
虚拟变量回归作为一种特殊的回归分析,不仅可以用来分析一个变量与另一个定性的变量或另一组定性变量的变动关系,还可以利用其本身能够测度定性因素影响程度的特点来替代t检验,考察两个独立的正态分布的总体的均值是否相等的假设,其检验使用的检验参数显著性的统计量和用于比较两个独立的正态分布的总体的均值的t检验的统计量是完全一致的。
而且虚拟变量回归不仅可以用于比较两个独立的正态分布的总体的均值是否相等的假设,通过引入多个虚拟自变量,它还可以用于比较两个以上的多个独立的正态分布的总体的均值是否相等的假设。
四.虚拟变量在经济中的作用虚拟变量时表示属性的变量,使用到经济计量模型中,应该表示重要的属性。
但是在我国目前的一些宏观经济模型中,虚拟变量被用的太多了。
我国处于改革开放的过程中,不时会有一些特殊原因对经济变量产生正面或负面影响,因此,很容易为被解释变量中的离群数据找到理由,在解释变量中加入相应的虚拟变量,拟合出精度很高的模型。
但是,这样构造的模型,拟合精度越高,预测精度也就越差,因为我们不知道未来会有什么特殊原因,无法为未来的虚拟变量取值。
模型拟合时,设置虚拟变量所代表的特殊原因越多越细,拟合精度自然能提高,但未来细小的特殊原因也同样能对预测精度产生较大影响。
此时不如少用一些虚拟变量,拟合精度虽然降低一些,但模型会更稳健,预测精度会提高。
尤其应该慎用的是在某一点取值为1,其他点取值为0的虚拟变量。
用这种虚拟变量作解释变量,能轻而易举地改变被解释变量中离群数据的位置,从而提高拟合优度。
下面以我国居民消费为例来说明虚拟变量的实际应用。
研究居民消费的计量方法较多,消费函数是其中应用比较广泛的一种。
消费函数是研究消费其影响因素之间关系的数学模型,由于居民消费受到多种因素的影响,因此根据不同因素与消费之间的关系,可以建立多种回归模型,典型的消费函数模型有绝对收入假设模型、相对收入假设模型、持久收入假设模型、生命周期假设模型以及随机游走模型等,这些模型都是基于一定的理论假设,从不同的角度反映了居民的消费行为及其变化。
下面采用凯恩斯的绝对收入假设模型,并加入我国政策变化这一虚拟变量来对居民消费行为进行分析。
根据凯恩斯理论,居民消费主要受当前收入的影响,其模型为:12t t t C B B Y ε=++。
其中Ct 为消费,Yt 为当前收入,这是通过模拟计算居民的边际消费倾向来反映居民总体消费选择行为,由于我国社会的二元结构,故在实际模拟时分别选择农村与城镇居民两种不同的收入水平,又考虑到我国长期以来计划经济的影响,我国居民在相当长的时间内并不具备真正意义上的消费选择行为,故选择1980 年以来的相应数据分别进行模拟,结果如下:农村居民:以上结果可以看出:当前收入对消费的解释度非常高,各种检验比较显著,这表明我国居民消费受当前收入影响较大。
从消费与当前可支配收入关系来看,在此期间农村居民与城镇居民的平均边际消费倾向比较低,分别只有0.738、0.779,这的确在一定程度上反映了我国居民的消费现状。
但同时需要注意的是,这种结果是假定在此期间居民消费与收入之间的关系没有受到其他因素的显著性影响,也就是说它们之间的关系没有发生结构性改变。
如果此间两者之间的关系受到别的因素影响,则这种结果就可能是毫无意义的。
从我国实际情况来看,自九十年代中期以来,随着市场化改革的进一步深入,我国陆续推出与居民日常消费直接相关的系列改革措施,如住房商品化、就业、高等教育市场化、公费医疗制度改革等,所有这些都是在我国社会保险制度还不完善的情况下进行的,这样势必给居民未来的收入与支出增加不确定性。
根据生命周期理论、预防性储蓄理论消费假说,当不确定性增加时,居民就会从更长时间的角度安排消费支出模式,其消费特征可能发生变化。
因此,可考虑对(3)式增加政策性因素作为虚拟变量。
具体以1992 年为界限,以前假定不受此因素影响,而以后则相反。
这时消费函数可设定为:1234t t t t t t C B B D B Y B D Y ε=++++。
其中Dt 为虚拟变量。
1992 年以前取0,1992 年以后取1。
利用(6)式对所有数据进行再次模拟,结果为:农村居民:从上面的模拟结果来看,除常数项外,其他项目检验都有较好的显著性。
根据一般经济检验要求,对常数项可以适当放宽标准,故可认为以上结果具有较好的可靠性。
通过比较可以发现,无论是拟合优度还是估计标准误差,加入政策作为虚拟变量后的模型拟合比没有虚拟变量的模型拟合要高,因此判断可以加入虚拟变量。
(7)、(8)两式的拟合结果说明,政策变化对居民消费是有显著影响的。
因为政策实施前,农村与城镇居民的平均边际消费倾向分别达到0.907 和0.849,而政策实施后居民的平均边际消费倾向则分别下降到0.669 和0.763。
这也就是说,随着我国市场化改革的进一步推进,居民面临着较多的消费与收入的不确定性。
因此,谨慎消费,增加当前储蓄的心理大大加强。
另一种可能的原因是随着就业的市场化,居民的收入差距可能进一步拉大。
这样,以居民平均收入和平均消费计算的边际消费倾向会产生变化,因为相对而言,高收入者的边际消费倾向一般低于低收入者,如果增加的收入主要集中到高收入者手中,那么社会总体边际消费倾向自然就会降低。