当前位置:文档之家› 定量分析方法(1-3)

定量分析方法(1-3)

《定量分析方法》

本教材尝试运用统计分析技术,对客观事物所表现出来的数据进行收集、整理、分析,以便更清晰地描述数据的变化规律;运用样本数据所具有的信息来推断与估计总体参数;研究事物间的因果关系,对变量之间的变化关系进行相关分析与回归分析,从数量上把握变量之间的内在变化规律;以期帮助管理者降低不确定性和风险,使决策更具效率。

本书是清华大学MPA系列教程之一,目的是使学生掌握定量分析方法与技术,培养学生如何从复杂事物中提炼出有用的信息,进而运用数据信息进行推断与决策,并能对变量之间的变化规律进行定量分析。

本书主要由描述统计、推断统计、相关分析与回归分析等三大块内容构成。描述统计包括数据收集、统计数据的整理、统计数据的数值分析、指数等;概率论基础、常用概率分布及应用是推断统计的基础知识;推断统计包括抽样分布理论基础、参数估计与推断、假设检验与推断等;回归分析包括相关分析与简单线性回归分析、多元线性回归分析、回归分析中的若干问题等。

第一章概论

一、什么是统计学

统计学是关于如何搜集、整理和分析不确定性现象的数量特征及其变化规律的一门学科。包括描述统计学和推断统计学。其目的是使管理者与决策者获得更多更有用的信息,进而做出更有效、更快捷的决策。

统计一词包括三重涵义:

1)统计工作:指人们运用科学方法对所调查研究的对象进行数据搜集、整理和分析的全部工作,其结果是形成统计数字资料。

2)统计资料:是统计工作活动过程中所取得的成果,以数据形式出现,包括原始信息和再生信息。

3)统计科学:是对统计实践加以总结升华而产生的理论,并反过来指导实践。

二、统计研究的特点

1)数量性:统计是用数据来说明问题的,“数字是统计的语言”。

2)具体性:统计是对客观现象在一定时间、地点、条件下获得的具体数据,而不是抽象的量。

3)总体性:统计是要把握客观现象总体的数量特征及其变化规律,而不是个体的量;而对总体的认识是从对个体(样本)的认识开始的。例如,为了对全国农民家庭收支情况进行统计研究,就首先需要对个别农户家庭的收支情况进行调查,然后分组、汇总、计算、分析,进而了解全国农民家庭收支的变化规律。

4)变异性:组成总体的各个个量之间存在差别,统计研究就是要从个量的差异变化中总结出总体的变化规律。

三、统计研究的目的

1)从定性认识到定量研究。首先需要对客观事物的性质、特点、变化过程有一定的认识,进而研究事物的量变特征及其变化规律。

2)从个体认识到总体认识。首先对组成总体的个体量进行调查分析,进而把握总体的变化规律。

3)从对现象的描述过渡到对现象规律性的认识。即从现象上升到本质,从描述统计过渡到推断统计。

4)从对历史统计资料的研究进而达到对未来做出预测。即除了跟踪客观事物的发展变化外,还要预测未来的发展趋势。

四、统计研究的基本环节

一个比较完整的统计研究过程,包括如下四个环节:

1)统计设计:根据统计客体的特点与研究目的,确定研究对象的范围,设计统计指标体系,确定调查、整理和分析的方法步骤等。

例如,宏观经济统计指标涉及到生产、分配、流通和消费;涉及到经济结构、投资结构、劳动力结构、经济效益;还要涉及到金融、贸易、文化、教育、保健卫生、社会福利等等。

2)统计数据搜集:根据统计指标体系,搜集获得有关统计客体的原始资料。

3)统计数据整理:由搜集到的原始资料加以科学地分组、归纳、综合,使原始统计资料条理化、系统化,获得比较清晰的再生信息,进一步形成统计表、统计图、计算特征数等。

4)统计推断分析:对加工整理后的统计资料运用统计技术,进行分析研究,以把握客观事物的变化特征及其内在规律性,进而对未来做出预测,提出决策方案。

以上四个环节按先后顺序,一个环节接一个环节地进行。

五、统计学的分支学科

统计方法与不同学科领域相结合,出现了各种各样的统计学。

数理统计学:统计学与数学结合,包括概率论、统计推断技术、回归分析等。

经济统计学:统计分析技术在经济、管理、商业等领域的应用。

社会经济学:统计学在社会学领域中的应用。

人口统计学:统计学在人口学领域中的应用。

数理统计学与经济统计学的联系和区别:

1)联系:经济统计学运用了数理统计学的方法,来搜集、整理与分析经济与商业信息,以把握经济变量的数量特征及其变化规律。

2)区别:经济统计学离不开经济管理的理论与实践,如对生产函数、消费函数的估计,就离不开生产理论与消费理论。同时经济统计学也有其与数理统计学不同的研究方法,如经济指标体系的设计等。

六、统计学在经济分析中的应用

经济学包括的内容很广泛,它涵盖了微观经济学、宏观经济学、制度经济学、福利经济学、环境与资源经济学、发展经济学、农业经济学、劳动力经济学、国际贸易、国际金融等。对经济问题的研究一般按如下程序进行:

七、统计学在管理中的应用

统计学在管理中的应用极其广泛,包括:

行为科学:人力资源管理,企业组织,管理策略等;

市场营销:销售策略、广告、购买者行为、国际市场等;生产管理:质量控制等;

财务:金融市场、投资分析等;

会计:财务会计、管理会计、审计等;

决策科学:管理信息系统、运筹学等;

公共管理:公共政策分析、公共管理决策等。

运用统计方法来研究管理问题一般遵循如下程序:

计算机技术的应用,使得统计研究过程更容易实现,为企业财务数据、市场调查数据的整理提供了方便。目前已经涌现出很多管理统计软件。

八、统计分析中的几个重要概念

1)总体:一种具有某种特征的所有个体的集合。如全国居民收入构成了一个总体,其中包括了每一个居民的收入。

2)样本:从总体中选出的一部分个体。如部分居民(如城市居民)的收入。

3)个体:构成总体的每一个元素。如某一居民的收入。

4)统计推断:根据样本所具有的信息来判断、估计、预测关于总体的某些结论。如:用部分居民的平均收入水平来推测全体居民的平均收入水平。

5)统计推断结果的可靠性程度:即统计推断结果的可信度,做出某项推断结果的精确度如何,有多大的把握做出这样的推断,等等。

6)描述统计学(Descriptive Statistics):对收集到的统计资料进行整理(如质别分类、数量分组等),编制统计表、绘制统计图、计算必要的统计数(平均数、标准差等),以描述统计资料的变化规律。

7)推断统计学(Inferential Statistics):运用统计分析技术,由样本所提供的信息对总体进行推断,包括参数估计、假设检验、相关分析、回归分析等。

九、常用的统计软件

1、SAS:数据处理功能很强,但初学者不容易掌握。

2、E-Views:较容易掌握,但对复杂数据的处理能力不如SAS。

3、Excel:较容易掌握,特别适宜作图。

4、SPSS:较容易掌握,且具备了E-Views及Excel的大部分功能。

第二章数据收集

一、数据收集的方法

1、利用出版物、信息网络、数据库、政府统计部门等作为信息来源。

例如:下表是根据统计出版物收集到的有关中、美两国经济结构(劳动力结构)对比的数据:

2、利用调查结果收集数据

如抽样调查、普查等,这要涉及到调查费用、调查途径及调查方案的实施等。最常用的调查方法是问卷设计与调查。如对任课教师的教学评估调查、民意测验调查选民的意愿等。

3、根据设计好的试验方法可以得到有效数据

这要涉及统计中的试验设计(Experiment Design)问题。在试验设计中,往往选定一目标变量,然后控制其它变量,以便获得它们如何影响目标变量的有关数据。

例如,某医药公司对其一种新药如何影响血压进行试验。在试验中,血压是目标变量,新药的剂量是影响血压的其它变量,通过对不同的个体施以不同的剂量水平,可以得到若干个血压数据,然后通过对试验数据的统计分析来确定新药是如何影响血压的。

4、根据观察而得到有关数据

这是行为科学解决问题的方法。早期的行为科学研究操作人员的动作行为,进而分析,然后找到最优方法。观察研究的方法在天文学、地质学、动物学以及现代管理中都是很常用的方法。如:某银行要观察在上午9:00至下午5:00之间每个时段(每10分钟为一个时段)上顾客的到来数等。

二、数据分类及其度量

1、数量数据与品质数据

1)数量数据:以数字形式来表示的数据,分为离散数据和连续数据。

离散数据:用自然数表示。例如,几本书,用具体的自然数1,2,3,……来表示。

连续数据:可能是任何实数。例如,表示身高、体重等的数据。

2)品质数据: 以非数字形式来描述事物的特征, 分为序数数据(Ordinal)和名义数据(Nominal)。

序数数据:描述成绩的优劣:优秀、良好、及格、不及格;

描述事物重要性:重要、一般、不重要。

名义数据:描述职业类型:工人、学生、农民、教师;

描述家庭住址所在地:北京、上海、山东等。

注1:品质数据的度量通常要通过适当的赋值或编码(Coding)来实现。

如,回答是:“是”或“不是”。通常将“是”赋予“0”,将“不是”赋予“1”,则品质数据可以转化为纯数字数据。

再如,将成绩“优秀”赋予“5”,将“良好”赋予“4”,将“及格”赋予“3”将“不及格”赋予“2”等。

又如,NYSE代表纽约证券交易所编码为“1”,AMEX代表美国证券交易所编码为“2”,OTC代表场外交易编码为“3”等。但此时的数值仅为代码或标记。

注2:通常的数学运算只对数量数据(或赋值数据)才有效。

2.时间序列数据与截面数据

1)时间序列数据:是在不同时期所收集的数据。如1978——2002年中国的GDP数据等。

2)截面数据:是在同一时间点上所收集的数据。如2002年北京市居民的收入数据等。

3)面板数据:时间序列与横截面相结合的数据。如1978——2003年间中国各省份的GDP变化数据等。

三、抽样调查(Sample Survey)

1、抽样调查与普查

普查:是对调查对象的全部单位都一一进行调查。如我国一年一度的人口普查等。

抽样调查:是对调查对象中的一部分单位进行调查,并由此来了解总体的情况。

尽管普查可以获得比较完整可靠的实际数据,但现实中,人们更倾向于使用抽样调查方法。原因是:

1)经费限制:抽样调查可节省大量人力、物力、财力。

2)时间限制:当今世界,信息瞬息万变,抽样调查费时少,因此能帮助我们作出更为快捷的分析与决策。

3)决策精度:根据抽样调查理论,抽样调查可以将误差控制在要求的范围内,从而保证决策的精度。

2、抽样调查的应用

抽样调查应用于经济、管理中的各个方面。如,市场研究人员调查消费者对商品的偏好;审计人员对公司财务抽样审计;投资者对股票市场的行情分析;人事经理了解雇员对新制度的态度;民意测验调查选民的意愿;学生对任课教师的评估等。

3、抽样调查的一般步骤

4、抽样调查的方式

抽样调查可以采取邮寄、电话、面谈、网络等方式进行,其成本与成功率比较如下:

5、抽样种类

抽样分为非概率抽样(Nonprobability Sampling)与概率抽样(Probability Sampling)两种。

1)非概率抽样

在总体中每一构成要素被抽取的概率是未知的情况下进行抽样。这种抽样方法的缺点是无法对估计的精确度做出判断,其优点是成本低且容易完成。

判断抽样(Judgement Sampling)依照调查者个人的判断决定总体中哪些样本被抽样。如:在作民意测验时,对专家意愿的调查,对体育记者的调查。

方便抽样(Convenience Sampling):调查者根据自己的方便选定某一群体进行抽样。如:某教授选定曾执教过的一个班进行调查。

2)概率抽样

在总体中每一构成要素被抽取的概率是已知的情况下进行抽样,又称随机抽样。这种抽样方法可以对估计的精确度做出判断。

简单随机抽样(Simple Random Sampling):被抽查对象被抽取的概率相等且每次被抽取的概率相互独立。

做法:将被抽查对象随机排号,然后查随机数表确定抽取样本。

系统抽样(Systematic Sampling):随机排列被调查对象,然后抽取第k个要素。如抽取1st,21st,41st……。

需要注意的是:一,在将总体编号时,要避免规律性地安排;二,系统抽样与简单随机抽样相同,因为第一个个体的选择是随机的。

如:在容量为1000的总体中,随机抽取容量为10的样本。可以先在前100个个体中随机选取一个个体,比如是第3个,然后每隔100个再选一个,即为:

3rd、103rd,203rd……。这样便可抽取容量为10的样本。

分层抽样(Stratified Sampling):先将被调查对象分层(Stratus),然后再在每个分层的总体中按一定比例随机抽取样本。

分层的原则是:根据主要特征,使各层间的差距相对较大,而使每层内的差异尽可能小。根据需要,总体可以由部门、地区、年龄、专业、产品类型、产业类型、企业规模等进行分层。

如:某大学商学院要调查其毕业生的起始年薪情况。该学院今年的毕业生800人,有4个专业:会计(300人)、金融(250人)、市场营销(100人)、管理信息系统(150人),从中随机抽取80人作为样本。结果是:会计30人、金融25人、市场营销10人、管理信息系统15人。

聚类抽样(Cluster Sampling):先将总体要素聚成类(组),随机抽取其中一个组,然后再对被抽取的组作简单随机抽样。理想情形是每一类(组)皆是整个总体的一个缩影。

如:煤炭生产调查,先将煤炭生产市聚类――抚顺(辽)、双鸭山(黑)、平顶山(豫)、神府(陕)、六盘水(黔)、等等。然后随机抽取一组,如“黑”,再在该组中随机抽取5个矿作样本。

再如,若想调查Ohio州的登记选民,可以将该州的88个县作为类,随机抽取一组,然后再在该组中随机抽取容量为12 的随机样本。

四、问卷设计

问卷设计是最常用的一种抽样调查工具。

1、范围的选择

1)问卷长度与回收率成反比,所以问题应尽可能少,去掉可有可无的问题;

2)问题的答案选择项应该避免重叠且应包括所有可能,以避免被调查者困惑。

2、问题的提法

1)尽可能清楚简短,但要信息充足;

2)尽可能准确,以避免对问题的不同理解;

3)注意用语不同,调查结果也可能不同;

4)避免造成不诚实的回答。

3、问卷试验

为了考察问卷质量,可进行预调查(Pilot Testing),即抽取一定数量的小样本进行调查。调查内容包括:问题是否清楚地表述了?问卷回答需要多少时间?回答哪些问题有困难?对改进问卷有何建议?等等。

五、抽样调查的可信性

1、抽样误差(Sampling Error)

即随机误差(Random Error)。是由于不可测因素引起的误差,即使调查设计与执行无误,也可能产生出人意料的误差。抽样误差是由于没有对总体的所有个体进行调查而产生的误差,在抽样随机性的情况下,可以根据概率推算出抽样误差的大小(如构造臵信区间),当样本变大时,抽样误差变小。

2、非抽样偏差(Bias)

1) 选择偏差(Selection Bias):由于所设定的样本总体与目标总体不相符所产生的偏差。

2)未回答偏差:在调查中拒绝回答或不配合所导致的偏差。

3)度量偏差:由于回答不准确或问题不明确等因素所造成的偏差,或由于测量不准所造成的误差。

4)数据处理偏差:由于分析者在数据处理过程中所造成的误差。

例:关于偏差最著名的例子是1936年美国的《Literary Digest》所作的预测。

该杂志预测:“Kansas州长https://www.doczj.com/doc/6a11726607.html,ndon将获得57%的选票,从而将轻而易举地击败当时的总统F.Roosevelt”。

结果是Landon 只得了38%的选票,从而Roosevelt再度当选。这一严重的预测失误使当时颇有影响的这一杂志一落千丈,最后宣告破产。

预测失误的原因是选择偏差,该杂志调查选择时,依电话号码本、杂志订户和汽车注册户等作为样本,忽略了人数众多的穷人,而穷人又多拥护民主党候选人Roosevelt(注:因为Roosevelt的“增加政府支出”的政策皆对穷人有利)。

问卷设计案例

以下是为研究职务犯罪预防所设计的问卷,目的是了解和考察市民对职务犯罪的认识和态度,了解市民对政府开展职务犯罪预防所作的一系列工作的意见和对社会化大预防模式的看法和个人建议。

SECTION A

请采访员首先记录受访人的性别:

A1、请问您今年多大岁数?19

A2、您念过多少年书?

A3、我们想了解一下您的职业情况,请问上个星期您处于什么状况,是工作(包括务农)、做家务、上学,还是处于别的什么情况?

A4、以下哪一项最准确地表达了您目前的工作或职业?

A4a、请问您在的公司或单位是什么性质?

A5、您上个月的总收入是多少(包括所有的工资、奖金、第二职业收入、亲友馈赠、各种投资收益、其他收入等等)?(出示答案卡)请您根据这张卡片,选择相应的收入档次,然后告诉我收入档次的编号。

SECTION B

B1、以下是一些面临的社会问题,您认为最严重的问题是什么?第二严重的问题是什么?相比之下最不严重的问题是什么?(出示答案卡)

a、第一重要_______

b、第二重要_______

c、最不重要_______

B2、您主要通过什么渠道获取关于职务犯罪的信息?(出示答案卡,可选多项)

B2a、您觉得您获得的关于职务犯罪的信息充分吗?是非常充分、比较充分、不充分,还是极不充分?

B3、您认为中国的职务犯罪情况在过去几年是明显改善、有些改善、没有变化、有些恶化,还是明显恶化了?

B3a、是什么原因使您这样想?请具体说明。

_______________________________________________________________________________

B4、那么,您认为在未来十年内中国的职务犯罪状况会有什么样的变化,是明显改善、有些改善、没有变化、有些恶化,还是会明显恶化?

B4a、是什么原因使您这样想?请具体说明。

_______________________________________________________________________________

SECTION C

C1、您所在的单位有职务犯罪预防机构或者类似性质的机构吗?

C1a、您觉得这类机构对职务犯罪的预防有多重要?这是一张量表,1表示完全不重要,5表示非常重要。请您在量表上选择一个您认为合适的数字。

(出示答案卡,并读出选项;如果受访人回答不知道则记8。)

C2、下面是与职务犯罪预防有关系的几种群体,您认为这些群体在职务犯罪预防中的作用有多重要?这是一张量表,1表示完全不重要,5表示非常重要。请您在量表上选择一个您认为合适的数字。

(出示答案卡,并读出选项;如果受访人回答不知道则记8。)

a、区政府及相关部门

C3、下面列出了一些说法。请您就每一个说法分别表示意见。说明您是非常同意、大体同意、不同意也不反对、不太同意,还是非常不同意?(出示答案卡,逐项提问)

C4、您认为构成职务犯罪最主要的原因有哪些?(出示答案卡,可选多项)

C5、下面是政府在预防职务犯罪中所做的一些工作,您认为政府的这些工作做得如何?这是一张量表,1表示非常差,5表示非常好。请您在量表上选择一个您认为合适的数字。

(出示答案卡,并读出选项;如果受访人回答不知道则记8。)

非常好非常差不知道

a、对职务犯罪预防工作提供足够的经济、物质保障

e、广泛宣传,增加市民对职务犯罪的认识

f、建立预防职务犯罪领导小组专门处理职务犯罪问题

C6、您认为,解决职务犯罪的最好方法是什么?(出示答案卡,可选多项)

C7、最后一个问题,您家中是否有电话?

C8、为了保证调查质量,便于核查,请您告诉我您家或您单位的电话号码。

号码:______________

耽误了您不少时间,谢谢您的合作。

第三章统计数据的整理

一、目的与程序

1、目的

根据统计研究的目的和任务,将统计调查所得到的分散零碎的原始资料进行科学的分类和汇总,为统计分析准备系统化、条理化的综合资料。

2、程序

1) 制定统计数据整理纲要。选择分类标志,即如何对统计资料进行分组,确定各组及总体的指标体系。

2)审核和订正原始数据资料。保证及时性、齐备性、可靠性、系统性。

3)对统计数据进行整理。根据统计整理纲要对数据资料进行分组,然后进行统计汇总或作必要的加工计算。将统计整理的结果编制成统计表或绘制成统计图,以描述统计数据的数量特征。

以上程序中,以统计分组为数据整理的中心环节,以统计表及统计图为重要表现形式。

二、统计分组

统计分组是根据统计分析的目的,将搜集到的数据资料按照一定的标志划分为若干个组。如:研究农业生产单位的生产方向,则可按其主要生产方向划分为粮食、棉花、蔬菜、畜牧、林业、渔业等。

1、统计分组的作用

1)从不同角度区分与刻划总体的基本特征;

2)刻划总体的内部结构及其特征;

3)分析各类现象之间的依存关系。

2、按品质标志分组与按数量标志分组

1)按品质标志分组:其目的在于揭示总体内部的性质与属性差异。例如:人口按性别分组、商品按类别分组、生产领域按生产方向分组等。按品质标志分组比较容易划分,分组标志确定后,组与组之间的界限和组数也就确定了。

例:某大学商学院对一年级新生调查他们最喜欢的专业,得到如下数据:

2) 按数量标志分组:其目的在于描述内部的数量差异。它适用于间隔尺度和比例尺度的数据。

按数量标志分组应注意以下问题:

a 、单项变量数列与组距变量数列

单项变量数列:即每个组中只用一个变量值来表示,如:

组距变量数列:即每个组由表示一定距离的两个变量值组成,两个变量值分别称为组上限和组下限,一般采用“左闭右开”或“组上限不在其内”的原则。

如:

农 民 收 入 调 查(100户)

注:组距变量数列的缺点是掩盖了每个总体单位的实际变量值。

b 、组距和组数的确定

()等组距组距

最大值-最小值

组数=

组距过大,则组数减少,资料中的许多细节被掩盖了;组距过小,则组数增多,数据不易一目了然,且可能把性质相近的同类现象分到各组,不能正确反映现象的本质特征。

例如:学生成绩分组

表1

表1的缺点是无法区分优、良、中、差;表2的缺点是将及格与不及格的学生混在一起,亦不易区分优、良、中、差。

因此,组距与组数确定的原则是:应该将性质相同或类似的数据归于一组内。同时将组内各单位的次要差异给予抽象,进而把各组之间的主要差异明确显示出来。

c、等组距与异组距

等组距:即每个组的组距都相等,当变量值的变动比较均匀时,宜采用等组距分组。优点是:便于直接比较、制图及分析。

异组距:即各个组的组距不一样,当变量值的分布状态出现极度偏倚时,宜采用异组距分组。

采用等组距与异组距的原则是:根据统计研究的目的,以刻划事物的本质特征为分组原则。

d、异组距与频数密度

当采用异组距分组时,各组的频数分布不宜直接对比。为了能够对比,计算各组的频数密度,即每单位组距上发生的频数。

频数

频数密度=

组距

3、分组的形式

1)简单分组:对总体分组时,只采用一个分组标志(品质标志或数量标志)进行分类的方法。如:按性别、年龄分,按产业类型、经济成分、年代划分等。

如:

2)复合分组:对总体采用两个或两个以上的分组标志结合起来进行交叉分组。

如:

三、统 计 表

统计数据经收集与整理后,可以用统计表和统计图的形式来描述数量特征。 统计表的基本结构如下:

表××:总标题

统计指标的名称及计量单位

相关主题
相关文档 最新文档