类别数据分析 第三讲
- 格式:doc
- 大小:250.00 KB
- 文档页数:33
1前讲回顾预期值的验证试验:σ2=σ02,μ=μ0 对比试验:σ12=σ22,μ1=μ2 二类错误(弃真与纳伪)2第三讲因素效应试验单因素效应试验多因素效应试验3一单因素效应试验单因素效应试验的计划设计单因素效应试验的数据分析与处理单因素效应试验数据数学模型4概述因素效应试验:在一定试验条件下,考察可控因素的不同水平或水平组合对试验指标影响的试验。
主效应:由于因素改变而引起的指标变化最大的效应。
因素效应试验:因素主效应试验的计划设计;因素主效应试验的实施;因素主效应试验观测数据分析处理。
计划设计内容:因素的试点设计:确定因素、因素水平、因素各水平组合的设计;因素各水平试点的重复性设计;因素各水平试点重复性的随机化设计。
56可控因素:影响试验的各种因素中被考察的因素,在试验中按人们的需要,在一定水平变化。
试验条件:在试验中被固定在一定水平上不予考虑的因素。
是可控因素以外所有可能影响试验效应的条件因素。
分两类:1.不变的可控条件;2.变化的不可控或难控条件。
7单因素效应试验的计划设计试点设计试点的重复性设计试点的随机化设计8试点设计试点设计:即确定因素与因素的水平设计。
因素设计水平设计水平设计:对可控因素在其状态或数值上划分对比等级,由试验设计的目的和要求决定。
水平数与可控因素属性关系。
水平试验的总范围:生产允许极限上适当放宽。
水平的间隔(定量的数据):2水平3水平910单因素优选法来回调试法黄金分割法分数法对分法抛物线法分批试验法11试点的重复性设计12总试验次数N 为:na N ×=13试点的随机化设计使试验中的条件能以同等机会分配给各试验单元。
是保证试验结果有可比性的设计,避免随机误差系统化的产生。
随机分配方法可用抽签法,也可以查随机数字表获得。
14试点的随机设计例1在某次热处理试验中,要考察时效时间对材料硬度的影响。
时效时间A 取三个水平,分别为1h 、2h 及4h ,每个水平重复三次,请提出随机化设计的方案。
第3讲数据的分析与处理典例剖析例1.每年的4月15日是我国全民国家安全教育日.某中学在全校七、八年级共800名学生中开展“国家安全法”知识竞赛,并从七、八年级学生中各抽取20名学生,统计这部分学生的竞赛成绩(竞赛成绩均为整数,满分10分,6分及以上为合格).相关数据统计、整理如下:八年级抽取的学生的竞赛成绩:4,4,6,6,6,6,7,7,7,8,8,8,8,8,8,9,9,9,10,10.七、八年级抽取的学生的竞赛成绩统计表年级七年级八年级平均数7.47.4中位数a b众数7c合格率85%90%根据以上信息,解答下列问题:(1)填空:a=7.5,b=8,c=8;(2)估计该校七、八年级共800名学生中竞赛成绩达到9分及以上的人数;(3)根据以上数据分析,从一个方面评价两个年级“国家安全法”知识竞赛的学生成绩谁更优异.例2.为了解学生掌握垃圾分类知识的情况,增强学生环保意识.某学校举行了“垃圾分类人人有责”的知识测试活动,现从该校七、八年级中各随机抽取20名学生的测试成绩(满分10分,6分及6分以上为合格)进行整理、描述和分析,下面给出了部分信息.七年级20名学生的测试成绩为:7,8,7,9,7,6,5,9,10,9,8,5,8,7,6,7,9,7,10,6.八年级20名学生的测试成绩条形统计图如图:七、八年级抽取的学生的测试成绩的平均数、众数、中位数、8分及以上人数所占百分比如下表所示:年级平均数众数中位数8分及以上人数所占百分比七年级7.5a745%八年级7.58b c根据以上信息,解答下列问题:(1)直接写出上述表中的a,b,c的值;(2)根据上述数据,你认为该校七、八年级中哪个年级学生掌握垃极分类知识较好?请说明理由(写出一条理由即可);(3)该校七、八年级共1200名学生参加了此次测试活动,估计参加此次测试活动成绩合格的学生人数是多少?跟踪训练1.每年夏季全国各地总有未成年人因溺水而丧失生命,令人痛心疾首.今年某校为确保学生安全,开展了“远离溺水•珍爱生命”的防溺水安全知识竞赛.现从该校七、八年级中各随机抽取10名学生的竞赛成绩(百分制)进行整理、描述和分析(成绩得分用x表示,共分成四组:A.80≤x<85,B.85≤x<90,C.90≤x<95,D.95≤x≤100),下面给出了部分信息:七年级10名学生的竞赛成绩是:99,80,99,86,99,96,90,100,89,82八年级10名学生的竞赛成绩在C组中的数据是:94,90,94七、八年级抽取的学生竞赛成绩统计表年级七年级八年级平均数9292中位数93b众数c100方差5250.4根据以上信息,解答下列问题:(1)直接写出上述图表中a,b,c的值;(2)根据以上数据,你认为该校七、八年级中哪个年级学生掌握防溺水安全知识较好?请说明理由(一条理由即可);(3)该校七、八年级共720人参加了此次竞赛活动,估计参加此次竞赛活动成绩优秀(x ≥90)的学生人数是多少?2.为落实视力保护工作,某校组织七年级学生开展了视力保健活动.活动前随机测查了30名学生的视力,活动后再次测查这部分学生的视力.两次相关数据记录如下:活动前被测查学生视力数据:4.0 4.1 4.1 4.2 4.2 4.3 4.3 4.4 4.4 4.4 4.5 4.5 4.6 4.6 4.64.7 4.7 4.7 4.7 4.8 4.8 4.8 4.8 4.8 4.9 4.9 4.95.0 5.0 5.1活动后被测查学生视力数据:4.0 4.2 4.3 4.4 4.4 4.5 4.5 4.6 4.6 4.6 4.7 4.7 4.7 4.7 4.84.8 4.8 4.8 4.8 4.8 4.8 4.9 4.9 4.9 4.9 4.95.0 5.0 5.1 5.1活动后被测查学生视力频数分布表分组频数4.0≤x<4.214.2≤x<4.424.4≤x<4.6b4.6≤x<4.874.8≤x<5.0125.0≤x<5.24根据以上信息回答下列问题:(1)填空:a=5,b=4,活动前被测查学生视力样本数据的中位数是 4.65,活动后被测查学生视力样本数据的众数是 4.8;(2)若视力在4.8及以上为达标,估计七年级600名学生活动后视力达标的人数有多少?(3)分析活动前后相关数据,从一个方面评价学校开展视力保健活动的效果.过关精练1.红树林学校在七年级新生中举行了全员参加的“防溺水”安全知识竞赛,试卷题目共10题,每题10分.现分别从三个班中各随机取10名同学的成绩(单位:分),收集数据如下:1班:90,70,80,80,80,80,80,90,80,100;2班:70,80,80,80,60,90,90,90,100,90;3班:90,60,70,80,80,80,80,90,100,100.整理数据:60708090100分数人数班级1班016212班113a13班11422分析数据:平均数中位数众数1班8380802班83c d3班b8080根据以上信息回答下列问题:(1)请直接写出表格中a,b,c,d的值;(2)比较这三组样本数据的平均数、中位数和众数,你认为哪个班的成绩比较好?请说明理由;(3)为了让学生重视安全知识的学习,学校将给竞赛成绩满分的同学颁发奖状,该校七年级新生共570人,试估计需要准备多少张奖状?2.某校为了解七、八年级学生对“防溺水”安全知识的掌握情况,从七、八年级各随机抽取50名学生进行测试,并对成绩(百分制)进行整理、描述和分析.部分信息如下:a.七年级成绩频数分布直方图:b.七年级成绩在70≤x<80这一组的是:70 72 74 75 76 76 77 77 77 78 79c.七、八年级成绩的平均数、中位数如下:年级平均数中位数七76.9m八79.279.5根据以上信息,回答下列问题:(1)在这次测试中,七年级在80分以上(含80分)的有23人;(2)表中m的值为77.5;(3)在这次测试中,七年级学生甲与八年级学生乙的成绩都是78分,请判断两位学生在各自年级的排名谁更靠前,并说明理由;(4)该校七年级学生有400人,假设全部参加此次测试,请估计七年级成绩超过平均数76.9分的人数.3.某年级共有300名学生.为了解该年级学生A,B两门课程的学习情况,从中随机抽取60名学生进行测试,获得了他们的成绩(百分制),并对数据(成绩)进行整理、描述和分析.下面给出了部分信息.a.A课程成绩的频数分布直方图如下(数据分成6组:40≤x<50,50≤x<60,60≤x<70,70≤x<80,80≤x<90,90≤x≤100):b.A课程成绩在70≤x<80这一组的是:70 71 71 71 76 76 77 78 78.5 78.5 79 79 79 79.5c.A,B两门课程成绩的平均数、中位数、众数如下:课程平均数中位数众数A75.8m84.5B72.27083根据以上信息,回答下列问题:(1)写出表中m的值;(2)在此次测试中,某学生的A课程成绩为76分,B课程成绩为71分,这名学生成绩排名更靠前的课程是(填“A”或“B”),理由是;(3)假设该年级学生都参加此次测试,估计A课程成绩超过75.8分的人数.4.某品牌服装为了解某件衣服的销售情况,对线上、线下两种销售模式进行了抽样调查,从线上、线下两种销售模式中分别随机抽取20个店,记录下某一周各自的销售情况(单位:件)如下:线上:76 88 93 65 78 99 89 68 95 5089 88 89 89 77 97 87 88 98 97线下:74 97 96 89 98 74 69 76 72 7899 72 97 76 99 74 99 73 98 74(1)整理、描述数据:对销售件数进行分组,各组的频数如下:销售件数50≤x≤5960≤x≤6970≤x≤7980≤x≤8990≤x≤100线上123a6线下011018(2)分析数据:两组样本数据的平均数、中位数如下表所示:销售模式平均数中位数众数线上8588.5c线下84.2b74请根据以上信息,回答下列问题:(1)填空:a=,b=,c=.(2)线上,线下两种销售模式目前销售该品牌服装的店面共2000个(线上、线下的门店数差不多),估计该品牌服装每周销售的件数约为多少?(3)根据以上数据,你认为线上、线下两种销售该品牌服装的销售模式哪种情况比较好?并说明理由.5.为了让师生更规范地操作教室里的多媒体设备,重庆八中现教中心制作了“教室多媒体设备培训”视频,并在电视课期间进行播放.结束后为了解初高中各班电教委员对设备操作知识的掌握程度,现教中心对他们进行了相关的知识测试.现从初高中各随机抽取了15名电教委员的成绩,得分用x表示,共分成4组:A:60≤x<70,B:70≤x<80,C:80≤x<90,D:90≤x≤100,对得分进行整理分析,给出了下面部分信息:初中电教委员的测试成绩在C组中的数据为:81,85,88.高中电教委员的测试成绩:76,83,71,100,81,100,82,88,95,90,100,86,89,93,86.成绩统计表如下:学部平均数中位数最高分众数极差初中88a989832高中8886100b c(1)a=,b=,c=;(2)通过以上数据分析,你认为(填“初中”或“高中”)学部的电教委员对多媒体设备操作的知识掌握更好?请写出理由:.(3)若初高中共有240名电教委员,请估计此次测试成绩达到90分及以上的电教委员约有多少人?6.受到“新型肺炎”影响,全国中小学未能按时开学,为响应国家“停课不停学”的号召,重庆某重点中学组织全校师生开展线上教学活动,体育备课组也为同学们提出了每日锻炼建议.疫情过去开学后,体育组彭老师为检测同学们在家锻炼情况,在甲、乙两班同学中各随机抽取20名学生进行检测,并对数据进行了整理、分析.下面给出了部分信息:甲班:33,35,38,39,39,41,42,43,43,44,45,46,46,47,48,49,49,49,50,50乙班成绩在40≤x<45中的数据是41,43,41,44,42,40,43整理数据:30≤x<5035≤x<4040≤x<4545≤x≤50甲14a10乙1379分析数据:班级平均数中位数众数甲43.744.5b乙43.4c48根据以上信息,回答下列问题:(1)a=;b=;c=;(2)根据以上数据,你认为哪个班级在家体育锻炼的效果比较好,请说明理由(1条理由即可);(3)已知九年级共有2000名学生,请估计全年级体育成绩大于等于45分的学生有多少人?7.某校开展了一系列居家阅读活动.学生利用“宅家”时光,在书海中遨游,从阅读中获得精神慰藉和自我提升,为了解学生居家阅读的情况,学校从七、八两个年级各随机抽取50名学生,进行了居家阅读情况调查、下面给出了部分数据信息:【一】:两个年级学生平均每周阅读时长x(单位:小时)的频数分布直方图如图(数据分成4组:0≤x<3,3≤x<6,6≤x<9,9≤x≤12):【二】:七年级学生平均每周阅读时长在6≤x<9这一组的是:66777778888888888【三】:两个年级学生平均每周阅读时长的平均数、中位数、众数、方差如表:平均数中位数众数方差七年级 6.3m87.0八年级 6.077 6.3根据以上信息,回答下列问题:(1)补全图2;(2)写出表中m的值为;(3)请你结合数据进行判断,哪个年级的的居家阅读情况较好?请说明理由.8.刘老师最近在自己任教的甲乙两班进行了一次定时练习,为大致了解这次练习两个班学生的成绩状况,刘老师从甲、乙两班各随机抽取10名学生的成绩进行整理和分析(成绩用m表示),共分成四个组:A.80≤m<85,B.85≤m<90,C.90≤m<95,D.95≤m≤100.另外给出了部分信息如下:甲班10名学生的成绩:99,80,99,86,99,96,90,100,89,82.乙班10名学生的成绩在C组的数据:94,90,94.甲乙两班被抽取学生成绩统计表班级甲班乙班平均数9292中位数93a众数b100方差5250.4根据以上信息,解答下列问题:.(1)上面图表中的a=,b=,扇形统计图中“D组”所对应的圆心角的度数为度;(2)根据以上信息,你认为哪个班级的学生这次政治定时练习的成绩较好?说明理由.(3)甲乙两班共有120 名学生参加了此次定时练习,估计成绩为较好(90≤m<95)的学生有多少人?9.面对疫情,每个人都需要积极行动起来,做好预防工作.为此某校开展了“新型冠状病毒肺炎”防控知识竞赛.现从该校五、六年级中各随机抽取10名学生的竞赛成绩(百分制)进行整理、描述和分析(成绩得分用x表示,共分成四组:A.80≤x<85,B.85≤x<90,C.90≤x<95,D.95≤x≤100),下面给出了部分信息:五年级10名学生的竞赛成绩是:99,80,99,86,99,96,90,100,89,82六年级10名学生的竞赛成绩在C组中的数据是:94,90,94五,六年级抽取的学生竞赛成绩统计表年级平均数中位数众数方差五年级9293c52六年级92b10050.4据以上信息,解答下列问题:(1)直接写出上述图表中a,b,c的值:a=,b=,c=;(2)由以上数据,你认为该校五、六年级中哪个年级学生掌握防溺水安全知识较好?请说明理由(一条理由即可);(3)该校五、六年级共1800人参加了此次竞赛活动,估计参加此次竞赛活动成绩优秀(x≥90)的学生人数是多少?10.为了解九年级学生体育水平,学校对九年级全体学生进行了体育测试,并从甲、乙两班中各随机抽取20名学生成绩进行整理分析(成绩得分用x表示,共分成四组:A.30≤x <35;B.35≤x<40,C.40≤x<45,D.45≤x≤50)下面给出了部分信息:甲班20名学生体育成绩:33,35,36,39,40,41,42,43,44,45,45,46,47,47,48,48,48,49,50,50.乙班20名学生体育成绩在C组中的数据是;40,43,41,44,42,41.甲、乙两班被抽取学生体育成绩统计表:平均数中位数众数方差甲班43.845.5c24.85乙班42.5b4522.34根据以上信息,解答下列问题;(1)a=,b=,c=;(2)根据以上数据,你认为班(填“甲”或“乙”)体育水平更高,说明理由(两条理由):①;②.(3)学校九年级学生共1200人,估计全年级体育成绩优秀(x≥45)的学生人数是多少?。
I.一般线性模型简介 (Generalized Linear Models 或 GLM)一般线性模型GLMs 是将回归方程扩展到非常态分布或非线性的样本的一种统计方法。
● 一般线性模型GLMs 的三个要素■ 随机要素 (random component ):假设被指定为应变量Y 的随机变量是属于某一种特定的概率分布型态 。
■ 系统要素(systematic component ): 在方程式的右侧设定一组解释变量,属于线性的预测变量:ββββ01122++++X X X k k ....■ 连结函数(link function ): 设定随机要素与系统要素之间的统计关系,也就是将 μ=E(Y) 透过方程式连结到解释变量上。
● 一般线性模型 GLMs 的某些特殊型态 ■ 最小二乘法OLS 模型随机要素:常态分布与固定标准误的连续变量系统要素:ββββ01122++++X X X k k ...连结函数:g(μ)= μ■ logit 模型随机要素:Y=1 or 0, 呈二项分布(binomial distribution).系统要素:ββββ01122++++X X Xk k ...连结函数:g(μ)=log [μ /(1- μ)] [logit]■泊松回归模型(Poisson Regression )随机要素:泊松分布(Poisson distribution )下的次数频率 (count frequency)系统要素:ββββ01122++++X X Xk k ...连结函数:g(μ)=log(μ)在列联表( contingency tables )里的数据也是次数频率,因此, Loglinear 模型在一般线性模型GLMs 的架构下,实际上是泊松回归的一种。
总之,一般线性模型GLMs 提供了一种包含了大多数连续与离散变量重要模型的统整模式。
● 最大可能性(似然)估计(Maximum Likelihood Estimation 或MLE )此一估计所得的参数值与所观察到的数值最为一致:也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。
步骤一:决定一个说明未知参数概率的函数(似然函数likelihood function )。
步骤二:找出此一未知参数的观察值,使得此一似然函数达到最大值。
例子:运用二项公式(binomial formula )来计算十个被观察对象当中出现四位女性的概率。
女性在总体当中出现的实际概率是½.因此可得:()P s n p (|,.).(.)====-41050510541046现在假设我们不知道总体当中的女性所占比例 (π ),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π 值为何?最大可能性估计ML E , 就是推估一个总体的参数值,来使得观察值最可能发生。
上述的似然函数就是:()L =-410461ππ()数学上,我们希望找出的是参数值p 来达到这个似然函数L 的最大值,此时p 即是 π的估计值。
在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:i) 最有效率 (变异的极小化minimum variance) ii) 当样本数增加时,其统计偏误会不断缩小。
iii) 其分配型态渐近于随机抽样分布。
当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法 OLS 估计正等于是最大可能性估计MLE (Powers and Xie Appendix B )。
II. 二分法(Binary ) Logit 模型1. 发生比Odds 与发生比率Odds Ratio (Agresti p.268-270):在处理二分法的变量时,发生比Odds 就等于某事件发生的概率除以未发生的概率。
odds pp =-1此处的 p 是指事件发生的概率, (1-p ) 就是事件不发生或失败的概率。
因此,我们也可以用发生比Odds 倒算出概率:podds odds=+1发生比率(Odds ratio)是用来估计不同群体之间事件发生概率的相对比例。
同一个事件的概率,用发生比之间的关系来表达就是:θ=--p p p p 112211/() /()让我们参考实际的例子:1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:. tab party sexcurrent |party | sex of respondentmember? | Male Female | Total-----------+----------------------+----------Yes | 547 162 | 709No | 2,541 2,840 | 5,381-----------+----------------------+----------Total | 3,088 3,002 | 6,090男性成为党员的发生比是多少?女性成为党员的发生比是多少?男性对女性成为党员的发生比率又是多少?. tab nsize14 partysize of |place of |residence | current party member?at 14 | Yes No | Total-----------+----------------------+----------Village | 388 3,697 | 4,085Township | 51 352 | 403County s | 73 292 | 365County-l | 42 219 | 261District | 70 433 | 503Province | 52 254 | 306Beijing, | 32 131 | 163-----------+----------------------+----------Total | 708 5,378 | 6,086对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?对那些十四岁时居住在乡镇的人来说,成为党员的发生率是多少?对那些十四岁时居住在直辖市的人来说,成为党员的发生率是多少?当然,我们也可以由此表格计算出任何两个群体之间的发生比率。
发生比率Odds Ratio θ 有一些良好的统计性质:●与表格对角数字相乘之后的比率相等。
●无论是从行或是列来计算结果都相等。
●可以转换为负值之外的任何数值。
●当θ=1就表示第一行与第二行的发生率相等。
●当θ>1就表示第一行的发生率大于第二行的发生率。
●当θ<1就表示第一行的发生率小于第二行的发生率。
发生比率可广泛运用于 logit模型与 loglinear 模型。
2.二分Logit回归法(Binary Logistic Regression)我们社会科学界经常面对一些二元范畴的应变量,这是因为很多社会现象都是以二分的方式来测量与描述,比如投票行为、出勤与缺席、已婚或未婚等,而非以连续变量的方式来测量与描述的。
我们曾经提到虚拟变量(variable dummy)的概念,当一个应变量被分为k个类型的结果时,可以被转换成 (k-1) 个虚拟变量。
从最简单的情况开始,我们假设一个变量只能分为两个范畴(事件发生 [y=1] 或是未发生 [y=0]).举个实际的例子,我们想解释在中国为何有些人能够加入共产党,我们有个叫“rparty” 的虚拟变量以及其它的解释变量,包括年龄、性别与父亲的党员资格。
. tab rpartyrparty | Freq. Percent Cum.------------+-----------------------------------0 | 5,381 88.36 88.361 | 709 11.64 100.00------------+-----------------------------------Total | 6,090 100.00要建立一个二元应变量的模型,我们可以将该方程式用机率模型表达为:E(Y|X)=β0+β1X1+ β2X2我们该如何设定与估计上述的模型呢?首先,我们可以使用线性机率模型(linear probability model) 也就是OLS来估计,但是线性机率模型有下列问题:a)b)c)超出范围的预测值-机率小于0或大于1 (Y<0 or Y>1)。
d)异方差性(Heteroskedasticity)可能导致无效率的估计值、偏误的标准误与错误的统计检验结果。
确实,异方差性(Heteroskedasticity)与超范围的预测值可以运用最小二乘法OLS以外的线性模型来解决。
然而,错误的函数型态与对边际分布数值的敏感性是线性模型的致命伤。
所以我们必须引进非线性(NONLINEAR) 模型!要对付二元的机率分布型态,我们可以运用的其中一种非线性模型就是 logistic (logit) 模型:P Y X X e e eXXX(|)()===+=++++11111παβαβαβa. 在 β>0 的条件下:当X →+∞, π (x)→ 1 当 X →-∞, π (x)→ 0在 β<0的条件下: 当 X →+∞, π (x)→ 0 当X →-∞, π (x)→ 1因此 0<π (x)<1b. 曲线的斜率:部分微分的结果在线性模型中斜率会成为常数:∂∂βP Y X x(|)=,在logistic 模型中斜率视X 与 β的条件而定:∂π∂βππβ(|)()[()]*(|)[(|)]Y X xX X P y X P y X =-==-=1111因此,π(X)[1- π(X)] 在 π=0.5的时候会达到极大值,也就是说,当 p=0.5的时候,机率密度函数的斜率最高。
logistic 函数也可以转换成发生率:1- π(X)=1/[1+e α+βx ]发生率Oddsπ(X)/[1- π(X)]= e α+βx =e αe βx因此,X 每增加一个单位, 就会让发生率增加e β 倍 (MULTIPLIES the odds by e β)。
c. 发生率对数 “Log Odds”log {π(X)/[1- π(X)]}= α+βX所以,将概率转换到发生率对数(log odds)之后,方程式的两侧都成了X 的线性模型 :“Linear Logit Equation ”。
III 估计与解释1. 估计:最大可能性方法Maximum Likelihood MethodL=Pr(Y 1, Y 2, … Y n )=Pr()y ii n=∏1L p p p p p i y i iii ni ni iy iy i=-=---==∏∏()()()111111log log log()L y p p p i i i i ni i n=-⎛⎝ ⎫⎭⎪+-==∑∑1111也就是,log log()L x y ei i i i n x i ni i=++==∑∑ββ111理论上,MLE所计算出的βi可以使上述的函数极大化;应用上,STATA 可以直接为我们计算出来。