【_标_题】数理统计学:世纪末的回顾与展望
- 格式:doc
- 大小:31.00 KB
- 文档页数:13
概率论与数理统计的发展及在生活中的应用概率论与数理统计的发展及在生活中的应用一.概率论与数理统计的起源与发展概率论的研究始于意大利文艺复兴时期,当时赌博盛行,而且赌法复杂,赌注量大,一些职业赌徒,为求增加获胜机会,迫切需要计算取胜的思路,研究不输的方法,十七世纪中叶,帕斯卡和当时一流的数学家费尔马一起,研究了德·美黑提出的关于骰子赌博的问题,这就是概率论的萌芽。
1657年荷兰物理学家惠更斯发表了“论赌博中的计算”的重要论文,提出了数学期望的概念,伯努利把概率论的发展向前推进了一步,于1713年出版了《猜测的艺术》,指出概率是频率的稳定值,他第一次阐明了大数定律的意义。
1718年法国数学家棣莫弗发表了重要著作《机遇原理》,书中叙述了概率乘法公式和复合事件概率的计算方法,并在1733年发现了正态分布密度函数,但他没有把这一结果应用到实际数据上,直到1924年菜被英国统计学家K·皮尔森在一家图书馆中发现。
德国数学家高斯从测量同一物体所引起的误差这一随机现象独立的发现正态分布密度函数方程,并发展了误差理论,提出了最小二乘法。
法国数学家拉普拉斯也独立的导出了该方程,对概率的意义如何抽象化做出了杰出的贡献,提出了概率的古典定义。
到19世纪末,概率论的主要研究内容已基本形成。
1933年苏联数学家柯尔莫科洛夫总结前人之大成,提出了概率论公理体系,即概率的公理化定义。
概率论里所说的极限定理,主要研究独立随机变量序列的各种收敛性问题,其中包括两种类型定理:一类是大数定律,一类是中心极限定理。
当代概率论的研究方向大致可分为极限理论,马尔可夫过程,平稳过程,随机微分方程等。
数理统计是伴随着概率论的发展而发展起来的一个数学分支,研究如何有效的收集、整理和分析受随机因素影响的数据,并对所考虑的问题做出推断或预测,为采取某种决策和行动提供依据或建议。
数理统计起源于人口统计、社会调查等各种描述性统计活动,其发展大致课分为古典时期、近代时期和现代时期三个阶段。
鏅烘収鏍戠煡鍒般€婃暟鐞嗙粺璁°€?019绔犺妭娴嬭瘯绛旀缁1銆併€愬崟閫夐銆? (20鍒?浜屾垬涔嬪悗锛屾暟鐞嗙粺璁″绉戝湪璁$畻缁熻銆佺悊璁虹粺璁°€佸簲鐢ㄧ粺璁$瓑鏂归潰鍙栧緱蹇€熷彂灞曪紝杩欎釜闃舵绉颁负鏁扮悊缁熻瀛︾殑锛堢旱娣辨椂鏈燂級绗竴绔?1銆併€愬崟閫夐銆? (20锛?2銆併€愬崟閫夐銆? (20鍒?鏌愮彮鏈?8鍚嶅悓瀛︼紝涓€娆¤€冭瘯鍚庣殑鏁板鎴愮哗鏈嶄粠姝f€佸垎甯冿紝骞冲潎鍒嗕负80锛屾爣鍑嗗樊涓?0銆傜悊璁轰笂璇达紝80鍒嗗埌90鍒嗕箣闂寸殑浜烘暟鏄紙16锛?3銆併€愬崟閫夐銆? (20鍒?4銆併€愬崟閫夐銆?(20鍒?璁鹃殢鏈哄彉閲忕殑鏂瑰樊鍧囧瓨鍦紝閭d箞涓嬪垪璇存硶姝g‘鐨勬槸5銆併€愬崟閫夐銆? (20鍒?6銆併€愬崟閫夐銆?(2鍒?绛旀锛歬1+k2=07銆併€愬崟閫夐銆? (2鍒?a=1/2,b=-1/28銆併€愬垽鏂銆?(1鍒?锛堝锛?9銆併€愬垽鏂銆? (1鍒?鍑犱綍鍒嗗竷鍜屾寚鏁板垎甯冩槸鏃犺蹇嗘€у垎甯冦€傦紙瀵癸級10銆併€愬閫夐銆?(3鍒?11澶氶€夐銆? (3鍒?绗簩绔?1銆併€愬崟閫夐銆?(20鍒?绛旀锛氾紙1/8锛?2銆併€愬崟閫夐銆? (20鍒?3銆併€愬崟閫夐銆?(20鍒?绛旀锛歍2=X10-EX14銆併€愬崟閫夐銆? (2鍒?浠ヤ笅鍏充簬鏍锋湰鍜屾搴忕粺璁¢噺鐨勮娉曞摢涓槸姝g‘鐨勶紵锛堟牱鏈槸鐙珛鍚屽垎甯冪殑锛?5銆併€愬崟閫夐銆? (2鍒?绛旀锛氾紙16锛?6銆併€愬崟閫夐銆?(2鍒?绛旀锛氾紙8锛?7銆併€愬崟閫夐銆? (2鍒?绛旀锛氾紙姝e亸鎬佸垎甯冿級8銆併€愬崟閫夐銆? (2鍒?浠ヤ笅鍏充簬鏍锋湰鍧囧€兼娊鏍峰垎甯冪殑缁撹鍝釜鏄纭殑锛?锛堝綋鎬讳綋涓嶆槸姝f€佸垎甯冩椂锛屽彧瑕佹牱鏈噺瓒冲澶э紝鏍锋湰鍧囧€兼笎杩涙湇浠庢鎬佸垎甯? 锛?9銆併€愬崟閫夐銆?(2鍒?绛旀锛氾紙2锛?10銆併€愬垽鏂銆? (1鍒?绛旀锛氾紙瀵癸級11銆併€愬垽鏂銆?(1鍒?绛旀锛氾紙閿欙級12銆併€愬閫夐銆? (3鍒?绛旀锛氾紙X1-渭锛涙搴忕粺璁¢噺锛涚粡楠屽垎甯冨嚱鏁?锛?13銆併€愬閫夐銆? (3鍒?绗笁绔?1銆併€愬閫夐銆?(15鍒?鍒ゆ柇浼拌閲忎紭鑹€ф爣鍑嗘湁锛堝叏閫夛級2銆併€愬崟閫夐銆? (15鍒?鍏充簬鍙傛暟浼拌涓ょ鏂规硶鐨勬弿杩版纭殑鏄紵锛堢煩浼拌涓嶉渶瑕佺煡閬撴€讳綋鍒嗗竷绫诲瀷锛屾瀬澶т技鐒朵及璁¢渶瑕侊級3銆併€愬崟閫夐銆? (15鍒?绛旀锛?4銆併€愬垽鏂銆?(1鍒?鎬讳綋鏈煡鍙傛暟鐨勬棤鍋忎及璁℃€绘槸瀛樺湪鐨勩€傦紙閿欙級5銆併€愬垽鏂銆? (1鍒?锛堥敊锛?7銆併€愬閫夐銆?(3鍒?鎬讳綋鍧囧€嘉肩殑95%鐨勭疆淇″尯闂翠负(20.34, 30.57)銆傚垯涓嬪垪璇存硶涓嶆纭殑鏄紙鎬讳綋鍧囧€嘉肩殑90%鐨勭疆淇″尯闂翠竴瀹氭瘮鍖洪棿(20.34, 30.57)瀹斤紱鎬讳綋鍧囧€嘉肩殑鍊兼湁95%鐨勫彲鑳芥€ц惤鍦?0.34鍜? 30.57涔嬮棿锛涘浜庢鏍锋湰锛屾€讳綋鍧囧€嘉肩殑90%鐨勭疆淇″尯闂翠竴瀹氬寘鍚尯闂?20.34, 30.57)锛?10銆併€愬崟閫夐銆? (2鍒?瀵瑰崟涓鎬佹€讳綋鐨勬湡鏈浳间綔鍖洪棿浼拌锛屽緱鍒扮疆淇″害涓?5%鐨勭疆淇″尯闂达紝鎰忎箟鏄寚杩欎釜鍖洪棿锛?鏈?5%鐨勬満浼氱殑鏈轰細鍚肩殑鍊? 锛?绗洓绔?1銆併€愬垽鏂銆?(1鍒?绛旀锛氾紙閿欙級2銆併€愬垽鏂銆? (1鍒?绛旀锛氾紙瀵癸級3銆併€愬垽鏂銆?(1鍒?鍦ㄥ亣璁炬楠屼腑锛岃嫢鏍锋湰瀹归噺涓嶅彉锛屾樉钁楁€ф按骞充粠0.01鎻愰珮鍒?.1锛? 鍒欑姱绗簩绫婚敊璇殑姒傜巼灏嗕細涓嬮檷銆?锛堝锛?4銆併€愬崟閫夐銆? (2鍒?绛旀锛氾紙娌℃湁瓒冲鐨勮瘉鎹嫆缁滺0鎺ュ彈H1锛?5銆併€愬崟閫夐銆? (2鍒?绛旀锛氾紙伪锛?6銆併€愬崟閫夐銆?(2鍒?绛旀锛氾紙k-r-1 锛?7銆併€愬崟閫夐銆? (2鍒?绛旀锛氾紙34锛?8銆併€愬崟閫夐銆? (2鍒?涓轰簡姣旇緝娴嬪畾娲绘按涓隘姘斿惈閲忕殑涓ょ鏂规硶锛岀壒鍦ㄥ悇绉嶅満鍚堟敹闆嗗埌8涓薄姘存按鏍凤紝姣忎釜姘存牱鍧囩敤杩欎袱绉嶆柟娉曟祴瀹氭隘姘斿惈閲忥紝璁炬€讳綋涓烘鎬佸垎甯冿紝濡傛灉瑕佹瘮杈冧袱绉嶆祴瀹氭柟娉曟槸鍚︽湁鏄捐憲宸紓锛屽垯妫€楠岀粺璁¢噺鎵€鏈嶄粠鐨勫垎甯冧负锛?锛坱(7)锛?9銆併€愬閫夐銆? (3鍒?鏌愪釜妫€楠岀殑P鍊间负0.055锛屼互涓嬬粨璁轰腑姝g‘鐨勬槸锛堝湪0.10鐨勬樉钁楁€ф按骞充笅锛屾嫆缁濆師鍋囪锛涘湪0.05鐨勬樉钁楁€ф按骞充笅锛屼笉鎷掔粷鍘熷亣璁撅級10銆併€愬閫夐銆? (3鍒?绛旀锛?11銆併€愬閫夐銆?(3鍒?。
数理统计学发展简史数理统计学的发展大致可分三个时期来叙述。
20世纪以前,这是数理统计学的萌芽时期。
在这漫长的时期里,描述性统计占据主导地位。
描述性统计就是收集大量的数据,并进行一些简单的运算(如求和、求平均值、求百分比等)或用图表、表格把它们表示出来,中国古代就有钱粮户的统计,西方国家也多次进行人口统计,早期这些统计工作都与国家实施统治有关,统计学的英文statistics源出于位丁文,系由status(状态、国家)和statista(政治家)衍化而来。
这时期也出现了一些现在仍很常用的统计方法,如直方图法,但最重要的,超出描述性统计范围的成就是高斯或勒让德关于最小二乘法的工作,在统计思想上的重大进展有是高斯和勒让德关于最小二乘法的工作,在统计思想上的重大进展是:数据是来自服从一定概率分布的总体,而统计学就是用数据去推断这个分布的未知方面,这个观点强调了推断的地位,使统计学摆脱了单纯描述的性质。
由于高斯等人在误差方面的研究工作,正态分布(又叫高斯分布)的性质和重要性受到广泛重视。
19世纪末皮尔森(K.Pearson,1857-1936)引进了一个以他的名字命名的分布族,它包含了正态分布及现在书籍的一些重要的非正态分布,扩大了人们的眼界 ,皮尔森还提出了一个估计方法——矩估计法,用来估计他所引进的分布族中的参数。
另外,德国的 地测量学者赫尔梅特(F.Helmert)1876年在研究正态总体分布。
高尔顿(F.Galton)在生物学研究中的样本方差时,发现了十分重要的x2提出了回归分析方法,这些都是数理统计发展史中的重要事件。
20世纪初到第二次世界大战结束,这是数理统计学莛发展达到成熟的时期,许多重要的基本观点和方法,以及数理 统计学的主要分支学科,都是在这个时期建立和发展起来的。
在其发展中,以费希尔(R.A.Fisher,1890-1962)为代表的英国学派起了主导的作用。
K.皮乐森在1900年提出了检验拟合优度的x统计量,并证明其极限分布(在2布。
统计学概述[编辑本段] 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。
它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
统计学主要又分为描述统计学和推断统计学。
给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。
另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。
这两种用法都可以被称作为应用统计学。
另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。
统计学的发展历程[编辑本段]统计学的英文statistics最早是源于现代拉丁文statisticum collegium (国会)以及意大利文statista (国民或政治家)。
德文Statistik,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。
在十九世纪统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。
它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”,“政治算数”和“统计分析科学”三个发展阶段。
所谓“数理统计”并非独立于统计学的新学科,确切地说它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。
概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而属于数学的范畴。
统计学的发展过程的三个阶段第一阶段称之为“城邦政情”(Matters of state)阶段“城邦政情”阶段始于古希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”。
世界乒乓球锦标赛的百年回顾与展望薛梦交;宋绍兴【期刊名称】《文体用品与科技》【年(卷),期】2015(000)015【摘要】本文通过数理统计法、文献资料法和逻辑分析法,回顾了世乒赛(世界乒乓球锦标赛)的百年发展历程,分析并总结出不同时期影响世界乒乓球发展的因素,针对目前世界乒乓球发展现存问题,做出了新的展望,以此为世界乒乓球运动开展提出新的可行有效的方法,为研究者提供可靠、有力的参考依据。
主要结论如下:在百年世锦赛中,世界乒乓球运动发展具有明显的区域性、不均衡性、因不同时期的技术发展与创新呈现出不同特征:20世纪前50年代前,欧洲以削球为主的技术统治球坛;50年代,日本远台长抽打发和海绵球拍的发明打破欧洲统治;50年代末至60年代,中国以近台快攻为主打法攀登世界高峰;70—80年代形成欧洲弧圈球与亚洲快攻技术相互抗衡新局面;90年代后,中国乒乓球运动技术不断创新,引领技术发展,至今称霸世界、长盛不衰。
世锦赛透视出的世界乒乓球运动发展存在的问题主要表现为:世界竞技乒乓球运动发展严重失衡、奖牌过于集中在少数几国导致世界乒乓球运动的普及受到影响;此外,提高乒乓球运动观赏性的改革措施不佳、效果不佳;中国为推动世界乒乓球运动在全球发展所提出的系列措施收效甚微。
回眸历史,展望未来作为乒乓球王国的中国,应当承担起作对世界乒乓球运动的发展与普及做出贡献。
首先,应积极推进竞赛模式和规则变革,奖牌分布区域化;其二,国际乒乓球联合会应充分发挥其宏观调控作用、改变世界乒乓球大赛的承办过集中化的现象,激励不同区域、国家承办各种赛事、提升世界赛事的商业价值。
其三,积极推进乒乓球运动在世界范围内的普及与提高,加强不发达地区乒乓球教练员队伍培养,推动普及,指导训练,培养人才。
最后,不断进行乒乓球技战术的创新与改革,解决观赏性的瓶颈,提高乒乓球运动的竞争性。
【总页数】3页(P22-24)【作者】薛梦交;宋绍兴【作者单位】华南理工大学体育学院广东广州 510640;华南理工大学体育学院广东广州 510640【正文语种】中文【相关文献】1.百年安全百年信赖——MSA百年辉煌回顾与展望 [J], 陈新宇2.百年沧桑百年辉煌——中国钨业百年历史回顾与展望 [J], 孔昭庆3.百年玉米,再铸辉煌——中国玉米产业百年回顾与展望 [J], 戴景瑞;鄂立柱;4.百年玉米,再铸辉煌——中国玉米产业百年回顾与展望 [J], 戴景瑞;鄂立柱;5.百年玉米,再铸辉煌──中国玉米产业百年回顾与展望 [J], 戴景瑞;鄂立柱因版权原因,仅展示原文概要,查看原文内容请购买。
内蒙古财经学院学报(综合版)2010年第8卷第4期统计学专业建设的回顾与展望冯利英(内蒙古财经学院统计与数学学院,内蒙古呼和浩特010051)[摘要]文章回顾了统计学专业发展的历程;总结了统计学专业建设过程中取得的成就;概括了专业建设中面临的问题;展望了专业发展的未来,确定了奋斗的目标。
[关键词]统计学;专业建设;回顾;展望[中图分类号]G649.21[文献标识码]A[文章编号]1672—5344{20LO)04—0028—05专业是学校人才培养工作具体实施的载体,学生专业知识和能力的构建是通过专业的学习来完成的,因此,涉及专业建设的课程标准、师资队伍、教学模式等主要内容的质量,势必会影响到人才培养的质量。
专业建设是学院办学特色的集中体现,是学校各项教学建设的核心,是提高教育教学质量和办学水平的根本保证。
众所周知,一所学校有名气,是与它具有自己的特色和优势相关,这些特色和优势的形成是与学校的办学历史、文化积淀、科研成果和能为社会输送优秀的人才密不可分。
内蒙古财经学院统计学专业是跟随我国改革开放巨变而前行的。
50年间,统计学专业伴随着改革开放的伟大实践发生了翻天覆地的变化,实现了跨越式发展。
统计学专业是内蒙古财经学院最早设立的专业教学单位之一,是学院最早开设的高等教育本科专业之一,目前是内蒙古自治区唯一授予经济学学位的统计学专业。
本专业白设置以来,在探索专业的发展和学科建设方面做了大量工作,培养了大批统计学专业技术人才,凝练出各具特色的研究方向和创新团队,发表了许多学术成果,涌现出一批学术领军者,取得了一系列成果,成就斐然。
统计学专业现为内蒙古自治区重点专业、品牌专业;统计学课程为自治区级精品课程、统计学专业2007年开始招硕士研究生,是内蒙古财经学院五个硕士点之一。
本学科及专业在长期的建设和发展过程中已确立了自己的专业优势和特色,在边疆少数民族地区的统计人才培养中做出了突出贡献,成为自治区重要的统计学专业本科生、研究生培养基地和统计理论科研基地。
数理统计的起源和发展李永利黑龙江八一农垦大学信息技术学院农业电气化任何一门学科的产生和发展,都离不开实践的需要,离不开已建立的其他邻近学科.对数理统计这门学科来说,尤其是这样。
因而在谈到数理统计的起源和发展时,必须介绍概率论的产生和形成,田为概率论是数理统计的理论基础。
Ⅰ.起源起源与理统计与概率论的关系,可以用测地学与几何学的关系来比拟。
几何学产生于土地的测量,这是众所周知的。
概率论,也是述主人们观亲大量约髓机现象,搜集大量的数据,进行归纳分析,而逐步产生出来的。
所以,从某种意义上说,概率论的创立,与初等统计是有密切关系的。
在西方各国,统计工作开始于公元前3050年,埃及建造金字塔,为征收建筑费用,对全国人口进行普查和统计。
到了亚里斯多德(Aristotle)时代,统计工作开始往理性演变。
这时,统计在卫生、保险、国内外贸易、军事和行政管理等方面的应用,都有详细的汜载。
统计(Statistics)一词,就是从意大利文Statisti(意指国家、政治)逐步演变而成。
到了15世纪,意大利进入了文艺复兴时期。
一些随机博奕盛行,有的赌徒为了获胜,终日冥思苦想,作了大量的试验和统计工作,从中发现一些解释不了的现象,便去请教当时著名的数学家、天文学家吉里埃(Galilco1564—1642)。
吉里埃研究了赌徒们提出的问题后,损凡了关于概率论的一些简要而有价值的定理。
这些定理,为妆坦统计的皮展奠定了根基。
到了16、l7世纪,各种娱乐和赌钱的方法越来越复杂,这样,有些人又提出了一些新的问题,需要专家们来解释。
如当时法国的一位叫梅耳(Me’re’)的著名赌徒,他曾向当时的哲学家和数学家巴士加(B.Fascal1623一1662)提出如下问题:掷一粒骼子,4次中至少出现一个6的机会,要比掷两粒骼子4次中至少出现一对6的机会更多丝,这是否成立?这一问题,引起了巴士加和他的朋友——另一位数学家费尔马(Fermat1601—1665)的兴趣。
统计学的发展历程.doc统计学是一门研究数据收集、数据分析和数据解释的学科,在现代科学和技术领域中起着重要的作用。
统计学的发展历程可以追溯到古希腊时期的“概率思想”,但现代统计学的发展始于18世纪末期的欧洲。
18世纪末至19世纪初,英国的农业革命,推动了统计学的发展。
威廉·佩里在1791年发表的《纪念广义与特殊的生产力》中,首次明确提出了“统计学”这一术语。
后来,欧洲大陆的统计学家们如比萨里、拉普拉斯、泊松等人开始研究概率和统计学的理论,为统计学的理论奠定了基础。
20世纪初,统计学的范围逐渐扩大。
1920年代,由斯特松提出的小概率理论成为了现代统计理论的基础之一,20世纪30年代,拉丁广场计划中的统计学的应用,有力地促进了应用统计学的发展。
此时统计学的范围已经扩展到医学、社会科学、经济学及工程学等各个领域。
二战后,现代计算技术的发展,加速了统计学的发展。
1955年,著名的贝叶斯理论在以贝曼为代表的贝叶斯派中得到突破性的发展,贝叶斯方法成为现代统计学中一个重要的思维方式。
现代非参数统计学、大样本理论、决策理论、贝叶斯统计学等理论的提出,使统计学理论完整和丰满起来。
同时,计算机技术的日益完善,使得统计学的计算和应用更加便捷。
21世纪以来,统计学继续发展壮大。
在信息技术的飞速发展、数据大爆炸的大环境下,各种新的技术手段如机器学习、深度学习、数据挖掘、人工智能等崛起,极大地拓宽了统计学的应用领域,使得统计学的前景更加广阔。
总之,统计学的历程中,从最初的数据收集和处理,逐步发展到理论构建、方法创新、应用拓展和技术更新等多个层面,成为现代科学和技术不可或缺的一部分。
20世纪统计学的回顾与展望作者:张南关键词:统计学;信息科学;金融工程;极值统计学一、20世纪统计学的发展按照统计学科体系的基本原理与应用的不同,统计学可分为理论统计学与应用统计学两大类。
理论统计学指的是统计学的数学性原理,也就是数理统计学,具有通用方法论的理学性质。
应用统计学指的是基于理论统计学的基本原理,应用于各个领域的数据处理方法,统计解析方法及统计推测方法。
其特征有二:一是其数理性原理为各研究领域通用;二是具有对应于某特定领域的特有的分析方法。
比如经济统计学中的指数分析法,医药统计学中的生存解析法等。
理论统计学的基础理论在20世纪的20-30年代已经基本完成。
其中由英国统计学家费舍(R.A.Fisher,1890-1962)所确立的统计推测理论,样本分布理论,试验计划法及F分布理论对奠定20世纪统计学的基础理论作出了很大的贡献。
40-50年代对统计学来说是分布理论的时代。
以概率分布的形式成功地将各种随机现象的数量特征、性质加以归纳、描述。
60年代是分布偏差有效(Robust)推定理论盛行的时代。
即采用古典的方法论成功地解决了概率分布的假定与实际数据分布偏离的问题。
但是,其研究所假定的概率模型侧重于数学形式的完整可能,而对数据所遵从的概率分布的拟合准确性的考虑尚有欠缺。
在以后的系统控制论中,分布偏差有效理论起到了很大的作用。
70年代可以认为是规范化线性模型的时代。
自德国统计学家高斯(C.F.Gauss,1777一1855)创立误差与正态分布理论及最小二乘法以来,在70年代,从正态分布的假定,发展到将共变量的条件分布线性模型化。
其方法论的核心是剔除正态性的假定,实现了包括从二项分布到咖码分布的规范线性化。
此理论与概率随机过程理论相结合,促成了对医学数据可进行深入考察的生存解析法的产生。
从分布的假定与数据的偏差这种关系来看,规范化线性模型理论与60年代的分布偏差有效理论是从不同的角度对推定统计量进行的研究。
演变过程从概率论到数理统计的发展概率论和数理统计是数学中两个重要的分支,它们在现代科学和实践中起着至关重要的作用。
从概率论到数理统计的发展经历了漫长的历史过程,本文将追溯这一演变的发展过程。
一、概率论的起源概率论的概念最早可追溯到古希腊时期的赌博问题,人们开始思考赌博事件发生的可能性。
然而,概率论的正式建立始于17世纪,由法国数学家布莱兹·帕斯卡尔和皮埃尔·德费尔马特推动。
帕斯卡尔对赌博问题的研究促使他提出了概率的概念,并建立了概率的数学理论。
德费尔马特进一步完善了概率的数学模型,提出了概率论的公理系统,奠定了概率论的基础。
二、概率论的发展18世纪,瑞士数学家洛朗斯·伯努利在概率论领域做出了重要贡献。
他研究了伯努利实验,并提出了大数定律,说明概率在重复试验中的稳定性。
这为概率论的应用奠定了基础,促使人们开始将概率应用于风险管理、保险等领域。
19世纪末期,概率论得到了进一步的发展。
俄国数学家安德烈·马尔可夫提出了马尔可夫链的概念,为随机过程的研究奠定了基础。
法国数学家勒贝格则提出了测度论的理论框架,为概率论的严格化提供了数学基础。
三、数理统计的兴起概率论的建立为数理统计的发展提供了基础。
数理统计是通过收集和分析数据来推断总体特征和进行决策的一门学科。
它开始于19世纪末20世纪初的统计学家们对数据的研究。
最著名的统计学家之一是英国统计学家卡尔·皮尔逊。
他提出了相关系数和卡方检验等统计方法,为数理统计的理论与方法的发展做出了贡献。
同时,他也是现代数理统计学派中“贝叶斯学派”的代表人物之一。
20世纪初,数理统计学得到了广泛的应用。
在工业、医学、生物学等领域,统计学的方法被用于数据分析和决策。
此外,两次世界大战期间,统计学的应用也在军事领域发挥了重要作用,例如用于战略决策和情报分析。
四、概率论与数理统计的融合概率论和数理统计逐渐融合成为现代统计学的核心内容。
第26卷Vol126 第3期No13西华师范大学学报(自然科学版)Journal of China W est Nor mal University(Natural Sciences)2005年9月Sep12005文章编号:100128220(2005)0320334204可靠性统计与数据挖掘①张德然(西华师范大学数学与信息学院,四川南充637002)摘 要:讨论了可靠性统计与数据挖掘之间的关系.指出了用统计的理论与方法去进行数据挖掘在目前情况下仍不失是一种重要的方法.关键词:可靠性统计;异常数据;数据挖掘中图分类号:O21312 文献标识码:B1 前 言可靠性是产品寿命指标的总称,故产品的寿命指标又称为产品的可靠性指标.它反映了一个产品在规定时间内和规定条件下完成规定功能的能力.小到一个电子元件,大到一个系统,由于其寿命均是一个随机变量,所以确定可靠性指标最后都归结为一个统计推断问题.半个多世纪以来,可靠性的理论和方法经历了20世纪50年代的起步阶段,60年代的发展阶段,70年代的成熟阶段,80年代的更深更广的发展及90年代以来进入的综合化、自动化、智能化和实用发展的阶段,目前伴随着科学技术的发展,一些来自各行各业的新的问题的不断提出及不断地得以研究解决,可靠性统计已逐渐成熟,其特点可概括为:内容丰富,发展迅速,应用广泛.2 可靠性统计可靠性统计是基于数据(一般统称为寿命数据)的,其数学基础是概率论与数理统计.许多统计专家指出:数据的可信性一直是困扰统计工作者的一个首要问题.因为谁都知道,从虚假的数据出发很难作出正确的决策,“歪打正着”在复杂的决策中能够奏效的可能性几乎不存在.19世纪美国人亚特姆斯・沃德(A rte2 mus ward)说过的一句话,一针见血地指出了虚假资料的危害:“办事不利非因无知实因误知.”(It isn’t the things we don’t kno w that gets us in tr ouble.It’s the things we know that aren’t s o).3 数据挖掘正是基于上述,数据的收集、整理、分析以及在不同获取数据方式之下对几种常用寿命分布中的参数估计及相关检验是近年来可靠性统计研究的热点,并不断有新的突破和进展,而其中工作的重中之重则是从我们所拥有的大量的数据中找出有用信息,这就是数据挖掘(Data M ining).数据挖掘可定义为从大规模数据中找出隐藏其中的有意义、重要的信息或模式的探索过程.在可靠性统计中,不论是对完全寿命试验,还是截尾寿命试验,乃至近年来新发展起来的有效的缩短试验时间的加速寿命试验,其有用信息的获取总是通过构造样本的函数,即数据挖掘是通过构造适当的统计量来实现的.众所周知,数据的质量问题本质上是误差问题,即提供的数据与客观实际的数量之间的差距问题.如果数据中混进了异常值,就会使相应统计分析误差增大,小则出差错,大则发生事故,甚至导致宏观决策上的失①收稿日期:2005-04-20基金项目:全国统计科学研究立项资助项目(LX03-Y23);安徽省教育厅自然科学研究资助项目(2004KJ306).作者简介:张德然(1953-),男,安徽阜阳人,西华师范大学数学与信息学院副教授,主要从事概率论与数理统计的教学及研究工作. 第26卷第3期张德然:可靠性统计与数据挖掘335 误.因此,从已有数据中剔除异常值无疑是数据挖掘一个重要组成部分.基于此,长期以来,国内外一些专家针对具体的寿命分布进行了相关异常值检验的研究.象马逢时等将D ixon型统计量rij =x(n)-x(n-i)x(n)-x(j+1),i=1,2;j=0,1,2,作为剔除特大异常值的检验用到极值分布,导出其在假设H0下的分布函数,并给出了分位点表,但这只能用来做“Consecutive”检验(即依顺序一个一个地检验),而不能用在“B l ock”检验(即最大的或最小的几个数据同时得到检验).Barnett and le wis给出了T1=x(1)∑xj似然比检验统计量,用来检验指数样本x1,x2,…,xn 中的单个下异常值x(1).对于多个下异常值的非一致性检验,传统的方法用检验单个下异常值的方法逐步进行,即为Consecutive-test.例如用Tk =x(k)x(K)+…+x(n)来检验第k个下异常值x(k),而把x(k),…,x(n)仅简单地认为来自顺序统计量y1,y2,…,y n-k的样本,它没有充分利用样本信息,功效不高,而且T k的临界值t k(α)是从T1的临界值表中近似得到的.王蓉华、费鹤良、徐晓岭1998年提出了一种适用多种分布(单参数指数分布,两参数weibull分布,两参数对数正态分布)的异常值检验的统一的新方法———均值比检验,它一次能检验出多个异常数据.如此等等,一些文献讨论的异常数据的检验方法其给出的检验统计量经常遇到Masking效应和S wanp ing效应.同时其给出的检验统计量一般只适用于数据中仅有异常大数据或仅有异常小数据,不适用于两者都存在的情形.2001年,王炳兴从由于异常数据在样本中只是极少数,因此有序样本的中间部分应都是正常数据这一思考出发,针对指数分布场合,利用参数θ的BLUE之比构造出一个近似的F-统计量,由中间正常数据出发,分别向左或向右添加一个相邻数据,用所构造的检验统计量重复进行检验,直至找出最小的异常大值及最大的异常小值为止.2003年,张德然、茆诗松针对指数分布场合同对存在异常大和异常小值的情况给出了“取中逐步推移检验法”.由于每一检验步骤中除了添加数据可能是异常值外,不包含其它异常数据,因此能克服Masking效应和S wa mp ing效应,它不但适合异常大及异常小值同时存在的检验,而且也适用于仅含异常大或异常小值的检验.同时,国家标准局也分别针对正态样本,I型极值分布样本及指数样本等给出了异常值的判断和处理方法.如此等等,概括起来说,文献中异常数据的检验方法不外乎二类:(1)从整体样本出发,利用某个检验统计量逐步排除异常值;(2)利用某种方法,如根据某个准则找出可疑的数据集,然后用合适的检验统计量检验这个数据集是否异常.例如,在张德然、茆诗松针对指数分布场合同对x(1),…,x(n)中存在异常大和异常小值的情况给出了“取中逐步推移检验法”中,从整体样本出发,根据^uk+1/^u k的差异大小这个准则找出可疑的数据集,然后用F检验统计量检验这个数据集是否异常.^uk =1k∑ki=1x(j)+(n-k)x(k).4 应用实例例1 对单参数指数分布我们取n=10,k=6,其中x(1),…,x(6)来自标准指数分布,x(7),…,x(10)来自参数θ为5的指数分布,用Monte carl o模拟的方法产生这10个随机数如下:010799,011363,012793,014231,016179,019212,418216,518336,815491,131559.利用uk =1k∑ki=1x(i)+(n-k)x(k),分别计算统计量^u k+1/^u k(1≤k≤9)得各点的跳跃度如下: 018174,112504,110582,110704,111064,310343,019972,110837,110342.比较上述数据可知,对右侧而言,在k=6处跳跃度最大,x(7),…,x(10)极大可能为异常大值,取1-α=0195,f0195(2,12)=3189,u0195=f0195(2,12)+67=114129.显然有^u k+1/^u k=310343>^u0195=114129.所以x(7)=418216为异常大值.且针对样本数据010799,011363,012793,014231,016179,019212而言,u0195=f0195(2,12)+66+1=3189+67=114129而^u6/^u5=111064<^u0195=114129,故x(6)=019212不是异常值. 西华师范大学学报(自然科学版) 2005年336所以x=418216是最小的异常大值,从而418216,518336,815491,1310559均为异常大值.(7)单一的统计,单一的常用数据挖掘技术可能将某些异常值漏除或者将真值剔除,这是数据挖掘要尽量避免的.这里提供一种解决方案就是,综合用几种方法进行检验,这样可以较好的避免该类错误的发生.例如在解决上例时,用张德然、茆诗松针对指数分布场合同对存在异常大和异常小值的情况给出了“取中逐步推移检验法”后,再用王蓉华、费鹤良、徐晓岭1998年提出均值比检验,检验后,该例的异常值仍为418216, 518336,815491,1310559因此,该我们可以确定该组数据:010799,011363,012793,014231,016179, 019212,418216,518336,815491,131559的异常值为4.8216,5.8336,8.5491,13.0559.可见,通过构造样本函数是可靠性统计中实施数据挖掘的一种很重要的方法.同时利用一些数据的可视化工具,如直方图、散点图等以及聚类分析、要因分析等一些探索数据的解析方法进行数据挖掘也同样在可靠性统计的某些特定背景下充当着重要角色.这些都足以表明,高效地对数据进行视觉化及理性化处理,是保证可靠性统计中推断质量的充要条件.5 结束语面向21世纪的信息社会,理学性质的理论和实践应用与方法的研究齐头并进.特别是随着信息科学的进步,可靠性统计应用的范围越来越广.虽然统计数据的计算变得简单了,但根据研究对象的不同,统计分析方法也相对复杂化、专业化,数据处理及数据采集挖掘的方法必然会呈现出多样化.就拿异常值的检验而言,那些理论上被剔除的异常值是相对一定精度而言的,毕竟它们和其它数据一样也来自同一总体,因此或多或少的会带来一些总体的信息.何况检验本身也会犯错误.所以从某种意义上讲,这种剔除也可能会使一部分信息丢失,如何能在数据挖掘过程中不丢失或极大可能的少丢失有用的信息,这仍是今后需要研究的课题.事实上,可靠性统计与数据挖掘既各自有自己的特色内容但在很多背景下密切相关.概括起来讲,没有数据挖掘,就没有可靠性统计的理论与方法,可靠性统计的理论与方法不断发展又激励着数据挖掘技术的不断创只给出分布的具体函数形式,而其中含有未知参数,为了保新与完善.譬如在χ2-拟合优度检验中,假设Ho证数据信息的可靠性,我们首先抽取一样本数据来估计未知参数,之后再随机抽取一样本,从中挖掘有用的信息来检验H.在数据的挖掘的过程中可靠性统计的理论和方法又发挥着支撑作用.在前面已阐述的异常o值的检验问题已足以说明了这一点.陈希孺院士在《数理统计学:世纪末的回顾与展望》中指出:“统计学和其他学科结合发展是一个正确的方向,也极可能成为未来发展的主流之一”.近年来,统计方法在各领域的广泛应用及所获得的成功,已使它的地位与作用发生了重大变化.运用各种统计方法与相应的软件工具对数据进行挖掘,从不同视角、不同层面进行分析比较,其内容极为丰富.信息科学的进步为可靠性统计的发展提供了广阔的空间,数据挖掘同样需要可靠性统计及计算机科学等学科的融通协作.如何发挥各学科的优势,最大程度地避免人为因素的干扰,有效地从数据中挖掘出有意义的信息仍是一个值得进一步深入研究的问题.但就可靠性统计而言,用统计的理论与方法去进行数据挖掘至少在目前情况下仍不失是一种重要方法.参考文献:[1] 张德然,茆诗松.指数分布场合下同时存在异常大和异常小值的检验[J].应用数学,2004,17(1):55-60.[2] 张德然.统计数据中异常值的检验方法[J].统计研究,2003(5):53-55.[3] BEST D J,J C W.Test of Fit f or the Geometric D istributi on,Communicati on in Statistics Theory and M ethods[J].2003,32(5):913-928.[4] 孙薇斌.数据挖掘中统计方法的作用和问题点[J].数理统计与管理,2004,23(5):78-80.[5] 张尧庭.数据的统计处理和解释[M].北京:中国标准出版社,1997.[6] 陈希儒.高等数理统计学[M].合肥:中国科学技术大学出版社,1999.[7] 张志华.加速寿命试验及其统计分析[M].北京:北京工业大学出版社,2002.[8] 王容华.异常数据检验的均值比方法[J].数理统计与应用概率,1998,13(1):63-70.[9] 王炳兴.指数分布场合异常数据的检验[J].应用概率统计,2001,17(3):255-259. 第26卷第3期张德然:可靠性统计与数据挖掘337Reli a bility St atisti cs&Dat a M i n i n gZHANG De2ran(College of Math and I nf or mati on.China W est Nor mal University,Nanchong637002,China)Abstract:I n this paper,we have discussed the relati ons bet w een data m ining and reliability statistics.W e have pointed out that no w it is an i m portant method t o take data m ining by statistics theory and method.Key words:reliability statistics;outlier value;data m ining(上接第320页)D iscussi on About Ther mal Spri n gs andThei r Develop ment Strategi es i n Chongqi n gHU Zhi2yi(College of T ouris m,Chongqing Nor mal University,Chongqing400047,China)Abstract:Ther mal s p ring t ouris m has beco me a hot t op ic in the field of t ouris m research in recent years.I n this pa2 per,the four maj or characteristics of ther mal s p rings in Chongqing have been generalized firstly,including the a2 bundance of ther mal s p rings res ources,the l ong hist ory f or devel opment and using,l ocating in a high density in a comparatively narr ow area and combining with other vari ous natural and cultural t ouris m res ources t ogether.Fur2 ther,based on the current p r oblem s in the p r ocess of ther mal s p rings devel opment in Chongqing,the author has put for ward suggesti ons in five as pects as foll o ws:(1)p racticing diversified devel opment pattern such as sanitarium pat2 tern,holiday res ort pattern;(2)strengthening the devel opment of access orial establishment;(3)reinf orcing the effectiveness of t ouris m marketing;(4)paying more attenti on t o the marketing i m age designing and p r omoting;(5)and never ignoring the p r otecti on of ther mal s p rings.Key words:ther mal s p rings;characteristics;devel opment strategy;Chongqing。
概率论与数理统计发展简史在这里,我们将简略地回顾一下概率论与数理统计的发展史,包括发展过程中所经历的一些大事,以及对这门学科的创立和发展有特别重大影响的那些学者的贡献.17世纪,正当研究必然性事件的数理关系获得较大发展的时候,一个研究偶然事件数量关系的数学分支开始出现,这就是概率论.早在16世纪,赌博中的偶然现象就开始引起人们的注意.数学家卡丹诺(Cardano)首先觉察到,赌博输赢虽然是偶然的,但较大的赌博次数会呈现一定的规律性, 卡丹诺为此还写了一本《论赌博》的小册子,书中计算了掷两颗骰子或三颗骰子时,在一切可能的方法中有多少方法得到某一点数.据说,曾与卡丹诺在三次方程发明权上发生争论的塔尔塔里亚,也曾做过类似的实验.促使概率论产生的强大动力来自社会实践.首先是保险事业.文艺复兴后,随着航海事业的发展,意大利开始出现海上保险业务.16世纪末,在欧洲不少国家已把保险业务扩大到其它工商业上,保险的对象都是偶然性事件.为了保证保险公司赢利,又使参加保险的人愿意参加保险,就需要根据对大量偶然现象规律性的分析,去创立保险的一般理论.于是,一种专门适用于分析偶然现象的数学工具也就成为十分必要了.不过,作为数学科学之一的概率论,其基础并不是在上述实际问题的材料上形成的.因为这些问题的大量随机现象,常被许多错综复杂的因素所干扰,它使难以呈“自然的随机状态”.因此必须从简单的材料来研究随机现象的规律性,这种材料就是所谓的“随机博弈”.在近代概率论创立之前,人们正是通过对这种随机博弈现象的分析,注意到了它的一些特性, 比如“多次实验中的频率稳定性”等,然后经加工提炼而形成了概率论.荷兰数学家、物理学家惠更斯(Huygens)于1657年发表了关于概率论的早期著作《论赌博中的计算》.在此期间,法国的费尔马(Fermat)与帕斯卡(Pascal)也在相互通信中探讨了随机博弈现象中所出现的概率论的基本定理和法则.惠更斯等人的工作建立了概率和数学期望等主要概念,找出了它们的基本性质和演算方法,从而塑造了概率论的雏形.18世纪是概率论的正式形成和发展时期.1713年,贝努利(Bernoulli)的名著《推想的艺术》发表.在这部著作中,贝努利明确指出了概率论最重要的定律之一――“大数定律”,并且给出了证明,这使以往建立在经验+++-之上的频率稳定性推测理论化了,从此概率论从对特殊问题的求解,发展到了一般的理论概括.继贝努利之后,法国数学家棣谟佛(Abraham de Moiver)于1781年发表了《机遇原理》.书中提出了概率乘法法则,以及“正态分”和“正态分布律”的概念,为概率论的“中心极限定理”的建立奠定了基础.1706年法国数学家蒲丰(Comte de Buffon)的《偶然性的算术试验》完成,他把概率和几何结合起来,开始了几何概率的研究,他提出的“蒲丰问题”就是采取概率的方法来求圆周率π的尝试.通过贝努利和棣谟佛的努力,使数学方法有效地应用于概率研究之中,这就把概率论的特殊发展同数学的一般发展联系起来,使概率论一开始就成为数学的一个分支.概率论问世不久,就在应用方面发挥了重要的作用.牛痘在欧洲大规模接种之后,曾因副作用引起争议.这时贝努利的侄子丹尼尔•贝努利(Daniel Bernoulli)根据大量的统计资料,作出了种牛痘能延长人类平均寿命三年的结论,消除了一些人的恐惧和怀疑;欧拉(Euler)将概率论应用于人口统计和保险,写出了《关于死亡率和人口增长率问题的研究》,《关于孤儿保险》等文章;泊松(Poisson)又将概率应用于射击的各种问题的研究,提出了《打靶概率研究报告》.总之,概率论在18世纪确立后,就充分地反映了其广泛的实践意义.19世纪概率论朝着建立完整的理论体系和更广泛的应用方向发展.其中为之作出较大贡献的有:法国数学家拉普拉斯(Laplace),德国数学家高斯(Gauss),英国物理学家、数学家麦克斯韦(Maxwell),美国数学家、物理学家吉布斯(Gibbs)等.概率论的广泛应用,使它于18和19两个世纪成为热门学科,几乎所有的科学领域,包括神学等社会科学都企图借助于概率论去解决问题,这在一定程度上造成了“滥用”的情况,因此到19世纪后半期时,人们不得不重新对概率进行检查,为它奠定牢固的逻辑基础,使它成为一门强有力的学科.1917年苏联科学家伯恩斯坦首先给出了概率论的公理体系.1933年柯尔莫哥洛夫又以更完整的形式提出了概率论的公理结构,从此,更现代意义上的完整的概率论臻于完成.相对于其它许多数学分支而言,数理统计是一个比较年轻的数学分支.多数人认为它的形成是在20世纪40年代克拉美(H.Carmer)的著作《统计学的数学方法》问世之时,它使得1945年以前的25年间英、美统计学家在统计学方面的工作与法、俄数学家在概率论方面的工作结合起来,从而形成数理统计这门学科.它是以对随机现象观测所取得的资料为出发点,以概率论为基础来研究随机现象的一门学科,它有很多分支,但其基本内容为采集样本和统计推断两大部分.发展到今天的现代数理统计学,又经历了各种历史变迁.统计的早期开端大约是在公元前1世纪初的人口普查计算中,这是统计性质的工作,但还不能算作是现代意义下的统计学.到了18世纪,统计才开始向一门独立的学科发展,用于描述表征一个状态的条件的一些特征,这是由于受到概率论的影响.高斯从描述天文观测的误差而引进正态分布,并使用最小二乘法作为估计方法,是近代数理统计学发展初期的重大事件,18世纪到19世纪初期的这些贡献,对社会发展有很大的影响.例如,用正态分布描述观测数据后来被广泛地用到生物学中,其应用是如此普遍,以至在19世纪相当长的时期内,包括高尔顿(Galton)在内的一些学者,认为这个分布可用于描述几乎是一切常见的数据.直到现在,有关正态分布的统计方法,仍占据着常用统计方法中很重要的一部分.最小二乘法方面的工作,在20世纪初以来,又经过了一些学者的发展,如今成了数理统计学中的主要方法.从高斯到20世纪初这一段时间,统计学理论发展不快,但仍有若干工作对后世产生了很大的影响.其中,如贝叶斯(Bayes)在1763年发表的《论有关机遇问题的求解》,提出了进行统计推断的方法论方面的一种见解,在这个时期中逐步发展成统计学中的贝叶斯学派(如今,这个学派的影响愈来愈大).现在我们所理解的统计推断程序,最早的是贝叶斯方法,高斯和拉普拉斯应用贝叶斯定理讨论了参数的估计法,那时使用的符号和术语,至今仍然沿用.再如前面提到的高尔顿在回归方面的先驱性工作,也是这个时期中的主要发展,他在遗传研究中为了弄清父子两辈特征的相关关系,揭示了统计方法在生物学研究中的应用,他引进回归直线、相关系数的概念,创始了回归分析.数理统计学发展史上极重要的一个时期是从19世纪到二次大战结束.现在,多数人倾向于把现代数理统计学的起点和达到成熟定为这个时期的始末.这确是数理统计学蓬勃发展的一个时期,许多重要的基本观点、方法,统计学中主要的分支学科,都是在这个时期建立和发展起来的.以费歇尔(R.A.Fisher)和皮尔逊(K.Pearson)为首的英国统计学派,在这个时期起了主导作用,特别是费歇尔.继高尔顿之后,皮尔逊进一步发展了回归与相关的理论,成功地创建了生物统计学,并得到了“总体”的概念,1891年之后,皮尔逊潜心研究区分物种时用的数据的分布理论,提出了“概率”和“相关”的概念.接着,又提出标准差、正态曲线、平均变差、均方根误差等一系列数理统计基本术语.皮尔逊致力于大样本理论的研究,他发现不少生物方面的数据有显著的偏态,不适合用正态分布去刻画,为此他提出了后来以他的名字命名的分布族,为估计这个分布族中的参数,他提出了“矩法”.为考察实际数据与这族分布的拟合分布优劣问题,他引进了著名“χ2检验法”,并在理论上研究了其性质.这个检验法是假设检验最早、最典型的方法,他在理论分布完全给定的情况下求出了检验统计量的极限分布.19 01年,他创办了《生物统计学》,使数理统计有了自己的阵地,这是20世纪初叶数学的重大收获之一.1908年皮尔逊的学生戈赛特(Gosset)发现了Z的精确分布,创始了“精确样本理论”.他署名“Student”在《生物统计学》上发表文章,改进了皮尔逊的方法.他的发现不仅不再依靠近似计算,而且能用所谓小样本进行统计推断,并使统计学的对象由集团现象转变为随机现象.现“Student分布”已成为数理统计学中的常用工具,“Student氏”也是一个常见的术语.英国实验遗传学家兼统计学家费歇尔,是将数理统计作为一门数学学科的奠基者,他开创的试验设计法,凭借随机化的手段成功地把概率模型带进了实验领域,并建立了方差分析法来分析这种模型.费歇尔的试验设计,既把实践带入理论的视野内,又促进了实践的进展,从而大量地节省了人力、物力,试验设计这个主题,后来为众多数学家所发展.费歇尔还引进了显著性检验的概念,成为假设检验理论的先驱.他考察了估计的精度与样本所具有的信息之间的关系而得到信息量概念,他对测量数据中的信息,压缩数据而不损失信息,以及对一个模型的参数估计等贡献了完善的理论概念,他把一致性、有效性和充分性作为参数估计量应具备的基本性质.同时还在1912年提出了极大似然法,这是应用上最广的一种估计法.他在20年代的工作,奠定了参数估计的理论基础.关于χ2检验,费歇尔1924年解决了理论分布包含有限个参数情况,基于此方法的列表检验,在应用上有重要意义.费歇尔在一般的统计思想方面也作出过重要的贡献,他提出的“信任推断法”,在统计学界引起了相当大的兴趣和争论,费歇尔给出了许多现代统计学的基础概念,思考方法十分直观,他造就了一个学派,在纯粹数学和应用数学方面都建树卓越.这个时期作出重要贡献的统计学家中,还应提到奈曼(J.Neyman)和皮尔逊(E.Pearson).他们在从1928年开始的一系列重要工作中,发展了假设检验的系列理论.奈曼-皮尔逊假设检验理论提出和精确化了一些重要概念.该理论对后世也产生了巨大影响,它是现今统计教科书中不可缺少的一个组成部分,奈曼还创立了系统的置信区间估计理论,早在奈曼工作之前,区间估计就已是一种常用形式,奈曼从1934年开始的一系列工作,把区间估计理论置于柯尔莫哥洛夫概率论公理体系的基础之上,因而奠定了严格的理论基础,而且他还把求区间估计的问题表达为一种数学上的最优解问题,这个理论与奈曼-皮尔逊假设检验理论,对于数理统计形成为一门严格的数学分支起了重大作用.以费歇尔为代表人物的英国成为数理统计研究的中心时,美国在二战中发展亦快,有三个统计研究组在投弹问题上进行了9项研究,其中最有成效的哥伦比亚大学研究小组在理论和实践上都有重大建树,而最为著名的是首先系统地研究了“序贯分析”,它被称为“30年代最有威力”的统计思想.“序贯分析”系统理论的创始人是著名统计学家沃德(Wald).他是原籍罗马尼亚的英国统计学家,他于1934年系统发展了早在20年代就受到注意的序贯分析法.沃德在统计方法中引进的“停止规则”的数学描述,是序贯分析的概念基础,并已证明是现代概率论与数理统计学中最富于成果的概念之一.从二战后到现在,是统计学发展的第三个时期,这是一个在前一段发展的基础上,随着生产和科技的普遍进步,而使这个学科得到飞速发展的一个时期,同时,也出现了不少有待解决的大问题.这一时期的发展可总结如下:一是在应用上愈来愈广泛,统计学的发展一开始就是应实际的要求,并与实际密切结合的.在二战前,已在生物、农业、医学、社会、经济等方面有不少应用,在工业和科技方面也有一些应用,而后一方面在战后得到了特别引人注目的进展.例如,归纳“统计质量管理”名目下的众多的统计方法,在大规模工业生产中的应用得到了很大的成功,目前已被认为是不可缺少的.统计学应用的广泛性,也可以从下述情况得到印证:统计学已成为高等学校中许多专业必修的内容;统计学专业的毕业生的人数,以及从事统计学的应用、教学和研究工作的人数的大幅度的增长;有关统计学的著作和期刊杂志的数量的显著增长.二是统计学理论也取得重大进展.理论上的成就,综合起来大致有两个主要方面:一个方面与沃德提出的“统计决策理论”,另一方面就是大样本理论.沃德是20世纪对统计学面貌的改观有重大影响的少数几个统计学家之一.1950年,他发表了题为《统计决策函数》的著作,正式提出了“统计决策理论”.沃德本来的想法,是要把统计学的各分支都统一在“人与大自然的博奕”这个模式下,以便作出统一处理.不过,往后的发展表明,他最初的设想并未取得很大的成功,但却有着两方面的重要影响:一是沃德把统计推断的后果与经济上的得失联系起来,这使统计方法更直接用到经济性决策的领域;二是沃德理论中所引进的许多概念和问题的新提法,丰富了以往的统计理论.贝叶斯统计学派的基本思想,源出于英国学者贝叶斯的一项工作,发表于他去世后的1763年后世的学者把它发展为一整套关于统计推断的系统理论.信奉这种理论的统计学者,就组成了贝叶斯学派.这个理论在两个方面与传统理论(即基于概率的频率解释的那个理论)有根本的区别:一是否定概率的频率的解释,这涉及到与此有关的大量统计概念,而提倡给概率以“主观上的相信程度”这样的解释;二是“先验分布”的使用,先验分布被理解为在抽样前对推断对象的知识的概括.按照贝叶斯学派的观点,样本的作用在于且仅在于对先验分布作修改,而过渡到“后验分布”――其中综合了先验分布中的信息与样本中包含的信息.近几十年来其信奉者愈来愈多,二者之间的争论,是战后时期统计学的一个重要特点.在这种争论中,提出了不少问题促使人们进行研究,其中有的是很根本性的.贝叶斯学派与沃德统计决策理论的联系在于:这二者的结合,产生“贝叶斯决策理论”,它构成了统计决策理论在实际应用上的主要内容.三是电子计算机的应用对统计学的影响.这主要在以下几个方面.首先,一些需要大量计算的统计方法,过去因计算工具不行而无法使用,有了计算机,这一切都不成问题.在战后,统计学应用愈来愈广泛,这在相当程度上要归公功于计算机,特别是对高维数据的情况.计算机的使用对统计学另一方面的影响是:按传统数理统计学理论,一个统计方法效果如何,甚至一个统计方法如何付诸实施,都有赖于决定某些统计量的分布,而这常常是极困难的.有了计算机,就提供了一个新的途径:模拟.为了把一个统计方法与其它方法比较,可以选择若干组在应用上有代表性的条件,在这些条件下,通过模拟去比较两个方法的性能如何,然后作出综合分析,这避开了理论上难以解决的难题,有极大的实用意义.。
概率论与数理统计的起源与发展概率论产生于十七世纪,本来是有保险事业的发展而产生的,但是来自于赌博者的请求,却是数学家们思考概率论中问题的源泉。
早在1654年,意大利医生兼数学家卡当,据说曾大量地进行过赌博。
他在赌博时研究不输的方法,实际是概率论的萌芽。
在那个时代,虽然概率论的萌芽有些进展,但还没有出现真正的概率论。
十七世纪中叶,法国贵族德·美黑在骰子赌博中,由于有要急近处理的事情必须中途停止赌博,要靠对胜负的预测把赌资进行合理的分配,但不知用什么样的比例分配才算合理,于是就写信向当时法国的最高数学家帕斯卡请教。
正是这封信使概率论向前迈出了第一步。
帕斯卡和当时第一流的数学家费尔玛一起,研究了德·美黑提出的关于骰子赌博的问题。
于是,一个新的数学分支--概率论登上了历史舞台。
三年后,也就是1657年,荷兰著名的天文、物理兼数学家惠更斯企图自己解决这一问题,结果写成了《论机会游戏的计算》一书,这就是最早的概率论著作。
在概率问题早期的研究中,逐步建立了事件、概率和随机变量等重要概念以及它们的基本性质。
后来由于许多社会问题和工程技术问题,如:人口统计、保险理论、天文观测、误差理论、产品检验和质量控制等。
这些问题的提法,均促进了概率论的发展,从17世纪到19世纪,贝努利、隶莫弗、拉普拉斯、高斯、普阿松、切贝谢夫、马尔可夫等著名数学家都对概率论的发展做出了杰出的贡献。
在这段时间里,概率论的发展简直到了使人着迷的程度。
但是,随着概率论中各个领域获得大量成果,以及概率论在其他基础学科和工程技术上的应用,由拉普拉斯给出的概率定义的局限性很快便暴露了出来,甚至无法适用于一般的随机现象。
因此可以说,到20世纪初,概率论的一些基本概念,诸如概率等尚没有确切的定义,概率论作为一个数学分支,缺乏严格的理论基础。
概率论的第一本专著是1713年问世的雅各·贝努利的《推测术》。
经过二十多年的艰难研究,贝努利在该树种,表述并证明了著名的"大数定律"。
2014《专业统计学基础知识》复习要点近代统计学产生于18世纪末到19世纪末的一百多年间,在这段时期统计学又形成了许多学派。
其中最有代表性的是数理统计学派和社会统计学派。
数理统计学派产生于19世纪中叶,代表人物是比利时人阿道夫?凯特勒(1796---1874)。
他最先运用大数定律论证社会生活现象并非偶然,而是有其发生的规律性。
社会统计学派产生于19世纪后半叶,由德国的克尼斯(1821--1889)教授首创。
德国的梅尔(1841--1925)是该学派的主要代表人物。
他明确指出,统计学的研究对象是社会经济现象的规律,统计学不仅是记述事实的数量统计学,还是分析社会经济现象发展规律的分析统计学。
1、古典统计学时期是指什么时期?分为几大学派?答:是指17世纪中后期至18世纪中后期的统计学萌芽时期,古典统计学分为国势学派和政治算术学派两大学派。
①国势学派又称记述学派,产生于17世纪中叶的德国。
所谓国势学,就是以文字来记述国家的显著事项的学说。
创始人是海尔曼?康令(1606---1681)教授,他提出通过对国家重要事项的研究来说明各国的状态,研究状态形成的原因。
②政治算术学派是用计量方法研究社会经济问题,产生于17世纪中叶的英国,代表人物是威廉?配第(1623---1687)和约翰?格朗特(1620---1674)。
政治算术学派主要运用大量观察法、分类法以及对比、综合、推算等方法介绍说明社会经济生活及其发展变化规律。
2、现代数理统计学分为哪两部分?20世纪60年代以后的数理统计学发展什么明显的趋势?答:现代数理统计学分为理论部分和应用部分。
前者包括:抽样理论、估计理论、假设检验理论、实验设计、决策理论、非参数统计和博弈理论等。
后者包括:计量经济学、生物统计、统计力学、质量管理、政府统计、遗传统计和天文统计等。
20世纪初到现在的数理统计学时期称为现代统计学时期。
数理统计在随机抽样基础上建立起推断统计学。
20世纪60年代以后的数理统计学发展有以下三个明显的趋势:①随着数学的发展,数理统计学越来越广泛地应用数学方法。
改革开放30多年中国统计学发展的回顾与展望对我国改革开放30多年来统训一学的发展历程进行了回顾,充分肯定了在学科认识、学术交流、人才培养和理论研究与应用等方而取得的成绩,并在此基础上进行了总结和展望,认为:要从历史的角度客观看待我国统计学的发展成就;要珍惜已经达成的某些共识,促进我国统计学全而发展;要着眼于中国统计学发展的未来,进一步提高我国的高等统计教育水平;要从创新与应用相结合的角度,进一步提高我国的统计研究水平。
统计学统计教育统计研究改革开放给中国统计学的发展带来了前所未有的机遇。
思想观念的更新与社会经济体制的变革,使得依附于计划经济体制的统计学逐渐失去了其生存基础。
伴随着检验真理标准的大讨论和欧美统计论著、统计思想的再次涌入,中国统计学者对传统统计理论进行了深刻的反思,开展了持久的学术大讨论,经由一门之争、两门之论和新一门论,逐渐达成了某种共识,在统计理论研究和统计实践应用两方面都取得了突飞猛进的进展。
一、)对统计学科的性质取得一定的共识1978年11月27日-12月9日,国家统计局组织全国17所设有统计学系或者统计学专业的主要负责人、有关专家,以及部分省市统计局的代表在四川峨眉山召开了文革后的首次统计教学、科研规划座谈会,就加强统计教育和统计科研、增强院校与实际部门结合、编写统计学教材等问题展开了深入热烈的讨论,并对数理统计学在中国的传播与发展作了中肯的评价,提出要把数理统计学放在应有的地位上。
通过广泛而深入的讨论,广大统计工作者对统计学科性质达成了一些基本共识:统计学既不仅指社会经济统计学,也不仅指数理统计学,而是包容理论统计学、各领域应用统计学在内的方法论科学,强调了统计学的整体性、独立性、综合性和系统性特征。
“大统计”观倡导统计学“大家庭”成员在相互尊重、互相借鉴、相互促进、共同发展的基础上,实现相互渗透和有机融合。
二、不断拓展统计学术交流平台改革开放以来,统计学界经历了由唇枪舌剑到学术讨论的过程。
概率论与数理统计双色板答案篇一一、题目1(概率论基础章节,较易)设随机事件\(A\),\(B\),已知\(P(A) = 0.4\),\(P(B)=0.3\),\(P(A\cup B)=0.6\),求\(P(A\cap B)\)。
答案根据概率的加法公式\(P(A\cup B)=P(A)+P(B)P(A\cap B)\),将已知数值代入可得:\(0.6 = 0.4+0.3 P(A\cap B)\)解得\(P(A\cap B)=0.4 + 0.3 0.6=0.1\)解析1. 解题思路着眼点:看到题目中给出了\(P(A)\)、\(P(B)\)和\(P(A\cup B)\)的值,要求\(P(A\cap B)\),自然联想到概率的加法公式。
题目条件剖析:这里的关键信息就是给出的三个概率值,没有陷阱。
知识点与方法:运用了概率的基本加法公式\(P(A\cupB)=P(A)+P(B)P(A\cap B)\)。
步骤意图:首先写出加法公式,这是解决此类问题的基本依据。
然后将已知的概率值代入公式,最后通过简单的计算得出\(P(A\cap B)\)的值。
2. 解题技巧与策略对于这类求事件交的概率问题,当已知事件并的概率以及单个事件概率时,直接使用概率加法公式是常用技巧。
例如,若已知\(P(C) =0.5\),\(P(D)=0.4\),\(P(C\cup D)=0.7\),可同样用此公式求\(P(C\capD)\)。
3. 知识点回顾重点:概率加法公式的形式和应用条件,即对于任意两个事件\(A\)、\(B\)都有\(P(A\cup B)=P(A)+P(B)P(A\cap B)\)。
难点:要准确理解公式中每个概率的含义,避免混淆。
4. 实际运用在实际中,比如统计一个班级中喜欢数学或者喜欢物理的学生比例。
设\(A\)为喜欢数学的学生事件,\(B\)为喜欢物理的学生事件,\(P(A)\)、\(P(B)\)可以通过调查得到,\(P(A\cup B)\)是喜欢数学或者喜欢物理的学生比例,通过这个公式可以求出既喜欢数学又喜欢物理的学生比例\(P(A\cap B)\)。
【原文出处】统计研究【原刊期号】200002【分类号】F104【分类名】统计学【复印期号】200003【标题】数理统计学:世纪末的回顾与展望【作者】陈希孺【关键词】数量统计/回顾/展望【正文】一、20世纪数理统计学发展概述20世纪,特别是其上半叶,是数理统计学发展史上一个辉煌的时代。
从现代数理统计学框架的建立到发展为一个成熟的学科,是在这个时期完成的。
20世纪初,数理统计学面临一个转折点,意思是它必须有新的突破才能获得进一步发展的契机。
20世纪早期一批以费歇尔为首的统计学大师成功地应对了这个局面,创造了非凡的业绩。
按照国际上一些知名统计学家的看法,20世纪末数理统计学发展的态势,与世纪初颇有相似的地方。
人们在呼唤“21世纪的费歇尔”。
当然,广义地说,这也是每一位数理统计工作者所肩负的任务。
中国作为一个世界大国,年轻一代的数理统计学者应该也有条件在这方面作出自己的贡献。
为了更清楚阐述上文的意思,需要对数理统计学的历史作一个简短的回顾。
按目前数理统计学界公认的看法,数理统计学是“收集和分析带随机性的数据的科学和艺术”。
以笔者的看法,这个内涵规定了它是一个中立性的工具。
“中立”的意思是指这门学科不带任何社会的、政治的或意识形态上的倾向性,因而也不存在它自成学派或从属于何学派的问题。
有一种看法认为社会经济统计学与数理统计学是“大统计学”中的两个对立的学派。
笔者认为这种看法值得商榷。
的确,在社会经济统计学中该不该使用数理统计方法,在哪些问题上或者在何种程度上应否使用数理统计方法,是可能存在不同意见的。
如果说由于对这些问题的看法不同而有学派存在,那还算言之成理。
但这些问题与数理统计学无关:数理统计学只是一种工具,谁如觉得这个工具对他有用,就可以使用它——当然在使用中必须遵守这门学科的规范,否则就可能产生误导公众及提供错误的决策依据的后果。
历史上(部分地直到如今)数理统计方法曾遭到一些批评和怀疑,一定程度上与上述情况有关。
数理统计学起源于何时?这是一个无法也不必做出定论的问题。
有的学者把英国学者格朗特的著作《关于死亡公报的自然和政治观察》发表的年份1662年定为这门学科的诞生之日,恐怕也只能算是一家之见。
实际情况是,可以说直到20世纪初,并不存在一门统一的数理统计学科,而中是在各实用领域中的学者因工作上的需要而分头发展了一些分析数据的方法,即统计方法。
最主要的有3 个方面:一是天文和测地学中因误差分析问题而导致最小二乘法和正态误差的发明。
起初,人们认为“误差分析”与“统计分析”是根本不同的两回事:前者的数据是对一个对象多次测量所得;后者的数据则是对多个对象各测量一次所得。
按现今的数理统计学框架,我们容易认识这是一回事,但在当时则不然。
到19世纪中、后期,经过凯特勒、盖尔顿等在社会学和生物学方面的实际工作,以及埃其渥斯、卡尔·皮尔逊等的数学理论工作,终于把二者统一起来,并在20世纪得到发扬光大。
直到如今,线性模型——最小二乘法——正态误差这个体系下所发展的方法,在相当大的程度上仍占据了应用统计方法中的主导地位。
所以有人说,天文学是数理统计学的母亲。
第二个方面是人口学。
前文提到的格朗特的著作是一个重要例子。
这个方向发展了离散数据统计,即以二项分布和波哇松分布为代表的统计方法。
另一个重要之点是它在19世纪即开始孕育了抽样调查的思想。
这也在20世纪得到发扬光大,成为现今统计方法中的重要组成部分。
有的统计史学家评说:19世纪的统计就是频率分析。
那是因为,当时处理误差分析的一套工具尚未被视为属于统计方法的范畴。
最后一个方面是生物学,特别是遗传学。
英国学者盖尔顿在1874年到1890年间到工作,引进了相关和回归的思想。
其重大意义在于它开创了分析多维数据的统计方法。
此前的统计方法都是单指标性的,不能顾及指标间的相互关系。
而在实用问题中一般涉及多个彼此相依的指标,孤立地分析单个指标无法得出符合实际的结论。
盖尔顿的工作经过埃其渥斯、卡尔·皮尔逊和约尔在数学上的整理,到20世纪又经过费歇尔等一批学者的深化,直到目前仍不失为应用统计方法中的重镇和理论统计学中的主流方向之一。
有人把上面粗略描述的,大体上到19世纪末为止的统计学的发展图景作了一个小结,归纳为以下3点:(1)统计方法是基于实用的需要,在不同领域中分头发展的。
(2 )没有专职的(以统计学为主业的)统计学家。
对统计方法作出重大贡献的人,其主要身份是某个其他领域的学者,这在公认是现代数理统计学的奠基者费歇尔和卡尔·皮尔逊身上还可以看出来。
(3)统计学没有一个严整的学科框架。
费歇尔传记的作者J.F.Box在谈到20世纪初期统计学状况时曾提到,当时在人们的意识上连参数与统计量都没有严格区分开。
有的学者提到,当时在统计方法的工具袋里已有了一些积累,包括最小二乘法(平均值可视为其特例)、方差、频率、二项分布、误差理论和正态分布、相关回归、矩估计、皮尔逊曲线族以及稍后的Student t分布等。
但它们是一些不连贯的片段,缺乏一个完整体系。
所以,在20世纪初年,摆在数理统计学面前的重大问题是建立一个理论(数学)上的框架。
它不仅能包容已有的成果,而且还要对未来努力的方向起指引的作用。
如大家所知道的,这个任务由以费歇尔为代表的一班统计学大师出色地完成了。
这些统计学大师中除费歇尔外,还可以算上爱根·皮尔逊、奈曼及较晚的瓦尔德。
至于卡尔·皮尔逊,有一种看法认为它是“旧统计”的押阵大将。
但平心而论,他的工作,尤其是1900年发表的关于拟合优度检验的论文,对“新统计”的诞生有着不可低估的影响具有划时代的意义。
至于费歇尔,其贡献更是全方位的:在理论方面,他分别于1921年和1925年发表的论文《理论统计学的数学基础》和《点估计理论》,奠定了统计学的大体上沿用至今数学框架;在方法的层面,他提出的似然估计、试验设计与方差分析以及一大批小样本抽样分布的结果,迄今仍有着重大的影响。
其业绩在20世纪统计界确实无人可比。
所以美国统计学家埃夫龙在1996年一篇论文中把他比作“统计学的凯撒”。
前文提到,临近20世纪末,数理统计学发展的态势,颇有与世纪初相似之处。
这一点要联系到20世纪下半叶数理计学的发展状况来讨论。
1940年,以克拉美的《统计学的数学方法》一书的出版为标志,数理统计学被公认为已形成一门严整的数学学科——应当注意的是:这一点固然与费歇尔等人为统计学制定了合适的数学框架有关,更本质的原因在于统计学中的“数据”已超脱了其实际含义:一组数据如假定来自正态总体,则与此有关的方法(如t区间估计、F检验等)都可以使用,而无须顾及数据从何而来。
正如数学中人们说1+2=3,而不必顾及这1、2、3是什么一样。
数理统计学一经数学化,就有其自身的发展规律,一般认为,一个数学分支中新问题的来源,有“外生”和“内生”两种。
前者是因外部的需要,一般是实际应用中的需要所提出的问题,而后者则是由学科的“自我扩张”引起的问题,不必有其实际背景。
如前所说,在较早的时期(约在20世纪30年代或放宽一些到50年代),数理统计学与实用紧密结合,所研究的问题以“外生”性的为主。
此后,情况有了很大变化:相当大部分的统计学理论研究转向“内生”性的问题,以“在预设的模型下寻求符合某种准则的最优解“及“大样本理论”两个方向为代表。
应当指出的是:并非说沿着这此方向所作的工作全无实际意义。
有些工作(主要在较早时期)是以往比较粗糙的结果的完善。
例如有关极大似然估计的渐近性质,费歇尔在1925年关于点估计的论文中就有初步的讨论。
到五、六十年代,在数学上得到更完满的发展。
这类工作兼有理论和实用两方面的意义。
有的在优化理论框架下得出的结果,如算术平均值或更一般地最小二乘估计在种种条件下的优良性质的结果,虽则对应用统计方法无所增添,但深化了我们对这些重要方法性质的了解,也是很有意义的。
至于大样本理论,其大量的繁琐结果可说已趋于末流——既无理论上的数学美,又对分析数据不起什么作用。
但也不可否认,其中也颇有些富有实际意义的结果,特别是非参数统计有关的一些大样本结果,为在免除正态假定下进行数据分析提供了可用的替代方法。
虽然可举出以上这些有利情况,但不能不承认,从总体上说,由这些“内生”问题产生的结果,多数是与数据分析没多大关系,从纯数学的角度看也缺乏深度。
这种情况引起了不少统计学家的忧虑和反思,以至有所谓“统计学危机”的呼声。
以上的简略描述表明,数理统计学在20世纪下半叶,理论上缺乏有意义的、突破性的进展。
实用的或方法层面上的情况如何?应该说有不小的成绩。
其中一部分得力于功能强大的计算机,它使一些需要大规模计算的方法能付诸实用,从而大大拓展了统计方法的应用面。
在方法本身的研究上也有不少进展。
不久前出版的一本论述“统计学中的突破”的著作,列举了到1980年为止统计学方面的40项“突破”,就其内容看(如赤池弘次的AIC 准则,维尔考克森的秩和检验之类)大都是局部范围内的方法性的成果,并非有全局意义的“突破”。
统计学家休伯1997年在北京的一次讲演,认为近几十年来数理统计学只有3 项值得一提的重要成果:其一是他自己发展的稳健统计(这概念可追溯到费歇尔在1920年的一项关于比较绝对平均差和标准差的优劣的工作),另有埃夫龙在1979年提出的“自助法”(bootstrap)和生存分析。
若情况果真如此,则20世纪下半叶统计学的成绩可说是很暗淡了。
依笔者所见,情况要乐观一些,比如回归分析和多元分析中诸多的理论和方法进展、模型选择、试验设计、生存分析、贝叶斯统计等方面,都颇有一些富有实用意义的成果。
但不容否认的是,20世纪下半叶数理统计学方面的成就,主要限于若干局部性的、具体问题的方法性的层面上,全局性的、涉及根本的统计思想的成果,绝无仅有,拿一句人文科学讲座中常提到的套话来形容,可说是“学问家凸显,思想家淡出”。
以上种种情况使不少统计学家认为,统计学又面临一个新的突破的形势,或者也可以说,到了一个需要变革的时期,这与20世纪初的情况有其相似之处。
二、数理统计学未来的发展这种突破会指向何方?要采取怎样的措施以有利于促成这种突破或变革?自20世纪60年代以来,不少学者,通过在有关会议上发表讲演或在刊物上发表论文,表达了各自的看法。
有些看法有很大的一致性,例如主张统计学要回到以前那种重视联系实际的传统;主张“推倒围墙”,即重视与其他学科的交流和渗透;主张在统计教育上实行与此相应的变革等。
在预测未来发展的主流上,则多有分歧。
下面对一些较有影响的观点择要介绍一下。
1.数据分析。
美国资深统计学家图基在1962年发表了一篇题为《数据分析的未来》的长文,大约“数据分析”一词即起源于此文。
这是第一次由一个极有影响的统计学家对当时的数理统计学发展状况作出反思并提出一种变革的方向,因此有重要的意义。