试验设计及数据处理
- 格式:docx
- 大小:11.27 KB
- 文档页数:1
统计学原理在实验设计与数据分析中的应用摘要:本文围绕实验的设计和数据的分析这一主旨,《太湖水体中胶体相痕量金属的季节变化》[1]论文进行了详细的评析,并加入自己对所选文章中研究和分析方法的评析。
关键词:试验设计与数据分析;统计学原理;试验论文一、概述数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科。
数理统计方法在工农业生产、自然科学和技术科学以及社会经济领域中都有广泛的应用。
①在农业中,对田间试验进行适当的设计和统计分析。
在工业生产的试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配方等问题中起着广泛的作用,统计质量管理在控制工业产品的质量中起着十分重要的作用。
③医学是较早使用数理统计方法的领域之一。
在防治一种疾病时,需要找出导致这种疾病的种种因素。
统计方法在发现和验证这些因素上,是一个重要工具。
另一方面的应用是,用统计方法确定一种药物对治疗某种疾病是否有用,用处多大,以及比较几种药物或治疗方法的效力。
报、地质资源的评介等。
等。
为了使非数学专业的科研人员对统计学原理在试验中的应用有更深入的了解,本文选取一篇典型论文进行分析,并且从统计学原理角度出发,详细评析了论文中试验设计与数据分析是如何一步一步展开;探讨三篇论文的共性及特性以及讨论各试验在分析的过程可能存在的问题。
二、研究方法本文对三篇论文的评析主要从以下几个方面展开:(1)研究围绕的主题和假设;(2)输入因子和输出因子的选择,其它影响因素的取舍选择;(3)实验的设计和开展;(4)实验数据的汇报和表达方法;(5)基于统计学原理的实验结果分析三、论文分析1.《太湖水体中胶体相痕量金属的季节变化》评析(1) 研究围绕的主题文章作者先期工作表明,春季太湖水体胶体态痕量金属浓度相对较高。
《实验设计与数据处理》大作业班级:姓名:学号:1、用Excel(或Origin)做出下表数据带数据点的折线散点图(1)分别做出加药量和剩余浊度、总氮TN、总磷TP、COD Cr的变化关系图(共四张图,要求它们的格式大小一致,并以两张图并列的形式排版到Word 中,注意调整图形的大小);(2)在一张图中做出加药量和浊度去除率、总氮TN去除率、总磷TP去除率、COD Cr去除率的变化关系折线散点图。
2、对离心泵性能进行测试的实验中,得到流量Q v、压头H和效率η的数据如表所示,绘制离心泵特性曲线。
将扬程曲线和效率曲线均拟合成多项式(要求作双Y轴图)。
流量Qv、压头H和效率η的关系数据序号123456Q v(m3/h) H/m0.015.000.414.840.814.561.214.331.613.962.013.65η0.00.0850.1560.2240.2770.333序号789101112Q v(m3/h) H/mη2.413.280.3852.812.810.4163.212.450.4463.611.980.4684.011.300.4694.410.530.4313、用分光光度法测定水中染料活性艳红(X-3B)浓度,测得的工作曲线和样品溶液的数据如下表:(1)列出一元线性回归方程,求出相关系数,并绘制出工作曲线图。
(2)求出未知液(样品)的活性艳红(X-3B)浓度。
4、对某矿中的13个相邻矿点的某种伴生金属含量进行测定,得到如下一组数据:试找出某伴生金属c与含量距离x之间的关系(要求有分析过程、计算表格以及回归图形)。
提示:⑴作实验点的散点图,分析c~x之间可能的函数关系,如对数函数y=a+blgx、双曲函数(1/y)=a+(b/x)或幂函数y=dx b等;⑵对各函数关系分别建立数学模型逐步讨论,即分别将非线性关系转化成线性模型进行回归分析,分析相关系数:如果R≦0.553,则建立的回归方程无意义,否则选取标准差SD最小(或R最大)的一种模型作为某伴生金属c与含量距离x之间经验公式。
试验设计与数据处理》第三章:统计推断3- 13解:取假设HO : u1-u2w 0和假设H1: u1-u2 > 0用sas 分析结果如下:Sample StatisticsGroupNMeanStd. Dev.Std. Errorx8 0.231875 0.0146 0.0051 y100.20970.00970.0031Hypothesis TestNull hypothesis:Mean 1 - Mean 2 = 0Alternative:Mean 1 - Mean 2 A= 0If Varianees Aret statistie DfPr > tEqual3.878 16 0.0013 Not Equal3.70411.670.0032由此可见p 值远小于0.05,可认为拒绝原假设,即认为2个作家所写的小品文中 由 3 个字母组成的词的比例均值差异显著。
3-14解:用sas 分析如下: Hypothesis TestNull hypothesis: Variance 1 / Variance 2 = 1 Alternative:Varia nee 1 / Varia nee 2 A = 1- Degrees of Freedom -FNumer. Denom.Pr > F第四章:方差分析和协方差分析4- 1 解:Sas 分析结果如下:Dependent Variable: ySum ofSouree DF Squares Mean Square F Value Pr > F Model 41480.823000370.20575040.88<.00012.27 7 由p 值为0.2501 > 0.05 (显著性水平) 9 0.2501,所以接受原假设, 两方差无显著差异Source DF Type I SS Mean Square F ValuePr > F m 2 44.33333333 22.16666667 4.09 0.0442 n 3 11.50000000 3.83333333 0.71 0.5657 m*n627.000000004.500000000.830.5684Source DF Type III SS Mean Square F ValuePr > F m 2 44.33333333 22.16666667 4.09 0.0442 n 3 11.50000000 3.83333333 0.71 0.5657 m*n 627.000000004.500000000.830.5684由结果可知, 在不同浓度下得率有显著差异, 在不同温度下得率差异不明显, 交 互作用的效应不显著。
一、理论题1.根据研究目的确定的研究对象的全体称为总体(population),其中的一个研究单位称为个体(individual);总体的一部分称为样本(sample)。
通常把n≤30的样本叫小样本,n>30的样本叫大样本。
2.由总体计算的特征数叫参数(parameter), ;由样本计算的特征数叫统计量(statistic)。
常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;常用拉丁字母表示统计量,例如用x表示样本平均数,用S表示样本标准差。
3. 准确性(accuracy)指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度,精确性(precision)指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。
4. 高斯对数理统计和试验设计学科的主要贡献包括:1.建立了回归分析的最小二乘法;2.运用极大似然法及其他数学知识,推导出测量误差的概率分布公式,发现误差的高斯分布曲线,即今天的正态分布。
5.方差分析由R. 费雪于1918年首创, “方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术”。
6.20世纪50年代,日本田口玄一将试验设计中应用最广的正交设计表格化;同一时期,我国著名数学家华罗庚积极倡导和普及“优选法”;在1978年我国数学家王元和方开泰首先提出了均匀设计。
7.两组精度不同的同一试验结果在计算加权平均数时权重通常由绝对误差平方倒数的比值来确定,即认为测量结果的可靠程度与测量次数成正比。
8.样本标准误差的无偏计算公式中分母的n-1来自于自由度的概念。
9. 实验最重要的因素是混杂问题。
所谓混杂是指,由于实验处理,针对你的假说所作的处理,导致的差异与其他因素可能导致的差异无法区分开来。
10. 重复是指在符合实验条件的空间和时间范围内,各组要有足够数量的例数。
重复非常必要,因为变异(差异)是生物体遗传固有的本质。
11. 生物数据中比正态分布更常见的是正偏斜,偏斜数据通常必须进行数据转换(例如对数和幂转换),以改善它们的正态性。
试验设计与数据处理复习要点1、引言20世纪20年代,英国生物统计学家及数学家费歇提出了方差分析20世纪50年代,日本统计学家田口玄一将正交设计表格化。
数学家华罗庚的“优选法”。
我国数学家王元和方开泰于1978年首先提出了均匀设计。
常用的统计软件:SAS,SPSS,Origin,Excel等。
试验设计与数据处理的意义。
试验设计的目的:合理地安排试验,力求用较少的试验次数获得较好结果数据处理的目的:通过误差分析,评判试验数据的可靠性;确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率;确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化;获得试验因素对试验结果的影响规律,为控制试验提供思路;确定最优试验方案或配方。
加权平均值:如果某组试验值用不同的方法获得,或由不同的试验人员得到的,则这组数据中不同的精度或可靠性不一致,为了突出可靠性高的数值,则可采用加权平均值。
绝对误差:试验值与真值之差误差根据其性质或产生原因分为:系统误差,随机误差,过失误差1. 随机误差:以不可预知的规律变化着的误差,绝对误差时正时负,时大时小产生的原因:偶然因素(气温的微小变2.仪器的轻微振动等)2. 系统误差:一定试验条件下,由某个或某些因素按照某一确定的规律起作用而形成的误差产生的原因:多方面(仪器不准或操作者观察终点方法不对)3.过失误差:一种显然与事实不符的误差产生的原因:实验人员粗心大意造成精密度、正确度和准确度的含义与区别。
1.精密度:反映了随机误差大小的程度,在一定的试验条件下,多次试验值的彼此符合程度2.正确度:反映系统误差的大小,精密度高并不意味着正确度也高精密度不好,但当试验次数相当多时,有时也会得到好的正确度3.准确度:反映了系统误差和随机误差的综合,表示了试验结果与真值或标准值的一致程度关于权的选择和绝对误差的选择。
权不是任意给定的,除了依据实验者的经验外,还可以按如下方法给予。
试验设计与数据处理试验报告正交试验设计1.为了通过正交试验寻找从某矿物中提取稀土元素的最优工艺条件,使稀土元素提取率最高,选取的水平如下:需要考虑交互作用有A×B,A×C,B×C,如果将A,B,C分别安排在正交表L8(2)的1,2,4列上,试验结果(提取量/ml)依次是1.01,,1,33,1,13,1.06,,1.03,0.08,,0.76,0.56.试用方差分析法(α=0.05)分析实验结果,确定较优工艺条件解:(1)列出正交表L8(27)和实验结果,进行方差分析。
试验号 A B A×B C A×C B×C 空号提取量(ml)1 1 1 1 1 1 1 1 1.012 1 1 1 2 2 2 2 1.333 1 2 2 1 1 2 2 1.134 1 2 2 2 2 1 1 1.065 2 1 2 1 2 1 2 1.036 2 1 2 2 1 2 1 0.87 2 2 1 1 2 2 1 0.768 2 2 1 2 1 1 2 0.56K1 4.53 4.17 3.66 3.93 3.5 3.66 3.63K2 3.15 3.51 4.02 3.75 4.18 4.02 4.05k1 2.265 2.085 1.83 1.965 1.75 1.83 1.815k2 1.575 1.755 2.01 1.875 2.09 2.01 2.025极差R 1.38 0.66 0.36 0.18 0.68 0.36 0.42因素主次 A A×C B A×B B×C优选方案 A1B1C1SSJ0.23805 0.05445 0.0162 0.00405 0.0578 0.0162 0.02205Q 7.7816总和T 7.68P=T^2/n 7.3728SST0.4088差异源SS df MS F 显著性A 0.23805 1 0.23805 19.5925 9259*B 0.05445 1 0.05445 4.48148 1481A*B 0.0162 1 0.0162 1.33333 3333C 0.00405 1 0.00405 0.33333 3333A*C 0.0578 1 0.0578 4.75720 1646B*C 0.0162 10.01621.333333333误差e0.02205 10.02205 1.814814815误差e2 0.03645 3 0.01215 F 0.05(1,3) 10.12796449F 0.01(1,3) 34.11622156可见A 因素对实验有显著性影响优方案的确立:由上述分析可知,由于提取率越高越好,且交互作用影响不显著,所以优方案为A1B1C1,即酸用量25ml ,水用量20ml ,反应时间为1小时2.为了提高粒混凝土的抗压强度,考察了A ,B ,C ,D ,E ,F 六因素,每个因素都有3个水平,因素水平表如下:表L 27(331)的1,2,5,9,12,13列上,试验结果(抗压强度/kg )依次为100,98,97,95,96,99,,94,99,101,85,82,98,85,90,85,91,89,80,73,90,77,84,80,76,89,78,85,试用方差分析(α=0.05)试验结果,确定较优水平组合。
部分习题答案习题三1、62621086.6S 104.1ˆ002.74ˆ--⨯=⨯=σ=μ2、λ的极大似然估计和矩估计量均为x =λˆ 3、5、 6、(1)(5.608, 6.392) (2)(5.558, 6.442) 7、(1)(6.675, 6.681), (6.8×10-6, 6.8×10-5) (2)(6.61, 6.667), (3.8×10-6, 5.06×10-5) 8、σ已知6.239;σ未知6.356 9、4.052610、接受H O 11、认为不合格 12、认为显著大于10 13、拒绝H O 19、接受H O习题四1、差异显著;2、只有浓度的影响是显著的.习题五1、 填料A 用量范围可能选低了.2、培烧温度与三氧化铝两个因素用量范围可能偏低.习题六1、(2)xy5503.129584.13ˆ+= (4)(11.82,13.28)(5)(19.66,20.18) 2、xy05886.06287.24ˆ+= 3、(2))17.14,29.13)(3(,988.0104.0ˆx y+-=4、x0867318.0e 4556.32y ˆ-=5、2020381.00086.10333.19ˆx x y-+= 6、(1)31321x15.1x 575.09.9yˆ)2(x 15.1x 55.0x 575.09.9yˆ++=+++=习题七1、218.079.1419.300ˆz z y+-= 2、)1(21-=n c 212211,n n n b n n n a +=+=⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫⎝⎛-+-⎪⎭⎫⎝⎛-+⨯+⎥⎥⎦⎤⎢⎢⎣⎡-⎪⎭⎫⎝⎛++⎪⎭⎫⎝⎛-++=-625.1589625.1102879.11025.105613.0625.160073.0263.2ˆ332z z z z y3、 4、 5、 6、 最优工艺条件 7、 最优凝固条件 即 8、.078.1=γ习题八习题九(1) E(5, , 0) (2)(i)扩大反射)1(>α;(ii)内收缩)0(<α;(iii )反射收缩)10(<α<;(3)B(2,4,3),A '(1.5,3,3.5),D '(2.5,2.5,2.5),C '(3,3.5,2)习题十1、 A 3B 3C 32、A 2B 3CD3、最优工艺条件x 1=-0.076,x 2=-0.118,即z 1=3. 848,z 2=0. 753,9.37ˆ=y4、 最优适宜条件 x 1=-0.0135, x 2=0.2557,x 3=-0.3364, 即z 1=6.4865, z 2=112.7865,z 3=0.3318.习题十一1、3.3962、3.54, 3.463、 5、6、 7、有系统误差2221212122212121z 9.21z 676.0z z 469.4z 465.50z 566.8572.2x504.3x 704.2xx 575.3x 1.1x 833.0838.37yˆ---++=-----=323121232221321x x 3.5x x 35.2x x 78.2x 38.3x 8.2x 1.3x 95.0x 388.0x 163.04.37y ˆ---------=.nσ.T2l g⎪⎭⎫⎝⎛σ+⎪⎭⎫⎝⎛σ≈σ.VMVV,VW W M σ+σ+σ≈σ-=.z 0019.0z 0148.0z 1388.0z 1269.06250.47yˆ4321--++=.z z 2.2z 15.058.125y ˆ321+++-=.z 0201.0z 00225.0z 00184.0z 000885.0114.0y ˆ4321-+--=,x 041.0x 023.0.x x 002.0x 052.0x 017.0351.0yˆ22212121--+++=.371.0yˆ,576.8z ,9.119z ,644.0x ,398.0x 2121=====即xx 02.0xx 025.0x025.0x475.0x 400.0218.89yˆ-+-++=,x 896.0x947.0x 399.0x x 375.023222132---+,0735.0x ,261.0x,483.0x 321===.38.89yˆ,02.6z ,13.4z ,42.17z 321====3108、无系统误差 9、是异常数据.习题十二1、543.02、(1)0.695 (2) (3)0.4253、(1)(2)2.98; (3) 0.898;4、(-1.28, -0.255, 0.675, 1.645)习题十四(1)一般; 2.5888(介于良与一般之间);(2)68.2245分.习题十五1、{}{}6,5,4,3,2,12、{}{}6,5,4,3,2,1习题十六2、ρ︒复相关系数上的投影在是其中与;),,,(L ˆ,)ˆ(*p *2*1***o*x x x y y y y⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=16.0431.06.0165.0431.065.01R )10.1,10.1,27.0,55.0,37.1,55.0(x)28.1,91.0,18.0,18.0,91.0,28.1(x ---=---=参考文献[1] Andenson T W. An Introduction to Multivariate StatisticalAnalysis. znd ed . New york: Wiley, 1984[2] 费荣昌试验设计与数据处理,4(1997)[3] 方开泰实用多元统计分析,上海:华东师范大学出版社,1989[4] 盛骤等概率论与数理统计,北京:高等教育出版社,1989[5] 朱道元等多元统计分析与软件SAS,南京:东南大学出版社,1999[6] 彭昭英SAS系统应用开发指南,北京:北京希望电子出版社,2000[7] 邓勃分析测试数据的统计处理方法,北京:清华大学出版社,1995[8] 中国现场统计会三次设计组,正交法和三次设计,北京:科学出版社,1985[9] 张尧庭、方开泰多元统计分析引论,北京:科学出版社,1983[10] 上海师范大学数学系回归分析及其试验设计,上海:上海教育出版社,1978[11] 韦博成、鲁国斌统计诊断引论,南京:东南大学出版社,1991[12] 张明淳工程矩阵理论,南京:东南大学出版社,1995[13] 赵德齐模糊数学,北京:中央民族大学出版社,1995[14] 胡永宏、贺思辉综合评价方法,北京:科学出版社,2000[15] 张崇甫等统计分析方法及其应用,重庆:重庆大学出版社,1995[16] 蒋尔雄等线性代数,北京:人民教育出版社,1978[17]王松桂线性模型的理论及其应用,合肥:安徽教育出版社,1987。
试验设计及数据处理
试验设计是科学研究过程中的一个重要环节,是科学研究的基础。
试验设计的主要目
的是为了得到可靠和有效的数据,从而得出科学真相。
试验设计包括实验对象的选择、实
验条件的控制、实验步骤的安排、实验数据的记录等。
试验设计的主要内容有两方面:实验因素与实验设计。
实验因素是指影响实验结果的
各方面因素,如环境、时间、温度、药物、剂量等;实验设计是指建立实验计划,控制实
验因素,使得实验结果能够准确、可靠地反应出实验因素的影响程度。
在试验设计中,常使用的设计方法有一因素试验设计、多因素试验设计、阶段试验设
计等。
其中,一因素试验设计是指只控制一个因素进行试验,如控制温度和时间等单一因素;多因素试验设计是指控制多个因素同时进行试验,如控制温度、湿度、压力等多个因素。
阶段试验设计则是指控制因素按一定顺序分阶段进行试验,在每个阶段逐步分析试验
结果。
试验设计需要进行数据分析,以得出一些有意义的结论。
数据分析主要分为描述性数
据分析和推论性数据分析两类。
描述性数据分析是对试验数据进行描述和总结,如计算平
均值、标准差、频率分布等;推论性数据分析则是对试验数据进行推断和判断,如t检验、方差分析、回归分析等。
数据处理是试验设计的最后一个环节,其主要目的是对数据进行清洗、整理和处理,
以达到最终的分析和报告目的。
数据处理的过程中需要注意数据的可靠性和有效性。
其具
体流程主要包括数据测量、数据收集、数据清洗、数据整理、数据处理和数据分析等。
在实验数据处理中,常用的数据处理方法有数据筛选、异常数据处理、数据标准化、
数据归一化、数据转换、数据分组等。
其中,数据筛选是指选择符合要求的数据,剔除不
符合要求的数据;异常数据处理则是对数据中的异常值进行处理,如处理缺失值、填充空
值等;数据标准化是指对数据进行统一的处理,使其符合某种标准;数据归一化是指将数
据转化为0到1之间的数值,使其具有可比性;数据转换是对数据进行变换,使其适应分
析要求;数据分组是指将数据分为不同的组别,以便进行分析和研究。
总之,试验设计及数据处理是科学研究的重要环节,它能够为科学研究提供有意义的
信息和知识,从而推动科学的进步和发展。
因此,在进行试验设计和数据处理时,需要严
格按照科学方法进行,以确保实验结果的可靠性和有效性。