《试验设计与数据处理》讲稿第4章试验数据的回归分析
- 格式:ppt
- 大小:323.50 KB
- 文档页数:24
实验四回归分析预测实验(3个学时)2010302330013 张秋子 10信一【实验目的】1.了解Microsoft Excel 提供的数据分析工具。
2.掌握EXCEL提供的3种回归分析方法。
3.掌握通过回归分析进行预测的方法。
【实验内容】1.熟悉Microsoft Excel 提供的分析工具库。
2.使用“数据分析”方法进行回归分析。
3.使用“函数”方法进行回归分析,包括直线回归函数、预测函数、指数曲线趋势函数。
4.使用“趋势线”方法进行回归分析。
【实验步骤】第一部分:利用分析工具1、在EXCEL2007中,通过设置EXCEL选项,选择加载项中的分析工具进行加载。
2、选择数据分析工具中的回归分析,设置Y区域为C2-C12,X区域为D2-D12,并且勾选标志。
勾选残差和拟合图。
得到如下结果:第二部分:利用函数一、利用线性回归函数1、利用直线回归函数LINEST(known_y's,known_x's,const,stats)。
在EXCEL2007输入如下数据:2、在A7单元格输入公式“=LINEST(A2:A5,B2:B5,,FALSE)”,得到如下结果:其中2是直线的斜率。
3、选择以公式单元格开始的区域A7:B7。
按F2,再按Ctrl+Shift+Enter。
结果如下:如果公式不是以数组公式输入,则返回单个结果值2,无法获得y轴截距。
当以数组输入时,将返回斜率2和y轴截距1。
4、通常,SUM({m,b}*{x,1}) 等于mx + b,所以可以用SUM和LINEST共同来估计某一个月的预测值。
5、多重线性回归可以看出,y = 27.64*x1 + 12,530*x2 + 2,553*x3 - 234.24*x4 + 52,318二、利用预测函数1、语法:FORECAST(x,known_y's,known_x's)参数说明:X 为需要进行预测的数据点。
Known_y's 为因变量数组或数据区域。
第4章试验设计基本知识4.1 基本概念一、试验指标在试验设计中,根据试验目的而选定的用来衡量试验效果的特征值,称为试验指标。
试验指标可以是数量指标、质量指标、成本指标、效率指标等。
试验指标可分为两大类,一类是定量指标,也称为数量指标,它是在试验中能够直接得到具体数值的指标,如强度、硬度、重量、光洁度、精度、寿命、成本、合格率、pH值等;另一类是定性指标,或称非数量指标,它是在试验中不能得到具体数值的指标,如颜色、味道、光泽、手感等。
在试验设计中,为便于分析试验结果,一般把定性指标定量化,例如,可把色泽按不同深度分成不同等级。
试验指标可以是一个,也可以同时是几个。
前者称单指标试验设计,后者称多指标试验设计。
二、试验因素对试验指标特征值可能有影响的原因或要素称为因素(factor),也称为因子,它是进行试验时重点考察的内容,因素一般用大写英文字母A、B、C……来标记,如因素A、因素B、因素C……等。
1在确定试验因素时,必然以专业技术和生产实践经验为基础,应尽可能列出与研究对象目标有关的各种因素,然后判断哪些是需要探索的因素。
因素有各种分类方法,最简单的是分为可控因素和不可控因素。
可控因素是指人们可以控制和调节的因素,如温度、流量、pH值等;不可控因素指人们暂时不能控制和调节的因素,如设备的轻微振动、刀具的轻微磨损等。
进行试验设计时,一般只考虑可控因素。
只考察一个因素的试验叫单因素试验,考察两个因素的试验叫双因素试验,考察三个或三个以上因素试验中多因素试验。
三、因素水平(level of factor)在试验设计中,为考察试验因素对试验指标的影响情况,要使试验因素处于不同的状态。
我们把试验因素所处的各种状态称为因素水平或试验水平,简称水平或位级。
试验设计中,一个因素选了几个水平,就称该因素为几水平因素。
如某试验中温度A选了300C和500C二个水平,时间B选了20min、40min、60min三个水平,就称A为二水平因素,B为三水平因素。
《试验设计与数据处理》教学大纲课程编码:0413105002课程名称:试验设计与数据处理学时/学分:24/1.5先修课程:《高等数学》适用专业:化学工程与工艺、制药工程、化学开课教研室:化工教研室一、课程性质与任务1.课程性质:本课程是面向化学工程与工艺、制药工程及化学专业学生的专业选修课程。
2.课程任务:本课程的基本任务是在学生学习《高等数学》等专业基础课程的前提下,向学生介绍工程技术和科研试验中常用的试验设计与数据处理方法,为其后续专业实验、毕业论文环节的顺利进行打下良好基础。
二、课程教学基本要求通过本课程的教学,使学生了解并掌握科学试验中试验前的试验方案设计以及对试验所获得数据进行分析和处理的基本理论和知识,学会使用科学的试验设计方法设计试验并对试验得到的大量数据进行正确的分析和处理,同时能够合理地设计试验,使试验次数尽可能少并在较短的时间内以较少的成本来达到预期的试验目标,进而摸索出较优的工艺条件或配方。
通过培养学生合理设计化学工程试验,并对试验数据进行科学分析和处理的技能,最终达到提高学生分析问题和解决问题的能力(如确定最优工艺条件或配方)的目的。
成绩考核形式:期末成绩(70%)+平时成绩(作业、课堂提问等)(30%)。
成绩评定采用百分制,60分为及格。
三、课程教学内容第一章绪论1.教学基本要求了解试验设计与数据处理的概念和发展,学习此门课程的目的与意义;掌握试验设计的三个基本要素。
2.要求学生掌握的基本概念、理论、技能通过本章教学,使学生能准确理解指标、因素、水平等基本概念,掌握试验设计与数据处理的基本要素。
3.教学重点和难点教学重点是试验设计的基本要素。
教学难点是试验设计中因素与水平的选取原则。
4.教学内容(1)试验与试验设计的基本概念(2)试验设计与数据处理的发展概况(3)试验设计的基本要素主要知识点:指标;因素;水平。
(4)试验设计与数据处理的目的第二章试验数据的误差分析1.教学基本要求理解误差分析的重要性,各种试验误差的来源,误差理论的基本问题,掌握误差的检验与控制方法;掌握有效数字的修约标准与运算规则;能够运用误差的传递公式判断间接测量或函数误差的主要来源,选择合适的测量仪器或方法;能够根据具体情况运用合适的方法对数据进行显著性检验,并对数据中可能存在的异常值进行检验和处理。
Lecture 4——统计推断——假设检验一、统计推断概述.统计推断(statistical inference),就是根据统计量的分布和概率理论,由样本统计量来推断总体的参数,实际工作中,一次试验或一次调查所获得的数据资料,通常是一个样本的结果,而我们真正需要知道的是抽取样本的总体特征,即:统计分析的结论是针对总体参数而言的,因此,统计推断是科研工作中一个十分重要的工具,对试验设计也有很大的指导意义.从数据得到对现实世界的结论的过程。
.它主要包括统计假设检验(test of hypothesis)和参数估计(parametric estimation)两部分内容。
二、假设检验的基本概念.假设检验又叫显著性检验(test of significance)。
.其原理和过程是:–对未知的或不完全知道的总体参数提出一些假设(hypothesis这些假设通常构成完全事件系),然后在某一基本假设的基础上,计算样本的统计量,并分析这一统计量的分布规律。
最后根据这一统计量作出在一定概率意义下应当接受何种假设的结论。
–这里有一个定量转化为定性的过程:.经计算所得到的统计量一般是呈连续分布的(定量),但最后的检验结论只有两种:接受何种假设(定性),即:存在一个临界值,统计量未达到临界值,应当接受一种假设,统计量超过临界值,应当接受另一种假设。
.假设检验方法很多,常用的有u检验、t检验、F检验和卡方检验等。
尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。
三、假设检验的基本思路–为了说明问题,我们举几个例子进行讨论:.例1、抽取一批小鼠,随机分为两组,一组注射催产素,一组作为对照(即不注射催产素),半小时后检查这两组小鼠的血糖含量,得:注射催产素组为:= 106.88,对照组平均为:= 109.17 。
同时我们也发现,同一组内的小鼠其血糖含量也是不同的。
两组小鼠的平均血糖含量之间有个差:=106.88.109.17=.2.29。
第4篇试验设计与回归分析第4篇试验设计与回归分析回归分析的种类与简单回归分析第1节回归分析的任务和种类1.回归分析仅哪些问题当人们从一组对象上获得2个或多个指标的观测值时,往往需要回答下述几个问题:①如何实现预测,即如何由1个或多个指标自变量的值去推算另1个或多个指标因变量的值;②如何实现控制,即事先给锄品质量应达到的标准(因变量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(自变量)的变化区间;③如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。
回归分析正是回答上述问题的一种最常用最有效的统计分析方法之一。
2.回归分析的种类如果因变量是非时间的连续变量(即一般定量资料),设自变量的个数为k,当k=1时,回归分析的种类有:①直线回归分析;②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合);③非线性曲线拟合;④一般多项式曲线拟合;⑤正交多项式曲线拟合。
当k≥2时,称为多元回归分析(注:前面的④、⑤2种情况实质上是用多元回归分析仅只含1个自变量时较复杂的曲线拟合问题)。
当同时对多个因变量进行回归分析时,称之为多重回归分析。
在多元回归分析中,简单而又实用的则是多元线性回归分析(其中某些自变量可以是原观测指标经过某种初等变换的结果,如对数变换、开平根变换等,因为这里所说的线性是指∶函数fx相对于回归参数是线性的,并非相对于自变量而言)。
这是本篇中要论述的问题。
如果因变量是与时间有关的连续变量且未被离散化(如:生存时间、复发时间、死亡时间等),而自变量可以是定量的,也可以是定性的。
此时需用生存分析中的半参数或参数回归分析方法,将在本书第5篇中论述。
如果因变量是名义或有序变量,无论它取二个离散值(如:死与活、复发与未复发等)还是多个离散值(自变量可以是定性和定量的)时,都可选用logistic 回归分析;如果把列联表中每个格内的理论频数的对数当作因变量,把分组变量(包含影响因素和观测结果变量2类)当作自变量,可用对数线性模性分析。
《试验设计与数据处理》复习要点第一章误差分析一、真值与平均值1、真值:指在某一时刻和某一状态下,某量的客观值或实际值。
2、平均值(1)算术平均值:x̅=x1+x2+⋯+x nn =∑x in同样试验条件下,多次试验值服从正态分布,算术平均值是这组等精度试验值中的最佳值或最可信赖值。
(2)加权平均值:x̅w=w1x1+w2x2+⋯+w n x nw1+w2+⋯+w n =∑w i x i∑w i(3)对数平均值:x̅L=x1−x2ln x1x2=x2−x1ln x2x1,试验数据的分布曲线具有对称性(4)几何平均值:lg x̅G=∑lg x̅in(5)调和平均值:H=n∑1x i二、误差的基本概念1、绝对误差=测得值-真值,结果可正可负。
2、相对误差=绝对误差/真值≈绝对误差/测得值,结果可正可负。
3、算术平均误差∆=∑|x i−x̅|n4、标准误差(1)样本标准差s=√∑(x i−x̅)2n−1=√∑x i2−(∑x i)2/nn−1(2)总体标准差σ=√∑(x i−x̅)2n =√∑x i2−(∑x i)2/nn三、误差来源及分类根据误差的性质或产生原因,可分为随机误差、系统误差、粗大(过失)误差。
1、随机误差:在一定试验条件下,以不可预知的规律变化着的误差;2、系统误差:在一定试验条件下,由某个或某些因素按照某一确定的规律起作用而形成的误差;3、粗大(过失)误差:一种显然与事实不符的误差。
四、试验数据的精准度1、精密度:反映随机误差大小的程度,是指在一定的试验条件下,多次试验值的彼此符合程度或一致程度;2、正确度:指大量测试结果的(算术)平均值与真值或接受参照值之间的一致程度,反映了系统误差的大小,是指在一定的试验条件下,所有系统误差的综合;3、准确度:反映系统误差和随机误差的综合,表示了试验结果与真值或标准值的一致程度。
五、试验数据误差的统计检验1、随机误差的检验随机误差的大小可用试验数据的精密程度来反映,而精密度的好坏又可用方差来度量,所以对测试结果进行方差检验,即可判断随机误差之间的关系。