实验数据分析课件
- 格式:ppt
- 大小:1.68 MB
- 文档页数:14
实验数据的处理与分析物理是个实验科学,免不了要从事测量。
很多同学常常疑惑的是不知道如何正确的分析与处理实验的数据。
希望本单元能对你(妳)有所帮助!误差=测量值-真值谈实验数据往往会先谈到误差的定义。
于是出现了上面的式子。
误差就是所测得的数值与被测量物理量真正数值之间的差别。
好像很有道理,又好像在讲废话!先想一想,为什么我们要从事测量?(才能有测量值!)如果我已经知道想测量的物理量的真值,我为什么还要去测它?难道就为了要知道测量的误差吗?就是因为不知道物理量的真值才要测量。
那!误差的定义又有什么用呢?实验数据的处理与分析便是想运用统计的方法,让我们从多次的测量数据中,估算出最接近真值的数据。
也就是我们所想要的测量结果。
并藉由误差的分析,让我们了解我们所做的估算,可信度有多高!并探讨实验误差的可能来源。
误差的种类:(依照来源)一般而言,可以分为系统误差(systematicerror)与随机误差(randomerror)。
1.『系统误差』:所谓测量,乃是大家事先公定有一测量单位(标准),例如公尺。
然后依据制造出含刻度的测量工具(例如尺),将测量工具和待测物相互比较,而判得测量值。
如果测量工具本身所显示的刻度,因为校正时疏忽,造成不正确。
或因为环境的因素(例如温度压力等),使得数值产生变化。
或因人为不正确(或不熟练)操作或观测方法错误。
都是可能产生系统误差的来源。
对于某些非直接测量的物理量,依据某原理或方法设计出来的实验。
也有可能因为实验时无法充分满足原理所假设的状况,或根本设计原理有失误,而造成系统误差。
(这也是很多人常忽略的)通常『系统误差』会使得所有测量值都过高或过低的偏差,偏差量大致相同,不含机率分布的因素。
2.『随机误差』:实验的基本方法,往往是希望能控制变因,以找出物理量受个别变因的影响。
因此总是希望控制所有影响的变因,一次只让一种变因变化。
实验的设计便是尽量能达到上述的目的。
而且为了实验简便,往往也忽略对实验影响较微小的因素。
实验8-1 数据分析一、实验目的1.理解数据挖掘的一般流程。
2.掌握数据探索和预处理的方法。
3.使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。
4.使用WEKA软件,对给定的数据进行预处理。
二、实验内容在D盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。
0. 数据集介绍银行资产评估数据,数据里有12个属性,分别是id(编号), age(年龄), sex(性别), region(地区), income(收入),married(婚否), children(子女数), car(是否有私家车), save_act(是否有定期存款), current_act(是否有活期账户), mortgage(是否有资产抵押), pep(目标变量,是否买个人理财计划Personal Equity Plan)。
1.数据探索之数据质量分析新建“1-数据质量分析.xlsx”文件,导入“”文件数据,请你用EXCEL对其进行数据质量分析。
【要求】(1)请找出表中的含有缺失值的记录。
(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。
(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性的异常值记录。
【提示】(1)请找出表中的含有缺失值的记录。
方法1:条件格式法1)选取A1:L601区域。
2)开始 --> 条件格式 --> 新建规则(N)...,在"新建格式规则"对话框中,选择空值。
如图8-1所示。
图8-1 “新建格式规则”对话框3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。
如图8-2所示。
图8-2 设置条件格式方法2:1)缺失值定位。
“开始”“编辑 / 查找和选择”“定位”对话框“定位条件”按钮。
2)“定位条件”对话框选择“空值”,如图8-3所示。
第三节 实验数据的分析与统计实验研究中,对实验中所获得的数据正确的应用统计学方法分析与处理可以提高研究效率,排除实验中偶然因素的干扰,用较短的时间、较少的人力物力,取得确切恰当的实验结论。
一、量反应资料的归纳和处理 (一) 量反应资料的基本参数量反应资料的基本参数包括均数(χ),标准差(SD ),标淮误(S x ,SE ),例数(n ),变异系数(CV ),可信限(CL )。
1.均数(χ,arithmetic mean ,样本平均数) 一组测量值的算术平均数,它反映这一组数据的平均水平或集中趋势。
其计算公式为:nnn∑=+++=χχχχχ 212.标准差(SD ,stamdard deviation ,样本标准差) 标准差是描述该组数据的离散性代表值。
它是离均差平方和自由度均数的平方根,即根式内分子为离均差平方和(L ), ∑∑-=n L /)(22χχ。
根式内值为均方(MS ),均方是方和与自由度(n’, df )之比。
在求得均数与标准差后,一般用均数±标准差(χ±s)联合表示集中趋向与离散程度。
样本量足够时,可用(S 96.1±χ)作为双侧95%正常参考值范围。
3.标淮误(S x ,SE ,standard error ,均数的标准误) 标准误是表示样本均数间变异程度的指标。
)1(/)(22--==∑∑n n n nS S χχχ4.变异系数(CV ) 当两组数据单位不同或两均数相差较大时,不能直接用标准差比较其变异程度的大小,这时可用变异系数作比较。
χSDCV =CV 可用小数或百分数表示。
是一种相对离散度,即能反映实验数据的离散程度(SD ),又能代表集中趋向的正确程度(χ)。
CV 越小,表示数据的离散性越小,均数代表集中趋向的正确性越好。
5.可信限(CL ) 可信限用来衡量实验结果的精密度,即均数的可信程度,从某实验所得部分动物实测值参数推算总体(全部动物)均数范围。