数据的数字特征课件
- 格式:pdf
- 大小:3.40 MB
- 文档页数:20
《数据的数字特征》讲义在当今这个数字化的时代,数据无处不在。
无论是科学研究、商业决策,还是日常生活中的各种活动,我们都在不断地产生和处理着大量的数据。
而要理解和分析这些数据,就需要了解数据的数字特征。
这些数字特征能够为我们提供有关数据的重要信息,帮助我们做出更明智的决策。
一、平均数平均数是最常见的数据特征之一。
它表示一组数据的平均水平。
计算平均数的方法很简单,就是将所有数据相加,然后除以数据的个数。
例如,有一组数据:10,20,30,40,50。
那么这组数据的平均数就是:(10 + 20 + 30 + 40 + 50)÷ 5 = 30平均数在很多情况下都非常有用。
比如,在评估学生的考试成绩时,我们可以计算班级的平均分数来了解整体的学习水平;在计算工人的平均工资时,可以了解员工的收入状况。
然而,平均数也有其局限性。
如果数据中存在极端值(极大值或极小值),那么平均数可能会被扭曲。
例如,一个班级里大多数学生的成绩都在 70 分到 90 分之间,但有一个学生考了 20 分,这会拉低班级的平均成绩,导致平均数不能准确反映大多数学生的真实水平。
二、中位数中位数是将一组数据按照从小到大或从大到小的顺序排列后,位于中间位置的数值。
如果数据个数是奇数,那么中位数就是中间的那个数;如果数据个数是偶数,中位数则是中间两个数的平均值。
还是以上面那组数据为例:10,20,30,40,50。
将其从小到大排列为:10,20,30,40,50。
因为数据个数是 5,为奇数,所以中位数就是 30。
如果数据变为:10,20,30,40,50,60。
那么从小到大排列为:10,20,30,40,50,60。
数据个数是 6,为偶数,中位数就是(30+ 40)÷ 2 = 35中位数的优点在于它不受极端值的影响。
在前面提到的班级成绩例子中,如果存在极端低分,中位数可能更能反映班级成绩的中等水平。
三、众数众数是一组数据中出现次数最多的数值。
2.1. 随机过程的描述1. 随机过程的概念随机过程:考察各测量样本固定时刻0t t =在0t 时刻的值)(01t x ,)(02t x ,……,)(0t x n 构成随机变量,具有自身的概率特性,记为)(0t X 。
在数学上把所有已经得到的和未得到的而可能发生的样本总体)}({0t x i (t=1,2,3,……)称为随机过程,记为)(t X 。
随机过程具有双向无穷特征,即在时间轴上无穷,又在样本数上无穷。
2. 随机过程的统计规律(1). 一维概率分布特征设一随机变量)(t X 在某一时刻i t 的随机变量)(i t X 的取值小于等于给定值x ()(t X x ∈),这一事件发生的概率定义为:])([Pr );(1x t X ob t x F i i ≤=,)(t X x ∈)(t X 的一维概率密度函数);(1i t x f 定义为);(1i t x F 对x 的一阶偏导数,即:xt x F t x f i i ∂∂=);();(11 (2). 多维概率分布特征 二维概率分布特征随机过程)(t X 在i t 时刻的随机变量i i x t X ≤)(;而且在j t 时刻的随机变量j j x t X ≤)(,这两件事同时发生的概率定义为二维概率分布特征:])(,)([Pr ),;,(2j j i i j i j i x t X x t X ob t t x x F ≤≤=二维概率密度函数为对j i x x ,的二阶偏导数,即:j i j i j i j i j i x x t t x x F t t x x f ∂∂∂=),;,(),;,(222三维、四维,……直至n 维可以以此类推实际应用中,要确定随机过程的各维概率分布函数及密度函数非常困难3. 随机过程的统计特征量(1). 均值)(t m x也就是随机过程的数学期望吗,度量过程随机变动的平均值dx t x xf t X E t m i x ⎰∞∞-==);()]([)(1 由于)(t X 在不同时刻的一维概率密度函数);(1t x f 是对时间t 的函数,故均值)(t m x 亦随时间而变。
教案2012~2013学年第一学期主讲教师李晓燕课程名称数据分析课程类别专业限选课学时及学分68;4授课班级信息101 102使用教材《数据分析方法》系(院.部) 数理系教研室(实验室) 信息与计算科学教研室数据分析总学时:68 理论38.上机28 适用专业:信息与计算科学内容:SAS软件介绍 3学时数据的描述性分析 10学时线性回归分析 13学时方差分析 10学时主成分分析与典型相关分析 8学时判别分析 8学时聚类分析 8学时学生报告 8学时教材:《数据分析方法》,梅长林、范金城编,高等教育出版社.2006.参考资料:《实用统计方法》,梅长林编,科学出版社;《应用多元统计分析》,高惠璇编,北京大学出版社,2005;《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,2001;《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008;《应用回归分析》(二版),何晓群编,中国人民大学出版社,2007;《统计建模与R软件》,薛毅编著,清华大学出版社,2007.考核:期末成绩(闭卷考试+上机考试):70%。
平时成绩(平时作业+考勤+大报告):30%。
课程作业(1)作业题目在网络教学平台公布,按格式要求,以电子版方式通过平台提交。
(2)大报告:2-3人一组,每组一个选题,成员按相同的成绩计分。
收集数据,撰写小论文,做PPT讲解。
每组讲10-20分钟,提问环节。
同学打分。
课时授课计划课次序号:01 一、课题:§1.1 一维数据的数字特征及相关系数二、课型:新授课三、目的要求:1.掌握数据的数字特征(均值、方差等);2.掌握几种描述性分析的SAS过程和作图过程计算这些数字特征及进行描述性分析.四、教学重点:均值、方差等数字特征.教学难点:基本概念的理解.五、教学方法及手段:传统教学与上机实验相结合.六、参考资料:1.《实用统计方法》,梅长林,周家良编,科学出版社;2.《SAS统计分析应用》,董大钧主编,电子工业出版社.七、作业:1.1八、授课记录:九、授课效果分析:§0 绪论0.1 课程内涵数据分析(即多元统计学statistics ):是以数据为依据,以统计方法为理论、计算机及软为工具,研究多变量问题、挖掘数据的统计规律的学科. 通过收集数据、整理数据、分析数据和由数据得出结论的一组概念、原则和方法。