统计学课件笔记整理详解
- 格式:pdf
- 大小:1.43 MB
- 文档页数:21
统计基础知识笔记统计基础知识笔记第一章总论第一节统计的涵义一、什么是统计1、【统计】:是指对某一现象有关的数据的搜集、整理、计算和分析等的活动。
包括三个含义:(统计工作)、(统计资料)、(统计学)。
2、【统计工作】:是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数据资料的工作的总称。
是最重要最基本的含义。
3、【统计资料】:是指通过统计工作取得的、用来反映社会经济现象的数量资料的工作的总称。
4、【统计学】:是指研究如何对统计资料进行搜集、整理、分析的理论与方法的科学。
5、统计的特点:数量性、总体性、具体性、社会性、变异性。
其中:在数量性上,统计活动的中心问题就是数据。
统计数据对社会经济现象的反映表现在以下三方面:A数量的多少:从总量上反映事物发展的规模和水平。
B事物之间的数量关系。
C现象之间的质与量的辩证统一关系。
二、统计工作、统计资料、统计学三者之间的关系:统计工作与统计资料是(统计活动过程)与(统计活动成果)的关系。
统计工作与统计学是(统计实践)与(统计理论)的关系。
统计工作先于统计学发展起来的。
第二节统计学中的基本概念一、总体1、【总体】:凡是客观存在的,在同一性质基础上结合起来的许多个别事物的整体就是统计总体。
2、统计总体的特点:(1)统计总体是根据统计任务的要求要求确定的。
(2)统计总体是客观存在的。
(3)统计总体中的所有总体单位必须具有同一性质。
3、有限总体与无限总体:(1)一个统计总体中所包括的总体单位如果是有限的,称为【有限总体】。
如果是无限的则称为【无限总体】。
(2)对无限总体不能进行全面调查,只能调查其中一小部分,据以推断总体;对有限总体既可以进行全面调查,也可以只调查其中一部分单位。
二、总体单位1、【总体单位】:构成统计总体的个别事物称总体单位。
例:对某市工业企业职工的收入情况进行研究。
统计总体:该市全部工业企业全部职工。
统计单位:该市全部工业企业的每一个职工。
统计指标:该市全部职工收入。
大一统计学笔记整理1. 统计学导论- 统计学的定义:统计学是一门研究如何收集、整理、分析和解释数据的科学- 统计学的应用领域:从商业到医学、社会科学到自然科学等各个领域都需要统计学的应用- 统计学的基本概念:总体、样本、参数和统计量- 统计学的研究方法:描述统计和推断统计- 数据的收集方式:观察法和试验法- 数据的分类:定量数据和定性数据- 描述统计的主要指标:频数、频率、平均数、中位数、众数、标准差和方差2. 数据的整理与呈现- 数据的整理:数据表、频数分布表和频数分布图- 数据的呈现:直方图、饼图、折线图、散点图和箱线图- 数据的处理:缺失数据的处理、异常值的处理和数据的变换3. 正态分布与抽样分布- 正态分布的性质:钟形曲线、对称性、均值和标准差的关系- 标准正态分布:Z分数和Z表的使用- 中心极限定理:大样本时抽样分布近似服从正态分布- 抽样分布的概念:样本均值的抽样分布、样本比例的抽样分布等- 样本均值的抽样分布:抽样误差、标准误和置信区间4. 统计推断与假设检验- 统计推断的基本思想:从样本推断总体- 参数估计:点估计和区间估计- 假设检验:零假设和备择假设、显著性水平、P值和拒绝域- 单样本检验:均值的假设检验和比例的假设检验- 双样本检验:两个独立样本均值的假设检验和配对样本均值的假设检验5. 回归与相关分析- 简单线性回归:回归方程、回归系数的估计和拟合优度- 多重线性回归:多元回归方程、多重共线性和变量选择- 相关分析:皮尔逊相关系数、斯皮尔曼等级相关系数和点双相关系数注意:以上内容仅为大一统计学的基础知识,详细内容和推导公式可参考相关教材和课堂讲义。
关于显著性检验,你想要的都在这儿了!!(基础篇)无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。
笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。
后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。
在此,特写下这篇博文,以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。
由于笔者本人也并非统计专业毕业,所持观点粗陋浅鄙,贻笑大方之处还望诸位业界前辈,领域翘楚不吝赐教。
小可在此谢过诸位看官了。
本篇博文致力于解决一下几点问题,在此罗列出来:1.什么是显著性检验? 2.为什么要做显著性检验? 3.怎么做显著性检验?下面就请跟随笔者的步伐一步步走入显著性检验的“前世与今生”。
一:显著性检验前传:什么是显著性检验?它与统计假设检验有什么关系?为什么要做显著性检验?“显著性检验”实际上是英文significance test 的汉语译名。
在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing )的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。
实际上,了解显著性检验的“宗门背景”(统计假设检验)更有助于一个科研新手理解显著性检验。
“统计假设检验”这一正名实际上指出了“显著性检验”的前提条件是“统计假设”,换言之“无假设,不检材料宝库的店验”。
任何人在使用显著性检验之前必须在心里明白自己的科研假设是什么,否则显著性检验就是“水中月,镜中花”,可望而不可即。
用更通俗的话来说就是要先对科研数据做一个假设,然后用检验来检查假设对不对。
一般而言,把要检验的假设称之为原假设,记为H0;把与H0相对应(相反)的假设称之为备择假设,记为H1。
如果原假设为真,而检验的结论却劝你放弃原假设。
第一章统计学和数据第一节统计学的含义及其应用统计学:关于数据的一门学问所关注的是大量可重复事物现象数量特征总体:研究的全部个体或数据的集合往往只有一个,特征唯一确定的,但未知的样本:从总体中抽取的一部分元素构成的集合不唯一,不确定,特征已知的样本量n:构成样本的元素的数目统计方法:描述统计:搜集、处理和描述推断统计:利用样本数据推断总体特征(参数估计和假设检验)第二节统计学发展简史古典统计学:国势学派—H·康令“显著事项”、有统计学之名,无统计学之实政治算术学派—威廉·配第(统计学创始人),有统计学之实,无统计学之名近代统计学:A·凯特勒(统计学之父)现代统计学:哥塞特—推断统计学先驱者费雪—推断统计学建立者第三节变量与数据观察数据:客观现象....观测得到无人为控制和条件约束实验数据:科学实验环境下得到的数据第四节数据的搜集↓↓↓直接来源(一手数据/原始数据):统计调查(观测数据)实验(实验数据):实验组和对照组的产生是随机的,匹配的。
间接来源(二手数据/次级数据):由其他人搜集和整理得到的统计数据公开出版的数据未公开发表的数据网络爬取的数据搜集数据方式:1.询问(访谈):面访(面对面交谈)、邮寄、计算机辅助电话调查、座谈会、个别深入访谈2.观察实验:观察法(调查对象没有意识到的情况下)、实验法第五节数据的误差↓抽样误差:不可避免,概率抽样中能计量并控制......总体内部差异越大,误差越大样本容量越大,误差越小重复抽样误差大于不重复抽样,分层抽样误差小于其他抽样非抽样误差:不能通过增大样本量加以控制抽样框误差,应答误差,无回答误差,计量误差(登记错误)第二章 数据描述第一节用统计量描述数据集中趋势平均数...①② 受极端值影响 主用于数值型数据 数据对称分布时应用 中位数...③/分位数...④ 不受极端值影响.......主用于顺序数据....... 数据分布偏斜程度较大时应用众数..⑤ 主用于分类数据中位数不能用于分类数据...........众数、中位数和平均数的关系:均值在哪边就是往哪边偏众数中位数均值对称分布众数中位数均值 左偏分布....众数中位数均值右偏分布....公式① 算术平均数简单平均数(未分组):x =x 1+x 2+ ···+x nn =∑x in i=1n加权平均数(分组):x=x 1f 1+x 2f 2+ ···+x k f kf 1+f 2+ ···+f k=∑x i f i k i=1∑f ik i=1有分组取组中值为平均数,若有开口组, 上开口组....:组中值=该组上限-(下组上限-下组下限)/2 下开口组....:组中值=该组下限-(上组上限-上组下限)/2② 几何平均数简单(每个数据只出现一次):G =√x 1·x 2·… ·x n n=√∏x n加权(每个数据出现不止一次):G =√x 1f 1·x 2f 2·… ·x n f n f 1+f 2+···+f n =√∏x f ∑f x③ 中位数 n 是奇数:M e=x n+12n 是偶数:M e =12[x(n 2)+x (n 2+1)]下限公式:M e=L +∑f2−S m−1f m·dL :中位数所在组上限 ∑f :各组频数之和 S m−1:中位数所在组以前各组的累计频数 d :中位数所在组组距 上限公式....:M e =U −∑f2−S m+1f m·dU :中位数所在组下限 f m :中位数所在组的频数 S m+1:中位数所在组以后各组的累计频数④ 分位数:Q L =(n +1)/4 Q M =2(n +1)/4 Q U =3(n +1)/4⑤ 众数下限公式:M 0=L +∆1∆1+∆2·d 上限公式:M 0=U −∆2∆1+∆2·d∆1:众数所在组的频数与前一组频数之差 ∆2:众数所在组的频数与后一组频数之差公式⑥异众比率V r=1−f0∑f i(f0:众数组的频数)⑦极差/全距R=max(x i)−min (x i)⑧四分位距:Q d=Q U−Q L⑨平均差未分组:MAD=∑|x i−x|n已分组:MAD=∑|x i−x|f∑f⑪离散系数总体:Vσ=σx̅样本:V s=sx̅⑫标准分数z i=x i−x̅sz的均值=0 标准差s=1(z=1.2,说明观察值比平均值大1.2倍s)偏态系数(SK)⑬峰值系数(K)⑭SK=0对称SK<0左偏SK>0右偏正态分布K<0扁平分布K>0尖峰分布公式⑬偏态系数未分组:SK=n∑(x i−x̅)3 (n−1)(n−2)s3已分组:SK=n∑(M i−x̅)3f ins3⑭峰态系数未分组:K=n(n+1)∑(x i−x̅)4−3[∑(x i−x̅)2]2(n−1) (n−1)(n−2)(n−3)s4已分组:K=∑(M i−x̅)4f ins4−3第二节用表格描述数据频数分布表分组→频数分组数K=1+log(n) log(2)K:组数n:数据个数2K>n组距=全距/组数各组组距=上限-下限各组组中值=(上限+下限)/2等距数列:每一组距相等,研究的现象变动比较均匀...........不等距/异距数列:每一组距不全相等,研究的对象变动分布均匀,波动幅度很大......“上限不在内”原则第三节用图形描述数据1.直方图用矩形面积表示各组频数分布(面积之和...)....=.总频数对于不等距分组,纵轴必须表示为频数密度(频数..)......../.组距2.箱线图找5个特征点:最大值、最小值、中位数、两个四分位数3.茎叶图类似横置直方图,既反映数据分布,又保留原始数据大致信息4.折线图5.气泡图6.雷达图(蜘蛛图):总的绝对值与图形所围成的区域成正比.................Array 7.散点图:观.察两个变量之间的相关程度和类型最直观的方法.....................8.条形图9.饼图:主要用于结构性问题研究10.环形图:反映多个样本(或总体)之间的结构差异11.帕累托图:双直接坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累计频率按各类别数据出现的频率排序(降序),并画出累计百分比双直角坐标系表示第三章参数估计第一节统计量与抽样分布一、统计量的抽样分布统计量:对样本数量特征的概括性度量不含任何未知参数的样本的函数是一个随机变量不同样本可算出不同的统计量值抽样分布:样本统计量的概率分布仅仅是一种理论分布提供了样本统计量长远而稳定的信息,构成推断总体参数的理论基础点估计:用样本统计量的某个实际取值作为相应的总体参数的估计值的过程常用——用样本均值x̅估计总体均值μ用样本比例p估计总体比例π用样本方差s2估计总体方差σ2总体参数是未知的,但可以利用样本信息来推断。
一、统计学概论分理论统计和应用统计应用统计分为描述统计学和推断统计学。
描述统计为一组数据的中(位置均值、中位数)、散(极差、方差、标准差)、形|(偏度)描述。
推断统计分为参数估计和假设检验。
技能1、经验——数据收集加工——画成图形——数理(规律)(数据不等于数字)PPT 原则用图不用表、用表不用栏、用栏不用字实际问题5M1E ——组成过程——产品(结果)——属性(包括几何(形位方尺)、物理、生化、人文)——集合统计问题——(构成)总体——样本——数据——类型分计数型(离散性)和计量型(连续性),即概率分布为计量型分布和技术型分布)——规律分描述和推断。
1、总体与样本中间有一种学问抽样验收抽样、统计抽样样本量2、样本和数据中间有一门测量技术MSA3、分布规律总体参数平均值() 标准差() 总位数() 比例(p )样本统计量的特点随机变化,不要轻易用样本下结论。
拉丁字母在数学上用于总体参数阿拉伯字母表示样本统计量希腊字母表示计算总体参数统计分参数统计和非参数统计。
推断统计分估计总体总体某参数未知,用对应的样本统计量去猜测。
检验假设总体某参数已知,用对应的样本统计量去验证。
二统计数据收集与整理1、数据不等于数字2、数据的两种类型描述性分类——响应变量(因变量)和预报因子(独立变量)如性别叫因子,男女叫水平。
四种尺度定类、定序、定距、定比3.数据管理的7个层次无假不乱浅深系4.软件每一列表示一个变量,每一行表示一个样本鱼骨图只适用于一个为什么,变量程序图IPO 适用于多个为什么。
I (变量)P O 水质烧开水色香味器皿材质火燃料风压强目的要抓住关键的变量。
2、统计数据的表现形式绝对数——时期数和时点数相对数——比例部分比总体比率部分比部分统计的数据来源直接来源和间接来源。
1、数据收集分被动收集(利用历史和现场)和主动收集(DOE 试验设计)现场收集数据是被动收集,分临时数据和常态数据。
试验是临时数据。
数据好的特征。
统计学第八版笔记手写概述统计学是一门研究如何收集、整理、分析和解释数据的学科。
它在科学研究、社会科学、商业决策等领域中起着重要作用。
本篇文章将介绍《统计学第八版》这本经典教材中的主要内容和笔记要点。
数据的收集与整理数字与图表•使用数字和图表对数据进行可视化展示。
•数字摘要包括集中趋势(均值、中位数、众数)和离散程度(方差、标准差、四分位差)。
•图表常见的类型有条形图、折线图、散点图等。
数据收集原理1.通过随机抽样获得代表性样本。
2.确保样本足够大以减小采样误差。
3.使用随机实验、观察和调查等方法收集数据。
数据整理与描述统计•数据整理包括数据清洗和数据转换。
•描述统计分析通过计算、比较和总结数据来了解数据的特征与趋势。
概率与概率分布基本概率概念•事件:可能发生的结果。
•样本空间:所有可能结果的集合。
•概率:事件发生的可能性。
事件的计算•加法规则:计算多个事件至少其中一个事件发生的概率。
•乘法规则:计算多个事件同时发生的概率。
概率分布•离散概率分布:用来描述离散型随机变量的概率分布,例如二项分布、泊松分布。
•连续概率分布:用来描述连续型随机变量的概率分布,例如正态分布、指数分布。
统计推断参数估计•点估计:通过样本数据来估计总体参数。
•区间估计:给出参数估计值的一个范围。
假设检验•设立原假设和备择假设,通过计算样本数据的统计量来判断是否支持原假设。
•显著性水平:决定拒绝原假设的程度。
•P值:根据样本数据估计得到的原假设为真的概率。
方差分析与回归分析•方差分析:用于比较两个或多个总体均值是否存在显著差异。
•回归分析:用于建立自变量与因变量之间的关系模型。
数据采集与实验设计随机化控制实验1.随机化:将实验对象随机分配到实验组和对照组。
2.控制:除了实验处理之外,尽可能保持其他条件的一致性。
调查研究设计•横断面研究:在一个特定时间点对一组样本进行数据收集。
•纵向研究:在一段时间内跟踪同一组样本的数据收集。
相关与回归分析•相关分析:研究变量之间的关系强度和方向。
第一章统计与数据描述统计(Descriptive Statistics):用表格、图形和数字来概括、显示数据特征的统计方法推断统计(Inferential Statistics):从总体中抽取样本,并利用样本数据来推断总体特征的统计方法。
参数(parameter):描述总体数量特征的概念常用希腊字母。
统计量(statistic):描述样本数量特征的概念,常用英文字母表示定序数据也可以有负数,但是不可以计算算术平均值根据较高层次的计量尺度可以获得较低层次的计量尺度。
定距数据:出生年月也称间隔尺度,例如年份、摄氏温度,数据表现为“数值”,可以进行加减运算,“0”是只是尺度上的一个点,不代表“不存在”定比数据:体重也称比率尺度,例如体重、身高、华氏温度,数据表现为“数值”,可以进行加减、乘除运算,“0”表示“没有”或“不存在”,变量是用来描述现象某种令人感兴趣的特征的概念。
横截面、时间序列和面板数据区分数据是时点数还是时期数的方法之一看其加总后的结果是否有意义。
若有意义则该指标必定是时期数。
反之,则必定是时点数。
小结:统计学是一门收集、分析、展示和解释数据的科学描述统计和推断统计总体和样本,参数和统计量分类数据、顺序数据、间距数据和比率数据定性数据和定量数据横截面数据、时间序列数据、面板数据统计指标的概念和表现形式第二章数据的搜集抽样单位的名单称为抽样框(Sampling Frame)。
抽样框应尽可能与目标总体相一致。
例如名单抽样框、区域抽样框、时间表抽样框。
简单随机抽样也称纯随机抽样。
直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。
可分为有放回和无放回两种方式。
通常有抽签法和随机数法两种抽选方法。
重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大系统抽样(也称等距抽样):将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。
主要适用场合: 总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的总体内单位数过多,而抽取的样本又较多时总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查)分层抽样也称分类抽样或类型抽样。