当前位置：文档之家› matlab在统计数据描述性分析的应用

matlab在统计数据描述性分析的应用

统计数据的描述性分析

一、实验目的

熟悉在matlab中实现数据的统计描述方法，掌握基本统计命令：样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。

二、实验内容

1 、频数表和直方图

数据输入,将你班的任意科目考试成绩输入

>> data=[91 78 90 88 76 81 77 74];

>> [N,X]=hist(data,5)

N =

3 1 1 0 3

X =

75.7000 79.1000 82.5000 85.9000 89.3000

>> hist(data,5)

2、基本统计量

1) 样本均值

语法: m=mean(x)

若x 为向量，返回结果m是x 中元素的均值；

若x 为矩阵，返回结果m是行向量，它包含x 每列数据的均值。

2) 样本中位数

语法: m=median(x)

若x 为向量，返回结果m是x 中元素的中位数；

若x 为矩阵，返回结果m是行向量，它包含x 每列数据的中位数3) 样本标准差

语法:y=std(x)

若x 为向量，返回结果y 是x 中元素的标准差；

若x 为矩阵，返回结果y 是行向量，它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理，n是样本的个数。

4) 样本方差

语法：y=var(x); y=var(x,1)

若x 为向量，返回结果y 是x 中元素的方差；

若x 为矩阵，返回结果y 是行向量，它包含x 每列数据的方差

var(x)运用n-1 进行标准化处理（满足无偏估计的要求），n 是样本的个数。var(x,1)运用n 进行标准化处理，生成关于样本均值的二阶矩。

5) 样本的极差（最大之和最小值之差）

语法：z= range(x)

返回结果z是数组x 的极差。

6) 样本的偏度

语法：s=skewness(x)

说明：偏度反映分布的对称性，s>0 称为右偏态，此时数据位于均值右边的比左边的多；s<0,情况相反；s 接近0 则可认为分布是对称的。

7) 样本的峰度

语法：k= kurtosis(x)

说明：正态分布峰度是3，若k 比3 大得多，表示分布有沉重的尾巴，即样本中含有较多远离均值的数据，峰度可以作衡量偏离正态分布的尺度之一。

>> mean(data) ,

ans =

81.8750

>> median(data) ans =

79.5000

>> std(data)

ans =

6.7915

>> var(data)

ans =

46.1250

>>range(data) ans =

>> skewness(data) ans =

0.3218

>> k= kurtosis(data)

k =

1.4217

作为研究杨树形状的一部分，测定20 株杨树树叶，每个叶片测定了四个变量，

下表第一行为叶片长度，第二行为叶片2/3处宽，第三行为叶片1/3 处宽，第四行为叶片1/2处宽，计算数据的平均数、标准差、方差、极差及偏度和峰度。

x =[108 90 130 114 113 120 87 94 115 90 117 134 150 140 126 118 136 145 161 155；

95 95 95 85 87 90 67 66 84 75 60 73 73 64 75 43 55 63 64 60；

118 117 140 113 121 122 97 88 118 103 84 104 110 95 96 59 89 9 112 100；

110 110 125 108 110 114 88 86 106 96 76 92 96 87 90 52 75 84 94 83] >>mean(x')

ans =

122.1500 73.4500 99.7500 94.1000

>> median(x')

ans =

119.0000 73.0000 103.5000 93.0000

>> std(x')

ans =

21.9552 14.7165 27.5602 16.7266>> var(x) , >> range(x) , >> skewness(x')

ans =

0.0064 -0.0529 -1.8406 -0.4302

3、几个重要的概率分布

Matlab 统计工具箱中有20 种概率分布，主要的几种分布命令字符：norm(正态分布)，exp(指数分布)，poiss(泊松分布)，beta(B 分布) ，weib(威布尔) , chi2(x2卡方分布)，t (T 分布) ，f (F 分布) 对每一种分布都提供了5 类函数，其函数命令的字符是：pdf（概率密度），cdf（概率分布），inv（逆概率分布），stat（均值和方差），rnd（随机数生成）

当需要一种分布的某一类函数时，将以上所列的分布命令字符和

函数命令的字符接起来，并输入自变量和参数就行了，例如

1）计算正态分布概率密度函数：

语法：p=normpdf(x,mu,sigma)

说明：计算均值mu、标准差sigma 的正态分布在x 点概率密度p=p(x)。

>> x=-6:0.01:6; y=normpdf(x);z=normpdf(x,0,2);

>> plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)')

>> x=0:0.01:20; y=chi2pdf(x,5);z=chi2pdf(x,10);

>> plot(x,y,x,z),gtext('chi2(5)'),gtext('chi2(10)')

>> x=0:0.01:3; y=fpdf(x,10,50);z=fpdf(x,10,5); >> plot(x,y,x,z),gtext('F(10,50)'),gtext('F(10,5)')

2）计算正态分布的累积分布函数

语法：Y=normcdf(X,mu sigma)

说明：根据相应的均值mu 和方差sigma 计算X 中每个值的正态分布的累积分布函数值。

>> P=normcdf(2)-normcdf(-2)

P =

0.9545

3）计算正态分布的逆累积分布函数

语法：X=norminv(P,mu sigma)

说明：根据相应的,mu 和sigma 计算正态分布中累积分布概率值为P 的正态分布对应点。P中的值必须位于[0，1]区间上。

>> x=norminv(0.5,0,1)

x =

>> x=norminv([0.025 0.975],0,1)

x =

-1.9600 1.9600

4）二项分布均值和方差

语法：[m,v]=binostat (N,P)

说明：返回二项分布的均值m和方差v

>> [m,v]=binostat(500,0.01)

m =

v =

4.9500

5）生成服从正态分布的随机数

语法：R=normrnd(mu,sigma,m,n)

说明：生成m*n形式的正态分布的随机矩阵。>> R=normrnd(70,25,30,1)

R =

59.1859

28.3604

73.1333

77.1919

41.3382

99.7729

99.7291

69.0592

78.1823

74.3660

65.3323

88.1448

55.2921 124.5796

66.5901

72.8483

96.6692

71.4820

67.6088

49.1913

77.3603

36.5955

87.8581

110.5891

52.7056

91.4499

101.3500

30.1568

33.9759

84.2787

4、了解EXCEL 的假设检验功能

EXCEL：工具→数据分析→描述统计

5、书上P52页例题用EXCEL 做出轮廓图，雷达图

打开EXCEL >>输入数据包括变量名和样品名>>选定数据>>点击菜单栏的插入>>图表>>折线图（轮廓图）>>…

同法，可选雷达图等其他多元数据图示

6、用MATLAB 做出调和曲线图

>> t=-pi:pi/90:pi;

>>f1=563.51/2.^(1/2)+227.78*sin(t)+147.76*cos(t)+235.99*sin(2*t)+51 0.78*cos(2*t);

>>f2=678.92/2.^(1/2)+365.07*sin(t)+112.82*cos(t)+301.46*sin(2*t)+46 5.88*cos(2*t);

>>f3=237.38/2.^(1/2)+174.48*sin(t)+119.78*cos(t)+141.07*sin(2*t)+24 5.57*cos(2*t);

>>f4=253.41/2.^(1/2)+156.13*sin(t)+102.96*cos(t)+108.13*sin(2*t)+21 2.20*cos(2*t);

>>plot(t,f1,'r-',t,f2,'b-',t,f3,'y-',t,f4,'k-')

>>title(‘四个地区人均消费支出’)

7、做二元正态分布密度函数立体图

>>[x,y]=meshgrid([-2:0.1:2]);

>>z=1/2*pi*exp(-0.5*x.^2-0.5*y^2);

>>plot3(x,y,z); 或者>>mesh(x,y,z); 或者>>surf(x,y,z)

>> title(` (X,Y)~N(0,0,1,1,0)立体图`)

>> grid on

描述统计与推断统计

描述统计与推断统计-心理学统计与测量经典习题1 第一章描述统计名词解释 1.描述统计（吉林大学2002研）答：描述统计主要研究如何整理心理与教育科学实验或调查得来的大量数据，描述一组数据的全貌，表达一件事物的性质。具体内容有：数据如何分组，如何使用各种统计表与统计图的方法去描述一组数据的分组及分布情况，如何通过一组数据计算一些特征数，减缩数据，进一步显示与描述一组数据的全貌。 2.相关系数（吉林大学2002研）答：相关系数是两列变量间相关程度的数字表现形式，或者说是表示相关程度的指标。作为样本的统计量用r表示，作为总体参数一般用ρ表示。相关系数不是等距的度量值，因此在比较相关程度时，只能说绝对值大者比绝对值小者相关更密切一些，而不能进行加减乘除。 3.差异系数（浙大2003研）答：差异系数，又称变异系数、相对标准差等，它是一种相对差异量，为标准差对平均数的百分比。其公式如下：常用于：①同一团体不同观测值离散程度的比较；②对于水平相差较大，但进行的是同一种观测的各种团体，进行观测值离散程度的比较。 4.二列相关（中科院2004研）答：如果两列变量均属于正态分布，其中一列变量为等距或等比的测量数据，另一列变量虽然也是正态分布，但被人为地划分为两类。求这样两列变量的相关用二列相关。 5.集中量数与差异量数（浙大2000研，苏州大学2002研）答：集中趋势和离中趋势是次数分布的两个基本特征。数据的集中趋势就是指数据分布中大量数据向某方向集中的程度，离中趋势是指数据分布中数据彼此分散的程度。用来描述一组数据这两种特点的统计量分别称为集中量数和差异量数。 6.中位数（南开大学2004研）答：中位数，又称中点数，中数，是指位于一组数据中较大一半和较小一半中间位置的那个数，用Md或Mdn来表示。 7.品质相关（华东师大2002研）

matlab在统计数据的描述性分析的应用

统计数据的描述性分析一、实验目的熟悉在matlab中实现数据的统计描述方法，掌握基本统计命令：样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。二、实验内容 1 、频数表和直方图数据输入,将你班的任意科目考试成绩输入 >> data=[91 78 90 88 76 81 77 74]; >> [N,X]=hist(data,5) N = 3 1 1 0 3 X = 75.7000 79.1000 82.5000 85.9000 89.3000 >> hist(data,5)

2、基本统计量 1) 样本均值语法: m=mean(x) 若x 为向量，返回结果m是x 中元素的均值；若x 为矩阵，返回结果m是行向量，它包含x 每列数据的均值。 2) 样本中位数语法: m=median(x) 若x 为向量，返回结果m是x 中元素的中位数；若x 为矩阵，返回结果m是行向量，它包含x 每列数据的中位数3) 样本标准差语法:y=std(x) 若x 为向量，返回结果y 是x 中元素的标准差；若x 为矩阵，返回结果y 是行向量，它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理，n是样本的个数。 4) 样本方差语法：y=var(x); y=var(x,1) 若x 为向量，返回结果y 是x 中元素的方差；若x 为矩阵，返回结果y 是行向量，它包含x 每列数据的方差 var(x)运用n-1 进行标准化处理（满足无偏估计的要求），n 是样本的个数。var(x,1)运用n 进行标准化处理，生成关于样本均值的二阶矩。 5) 样本的极差（最大之和最小值之差）语法：z= range(x) 返回结果z是数组x 的极差。 6) 样本的偏度语法：s=skewness(x) 说明：偏度反映分布的对称性，s>0 称为右偏态，此时数据位于均值右边的比左边的多；s<0,情况相反；s 接近0 则可认为分布是对称的。 7) 样本的峰度语法：k= kurtosis(x) 说明：正态分布峰度是3，若k 比3 大得多，表示分布有沉重的尾巴，即样本中含有较多远离均值的数据，峰度可以作衡量偏离正态分布的尺度之一。 >> mean(data) ,

第2章统计数据的描述

第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量，随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为：A.好；B.较好；C.一般；D.差；E.较差。调查结果如下： B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型； (2)用Excel制作一张频数分布表； (3) 绘制一张条形图，反映评价等级的分布。解：（1）由于表中的数据为服务质量的等级，可以进行优劣等级比较，但不能计算差异大小，属于顺序数据。（2）频数分布表如下：服务质量等级评价的频数分布服务质量等级家庭数（频数）频率% A1414 B2121 C3232 D1818

E1515 合计100100 （3）条形图的制作：将上表(包含总标题，去掉合计栏)复制到Excel表中，点击：图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图： 700716728719685709691684705718 706715712722691708690692707701 708729694681695685706661735665 668710693697674658698666696698 706692691747699682698700710722 694690736689696651673749708727 688689683685702741698713676702 701671718707683717733712683692 693697664681721720677679695691 713699725726704729703696717688 (1)利用计算机对上面的数据进行排序；

MATLAB数据分析与多项式计算(M)

第7章 MATLAB数据分析与多项式计算 6.1 数据统计处理 6.2 数据插值 6.3 曲线拟合 6.4 离散傅立叶变换 6.5 多项式计算 6.1 数据统计处理 6.1.1 最大值和最小值 MATLAB提供的求数据序列的最大值和最小值的函数分别为max 和min，两个函数的调用格式和操作过程类似。 1．求向量的最大值和最小值求一个向量X的最大值的函数有两种调用格式，分别是： (1) y=max(X)：返回向量X的最大值存入y，如果X中包含复数元素，则按模取最大值。 (2) [y,I]=max(X)：返回向量X的最大值存入y，最大值的序号存入I，如果X中包含复数元素，则按模取最大值。求向量X的最小值的函数是min(X)，用法和max(X)完全相同。例6-1 求向量x的最大值。命令如下： x=[-43,72,9,16,23,47]; y=max(x) %求向量x中的最大值 [y,l]=max(x) %求向量x中的最大值及其该元素的位置 2．求矩阵的最大值和最小值求矩阵A的最大值的函数有3种调用格式，分别是： (1) max(A)：返回一个行向量，向量的第i个元素是矩阵A的第i 列上的最大值。 (2) [Y,U]=max(A)：返回行向量Y和U，Y向量记录A的每列的最大值，U向量记录每列最大值的行号。 (3) max(A,[],dim)：dim取1或2。dim取1时，该函数和max(A)完全相同；dim取2时，该函数返回一个列向量，其第i个元素是A矩阵的第i行上的最大值。求最小值的函数是min，其用法和max完全相同。

例6-2 分别求3×4矩阵x中各列和各行元素中的最大值，并求整个矩阵的最大值和最小值。 3．两个向量或矩阵对应元素的比较函数max和min还能对两个同型的向量或矩阵进行比较，调用格式为： (1) U=max(A,B)：A,B是两个同型的向量或矩阵，结果U是与A,B 同型的向量或矩阵，U的每个元素等于A,B对应元素的较大者。 (2) U=max(A,n)：n是一个标量，结果U是与A同型的向量或矩阵，U的每个元素等于A对应元素和n中的较大者。 min函数的用法和max完全相同。例6-3 求两个2×3矩阵x, y所有同一位置上的较大元素构成的新矩阵p。 6.1.2 求和与求积数据序列求和与求积的函数是sum和prod，其使用方法类似。设X是一个向量，A是一个矩阵，函数的调用格式为： sum(X)：返回向量X各元素的和。 prod(X)：返回向量X各元素的乘积。 sum(A)：返回一个行向量，其第i个元素是A的第i列的元素和。 prod(A)：返回一个行向量，其第i个元素是A的第i列的元素乘积。 sum(A,dim)：当dim为1时，该函数等同于sum(A)；当dim为2时，返回一个列向量，其第i个元素是A的第i行的各元素之和。 prod(A,dim)：当dim为1时，该函数等同于prod(A)；当dim为2时，返回一个列向量，其第i个元素是A的第i行的各元素乘积。例6-4 求矩阵A的每行元素的乘积和全部元素的乘积。 6.1.3 平均值和中值求数据序列平均值的函数是mean，求数据序列中值的函数是median。两个函数的调用格式为： mean(X)：返回向量X的算术平均值。 median(X)：返回向量X的中值。

matlab与多元统计分析

Matlab 与多元统计分析胡云峰安庆师范学院第三章习题 3.1对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表3.1所示。假设男婴的测量数据X （a ）（a=1，…，6）来自正态总体N 3(μ,∑) 的随机样本。根据以往的资料，该地区城市2周岁男婴的这三项的均值向量μ0=（90,58,16）’，试检验该地区农村男婴与城市男婴是否有相同的均值向量。表3.1 某地区农村2周岁男婴的体格测量数据 1．预备知识 ∑未知时均值向量的检验： H 0：μ=μ0 H 1：μ≠μ0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H 这里2 (1) (, )p n T F p n p n p αα-= -- 2．根据预备知识用matlab 实现本例题算样本协方差和均值程序x=[78 60.6 16.5;76 58.1 12.5;92 63.2 14.5;81 59.0 14.0;81 60.8 15.5;84 59.5 14.0]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:));

Matlab对采样数据进行频谱分析

使用Matlab对采样数据进行频谱分析 1、采样数据导入Matlab 采样数据的导入至少有三种方法。第一就是手动将数据整理成Matlab支持的格式，这种方法仅适用于数据量比较小的采样。第二种方法是使用Matlab的可视化交互操作，具体操作步骤为：File --> Import Data，然后在弹出的对话框中找到保存采样数据的文件，根据提示一步一步即可将数据导入。这种方法适合于数据量较大，但又不是太大的数据。据本人经验，当数据大于15万对之后，读入速度就会显著变慢，出现假死而失败。第三种方法，使用文件读入命令。数据文件读入命令有textread、fscanf、load 等，如果采样数据保存在txt文件中，则推荐使用 textread命令。如 [a,b]=textread('data.txt','%f%*f%f'); 这条命令将data.txt中保存的数据三个三个分组，将每组的第一个数据送给列向量a，第三个数送给列向量b，第二个数据丢弃。命令类似于C语言，详细可查看其帮助文件。文件读入命令录入采样数据可以处理任意大小的数据量，且录入速度相当快，一百多万的数据不到20秒即可录入。强烈推荐！ 2、对采样数据进行频谱分析频谱分析自然要使用快速傅里叶变换FFT了，对应的命令即 fft ，简单使用方法为：Y=fft(b,N)，其中b即是采样数据，N为fft数据采样个数。一般不指定N，即简化为Y=fft(b)。Y即为FFT变换后得到的结果，与b的元素数相等，为复数。以频率为横坐标，Y数组每个元素的幅值为纵坐标，画图即得数据b的幅频特性；以频率为横坐标，Y数组每个元素的角度为纵坐标，画图即得数据b的相频特性。典型频谱分析M程序举例如下： clc fs=100; t=[0:1/fs:100]; N=length(t)-1;%减1使N为偶数 %频率分辨率F=1/t=fs/N p=1.3*sin(0.48*2*pi*t)+2.1*sin(0.52*2*pi*t)+1.1*sin(0.53*2*pi*t)... +0.5*sin(1.8*2*pi*t)+0.9*sin(2.2*2*pi*t); %上面模拟对信号进行采样，得到采样数据p，下面对p进行频谱分析 figure(1) plot(t,p); grid on title('信号 p(t)'); xlabel('t') ylabel('p')

matlab与应用多元统计分析

多元统计分析中的应用研究 , 摘要：许多实际问题往往需要对数据进行统计分析，建立合适的统计模型，过去一般采用SAS 、SPSS软件分析，本文给出 Matlab软件在多元统计分析上的应用, 主要介绍Matlab 在聚类分析、判别分析、主成份分析上的应用,文中均给以实例, 结果令人满意。关键词：Matlab软件；聚类分析；主成份分析 Research for application of Multivariate Statistical Analysis Abstract:Many practice question sometimes need Statistical Analysis to data.,and establish appropriate Statistical model SAS and SPSS software were commonly used in foretime ,this paper give the application of Matlab software in Multivariate Statistical Analysis,mostly introduce the application of Matlab software in priciple component analysis and cluster analysis and differentiate analysis.The example are given in writing and the result are satisfaction. Key words: Matlab software; cluster analysis; priciple component analysis 0 引言许多实际问题往往需要对数据进行多元统计分析, 建立合适的模型, 在多元统计分析方面, 常用的软件有SAS 、SPSS 、S-PLUS等。我们在这里给出Matlab在多元统计分析上的应用, 在较早的版本中, 统计功能不那么强大, 而在Matlab6.x版本中, 仅在统计工具中的功能函数就达200多个, 功能已足以赶超任何其他专用的统计软件,在应用上Matlab具有其他软件不可比拟的操作简单,接口方便, 扩充能力强等优势, 再加上Matlab的应用范围广泛, 因此可以预见其在统计应用上越来越占有极其重要的地位，下面用实例给出Matlab 在聚类分析、主成份分析上的应用。 1 聚类分析聚类分析法是一门多元统计分类法，其目的是把分类对象按一定规则分成若干类，所分成的类是根据数据本身的特征确定的。聚类分析法根据变量（或样品或指标）的属性或特征的相似性，用数学方法把他们逐步地划类，最后得到一个能反映样品之间或指标之间亲疏关系的客观分类系统图，称为谱系聚类图。聚类分析的步骤有：数据变换，计算ｎ个样品的两两间的距离，先分为一类，在剩下的ｎ－１个样品计算距离，按照不同距离最小的原则，增加分类的个数，减少所需要分类的样品的个数，循环进行下去，直到类的总个数为１时止。根

Matlab大数据处理

Matlab大数据处理2：硬盘访问.mat文件分类：Matlab Hack2013-09-08 20:16 146人阅读评论(0) 收藏举报Matlab程序中经常要访问.mat文件，通常在作法是用load函数直接加载.mat文件。如果.mat文件非常大，超过了系统可用内存的时候该怎么办呢？Matlab2013b为提供了matfile函数，matfile函数可以通过索引直接访问.mat文件中的Matlab变量，而无需将.mat文件加载入内存。 matfile有两种用法： m = matfile(filename)，用文件名创建matfile对象，通过这个对象可以直接访问mat文件中的matlab变量。 m = matfile(filename,'Writable',isWritable)，isWritable开启或关闭文件写操作。使用示例： 1. 向mat文件中写入变量 x = magic(20); m = matfile('myFile.mat'); % 创建一个指向myFile.mat的matfile对象 m.x = x; % 写入x m.y(81:100,81:100) = magic(20); % 使用坐标索引

2. 加载变量 filename = 'topography.mat'; m = matfile(filename); topo = m.topo; %读取变量topo [nrows,ncols] = size(m,'stocks'); %读取stocks变量的size avgs = zeros(1,ncols); for idx = 1:ncols avgs(idx) = mean(m.stocks(:,idx)); end 3. 开启写权限 filename = 'myFile.mat'; m = matfile(filename,'Writable',true); 或者 m.Properties.Writable = true;

Excel 在描述统计中的应用

第三节Excel 在描述统计中的应用在使用Excel 进行数据分析时，要经常使用到Excel 中一些函数和数据分析工具。其中，函数是Excel 预定义的内置公式。它可以接受被称为参数的特定数值，按函数的内置语法结构进行特定计算，最后返回一定的函数运算结果。例如，SUM 函数对单元格或单元格区域执行相加运算，PMT 函数在给定的利率、贷款期限和本金数额基础上计算偿还额。函数的语法以函数名称开始，后面是左圆括号、以逗号隔开的参数和右圆括号。参数可以是数字、文本、形如TRUE 或FALS E 的逻辑值、数组、形如#N/A 的错误值，或单元格引用。给定的参数必须能产生有效的值。参数也可以是常量、公式或其它函数。 Excel 还提供了一组数据分析工具，称为“分析工具库”，在建立复杂的统计分析时，使用现成的数据分析工具，可以节省很多时间。只需为每一个分析工具提供必要的数据和参数，该工具就会使用适宜的统计或数学函数，在输出表格中显示相应的结果。其中的一些工具在生成输出表格时还能同时产生图表。如果要浏览已有的分析工具，可以单击“工具”菜单中的“数据分析”命令。如果“数据分析”命令没有出现在“工具”菜单上，则必须运行“安装”程序来加载“分析工具库”。安装完毕之后，必须通过“工具”菜单中的“加载宏”命令，在“加载宏”对话框中选择并启动它。

一、描述统计工具（一）简介：此分析工具用于生成对输入区域中数据的单变量分析，提供数据趋中性和易变性等有关信息。（二）操作步骤： 1．用鼠标点击工作表中待分析数据的任一单元格。 2．选择“工具”菜单的“数据分析”子菜单。 3．用鼠标双击数据分析工具中的“描述统计”选项。 4．出现“描述统计”对话框，对话框内各选项的含义如下：输入区域：在此输入待分析数据区域的单元格范围。一般情况下Excel 会自动根据当前单元格确定待分析数据区域。分组方式：如果需要指出输入区域中的数据是按行还是按列排列，则单击“行”或“列”。标志位于第一行/列：如果输入区域的第一行中包含标志项(变量名)，则选中“标志位于第一行”复选框；如果输入区域的第一列中包含标志项，则选中“标志位于第一列”复选框；如果输入区域没有标志项，则不选任何复选框，Excel 将在输出表中生成适宜的数据标志。均值置信度：若需要输出由样本均值推断总体均值的置信区间，则选中此复选框，然后在右侧的编辑框中，输入所要使用的置信度。例如，置信度95%可计算出的总体样本均值置信区间为10，则表示：在5%的显著水平下总体均值的置信区间为( X -10, X +10）。

Matlab多元统计分析程序

Matlab多元统计分析程序 1. 主成分分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 主成分分析 % % 设对变量x1,x2,...,xp进行n次观测，得到n×p数据矩阵x=x(i,j)， % 本程序对初始数据进行主成分分析，要求先请将观测矩阵输入到变 % 量x,再运行本程序。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸，以便数据标准化. % [n,p]=size(x); % % 数据处理方式设置，即是否先将数据标准化. % fprintf('\n 1---使用原始数据直接计算距离') fprintf('\n 2---使用标准化后的数据计算距离') k=input('请输入你的选择（1～2）'); % % 数据标准化 % switch k case 1 xs=x; case 2 mx=mean(x);

xs=(x-repmat(mx,n,1))./repmat(stdr,n,1); end % % 主成分分析，返回各主成分pc，所谓的z－得分score，x的协方差 % 矩阵的特征值latent和每个数据点的Hotelling统计量tsquare. % [pc score latent tsquare]=princomp(xs) 2. 典型相关分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 在运行本程序之前，请先把数据输入/导入到MATLAB 的 % 内存空间，并存放在变量x 中，每行存放一个样本。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸 % [n,h]=size(x); % % 输入基本参数 % p=input('\n第一组变量的个数p = ? '); fprintf('\n1--使用样本协方差矩阵计算典型相关变量') fprintf('\n2--使用样本相关矩阵计算典型相关变量') ctl=input('\n请输入你的选择'); % % 默认的显著性水平为alpha=0.05，可以改变下面语句中的alpha值。 % alpha=0.05; % % 按要求计算样本协方差矩阵或样本相关矩阵 % switch ctl case 1 st=cov(x); case 2

第6章matlab数据分析与多项式计算_习题答案

第6章 MATLAB数据分析与多项式计算习题6 一、选择题 1．设A=[1,2,3,4,5;3,4,5,6,7]，则min(max(A))的值是（）。B A．1 B．3 C．5 D．7 2．已知a为3×3矩阵，则运行mean(a)命令是（）。B A．计算a每行的平均值 B．计算a每列的平均值 C．a增加一行平均值 D．a增加一列平均值 3．在MATLAB命令行窗口输入下列命令： >> x=[1,2,3,4]; >> y=polyval(x,1); 则y的值为（）。 D A．5 B．8 C．24 D．10 4．设P是多项式系数向量，A为方阵，则函数polyval(P,A)与函数polyvalm(P,A)的值（）。D A．一个是标量，一个是方阵 B．都是标量 C．值相等 D．值不相等 5．在MATLAB命令行窗口输入下列命令： >> A=[1,0,-2]; >> x=roots(A); 则x(1)的值为（）。 C A．1 B．-2 C． D． 6．关于数据插值与曲线拟合，下列说法不正确的是（）。A A．3次样条方法的插值结果肯定比线性插值方法精度高。 B．插值函数是必须满足原始数据点坐标，而拟合函数则是整体最接近原始数据点，而不一定要必须经过原始数据点。 C．曲线拟合常常采用最小二乘原理，即要求拟合函数与原始数据的均方误差达到极小。 D．插值和拟合都是通过已知数据集来求取未知点的函数值。二、填空题 1．设A=[1,2,3;10 20 30;4 5 6]，则sum(A)= ，median(A)= 。 [15 27 39]，[4 5 6[ 2．向量[2,0,-1]所代表的多项式是。2x2-1 3．为了求ax2+bx+c=0的根，相应的命令是（假定a、b、c已经赋值）。为了

第四章统计数据的描述

第四章统计数据的描述（一）判断题 1、以最低限度为任务提出的计划指标，计划完成程度以不超过100%为好。（） 2、全国人均国民生产总值，属于强度相对数。（） 3、标志总量是指总体单位某一数量标志值的总和。（） 4、在计算相对指标时，分子、分母可以互换的相对指标唯一只有强度相对数。（） 5、某企业工人劳动生产率，计划提高5%，实际提高10%，则劳动生产率的计划完成程度为%。（） 6、权数的实质是各组单位数占总体单位数的比重。（） 7、在算术平均数中，若每个变量值减去一个任意常数a，等于平均数减去该数a。（） 8、各个变量值与其平均数离差之和可以大于0，可以小于0，当然也可以等于0。（） 9、各个变量值与任意一个常数的离差之和可以大于0，可以小于0，当然也可以等于0。（） 10、各个变量值与其平均数离差的平方之和一定等于0。（） 11、各个变量值与其平均数离差的平方之和可以等于0。（） 12、各个变量值与其平均数离差的平方之和为最小。（） 13、已知一组数列的方差为9，离散系数为30％，则其平均数等于30。（） 14、交替标志的平均数等于P。（） 15、对同一数列，同时计算平均差和标准差，两者数值必然相等。（） 16、平均差和标准差都表示标志值对算术平均数的平均距离。（） 17、某分布数列的偏态系数为，说明它的分布曲线为左偏。（）（二）单项选择题 1、某种商品的年末库存额是（）。 A. 时期指标和实物指标

B. 时点指标和实物指标 C. 时期指标和价值指标 D. 时点指标和价值指标 2、绝对指标的基本特点是计量单位都是（） A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 3、相对指标数值的表现形式有（） A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 4、相对指标数值的大小（） A. 随总体范围扩大而增大 B. 随总体范围扩大而减小 C. 随总体范围缩小而减小 D. 与总体范围大小无关 5、人口自然增长率，属于（） A. 结构相对数 B. 比较相对数 C. 强度相对数 D. 比例相对数 6、平均数反映了总体分布的（）。 A. 集中趋势 B. 离中趋势 C. 长期趋势

多元统计分析

作业一

1.2 分析2016年经济发展情况排名省gdp 占比累计占比 1 广东79512.05 10.30 10.30 2 江苏76086.2 9.86 20.17 3 山东67008.2 8.68 28.85 4 浙江4648 5 6.02 34.87 5 河南40160.01 5.20 40.08 6 四川32680.5 4.24 44.31 7 湖北32297.9 4.19 48.50 8 河北31827.9 4.12 52.62 9 湖南31244.7 4.05 56.67 10 福建28519.2 3.70 60.37 11 上海27466.2 3.56 63.93 12 北京24899.3 3.23 67.16 13 安徽24117.9 3.13 70.28 14 辽宁22037.88 2.86 73.14 15 陕西19165.39 2.48 75.62 16 内蒙古18632.6 2.41 78.04 17 江西18364.4 2.38 80.42 18 广西18245.07 2.36 82.78 19 天津17885.4 2.32 85.10 20 重庆17558.8 2.28 87.37 21 黑龙江15386.09 1.99 89.37 22 吉林14886.23 1.93 91.30 23 云南14869.95 1.93 93.22 24 山西12928.3 1.68 94.90 25 贵州11734.43 1.52 96.42 26 新疆9550 1.24 97.66 27 甘肃7152.04 0.93 98.59 28 海南4044.51 0.52 99.11 29 宁夏3150.06 0.41 99.52 30 青海2572.49 0.33 99.85 31 西藏1150.07 0.15 100.00 将2016各省的GDP进行排名，可以发现，经济发达的的地区主要集中在东部地区。西部gdp的占比较小。作出2016各省的gdp直方图如下：

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法： 1.层次聚类hierarchical clustering 2.k-means聚类这里用最简单的实例说明以下层次聚类原理和应用发法。层次聚类是基于距离的聚类方法，MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程可以分这么几步： (1) 确定对象（实际上就是数据集中的每个数据点）之间的相似性，实际上就是定义一个表征对象之间差异的距离，例如最简单的平面上点的聚类中，最经常使用的就是欧几里得距离。这在MATLAB中可以通过Y=pdist（X）实现，例如 >> X=randn(6,2) X = -0.4326 1.1892 -1.6656 -0.0376 0.1253 0.3273 0.2877 0.1746 -1.1465 -0.1867 1.1909 0.7258 >> plot(X(:,1),X(:,2),'bo') %给个图，将来对照聚类结果把 >> Y=pdist(X) Y = Columns 1 through 14 1.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.5401 2.9568 0.2228 1.3717 1.1377 1.4790 1.0581 Column 15

2.5092 例子中X数据集可以看作包含6个平面数据点，pdist之后的Y是一个行向量，15个元素分别代表X 的第1点与2-6点、第2点与3-6点,......这样的距离。那么对于M个点的数据集X，pdist之后的Y 将是具有M*(M-1)/2个元素的行向量。Y这样的显示虽然节省了内存空间，但对用户来说不是很易懂，如果需要对这些距离进行特定操作的话，也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式，方阵中位置的数值就是X中第i和第j点之间的距离，显然这个方阵应该是个对角元素为0的对称阵。 >> squareform(Y) ans = 0 1.7394 1.0267 1.2442 1.5501 1.6883 1.7394 0 1.8277 1.9648 0.5401 2.9568 1.0267 1.8277 0 0.2228 1.3717 1.1377 1.2442 1.9648 0.2228 0 1.4790 1.0581 1.5501 0.5401 1.3717 1.4790 0 2.5092 1.6883 2.9568 1.1377 1.0581 2.5092 0 这里需要注意的是，pdist可以使用多种参数，指定不同的距离算法。help pdist把。另外，当数据规模很大时，可以想象pdist产生的Y占用内存将是很吓人的，比如X有10k个数据点，那么X占10k*8*2Bytes=160K，这看起来不算啥，但是pdist后的Y会有10k*10k/2*8Bytes=400M 。怕了把，所以，废话说在前面，用MATLAB的层次聚类来处理大规模数据，大概是很不合适的。 (2) 确定好了对象间的差异度（距离）后，就可以用Z=linkage(Y)来产生层次聚类树了。 >> Z=linkage(Y) Z = 3.0000 4.0000 0.2228 2.0000 5.0000 0.5401 1.0000 7.0000 1.0267

实验一数据处理方法MATLAB实现

实验一数据处理方法的MATLAB实现一、实验目的学会在MATLAB环境下对已知的数据进行处理。二、实验方法 1. 求取数据的最大值或最小值。 2. 求取向量的均值、标准方差和中间值。 3．在MATLAB环境下，对已知的数据分别进行曲线拟合和插值。三、实验设备 1．586以上微机，16M以上内存，400M硬盘空间，2X CD-ROM 2．MATLAB5.3以上含CONTROL SYSTEM TOOLBOX。四、实验内容 1．在MATLAB环境下，利用MATLAB控制系统工具箱中的函数直接求取数据的最大值或最小值，以及向量的均值、标准方差和中间值。 2．在MATLAB环境下，选择合适的曲线拟合和插值方法，编写程序，对已知的数据分别进行曲线拟合和插值。五、实验步骤 1. 在MATLAB环境下，将已知的数据存到数据文件mydat.mat中。双击打开Matlab，在命令窗口（command window）中，输入一组数据：实验一数据处理方法的MATLAB实现一、实验目的学会在MATLAB环境下对已知的数据进行处理。二、实验方法 1. 求取数据的最大值或最小值。 2. 求取向量的均值、标准方差和中间值。 3．在MATLAB环境下，对已知的数据分别进行曲线拟合和插值。三、实验设备 1．586以上微机，16M以上内存，400M硬盘空间，2X CD-ROM 2．MATLAB5.3以上含CONTROL SYSTEM TOOLBOX。四、实验内容

1．在MATLAB环境下，利用MATLAB控制系统工具箱中的函数直接求取数据的最大值或最小值，以及向量的均值、标准方差和中间值。 2．在MATLAB环境下，选择合适的曲线拟合和插值方法，编写程序，对已知的数据分别进行曲线拟合和插值。五、实验步骤 1. 在MATLAB环境下，将已知的数据存到数据文件mydat.mat中。双击打开Matlab，在命令窗口（command window）中，输入一组数据： x=[1,4,2,81,23,45] x = 1 4 2 81 2 3 45 单击保存按钮，保存在Matlab指定目录（C:\Program Files\MATLAB71）下，文件名为“mydat.mat”。 2. 在MATLAB环境下，利用MATLAB控制系统工具箱中的函数直接求取数据的最大值或最小值，以及向量的均值、标准方差和中间值。继续在命令窗口中输入命令：（1）求取最大值“max（a）”； >> max(x) ans = 81 （2）求取最小值“min（a）”； >> min(x) ans = 1 （3）求取均值“mean（a）”； >> mean(x) ans =

matlab与多元统计分析

m a t l a b与多元统计分析 Company Document number：WTUT-WT88Y-W8BBGB-BWYTT-19998

Matlab 与多元统计分析胡云峰安庆师范学院第三章习题对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表所示。假设男婴的测量数据X （a ）（a=1，…，6）来自正态总体N 3(,∑) 的随机样本。根据以往的资料，该地区城市2周岁男婴的这三项的均值向量0= （90,58,16）’，试检验该地区农村男婴与城市男婴是否有相同的均值向量。表某地区农村2周岁男婴的体格测量数据解 1．预备知识 ∑未知时均值向量的检验： H 0：=0 H 1：≠0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H

这里2(1) (, )p n T F p n p n p αα-= -- 2．根据预备知识用matlab 实现本例题算样本协方差和均值程序x=[78 ;76 ;92 ;81 ;81 ;84 ]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:)); y=rand(p,n); for j=1:1:n y(:,j)= x(j,:)'-xjunzhi'; y=y; end A=zeros(p,p); for k=1:1:n; A=A+(y(:,k)*y(:,k)'); end xjunzhi=xjunzhi' S=((n-1)^(-1))*A 输出结果xjunzhi = S = 然后u=[90;58;16]; t2=n*(xjunzhi-u)'*(S^(-1))*(xjunzhi-u) f=((n-p)/(p*(n-1)))*t2 输出结果t2 = f = 所以21()'()T n X S X μμ-=--=

数学建模多元统计分析

实验报告一、实验名称多元统计分析作业题。二、实验目的（一）了解并掌握主成分分析与因子分析的基本原理和简单解法。（二）学会使用matlab编写程序进行因子分析，求得特征值、特征向量、载荷矩阵等值。（三）学会使用排序、元胞数组、图像表示最后的结果，使结果更加直观。三、实验内容与要求

四、实验原理与步骤（一）第一题： 1、实验原理：因子分析简介： (1) 1.1 基本因子分析模型设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)'，因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中，f1,f2,.....,fm为m个公共因子；εi是变量xi(i=1,2,.....,p)所独有的特殊因子，他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷，它反映了公共因子对变量的重要程度，对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵；f=(f1,f2,....,fm)'为公共因子向量；ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成，一个是公共因子对xi方差的贡献，称为共性方差；一个是特殊因子对xi方差的贡献，称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转因子分析的主要目的是对公共因子给出符合实际意义的合理解释，解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时，并且绝对值大的元素较少时，则该公共因子就易于解释，反之，公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转（例如正交旋转），使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化，这样就使得因子的解释变得容易。因子旋转方法有正交旋转和斜交旋转两种，这里只介绍一种普遍使用的正交旋转法：最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值（或平方值）尽可能地向两极分化，即少数元素的绝对值（或平方值）取尽可能大的值，而其他元素尽量接近于0. (4) 1.4 因子得分在对公共因子做出合理解释后，有时还需要求出各观测所对应的各个公共因子的得分，就比如我们知道某个女孩是一个美女，可能很多人更关心该给她的脸蛋、身材等各打多少分，常用的求因子得分的方法有加权最小二乘法和回归法。注意：因子载荷矩阵和得分矩阵的区别：因子载荷矩阵是各个原始变量的因子表达式的系数，表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系，在某一公因子上得分高，表明该指标与该公因子之间关系越密切。简单说，通过因子载荷矩阵可以得到原始指标变量的线性组合，如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1，a11、a12、a13分别为与变量X1在同一行的因子载荷，F1、F2、F3分别为提取的公因子；通过因子得分矩阵可以得到公因子的线性组合，如F1=a11*X1+a21*X2+a31*X3，字母代表的意义同上。 (5) 1.5 因子分析中的Heywood（海伍德）现象如果x的各个分量都已经标准化了，则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0，并且小于1。但在实际进行参数估计的时候，共性方差

matlab及多元统计分析

Matlab 与多元统计分析胡云峰师学院第三章习题 3.1 对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表3.1所示。假设男婴的测量数据X （a ）（a=1，…，6）来自正态总体N 3(μ,∑) 的随机样本。根据以往的资料，该地区城市2周岁男婴的这三项的均值向量μ0=（90,58,16）’，试检验该地区农村男婴与城市男婴是否有相同的均值向量。 1．预备知识 ∑未知时均值向量的检验： H 0：μ=μ0 H 1：μ≠μ0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H

这里2 (1) (, )p n T F p n p n p αα-= -- 2．根据预备知识用matlab 实现本例题算样本协方差和均值程序x=[78 60.6 16.5;76 58.1 12.5;92 63.2 14.5;81 59.0 14.0;81 60.8 15.5;84 59.5 14.0]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:)); y=rand(p,n); for j=1:1:n y(:,j)= x(j,:)'-xjunzhi'; y=y; end A=zeros(p,p); for k=1:1:n; A=A+(y(:,k)*y(:,k)'); end xjunzhi=xjunzhi' S=((n-1)^(-1))*A 输出结果xjunzhi = 82.0000 60.2000 14.5000 S = 31.6000 8.0400 0.5000 8.0400 3.1720 1.3100 0.5000 1.3100 1.900 然后u=[90;58;16]; t2=n*(xjunzhi-u)'*(S^(-1))*(xjunzhi-u) f=((n-p)/(p*(n-1)))*t2 输出结果t2 = 420.4447 f = 84.0889 所以2 1 ()'()T n X S X μμ-=--=420.4447 2 (1) n p F T p n -= -=84.0889 查表得F 3,3(0.05)=9.28<84.0889 F 3,3(0.01)=29.5<84.0889 因此在a=0.05或 a=0.01时拒绝0H 假设