当前位置:文档之家› 多元统计分析 MATLAB

多元统计分析 MATLAB

多元统计分析 MATLAB
多元统计分析 MATLAB

《多元统计分析》

实验报告

姓名:赵晴晴

学号:176121115

日期:2017.11.15

实验一:主成分分析实验

(2)利用协方差、相关系数矩阵进行主成分分析,可否只用第一主成分排名。(3)构造新的实对称矩阵,使得可以只用第一主成分排名。

(4)排名的结果是否合理?为什么?

解:(1)首先输入数据,程序如下:

A=[data]; %data 即为表5-12中的数据

[m,n]=size(A); m=31 n=6

%根据指标的属性将原始数据统一趋势化,其中资产负债率为成本型,转换成效益型。

根据如下公式:B=(b ij )n?p ,b ij = (x ij ?x ij )

j min (x ij ?x ij )j min j max (效益型)(x ij ?x ij )j max (x ij ?x ij )j min j max (成本型)( x ij ?αj ? x ij ?αj )j max max x ij ?αj ? x ij ?αj

j min (适度型),得出 A1=(A(:,1)-min(A(:,1)))./(max(A(:,1))-min(A(:,1)));

A2=(A(:,2)-min(A(:,2)))./(max(A(:,2))-min(A(:,2)));

A3=(max(A(:,3))-A(:,3))./(max(A(:,3))-min(A(:,3)));

A4=(A(:,4)-min(A(:,4)))./(max(A(:,4))-min(A(:,4)));

A5=(A(:,5)-min(A(:,5)))./(max(A(:,5))-min(A(:,5)));

A6=(A(:,6)-min(A(:,6)))./(max(A(:,6))-min(A(:,6)));

A=[A1,A2,A3,A4,A5,A6];则程序中统一趋势化后的矩阵A 如下: ????????????

??????????????0.9134 0.8938 0.9925 0.3871 0.7420 0.5473 0.7512 0.0323 0.4906 0.0872 0.1631 0.3761 0.7124 0.7795 0.5245 0.0952 0.3710 0.4446 ...................................................................................... ......................................................................................0.8258 0.1073 0.7547 0.1403 0.2817 0.1292 0.8479 0.2882 0.7887 0.1056 0.4237 0.2545 0.8120 0.1316 0.5736 0.7113 0.0725 0.0374 =A %详细数据见附件1

(2)①%利用相关系数矩阵进行主成分分析

R=corrcoef(A);

得到相关系数矩阵为:?????????

???????????= 1.0000 0.0909 0.6592 0.4629 0.3818 0.4993- 0.0909 1.0000 0.0838 0.1695- 0.7293 0.5812 0.6592 0.0838 1.0000 0.3994 0.5214 0.5342

- 0.4629 0.1695- 0.3994 1.0000 0.1377 0.3414- 0.3818 0.7293 0.5214 0.1377 1.0000 0.2121 0.4993- 0.5812 0.5342- 0.3414- 0.2121 1.0000R %在指标中无明显的共性关系

[v,d]=eig(R); %计算特征值与特征向量

?????????

???????????0.5384 0.0377- 0.0813- 0.7876 0.2860 0.0055 0.0061 0.6631- 0.0031- 0.1927 0.6371- 0.3423 0.5513 0.0765- 0.2943- 0.4985- 0.2307 0.5494

0.4030 0.1312 0.8834 0.1228- 0.1528- 0.0399 0.2931 0.5722- 0.0316- 0.2765- 0.1388 0.7000- 0.3973- 0.4564- 0.3541 0.0499 0.6454 0.2990 = v ?????????

??????????? 2.5989 0 0 0 0 0 0 2.0777 0 0 0 0 0 0 0.6831 0 0 0 0 0 0 0.3671 0 0 0 0 0 0 0.1405 0 0 0 0 0 0 0.1327 = d %输出结果显示,最大特征值对应的不是正向量,所以不能用第一主成分进行排名。

②%利用协方差矩阵进行主成分分析

R1=cov(A)

得到协方差矩阵为:?????????

??????????? 3.4729 1.1928 0.6373 8.5780 3.9803 7.8654- 1.1928 49.5245 0.3060 11.8627- 28.7134 34.5790 0.6373 0.3060 0.2691 2.0599 1.5132 2.3428

- 8.5780 11.8627- 2.0599 98.8645 7.6608 28.6967- 3.9803 28.7134 1.5132 7.6608 31.2985 10.0325 7.8654- 34.5790 2.3428- 28.6967- 10.0325 71.4670 = R1 [v1,d1]=eig(R1); %计算特征值与特征向量

?????????

???????????0.0758 0.0703 0.1642 0.0546 0.9789- 0.0344 0.3960- 0.5147 0.3616 0.6609 0.1037 0.0032- 0.0196 0.0182 0.0561 0.0340- 0.0247- 0.9972- 0.6838 0.6463 0.3262- 0.0773 0.0490 0.0031 0.1189- 0.4600 0.5037 0.7158- 0.0704 0.0571 0.5961- 0.3172 0.6921- 0.2019- 0.1519- 0.0342- = v1 ?????????

???????????130.4317 0 0 0 0 0 0 81.7762 0 0 0 0 0 0 34.6298 0 0 0 0 0 0 6.5584 0 0 0 0 0 0 1.4255 0 0 0 0 0 0 0.0748 = d1 %输出结果显示,最大特征值对应的不是正向量,所以不能用第一主成分进行排名

综合①②所述,利用协方差和相关系数,最大特征值对应的都不是正向量,所以均不能用第一主成分进行排名。

(3)%由于第(2)题结果,我们利用R矩阵进行主成分分析。由R矩阵的定义

R=(r ij)

7?7,r ij=

2b ki b kj

29

k=1

b ki2

29

k=1

+b kj2

29

k=1

A=[data]; %data即为表5-12中的数据[m,n]=size(A); %计算原始数据维数

for i=1:n

for j=1:n

R2(i,j)=2*dot(A(:,i),A(:,j))./[sum(A(:,i).^2)+sum(A(:,j).^2)]; %计算R矩阵R2 end

end

[v2,d2]=eig(R2); %R矩阵R2的特征值与特征向量w=sum(d2)/sum(sum(d2)); %计算贡献率

%输出结果显示,最大特征值对应的是正向量,且贡献率为71.68%,所以能用第一主成分进行排名。

F=[A-ones(m,1)*mean(A)]*d(:,6); %计算主成分第一主成分得分[F1,I1]=sort(F,'descend'); %给出各市名次的序号

[F2,I2]=sort(I1); %给出各市排名

plot(1:m,F,'*'); %主成分得分图

构造的实对称矩阵,最大特征值对应的是正向量,且其贡献率为71.68%,所以能用第一主成分进行排名,排名结果为:

(4)排名结果不合理,因为从第一主成分得分图可以看出,指标的属性并没有明显的区别:

建议利用总贡献率达到90%

以上后运用加权得分的结果,再进行排名得出结果。

实验二:聚类分析实验(K聚类)

2008年我国34个地区中的29个地区的城镇居民人均收入见表6-6。解决以下问题:

(1)计算各样品间的欧氏距离、马氏距离和加权平方距离。

(2)运用谱系聚类法进行聚类,包括确定最优聚类数,选择合适的类间距离,同时作出谱系图。

(3)运用K均值聚类法进行聚类。

(4)综合分析以上不同的聚类法所得的聚类结果,能得到什么样的结论?

解:(1)编写程序如下:(详细数据见附件2)

X=[18738.96,778.36,452.75,7707.87;

8891.5,1078.67,224.86,3946.39; ...................................................

8793.54,1856.94,182.67,3285.49;

9422.22,938.15,141.75,1976.49];

①计算欧氏距离

d1=pdist(x,'euclidean'); %计算各行之间的欧氏距离

为了得到距离矩阵,键入命令D= squareform(d1); % 将行向量d1转变成一个方阵,结果为:

D = 1.0e+04 *

1 至9 列

0 1.0548 1.0536 0.9694 0.9777 1.2112 0.3462 0.6883 0.4925 ..........................................................................................................................................................

1.0944 0.2047 0.1727 0.1507 0.2693 0.2559 1.3080 0.4724 0.7255 10 至18 列

1.0293 0.7330 1.0735 0.7439 1.0562 1.0250 1.0530 0.5833 0.9510 .........................................................................................................................................................

0.1639 0.4046 0.1078 0.3698 0.1630 0.1380 0.1801 0.6140 0.1684 19 至27 列

1.0879 0.8963 1.0603 1.1718 1.0992 0.9384 0.9954 1.1575 1.1005 ........................................................................................................................................................

0.1104 0.2012 0.1334 0.2219 0.1890 0.3154 0.1483 0.1280 0.1709 28 至29 列

1.0941 1.0944 ..............................

0.1719 0

D(i,j)表示x中的第i个个体与第j个个体之间的欧氏距离。如矩阵D1中的第1行9列为4925,表示上海与浙江的欧氏距离为4925,其余类推。

②计算马氏距离

d2=pdist(x, 'mahalanobis'); % 计算各行之间的马氏距离

D2= squareform(d2); % 将行向量d2转变成一个方阵

得到结果如下:

1 至 9 列

0 3.8794 3.9301 4.8601 4.0866 4.6845 3.4770 4.3562 5.4312 ............................................................................................................................................................

5.1327 2.2207 1.9009 1.2764 2.7710 2.2291 4.0897 3.4881 4.4293 10 至18 列

3.8136

4.7123 4.4077 4.3591 4.3062 4.1842 4.6089

5.5676 4.1955 ............................................................................................................................................................

1.9874 3.0648 1.2518 1.1422 1.7354 1.4499

2.0024 2.6496 1.6147 19 至27 列

4.6003 3.8628 4.1501 4.0497 4.7938

5.8852 3.6890 4.4634 4.0647 .........................................................................................................................................................

1.4900 1.3315 1.5549

2.1186 4.2489 2.4385 1.8513 1.1629 1.8173 28 至29 列

5.6064 5.1327 .................................

2.4778 0

附件1

A =

0.0374 0.0725 0.7113 0.5736 0.1316 0.8120

0.2545 0.4237 0.1056 0.7887 0.2882 0.8479

0.1292 0.2817 0.1403 0.7547 0.1073 0.8258

0.3398 0.2623 0 0.5358 0.1576 0.7189

0.5935 0.2672 0.1147 0.6340 0.3354 0.8018

0.1102 0.1825 0.1433 0.6189 0 0.8138

0.1512 0.3895 0.1930 0.8038 0.1778 0.5152

0.7170 1.0000 0.2622 0.7660 1.0000 0.8138

0.0755 0.2998 0.4662 0.6038 0.1354 0.8184

0.0511 0.3526 0.1833 0.8868 0.0962 0.8535

0 0.3789 0.1871 1.0000 0.0705 0.8544

0.2763 0.2409 0.0423 0.7019 0.0281 0.7392

0.1370 0.3081 0.1759 0.7094 0.1378 0.8442

0.0589 0.2860 0.0535 0.7472 0.0507 0.7659

0.1847 0.4718 0.1826 0.9094 0.2003 0.8276

0.3429 0.3196 0.0557 0.8113 0.0944 0.7558

0.2405 0.2415 0.2830 0.6189 0.1990 0.7539

0.2978 0.4382 0.1122 0.7887 0.0993 0.8240

0.2169 0.4731 0.4021 0.8868 0.3024 0.8276

0.2031 0.2900 0.0764 0.7245 0.1243 0.9972

0.2734 0.3384 0.3860 0.6830 0.3597 1.0000

0.2200 0.2850 0.1780 0.5660 0.0635 0.5714

0.3248 0.2438 0.0870 0.4415 0.1556 0.7760

0.3375 0.3031 0.0415 0.5019 0.1677 0.7346

0.4342 0.5806 0.3913 0.4981 0.2882 0.8332

1.0000 0 1.0000 0 0.2299 0

0.4978 0.4379 0.2195 0.5208 0.4750 0.7355

0.0542 0.3328 0.1962 0.7585 0.1170 0.7309

0.4446 0.3710 0.0952 0.5245 0.7795 0.7124

0.3761 0.1631 0.0872 0.4906 0.0323 0.7512

0.5473 0.7420 0.3871 0.9925 0.8938 0.9134

附件2

>> D= squareform(d1)

D1 =1.0e+04 *

1 至9 列

0 1.0548 1.0536 0.9694 0.9777 1.2112 0.3462 0.6883 0.4925

1.0548 0 0.0334 0.1736 0.0984 0.1573 1.3100 0.3896 0.7124 1.0536 0.0334 0 0.1527 0.1180 0.1655 1.3031 0.3940 0.7085 0.9694 0.1736 0.1527 0 0.1769 0.2954 1.1936 0.3268 0.5907

0.9777 0.0984 0.1180 0.1769 0 0.2389 1.2400 0.3022 0.6374

1.2112 0.1573 0.1655 0.2954 0.2389 0 1.4650 0.5390 0.8578 0.3462 1.3100 1.3031 1.1936 1.2400 1.465 0 0.9513 0.6683 0.6883 0.3896 0.3940 0.3268 0.3022 0.5390 0.9513 0 0.3619 0.4925 0.7124 0.7085 0.5907 0.6374 0.8578 0.6683 0.3619 0

1.0293 0.0552 0.0303 0.1284 0.1152 0.1940 1.2763 0.3738 0.6829

0.7330 0.4003 0.3921 0.2683 0.3406 0.5436 0.9464 0.1833

0.3238

1.0735 0.0985 0.0688 0.1263 0.1712 0.1801 1.3090 0.4207 0.7114

0.7439 0.4147 0.3973 0.2681 0.3788 0.5569 0.9391 0.2682

0.3891

1.0562 0.0442 0.0215 0.1410 0.1203 0.1653 1.3025 0.3933

0.7038

1.0250 0.0842 0.0570 0.0976 0.1322 0.2095 1.2648 0.3709

0.6689

1.0530 0.0630 0.0606 0.1347 0.1088 0.1725 1.2981 0.3805 0.6868

0.5833 0.6477 0.6356 0.5004 0.5915 0.7904 0.7256 0.3639 0.1885

0.9510 0.1595 0.1406 0.0393 0.1557 0.2952 1.1827 0.3077

0.5840

1.0879 0.1100 0.0854 0.1317 0.1804 0.1743 1.3213 0.4309 0.7163

0.8963 0.2195 0.1986 0.1054 0.2105 0.3602 1.1242 0.2923

0.5543

1.0603 0.0720 0.0410 0.1299 0.1466 0.1758 1.3015 0.4049

0.7052

1.1718 0.1217 0.1241 0.2644 0.2147 0.0629 1.4256 0.5109

0.8309

1.0992 0.0824 0.0808 0.1871 0.1577 0.1408 1.3477 0.4362 0.7382

0.9384 0.4654 0.4354 0.3210 0.4815 0.5651 1.0919 0.4960 0.6041

0.9954 0.1206 0.0941 0.1183 0.1598 0.2505 1.2360 0.3650

0.6617

1.1575 0.1514 0.1292 0.2193 0.2459 0.1447 1.3932 0.5125

0.8066

1.1005 0.0675 0.0538 0.1933 0.1641 0.1297 1.3496 0.4454

0.7605

1.0941 0.1027 0.0975 0.1549 0.1546 0.1547 1.3329 0.4194 0.7162

1.0944 0.2047 0.1727 0.1507 0.2693 0.2559 1.3080 0.4724 0.7255

10 至18 列

1.0293 0.7330 1.0735 0.7439 1.0562 1.0250 1.0530 0.5833 0.9510

0.0552 0.4003 0.0985 0.4147 0.0442 0.0842 0.0630 0.6477 0.1595

0.0303 0.3921 0.0688 0.3973 0.0215 0.0570 0.0606 0.6356 0.1406

0.1284 0.2683 0.1263 0.2681 0.1410 0.0976 0.1347 0.5004 0.0393

0.1152 0.3406 0.1712 0.3788 0.1203 0.1322 0.1088 0.5915 0.1557

0.1940 0.5436 0.1801 0.5569 0.1653 0.2095 0.1725 0.7904

0.2952

1.2763 0.9464 1.3090 0.9391 1.3025 1.2648 1.2981 0.7256 1.1827

0.3738 0.1833 0.4207 0.2682 0.3933 0.3709 0.3805 0.3639 0.3077

0.6829 0.3238 0.7114 0.3891 0.7038 0.6689 0.6868 0.1885 0.5840

0 0.3653 0.0665 0.3685 0.0361 0.0354 0.0658 0.6079 0.1126

0.3653 0 0.3890 0.1443 0.3865 0.3484 0.3714 0.2590 0.2617

0.0665 0.3890 0 0.3837 0.0576 0.0512 0.0787 0.6248 0.1289

0.3685 0.1443 0.3837 0 0.3931 0.3479 0.3927 0.2597 0.2636

0.0361 0.3865 0.0576 0.3931 0 0.0488 0.0449 0.6295 0.1338

0.0354 0.3484 0.0512 0.3479 0.0488 0 0.0675 0.5876 0.0892

0.0658 0.3714 0.0787 0.3927 0.0449 0.0675 0 0.6190 0.1317

0.6079 0.2590 0.6248 0.2597 0.6295 0.5876 0.6190 0 0.4995

0.1126 0.2617 0.1289 0.2636 0.1338 0.0892 0.1317 0.4995 0

0.0857 0.3939 0.0282 0.3947 0.0715 0.0700 0.0778 0.6311 0.1389

0.1700 0.2411 0.1900 0.2039 0.1971 0.1521 0.2077 0.4558

0.0860

0.0396 0.3844 0.0287 0.3833 0.0332 0.0374 0.0643 0.6240 0.1249

0.1518 0.5143 0.1439 0.5170 0.1295 0.1711 0.1514 0.7580 0.2595

0.0927 0.4215 0.0935 0.4395 0.0825 0.1080 0.0830 0.6710 0.1788

0.4109 0.3641 0.3917 0.2442 0.4299 0.3838 0.4426 0.4382 0.3312

0.0704 0.3445 0.0970 0.3231 0.0991 0.0661 0.1296 0.5732 0.0978

0.1428 0.4837 0.0982 0.4651 0.1277 0.1430 0.1569 0.7129 0.2228

0.0787 0.4428 0.0805 0.4394 0.0615 0.0974 0.0990 0.6826 0.1859

0.1085 0.4009 0.0870 0.4209 0.0784 0.1011 0.0532 0.6440 0.1642

0.1639 0.4046 0.1078 0.3698 0.1630 0.1380 0.1801 0.6140 0.1684

19 至27 列

1.0879 0.8963 1.0603 1.1718 1.0992 0.9384 0.9954 1.1575 1.1005

0.1100 0.2195 0.0720 0.1217 0.0824 0.4654 0.1206 0.1514 0.0675

0.0854 0.1986 0.0410 0.1241 0.0808 0.4354 0.0941 0.1292 0.0538

0.1317 0.1054 0.1299 0.2644 0.1871 0.3210 0.1183 0.2193 0.1933

0.1804 0.2105 0.1466 0.2147 0.1577 0.4815 0.1598 0.2459 0.1641

0.1743 0.3602 0.1758 0.0629 0.1408 0.5651 0.2505 0.1447

0.1297

1.3213 1.1242 1.3015 1.4256 1.3477 1.0919 1.2360 1.3932 1.3496

0.4309 0.2923 0.4049 0.5109 0.4362 0.4960 0.3650 0.5125 0.4454

0.7163 0.5543 0.7052 0.8309 0.7382 0.6041 0.6617 0.8066 0.7605

0.0857 0.1700 0.0396 0.1518 0.0927 0.4109 0.0704 0.1428 0.0787

0.3939 0.2411 0.3844 0.5143 0.4215 0.3641 0.3445 0.4837 0.4428

0.0282 0.1900 0.0287 0.1439 0.0935 0.3917 0.0970 0.0982 0.0805

0.3947 0.2039 0.3833 0.5170 0.4395 0.2442 0.3231 0.4651 0.4394

0.0715 0.1971 0.0332 0.1295 0.0825 0.4299 0.0991 0.1277 0.0615

0.0700 0.1521 0.0374 0.1711 0.1080 0.3838 0.0661 0.1430 0.0974

0.0778 0.2077 0.0643 0.1514 0.0830 0.4426 0.1296 0.1569 0.0990

0.6311 0.4558 0.6240 0.7580 0.6710 0.4382 0.5732 0.7129 0.6826

0.1389 0.0860 0.1249 0.2595 0.1788 0.3312 0.0978 0.2228 0.1859

0 0.2070 0.0495 0.1466 0.0876 0.4009 0.1224 0.1028 0.0952

0.2070 0 0.1859 0.3156 0.2487 0.2778 0.1193 0.2692 0.2375

0.0495 0.1859 0 0.1361 0.0830 0.4052 0.0852 0.1100 0.0657

0.1466 0.3156 0.1361 0 0.1149 0.5222 0.2002 0.1045 0.0787

0.0876 0.2487 0.0830 0.1149 0 0.4680 0.1527 0.1324 0.0896

0.4009 0.2778 0.4052 0.5222 0.4680 0 0.3534 0.4331 0.4543

0.1224 0.1193 0.0852 0.2002 0.1527 0.3534 0 0.1627 0.1228

0.1028 0.2692 0.1100 0.1045 0.1324 0.4331 0.1627 0 0.0890

0.0952 0.2375 0.0657 0.0787 0.0896 0.4543 0.1228 0.0890 0

0.0736 0.2414 0.0882 0.1481 0.1005 0.4533 0.1653 0.1465 0.1133

0.1104 0.2012 0.1334 0.2219 0.1890 0.3154 0.1483 0.1280 0.1709

28 至29 列

1.0941 1.0944

0.1027 0.2047

0.0975 0.1727

0.1549 0.1507

0.1546 0.2693

0.1547 0.2559

1.3329 1.3080

0.4194 0.4724

0.7162 0.7255

0.1085 0.1639

0.4009 0.4046

0.0870 0.1078

0.4209 0.3698

0.0784 0.1630

0.1011 0.1380

0.0532 0.1801

0.6440 0.6140

0.1642 0.1684

0.0736 0.1104

0.2414 0.2012

0.0882 0.1334

0.1481 0.2219

0.1005 0.1890

0.4533 0.3154

0.1653 0.1483

0.1465 0.1280

0.1133 0.1709

0 0.1719

0.1719 0

D2= squareform(d2)

1 至9 列

0 3.8794 3.9301 4.8601 4.0866 4.6845 3.4770 4.3562 5.4312

3.8794 0 0.3618 1.7217 1.0325 0.9776

4.2099 2.3355

4.0553

3.9301 0.3618 0 1.5658 1.3064 1.0937

4.1037 2.5267

4.1043

4.8601 1.7217 1.5658 0 1.8688 1.5482 3.8822 2.4089

3.5517

4.0866 1.0325 1.3064 1.8688 0 0.9029 4.1796 1.3976

3.9868

4.6845 0.9776 1.0937 1.5482 0.9029 0 4.5662 2.0410 4.3113

3.4770

4.2099 4.1037 3.8822 4.1796 4.5662 0 3.7773

5.0827

4.3562 2.3355 2.5267 2.4089 1.3976 2.0410 3.7773 0

4.0660

5.4312 4.0553 4.1043 3.5517 3.9868 4.3113 5.0827 4.0660 0

3.8136 0.7342 0.5469 1.7847 1.7169 1.5728

4.1964 2.9255

3.9282

4.7123 2.7777 2.7455 2.4433 3.0793 3.2006 4.6060 3.6564 1.6744

4.4077 1.0648 0.7808 1.0522 1.7827 1.3746 4.1271 2.8193

3.8461

4.3591 2.2606 1.9740 1.3858 2.7495 2.5680 3.1648 3.2636

3.8126

4.3062 0.7777 0.7018 1.1470 1.0701 0.6812 4.0017 2.0962 4.1279

4.1842 0.8020 0.5288 1.0833 1.4932 1.1775 3.9592 2.5413

3.8813

4.6089 1.1003 1.1548 0.9803 1.0124 0.7930 4.2416 1.9089 3.5728

5.5676 3.5373 3.4104 2.0304 3.4723 3.4683 3.6320 3.3093 2.9225

4.1955 1.2879 1.0924 1.2603 1.9672 1.8003 4.0386 2.9322

3.3020

4.6003 1.3268 1.1356 1.1481 1.9802 1.6302 4.3849 3.0014 3.4475

3.8628 1.4736 1.1385 1.6185 2.2574 2.0353 3.5472 3.1529

4.2240

4.1501 0.7880 0.4921 1.3301 1.6467 1.3315 4.1325 2.7828

3.8942

4.0497 0.5577 0.4702 1.9405 1.4876 1.1598 4.4422 2.7891 4.4980

4.7938 3.4148 3.4004 4.1513 4.1496 4.1449 6.1757

5.2736 3.9589

5.8852 4.2928 3.9368 3.5456 5.0064 4.5837 4.5365 5.6301 5.7025

3.6890 1.3373 1.0438 2.1239 2.2900 2.0719 3.9741 3.3833

4.5377

4.4634 1.3797 1.0336 1.6089 2.1969 1.6706 4.2120 3.2505 4.6197

4.0647 0.7626 0.5573 1.6909 1.4698 1.1012 4.0787 2.5961

4.5915

5.6064 2.3833 2.4080 1.5126 1.8769 1.6067 4.5017 1.8603

4.2217

5.1327 2.2207 1.9009 1.2764 2.7710 2.2291 4.0897 3.4881 4.4293

10 至18 列

3.8136

4.7123 4.4077 4.3591 4.3062 4.1842 4.6089

5.5676

0.7342 2.7777 1.0648 2.2606 0.7777 0.8020 1.1003 3.5373

1.2879

0.5469 2.7455 0.7808 1.9740 0.7018 0.5288 1.1548 3.4104

1.0924

1.7847

2.4433 1.0522 1.3858 1.1470 1.0833 0.9803 2.0304 1.2603

1.7169 3.0793 1.7827

2.7495 1.0701 1.4932 1.0124

3.4723 1.9672

1.5728 3.2006 1.3746

2.5680 0.6812 1.1775 0.7930

3.4683 1.8003

4.1964 4.6060 4.1271 3.1648 4.0017 3.9592 4.2416 3.6320 4.0386

2.9255

3.6564 2.8193 3.2636 2.0962 2.5413 1.9089 3.3093

2.9322

3.9282 1.6744 3.8461 3.8126

4.1279 3.8813 3.5728 2.9225 3.3020

0 2.4583 0.8405 1.9426 1.1971 0.7590 1.4895 3.4757 0.8701

2.4583 0 2.4105 2.5482 2.9218 2.5135 2.5147 2.6124 1.8045

0.8405 2.4105 0 1.4528 0.8909 0.3405 1.1207 2.8850

0.6522

1.9426

2.5482 1.4528 0 1.9281 1.5394 2.1225 2.1374 1.4177

1.1971

2.9218 0.8909 1.9281 0 0.6218 0.7397

3.0785 1.3466

0.7590 2.5135 0.3405 1.5394 0.6218 0 0.9736 2.9419

0.7827

1.4895

2.5147 1.1207 2.1225 0.7397 0.9736 0 2.7576 1.3365

3.4757 2.6124 2.8850 2.1374 3.0785 2.9419 2.7576 0 2.7056

0.8701 1.8045 0.6522 1.4177 1.3466 0.7827 1.3365 2.7056 0

1.0143 1.9668 0.5414 1.6092 1.2839 0.7864 1.2066

2.7708

0.4559

1.0650

2.7675 0.9402 1.1235 1.4056 0.9401 1.8724

3.0940 1.1063

0.5005 2.4470 0.3541 1.6513 0.8731 0.3194 1.1757 3.1344 0.6850

0.7520 3.1088 1.0953 2.3418 0.9744 0.9218 1.4709 3.8514

1.4652

2.8943 2.6994

3.3893

4.0433 3.9862 3.5050 3.9031

5.1159

3.7938

4.3712 3.3849 2.4559 4.0085 3.5874 4.3338 3.8748 3.4506

0.8489 3.0199 1.1960 1.8124 1.5736 1.1590 2.0994 3.7384

1.3676

1.1345 3.1315 0.8101 1.6378 1.2013 0.8836 1.7431 3.4242 1.3420

1.0040 3.2468 1.0212

2.0532 0.7051 0.7914 1.3973

3.5991

1.5129

2.8343

3.5395 2.2634 2.7856 1.7369 2.1612 1.4297 2.7072 2.5902

1.9874 3.0648 1.2518 1.1422 1.7354 1.4499

2.0024 2.6496 1.6147

19 至27 列

4.6003 3.8628 4.1501 4.0497 4.7938

5.8852 3.6890 4.4634 4.0647

1.3268 1.4736 0.7880 0.5577 3.4148 4.2928 1.3373 1.3797

0.7626

1.1356 1.1385 0.4921 0.4702 3.4004 3.9368 1.0438 1.0336

0.5573

1.1481 1.6185 1.3301 1.9405 4.1513 3.5456

2.1239 1.6089 1.6909

1.9802

2.2574 1.6467 1.4876 4.1496 5.0064 2.2900 2.1969 1.4698

1.6302

2.0353 1.3315 1.1598 4.1449 4.5837 2.0719 1.6706 1.1012

4.3849 3.5472 4.1325 4.4422 6.1757 4.5365 3.9741 4.2120 4.0787

3.0014 3.1529 2.7828 2.7891 5.2736 5.6301 3.3833 3.2505

2.5961

3.4475

4.2240 3.8942 4.4980 3.9589

5.7025 4.5377 4.6197

4.5915

1.0143 1.0650 0.5005 0.7520

2.8943

3.7938 0.8489 1.1345 1.0040

1.9668

2.7675 2.4470

3.1088 2.6994

4.3712 3.0199 3.1315 3.2468

0.5414 0.9402 0.3541 1.0953 3.3893 3.3849 1.1960 0.8101

1.0212

1.6092 1.1235 1.6513

2.3418 4.0433 2.4559 1.8124 1.6378

2.0532

1.2839 1.4056 0.8731 0.9744 3.9862 4.0085 1.5736 1.2013 0.7051

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

matlab与多元统计分析

Matlab 与多元统计分析 胡云峰 安庆师范学院 第三章习题 3.1对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表3.1所示。 假设男婴的测量数据X (a )(a=1,…,6)来自正态总体N 3(μ,∑) 的随机样本。根据以往的资料,该地区城市2周岁男婴的这三项的均值向量μ0=(90,58,16)’,试检验该地区农村男婴与城市男婴是否有相同的均值向量。 表3.1 某地区农村2周岁男婴的体格测量数据 1.预备知识 ∑未知时均值向量的检验: H 0:μ=μ0 H 1:μ≠μ0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H 这里2 (1) (, )p n T F p n p n p αα-= -- 2.根据预备知识用matlab 实现本例题 算样本协方差和均值 程序x=[78 60.6 16.5;76 58.1 12.5;92 63.2 14.5;81 59.0 14.0;81 60.8 15.5;84 59.5 14.0]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:));

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

最新多元统计分析思考题

多元统计分析思考题

《多元统计分析思考题》 第一章回归分析 1、回归分析是怎样的一种统计方法,用来解决什么问题? 概念:回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。 解决的问题:自变量对因变量的影响程度、方向、形式 2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之 间一定是线性关系形式才能做线性回归吗?为什么? 3、实际应用中,如何设定回归方程的形式? 4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么? 5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准? 最小二乘估计两有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题? 6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中 加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么? 7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么? 8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的 过程是怎样的?

9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应 用中不满足这些假定,将可能引起怎样的后果?如何检验实际应用问题是否满足这些假定?对于各种不满足假定的情形,分别采用哪些改进方法? 10、回归分析中的R2有何意义?它能用来衡量模型优劣吗? 11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系 数的意义与不存在交互作用的情形下是否相同?为什么? 12、有哪些确定最优回归模型的准则?如何选择回归变量? 13、在怎样的情况下需要建立标准化的回归模型?标准化回归模型与非标准 化模型有何关系?形式有否不同? 14、利用回归方法解决实际问题的大致步骤是怎样的? 15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结 果? 第二章判别分析 1、判别分析的目的是什么? 根据分类对象个体的某些特征或指标来判断其属于已知的某个类中的哪一类。 2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它 们各有什么特点或优劣之处? 3、判别分析与回归分析有何异同之处? 4、判别分析对变量与样本规模有何要求? 5、如何度量判别效果?有哪些影响判别效果的因素?

统计学--统计学-——典型案例、问题和思想

经济管理类“十二五”规划教材统计学 -基于典型案例、问题和思想 主讲林海明

第一章绪论 【引言】我们从如下9个重要事例,说明统计学有什么用。 事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学

方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。 事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发

言权”的科学论断。 事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。这说明了统计学中调查的重要性。

事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。 事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提

高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。该学科现已发展到了6σ质量管理原则。 事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:

二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

matlab与应用多元统计分析

多元统计分析中的应用研究 , 摘要:许多实际问题往往需要对数据进行统计分析,建立合适的统计模型,过去一般采用SAS 、SPSS软件分析,本文给出 Matlab软件在多元统计分析上的应用, 主要介绍Matlab 在聚类分析、判别分析、主成份分析上的应用,文中均给以实例, 结果令人满意。 关键词:Matlab软件;聚类分析;主成份分析 Research for application of Multivariate Statistical Analysis Abstract:Many practice question sometimes need Statistical Analysis to data.,and establish appropriate Statistical model SAS and SPSS software were commonly used in foretime ,this paper give the application of Matlab software in Multivariate Statistical Analysis,mostly introduce the application of Matlab software in priciple component analysis and cluster analysis and differentiate analysis.The example are given in writing and the result are satisfaction. Key words: Matlab software; cluster analysis; priciple component analysis 0 引言 许多实际问题往往需要对数据进行多元统计分析, 建立合适的模型, 在多元统计分析方面, 常用的软件有SAS 、SPSS 、S-PLUS等。我们在这里给出Matlab在多元统计分析上的应用, 在较早的版本中, 统计功能不那么强大, 而在Matlab6.x版本中, 仅在统计工具中的功能函数就达200多个, 功能已足以赶超任何其他专用的统计软件,在应用上Matlab具有其他软件不可比拟的操作简单,接口方便, 扩充能力强等优势, 再加上Matlab的应用范围广泛, 因此可以预见其在统计应用上越来越占有极其重要的地位,下面用实例给出Matlab 在聚类分析、主成份分析上的应用。 1 聚类分析 聚类分析法是一门多元统计分类法,其目的是把分类对象按一定规则分成若干类,所分成的类是根据数据本身的特征确定的。聚类分析法根据变量(或样品或指标)的属性或特征的相似性,用数学方法把他们逐步地划类,最后得到一个能反映样品之间或指标之间亲疏关系的客观分类系统图,称为谱系聚类图。 聚类分析的步骤有:数据变换,计算n个样品的两两间的距离,先分为一类,在剩下的n-1个样品计算距离,按照不同距离最小的原则,增加分类的个数,减少所需要分类的样品的个数,循环进行下去,直到类的总个数为1时止。根

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

03第三篇 多元统计分析作业题

第三篇 多元统计分析作业题 1 证明题 1)已知ψ==A X E X Z T T T ,这里用到关系1-ψ=E A 。以二变量为例证明: 12*-Λ=ψ=A X A X Z T T T 1)(-=T T A X 。 式中X 为标准化原始变量矩阵,A 为载荷矩阵,Z 为非标准化主成分得分,Z *为标准化的因子得分,E 为单位化特征向量构成的矩阵即正交矩阵,Ψ为特征根的平方根的倒数构成的对角阵,Λ为特征根构成的对角阵,对于二变量有 ?????? ??=ψ21 /10 /1λλ, ?? ? ???=Λ21 00λλ. 2)对于二变量因子模型,我们有 ?? ?++=++=222221122 112211111εεu f a f a x u f a f a x . 试以 x 1为例证明1 2 22==+j x j j u h σ ,这里∑== p k kj j a h 1 2 22 21 211a a +=。 2 计算题 1)现有一组古生物腕足动物贝壳标本的两个变量:长度x 1和宽度x 2。所测数据如下(表2.1)。 要求: ① 利用Excel 对数据进行主成分分析。 ② 借助SPSS 对该数据进行主成分分析,并计算结果与Excel 的计算结果进行对比,理解各个表格所给参数的含义。 ③ 用本例数据验证证明题?的推导结果。 表2.1 古生物腕足动物贝壳标本数据 样品编号 长度x 1 宽度x 2 样品编号 长度x 1 宽度x 2 1 3 2 14 12 10 2 4 10 15 12 11 3 6 5 16 13 6 4 6 8 17 13 14 5 6 10 18 13 15 6 7 2 19 13 17 7 7 13 20 14 7 8 8 9 21 15 13 9 9 5 22 17 13

Matlab多元统计分析程序

Matlab多元统计分析程序 1. 主成分分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 主成分分析 % % 设对变量x1,x2,...,xp进行n次观测,得到n×p数据矩阵x=x(i,j), % 本程序对初始数据进行主成分分析,要求先请将观测矩阵输入到变 % 量x,再运行本程序。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸,以便数据标准化. % [n,p]=size(x); % % 数据处理方式设置,即是否先将数据标准化. % fprintf('\n 1---使用原始数据直接计算距离') fprintf('\n 2---使用标准化后的数据计算距离') k=input('请输入你的选择(1~2)'); % % 数据标准化 % switch k case 1 xs=x; case 2 mx=mean(x);

xs=(x-repmat(mx,n,1))./repmat(stdr,n,1); end % % 主成分分析,返回各主成分pc,所谓的z-得分score,x的协方差 % 矩阵的特征值latent和每个数据点的Hotelling统计量tsquare. % [pc score latent tsquare]=princomp(xs) 2. 典型相关分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 在运行本程序之前,请先把数据输入/导入到MATLAB 的 % 内存空间,并存放在变量x 中,每行存放一个样本。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸 % [n,h]=size(x); % % 输入基本参数 % p=input('\n第一组变量的个数p = ? '); fprintf('\n1--使用样本协方差矩阵计算典型相关变量') fprintf('\n2--使用样本相关矩阵计算典型相关变量') ctl=input('\n请输入你的选择'); % % 默认的显著性水平为alpha=0.05,可以改变下面语句中的alpha值。 % alpha=0.05; % % 按要求计算样本协方差矩阵或样本相关矩阵 % switch ctl case 1 st=cov(x); case 2

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析

作业一

1.2 分析2016年经济发展情况 排名省gdp 占比累计占比 1 广东79512.05 10.30 10.30 2 江苏76086.2 9.86 20.17 3 山东67008.2 8.68 28.85 4 浙江4648 5 6.02 34.87 5 河南40160.01 5.20 40.08 6 四川32680.5 4.24 44.31 7 湖北32297.9 4.19 48.50 8 河北31827.9 4.12 52.62 9 湖南31244.7 4.05 56.67 10 福建28519.2 3.70 60.37 11 上海27466.2 3.56 63.93 12 北京24899.3 3.23 67.16 13 安徽24117.9 3.13 70.28 14 辽宁22037.88 2.86 73.14 15 陕西19165.39 2.48 75.62 16 内蒙古18632.6 2.41 78.04 17 江西18364.4 2.38 80.42 18 广西18245.07 2.36 82.78 19 天津17885.4 2.32 85.10 20 重庆17558.8 2.28 87.37 21 黑龙江15386.09 1.99 89.37 22 吉林14886.23 1.93 91.30 23 云南14869.95 1.93 93.22 24 山西12928.3 1.68 94.90 25 贵州11734.43 1.52 96.42 26 新疆9550 1.24 97.66 27 甘肃7152.04 0.93 98.59 28 海南4044.51 0.52 99.11 29 宁夏3150.06 0.41 99.52 30 青海2572.49 0.33 99.85 31 西藏1150.07 0.15 100.00 将2016各省的GDP进行排名,可以发现,经济发达的的地区主要集中在东部地区。西部gdp的占比较小。作出2016各省的gdp直方图如下:

(完整版)多元统计分析思考题答案

《多元统计分析》思考题答案 记得老师课堂上说过考试内容不会超出这九道思考题, 如下九道题题目中有错误的或不清楚 的地方,欢迎大家指出、更改、补充。 1、 简述信度分析 答题提示:要答可靠度概念,可靠度度量,克朗巴哈 系数、拆半系数、单项 与总体相 关系数、稀释相关系数等(至少要答四个系数,至少要给出两个指标的公式) 答: 信度( Reliability )即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果 的一致性程度。 信度指标多以相关系数表示, 大致可分为三类: 稳定系数 (跨时间的一致性) 等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性) 。信度分析的方法主要 有以下四种: 1)、重测信度法 这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测, 计算两次施测结果 的相关系数。 重测信度属于稳定系数。 重测信度法特别适用于事实式问卷, 如果没有突发事 件导致被调查者的态度、 意见突变, 这种方法也适用于态度、 意见式问卷。 由于重测信度法 需要对同一样本试测两次, 被调查者容易受到各种事件、 活动和他人的影响, 而且间隔时间 长短也有一定限制,因此在实施中有一定困难。 2)、复本信度法 复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复 本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和 对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求, 因此采用这种方法者较少。 3)、折半信度法 折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信 度。折半信度属于内在一致性系数, 测量的是两半题项得分间的一致性。 这种方法一般不适 用于事实式问卷(如年龄与性别无法相比) ,常用于态度、意见式问卷的信度分析。在问卷 调查中,态度测量最常见的形式是 5 级李克特( Likert )量表。进行折半信度分析时,如果 量表中含有反意题项, 应先将反意题项的得分作逆向处理, 以保证各题项得分方向的一致性, 然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数。 为了校正差异,两半测验的方差相等时,常运用斯皮尔曼 - 布朗公式( Spearman- Brown Formula ):rxx=2rhh/(1+rhh ) ,其中, rhh :两半测验的相关系数; rxx :估计或修正后的信度。 该公式可以估计增长或缩短一个测验对其信度系数的影响。 当两半测验的方差不同时, 应采 用卢伦公式( Rulon Formula )或弗拉纳根公式( Flanagan Formula )进行修正。 4)、α信度系数法 Cronbach α信度系数是目前最常用的信度系数,其公式为: S i 从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。其中, n n1 i1 S X S i 2 为每一项目的方差; S X 2 为测验总分方差。

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法: 1.层次聚类hierarchical clustering 2.k-means聚类 这里用最简单的实例说明以下层次聚类原理和应用发法。 层次聚类是基于距离的聚类方法,MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程可以分这么几步: (1) 确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征对象之间差异的距离,例如最简单的平面上点的聚类中,最经常使用的就是欧几里得距离。 这在MATLAB中可以通过Y=pdist(X)实现,例如 >> X=randn(6,2) X = -0.4326 1.1892 -1.6656 -0.0376 0.1253 0.3273 0.2877 0.1746 -1.1465 -0.1867 1.1909 0.7258 >> plot(X(:,1),X(:,2),'bo') %给个图,将来对照聚类结果把 >> Y=pdist(X) Y = Columns 1 through 14 1.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.5401 2.9568 0.2228 1.3717 1.1377 1.4790 1.0581 Column 15

2.5092 例子中X数据集可以看作包含6个平面数据点,pdist之后的Y是一个行向量,15个元素分别代表X 的第1点与2-6点、第2点与3-6点,......这样的距离。那么对于M个点的数据集X,pdist之后的Y 将是具有M*(M-1)/2个元素的行向量。Y这样的显示虽然节省了内存空间,但对用户来说不是很易懂,如果需要对这些距离进行特定操作的话,也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式,方阵中位置的数值就是X中第i和第j点之间的距离,显然这个方阵应该是 个对角元素为0的对称阵。 >> squareform(Y) ans = 0 1.7394 1.0267 1.2442 1.5501 1.6883 1.7394 0 1.8277 1.9648 0.5401 2.9568 1.0267 1.8277 0 0.2228 1.3717 1.1377 1.2442 1.9648 0.2228 0 1.4790 1.0581 1.5501 0.5401 1.3717 1.4790 0 2.5092 1.6883 2.9568 1.1377 1.0581 2.5092 0 这里需要注意的是,pdist可以使用多种参数,指定不同的距离算法。help pdist把。 另外,当数据规模很大时,可以想象pdist产生的Y占用内存将是很吓人的,比如X有10k个数据点,那么X占10k*8*2Bytes=160K,这看起来不算啥,但是pdist后的Y会有10k*10k/2*8Bytes=400M 。怕了把,所以,废话说在前面,用MATLAB的层次聚类来处理大规模数据,大概是很不合适的。 (2) 确定好了对象间的差异度(距离)后,就可以用Z=linkage(Y)来产生层次聚类树了。 >> Z=linkage(Y) Z = 3.0000 4.0000 0.2228 2.0000 5.0000 0.5401 1.0000 7.0000 1.0267

(整理)基于SPSS的多元统计分析三种算法的实例研究.

基于SPSS的多元统计分析三种算法的实例研究 摘要 本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。 关键词:多元回归分析,因子分析,判别分析,SPSS

第一章 多元线性回归分析 1.1 研究背景 消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。 1.2 问题提出与描述、数据收集 按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。 1.3 模型建立 1.3.1 理论背景 多元线性回归模型如下: εββββ+++++=p p X X X Y ...... 22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。 对于n 组观测值,其方程组形式为 εβ+=X Y 即

第三章 多元统计分析(3)

第三章多元统计分析 §4 聚类分析 分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。 1 聚类的分类 分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。 表3-3-1 各种生物在分类学上的位置举例 位置白菜虎 界植物界动物界 门种子植物门脊索动物门 亚门被子植物亚门脊椎动物亚门 纲双子叶植物纲哺乳动物纲 目十字花目食肉目 科十字花科猫科 属油菜属猫属 种白菜虎 当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。 早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e= 1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化 为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

matlab与多元统计分析

m a t l a b与多元统计分 析 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

Matlab 与多元统计分析 胡云峰 安庆师范学院 第三章习题 对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表所示。假设男婴的测量数据X (a )(a=1,…,6)来自正态总体N 3(,∑) 的 随机样本。根据以往的资料,该地区城市2周岁男婴的这三项的均值向量0= (90,58,16)’,试检验该地区农村男婴与城市男婴是否有相同的均值向量。 表 某地区农村2周岁男婴的体格测量数据 解 1.预备知识 ∑未知时均值向量的检验: H 0:=0 H 1:≠0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H

这里2(1) (, )p n T F p n p n p αα-= -- 2.根据预备知识用matlab 实现本例题 算样本协方差和均值 程序x=[78 ;76 ;92 ;81 ;81 ;84 ]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:)); y=rand(p,n); for j=1:1:n y(:,j)= x(j,:)'-xjunzhi'; y=y; end A=zeros(p,p); for k=1:1:n; A=A+(y(:,k)*y(:,k)'); end xjunzhi=xjunzhi' S=((n-1)^(-1))*A 输出结果xjunzhi = S = 然后u=[90;58;16]; t2=n*(xjunzhi-u)'*(S^(-1))*(xjunzhi-u) f=((n-p)/(p*(n-1)))*t2 输出结果t2 = f = 所以21()'()T n X S X μμ-=--=

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

相关主题
文本预览
相关文档 最新文档