第2章 多元数据数学表达
- 格式:pdf
- 大小:2.21 MB
- 文档页数:25
第 2 章多元数据的描述与展示Characterizing and DisplayingMultivariate Data随机变量数值特征描述可视化随机向量多元数据的矩阵表示均值向量、协方差矩阵与相关系数矩阵多元散点图随机向量分割分块均值向量与协方差矩阵变量线性组合随机变量的线性组合随机变量数值特征描述可视化随机向量多元数据的矩阵表示均值向量、协方差矩阵与相关系数矩阵多元散点图随机向量分割分块均值向量与协方差矩阵变量线性组合随机变量的线性组合随机变量均值、方差与标准差随机变量 :总体均值:总体方差:总体标准差:(独立同分布的)随机样本 :样本均值:样本方差:样本标准差:随机变量协方差和相关系数二元随机变量 :样本协方差:样本相关系数:随机样本 :样本协方差:样本相关系数:随机变量协方差与独立性 和 是不相关/线性独立的如果 和 服从二元正态分布,那么 和 是独立的是在样本空间中,两个经过中心化的 维向量和 的夹角余弦不相关的变量对应的 维样本向量是正交的(orthogonal)目录随机变量数值特征描述可视化随机向量多元数据的矩阵表示均值向量、协方差矩阵与相关系数矩阵多元散点图随机向量分割分块均值向量与协方差矩阵变量线性组合随机变量的线性组合例:由20名男大学生构成的样本所提供的身高(单位:英寸)和体重(单位:磅)数据如下:目录随机变量数值特征描述可视化随机向量多元数据的矩阵表示均值向量、协方差矩阵与相关系数矩阵多元散点图随机向量分割分块均值向量与协方差矩阵变量线性组合随机变量的线性组合随机向量多元数据的结构随机向量通常来说,我们使用矩阵来表示多元数据集假设数据集是通过对 个样本/观测点(subjects/units/samples/observations)测量它们对应的 个变量所得到的,那么这个数据集就能够表示为 的数据矩阵:其中 由 的第 行构成,表示第 个样本多元数据的矩阵表示随机向量矩阵表示:鸢尾花数据集这里收集到150个鸢尾花样本:对于每个样本,这里测量了5个变量:第 朵鸢尾花的第 个变量测量值为:例: 的值是多少?它代表什么?目录随机变量数值特征描述可视化随机向量多元数据的矩阵表示均值向量、协方差矩阵与相关系数矩阵多元散点图随机向量分割分块均值向量与协方差矩阵变量线性组合随机变量的线性组合总体均值向量 (Mean vector):对随机向量 ,样本均值向量:对随机样本 (其中 ),样本均值 是总体均值 的无偏估计,也即,其中随机向量的特征均值向量:鸢尾花数据集例如:鸢尾花数据中数值型变量的样本均值向量为:也就是说,总体协方差矩阵 (Covariance matrix):对随机向量 来说, 的总体协方差矩阵 定义为:其中 是 和 之间的总体协方差, 是 的总体方差样本协方差矩阵:对随机样本 (其中 )来说, 的样本协方差矩阵 定义为:其中 是该向量的第 和第 个变量之间的样本协方差, 是第 个变量的样本方差随机向量的特征和 是对称的,因为 和是 的无偏估计,也即的协方差矩阵是 协方差矩阵总体相关系数矩阵 (Correlation matrix):其中 为 与 之间的总体相关系数样本相关系数矩阵:对随机样本 来说,其中 是第 和第 个变量之间的样本相关系数和 是对称的,因为 和相关系数矩阵可以由协方差矩阵得到,反之亦然. 比如,其中 的对角矩阵 定义为:验证 :。
样本协方差的用途刻画整体离散性样本协方差矩阵还可用来刻画数据的整体离散性:1.广义样本方差(Generalized sample variance):行列式2.总样本方差(Total sample variance):一般来说,对 和 ,它们的值越大,表明 关于 越分散小贴士:如果 非常小,那么有可能是本身数据变化比较小,也有可能是存在共线性现象刻画了各变量维度的总和,但忽略了变量间的相关性在一元的情形中,如何定义两个点 和 之间的距离?1.两者作差的绝对值2.经过标准化的作差绝对值在多元的情形中,对于两个 维向量 和 之间的距离,我们也有两种测度方式1.欧氏距离(Euclidean distance)/ 范数:这个方式没有考虑到不同变量变化的尺度不同,以及变量之间的相关性2.统计距离/马氏距离(Statistical/Mahalanobis distance):方差更大的变量对应了更小的权重,而且两个高度相关的变量对统计距离的贡献小于两个相关性相对较低的变量的贡献统计距离其实正是两个经过“变换”的向量 和 之间的欧氏距离统计距离里面的样本方差 起到两个作用:1.将所有变量标准化成相同方差2.消除相关性我们这里只用了前6行来展示:欧式距离/ 范数:统计距离/马氏距离:目录随机变量数值特征描述可视化随机向量多元数据的矩阵表示均值向量、协方差矩阵与相关系数矩阵多元散点图随机向量分割分块均值向量与协方差矩阵变量线性组合随机变量的线性组合多元散点图多元数据矩阵 可以通过下面两种散点图来表示:1.两两散点图矩阵 (Scatterplot matrix):用以观察多元数据中数值变量两两之间的关系2.三维散点图多元散点图鸢尾花数据集>pairs(iris[,1:4],main=“Scatterplot Matrix for Fisher' s Iris Data”)多元散点图鸢尾花数据集三维散点图:注意:在R中,有很多方式生成三维散点图. 这里作为例子,我们采用“lattice”包中的“cloud”命令。
多元数据的数学表达实验报告总结这个多元数据的表达方法在这篇论文中是非常重要的,对我们理解有关的概念和方法都有很大的帮助。
我用了大量时间去研究和分析实验结果,并且完成了一些简单的实际应用:(1)用自己手头的样本估计全国人口,假设参与观察的人口为总人口的40%;(2)得到了全部人群参与统计工作的平均人数为10人/年;(3)从样本的平均值上减掉2%左右的标准误差后发现,假如样本小于20,则总体的统计推断误差会增加30%左右,而其他两组实验,误差都比较接近于0.05;(4)一旦使用了这种统计技术,那么就不能再依赖于样本的统计数字进行判断,因此需要更严格地选择参与调查的人群。
从前面的实验可以看出,多元数据在研究中占有极大的优势。
首先,它给予了人们新的视野——从几个维度来认识事物;第二,它拓展了人类思考问题的深度,把问题从多层次的复杂性归纳为简单、易懂的模型;最后,它使得人们能够利用抽象的技巧处理过于精细的信息,便于整合;由于人脑具有惊人的适应性,通过观察他人,可以获取各种资源,丰富自身的知识。
而这些将为社会科学家所用,探索出很多“社会规律”,造福广大民众。
然而这种高效率、低成本的方式却只存在于统计学之内。
多元数据研究的确立无疑扩宽了其应用领域。
对我们生活中的方方面面也带来了巨大影响。
虽然很多专业人士对多元数据抱着怀疑的态度,但是我相信随着越来越多数据库的建立和多元数据的普及化,这种情况终将被改变。
对于社会科学的发展而言,我想再没有什么能比数据的积累更加困难,需要花费更多的精力去挖掘真正意义上的有价值的东西,从中找寻问题产生的根源。
即使每天都在重复做着同样的工作,你还是要用新的眼光审视周围,向别人虚心求教。
或许,对这个世界最好的报答就是努力工作吧!从经济学的角度来说,多元数据主要是指数据种类的多元化,数据采集方式的多元化,数据处理技术的多元化,这是多元数据研究的基础。
在多元数据中,数据特征往往决定着研究者采用何种策略去提取数据。
第四章 多元数据图表示法图形有助于对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可从图形一目了然地看出多元数据之间的关系,当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图。
当有三维数据时,虽然可以在三维坐标系里点图,但已很不方便,而当维数大于3时,用通常的方法已不能点图。
但在许多实际问题中,多元数据的维数都大于3。
自20世纪70年代以来多元数据的图表示法一直是人们所关注的问题,人们想了不少办法,这些方法大体上分为两类:一类是使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系;另一类是在尽可能多地保留原数据信息的原则下进行降维,若能使数据维数降至2或1,则可在平面上点图。
后者可用后面介绍的主成分法、因子分析法等去解决。
本章仅对前者介绍四种图表示法,更多的这类方法可在有关专著中找到。
设变量数为p ,观测次数为n ,第α次观测值记为n n x x x X ap a a a ,,,1,),,,(21 ='=α次观测数据组成的矩阵为p n ij x X ⨯=)(。
例 考察北京、上海、陕西、甘肃四个省市人均生活消费支出情况,选取以下五项指标,具体数据如下表(摘自1996年中国统计年鉴):此例变量个数5=p ,观测次数4=n 。
§4.1 轮廓图作图步骤为:(1)作平面坐标系,横坐标取p 个点表示p 个变量。
(2)对给定的一次观测值,在p 个点上的纵坐标(即高度)和它对应的变量取值成正比。
(3)连接p 个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。
n 次观测值可画出n 条折线,构成轮廓图。
下面画出四条折线为北京、上海、陕西、甘肃五项指标的数据即四个省市五项指标的轮廓。
由轮廓图可以看出:北京、上海的居民生活消费较高且相似。
陕西、甘肃生活消费较低且相似。
如果考察的样品较多,画折线时图形中可能出现重复点多,不便于区分哪个样品对应哪条折线,这时最好多用几种颜色或长短虚实等标志来画出折线。
多元统计分析及R语言建模第2章多元数据的数学表达及R使用
内容与要求
多元数据的基本格式,如何收集和整理多元统计分析资料、数据的
数学表达、数据矩阵及R 表示、数据的R 语言表示、R 调用多元的数据和多元的数据的简单R 语言分析。
要求学生熟练如何收集和整理多元统计分析资料、数据的数学表达、掌握多元数据的数字特征的解析表达式、数字特征的基本性质。
熟悉有关统计软件。
利用统计软件来练习矩阵的有关计算。
练习在已
给数据下,求样本均值、样本离差阵、样本协差阵等。
【例2.1】为了了解股民的投资状况,研究股民的股票投资特征,我们在2002年组织统计系本科生进行小范围的“股民投资状况抽样调查”。
本次调查的抽样框主要涉及广东省的6个城市(广州、深圳、珠海、中山、佛山和东莞,其中,广州、深圳各100份,其他城市各80份),共发放问卷520份,回收有效问卷514份。
问卷中设计了18个问题。
为了简化分析,本例只考虑:年龄、性别、风险意识、是否专兼职、职业状况、教育程度和投资结果共7个变量进行分析。
#本例性别、风险、专兼职、职业、教育和结果
为定性变量,年龄是定量变量,有时为了分析问
题方便,也可将其定量化,例如
⏹年龄(age):19岁以下(1);20至29岁(2);
30 至39岁(3);40至49岁(4);50至59岁
(5);60岁及以上(6);缺失(*)。
⏹性别(sex): 男(1),女(2)。
⏹风险(risk):有(1);无(2)。
⏹专兼职(post):专职(1);业余(2)。
⏹职业(career):干部(1);管理(2);3科教
(3);金融(4);工人(5);农民(6);个体(7);无业(8)。
⏹教育(edu):文盲(1);小学(2);中学(3);
高中(4);中专(5);
大专(6);大学(7);研究生(8)。
⏹投资结果(result):赚钱(1);不赔不赚(2);
赔钱(3)。
方差
样本均值和方差
一元数据
多元数据
期望
期望
协方差
111211112
12122
2212221212cov(,)cov(,)cov(,)cov(,)cov(,)
cov(,)=()cov(,)cov(,)cov(,)p p p p p p p p p p pp x x x x x x x x x x x x Var X x x x x x x σσσσσσσσσ⎡⎤⎡⎤
⎢⎥⎢⎥⎢
⎥⎢⎥∑==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦
数据的表达
2 多元数据的数学表达及R使用
2.3 数据矩阵
在R中可以用函数c()来创建向量:
在R中结果输出如下:
#将向量按列和并
rbind(x1,x2)
#利用x1数据创建矩阵
matrix(x1,nrow=3,ncol=4)
#创建按照行排列的矩阵
matrix(x1,nrow=3,ncol=4,byrow=T)
#创建两个相同的矩阵
A=B=matrix(1:12,nrow=3,ncol=4)
#矩阵转置
t(A)
#矩阵加法
A+B
#矩阵加法
A+B
#矩阵相乘
A=matrix(1:12,nrow=3,ncol=4)
B=matrix(1:12,nrow=4,ncol=3)
A%in%B
#获取对角线元素
A=matrix(1:16,nrow=4,ncol=4)
diag(A)
#利用对角线元素创建对角矩阵
diag(diag(A))
#创建3阶单位矩阵
diag(3)
#求逆矩阵
A=matrix(rnorm(16),4,4) solve(A)
#求矩阵特征根与特征向量
A=diag(4)+1
A.e=eigen(A,symmetric=T) #矩阵的Choleskey分解A.c=chol(A)
#矩阵奇异值分解
A=matrix(1:18,3,6)
A.s=svd(A)
#矩阵的维数
A=matrix(1:12,3,4)
dim(A)
#矩阵的行数
nrow(A)
#矩阵的行数
ncol(A)
#矩阵按行求和
rowSums(A)
#矩阵按行求均值
rowMeans(A)
#矩阵按列求和
colSums(A)
#矩阵按列求均值
colMeans(A)
apply()函数
apply(X, MARGIN, FUN, ...)
#矩阵按行求和
apply(A,1,sum)
#矩阵按行求均值
apply(A,1,mean)
#矩阵按列求和
apply(A,2,sum)
#矩阵按列求均值
apply(A,2,mean)
#矩阵按列求方差
A=matrix(rnorm(100),20,5)
apply(A,2,var)
#矩阵按列求函数结果
B=matrix(1:12,3,4)
apply(B,2,function(x,a) x*a, a=2)
注意:
apply(B,2,function(x,a)
x*a,a=2)与B*2效果相同,
此处旨在说明如何应用
apply函数。
数据框(data frame )是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据。
在数据框中以变量形式出现的向量长度必须一致,矩阵结构必须有一样的行数。
数据框录入限制条件
数据框
#由x1和x2构建数据框
X=data.frame(x1,x2)
#赋予数据框新的列标签
X=data.frame('身高'=x1,'体重'=x2)
从剪切板读取选择需要进行计算
的数据块(比如上
例中名为UG的数
据),拷贝之。
在R中使用dat <-
read.table("clipbo
ard",header=T)
01
02
从文本文件读取#读取名为textdata的txt格式文档
X=read.table("textdata.txt")
X=read.table('textdata.txt',header=T)
第一行作为标题时
读取csv 格式
读取excel 格式
X=read.csv("textdata.csv")
1.下载读取excel 文件的包“readxl”
2. 调用包:library(readxl)
3. 读取文件:X=read_excel(“data.xls”)
#身高的直方图hist(x1) #身高与体重散点图plot(x1,x2)
定量变量分析
#将剪切板数据读入数据框d2.1中 d2.1=read.table("clipboard",header=T) #显示数据前6行 head(d2.1) 定性变量分析 #绑定数据 attach(d2.1) #一维列联表 table(年龄)
#条形图
barplot(table(年龄),col=1:7) #饼图
pie(table(结果))
定性变量分析︵单因素︶
#以性别分组的年龄条图barplot(table(年龄,性别),
beside =T, col = 1:7) #以年龄分组的性别条图barplot(table(性别,年龄),
beside=T,col =1:2)
定性变量分析︵双因素︶
#以年龄、性别排列的结果频数三维列联表ftable(年龄,性别,结果) #以性别、年龄排列的结果频数三维列联表ftable(性别,年龄,结果)
定性变量分析︵三因素︶
#ft=ftable(性别,结果,年龄) #求ft 的行和 rowSums(ft) 定性变量分析︵三因素︶#求ft 的列和 colSums(ft) #整理得 注意 detach(d2.1) 当数据框不使用时,解除绑定!!。