当前位置:文档之家› 数学建模:数据的统计描述和分析

数学建模:数据的统计描述和分析

数学建模:数据的统计描述和分析
数学建模:数据的统计描述和分析

第十章数据的统计描述和分析

数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是

以概率论为基础的一门应用学科。

数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的

数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,

使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基

础,实用性较强,在统计工作中经常使用。

面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计

的最基本方法。

我们将用Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统

计描述和分析。

§1 统计的基本概念

1.1 总体和样本

总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及

废品分类),学校全体学生的身高。

总体中的每一个基本单位称为个体,个体的特征用一个变量(如x )

来表示,如一

件产品是合格品记x = 0,是废品记x = 1;一个身高170(cm)的学生记x = 170。

从总体中随机产生的若干个个体的集合称为样本,或子样,如n 件产品,100 名学

生的身高,或者一根轴直径的10 次测量。实际上这就是从总体中随机取得的一批数据,

不妨记作n x , x , , x 1 2 L ,n称为样本容量。

简单地说,统计的任务是由样本推断总体。

1.2 频数表和直方图

一组数据(样本)往往是杂乱无章的,做出它的频数表和直方图,可以看作是对这

组数据的一个初步整理和直观描述。

将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次

数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一

个阶梯形的图,称为直方图,或频数分布图。

若样本容量不大,能够手工做出频数表和直方图,当样本容量较大时则可以借助

Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。

例1 学生的身高和体重

学校随机抽取100 名学生,测量他们的身高和体重,所得数据如表表1 身高体重数据

身高体重身高体重身高体重身高体重身高体重

172 75 169 55 169 64 171 65 167 47

171 62 168 67 165 52 169 62 168 65

166 62 168 65 164 59 170 58 165 64

160 55 175 67 173 74 172 64 168 57

155 57 176 64 172 69 169 58 176 57

173 58 168 50 169 52 167 72 170 57

166 55 161 49 173 57 175 76 158 51

170 63 169 63 173 61 164 59 165 62

167 53 171 61 166 70 166 63 172 53

173 60 178 64 163 57 169 54 169 66

178 60 177 66 170 56 167 54 169 58

173 73 170 58 160 65 179 62 172 50

163 47 173 67 165 58 176 63 162 52

-202-

165 66 172 59 177 66 182 69 175 75

170 60 170 62 169 63 186 77 174 66

163 50 172 59 176 60 166 76 167 63

172 57 177 58 177 67 169 72 166 50

182 63 176 68 172 56 173 59 174 64

171 59 175 68 165 56 169 65 168 62

177 64 184 70 166 49 171 71 170 59

(i)数据输入

数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量比

较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件data.txt 中,

格式如例1 的表1,有20 行、10 列,数据列之间用空格键或Tab 键分割,该数据文件

data.txt 存放在matlab\work 子目录下,在Matlab 中用load 命令读入数据,具体作法是:

load data.txt

这样在内存中建立了一个变量data,它是一个包含有20×10个数据的矩阵。

为了得到我们需要的100 个身高和体重各为一列的矩阵,应做如下的改变:

high=data(:,1:2:9);high=high(:)

weight=data(:,2:2:10);weight=weight(:)

(ii)作频数表及直方图

求频数用hist 命令实现,其用法是:

[N,X] = hist(Y,M)

得到数组(行、列均可)Y 的频数表。它将区间[min(Y),max(Y)]等分为M 份(缺省时

M 设定为10),N 返回M 个小区间的频数,X 返回M 个小区间的中点。

命令

hist(Y,M)

画出数组Y 的直方图。

对于例1 的数据,编写程序如下:

load data.txt;

high=data(:,1:2:9);high=high(:);

weight=data(:,2:2:10);weight=weight(:);

[n1,x1]=hist(high)

%下面语句与hist命令等价

%n1=[length(find(high<158.1)),...

% length(find(high>=158.1&high<161.2)),...

% length(find(high>=161.2&high<164.5)),...

% length(find(high>=164.5&high<167.6)),...

% length(find(high>=167.6&high<170.7)),...

% length(find(high>=170.7&high<173.8)),...

% length(find(high>=173.8&high<176.9)),...

% length(find(high>=176.9&high<180)),...

% length(find(high>=180&high<183.1)),...

% length(find(high>=183.1))] [n2,x2]=hist(weight)

subplot(1,2,1), hist(high) subplot(1,2,2), hist(weight) 计算结果略,直方图如图1 所示。

-203-

1 5 0 1 6 0 1 7 0 1 8 0 1 9 0

5

1 0

1 5

2 0

2 5

3 0

4 0

5 0

6 0

7 0

8 0

5

1 0

1 5

2 0

2 5

图1 直方图

从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;而体重则看不出

什么规律。要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓“统

计量”。直方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分

布作假设检验。

例2 统计下列五行字符串中字符a、g、c、t 出现的频数

1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg

2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga

3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca

4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta

5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc

解把上述五行复制到一个纯文本数据文件shuju.txt 中,放在matlab\work 子目录

下,编写如下程序:

clc

fid1=fopen('shuju.txt','r');

i=1;

while (~feof(fid1))

data=fgetl(fid1);

a=length(find(data==97));

b=length(find(data==99));

c=length(find(data==103));

d=length(find(data==116));

e=length(find(data>=97&data<=122));

f(i,:)=[a b c d e a+b+c+d];

i=i+1;

end

f, he=sum(f)

dlmwrite('pinshu.txt',f);

dlmwrite('pinshu.txt',he,'-append');

fclose(fid1);

我们把统计结果最后写到一个纯文本文件pinshu.txt 中,在程序中多引进了几个变

量,是为了检验字符串是否只包含a、g、c、t 四个字符。

1.3 统计量

假设有一个容量为n的样本(即一组数据),记作( , , , ) 1 2 n x = x x L x ,需要对它进

行一定的加工,才能提出有用的信息,用作对总体(分布)参数的估计和检验。统计量

就是加工出来的、反映样本数量特征的函数,它不含任何未知量。下面我们介绍几种常用的统计量。

-204-

(i)表示位置的统计量—算术平均值和中位数

算术平均值(简称均值)描述数据取值的平均位置,记作x ,Σ=

=

n

i

i x

n

x

1

1

(1)

中位数是将数据由小到大排序后位于中间位置的那个数值。Matlab 中mean(x)返回x 的均值,median(x)返回中位数。

(ii)表示变异程度的统计量—标准差、方差和极差

标准差s 定义为

2

1

1

( )2

1

1

??

?

??

??

?

= Σ=

n

i

i x x

n

s (2)

它是各个数据与均值偏离程度的度量,这种偏离不妨称为变异。

方差是标准差的平方s2。

极差是( , , , ) 1 2 n x = x x L x 的最大值与最小值之差。

Matlab 中std(x)返回x 的标准差,var(x)返回方差,range(x)返回极差。你可能注意到标准差s的定义(2)中,对n个(x x) i ?的平方求和,却被(n ?1)除,

这是出于无偏估计的要求。若需要改为被n 除,Matlab 可用std(x,1)和var(x,1)来实现。

(iii)中心矩、表示分布形状的统计量—偏度和峰度

随机变量x的r阶中心矩为E(x ?Ex)r。

随机变量x的偏度和峰度指的是x的标准化变量(x ?Ex) / Dx 的三阶

中心矩和

四阶中心矩:[( ) ] ( ) ,

( )

( )

( )

( )

3/ 2

3 3

1 D x

E x E x

D x

E x E x

?

=

??

?

?

??

?

?

??

?

?

??

?

??

ν = [( ) ] ( ) . ( ) ( ) ( ) ( )

2

4 4

2 D x

E x E x

D x

E x E x ?=

??

?

?

??

?

?

??

?

?

??

?

??

ν =

偏度反映分布的对称性,0 1 ν > 称为右偏态,此时数据位于均值右边的比位于左

边的多;0 1 ν < 称为左偏态,情况相反;而1 ν接近0 则可认为分布是对称的。

峰度是分布形状的另一种度量,正态分布的峰度为3,若2 ν比3 大得多,表示分布

有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态

分布的尺度之一。

Matlab 中moment(x,order)返回x 的order 阶中心矩,order 为中心矩的阶数。

skewness(x)返回x 的偏度,kurtosis(x)返回峰度。

在以上用Matlab 计算各个统计量的命令中,若x 为矩阵,则作用于x 的列,返回

一个行向量。

对例1 给出的学生身高和体重,用Matlab 计算这些统计量,程序如下:

clc

load data.txt;

high=data(:,1:2:9);high=high(:);

weight=data(:,2:2:10);weight=weight(:);

-205-

shuju=[high weight];

jun_zhi=mean(shuju)

zhong_wei_shu=median(shuju)

biao_zhun_cha=std(shuju)

ji_cha=range(shuju)

pian_du=skewness(shuju)

feng_du=kurtosis(shuju)

统计量中最重要、最常用的是均值和标准差,由于样本是随机变量,它们作为样本

的函数自然也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率

分布有关,因此我们需要知道几个重要分布的简单性质。

1.4 统计中几个重要的概率分布

1.4.1 分布函数、密度函数和分位数

随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。设有随

机变量X ,其分布函数定义为X ≤x的概率,即F(x) = P{X ≤x}。若X 是连续型随

机变量,则其密度函数p(x)与F(x)的关系为

∫?∞

= x F(x) p(x)dx .

上α分位数是下面常用的一个概念,其定义为:对于0 <α <1,使某分布函数

F(x) =1?α的x,称为这个分布的上α分位数,记作αx 。

我们前面画过的直方图是频数分布图,频数除以样本容量n ,称为频率,n 充分大

时频率是概率的近似,因此直方图可以看作密度函数图形的(离散化)近似。

1.4.2 统计中几个重要的概率分布

(i)正态分布

正态分布随机变量X 的密度函数曲线呈中间高两边低、对称的钟形,期望(均值)

EX = μ,方差DX =σ2,记作X ~ N(μ,σ2 ),σ称均方差或标准

差,当μ = 0,σ = 1

时称为标准正态分布,记作X ~ N(0,1)。正态分布完全由均值μ和方差σ 2 决定,它

的偏度为0,峰度为3。

正态分布可以说是最常见的(连续型)概率分布,成批生产时零件的尺寸,射击中

弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,多数情况下都

服从正态分布,这不仅是观察和经验的总结,而且有着深刻的理论依据,即在大量相互

独立的、作用差不多大的随机因素影响下形成的随机变量,其极限分布为正态分布。

鉴于正态分布的随机变量在实际生活中如此地常见,记住下面 3 个数字是有用的:

68%的数值落在距均值左右1 个标准差的范围内,即

P{μ?σ≤X ≤μ +σ} = 0.68;

95%的数值落在距均值左右2 个标准差的范围内,即

P{μ?2σ≤X ≤μ + 2σ} = 0.95;

99.7%的数值落在距均值左右3 个标准差的范围内,即

P{μ?3σ≤X ≤μ + 3σ} = 0.997 .

(ii)χ2分布(Chi square)

若n X , X , , X 1 2 L 为相互独立的、服从标准正态分布N(0,1)的随机变

量,则它们的

平方和Σ=

=

n

i

i Y X

1

2 服从χ2分布,记作Y ~ χ2 (n),n称自由度,它的期望EY = n ,-206-

方差DY = 2n。

(iii)t 分布

若X ~ N(0,1) ,Y ~ χ 2 (n) ,且相互独立,则

Y n

T X

/

= 服从t 分布,记作

T ~ t(n),n称自由度。t分布又称学生氏(Student)分布。

t 分布的密度函数曲线和N(0,1) 曲线形状相似。理论上n→∞时,

T ~ t(n)→N(0,1),实际上当n > 30时它与N(0,1)就相差无几了。(iv) F 分布

若~ ( ) 1

X χ2 n ,~ ( ) 2

Y χ2 n ,且相互独立,则

2

1

/

/

Y n

F = X n 服从F 分布,记作

~ ( , ) 1 2 F F n n ,( , ) 1 2 n n 称自由度。

1.4.3 Matlab 统计工具箱(Toolbox\Stats)中的概率分布

Matlab 统计工具箱中有27 种概率分布,这里只对上面所述4 种分布列出命令的字

符:

norm 正态分布;chi2 χ2分布;

t t 分布f F 分布

工具箱对每一种分布都提供5 类函数,其命令的字符是:

pdf 概率密度;cdf 分布函数;inv 分布函数的反函数;

stat 均值与方差;rnd 随机数生成

当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起

来,并输入自变量(可以是标量、数组或矩阵)和参数就行了,如:p=normpdf(x,mu,sigma) 均值mu、标准差sigma 的正态分布在x 的密度函数

(mu=0,sigma=1 时可缺省)。

p=tcdf(x,n) t 分布(自由度n)在x 的分布函数。

x=chi2inv(p,n) χ2分布(自由度n)使分布函数F(x)=p 的x(即p 分位数)。

[m,v]=fstat(n1,n2) F 分布(自由度n1,n2)的均值m 和方差v。

几个分布的密度函数图形就可以用这些命令作出,如:

x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);

plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)') 分布函数的反函数的意义从下例看出:

x=chi2inv(0.9,10)

x =

15.9872

如果反过来计算,则

P=chi2cdf(15.9872,10)

P =

0.9000

1.5 正态总体统计量的分布

用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的

随机变量,所以样本统计量的分布依赖于总体的分布。当总体服从一般的分布时,求某

个样本统计量的分布是很困难的,只有在总体服从正态分布时,一些

重要的样本统计量

(均值、标准差)的分布才有便于使用的结果。另一方面,现实生活中需要进行统计推

断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中人们在正态总体的

-207-

假定下研究统计量的分布,是必要的与合理的。

设总体X ~ N(μ,σ2 ),n x , x , , x 1 2 L 为一容量n的样本,其均值x 和标准差s由

式(1)、(2)确定,则用x 和s 构造的下面几个分布在统计中是非常有用的。

~ ( , )

2

n

x N

σ

μ或~ (0,1)

/

N

n

x

σ

数据的收集描述与分析

数据的收集、整理与描述——备课人:李发 【问题】统计调查的一般过程是什么?统计调查对我们有什么帮助?统计调查一般包括收集数据、整理数据、描述数据和分析数据等过程;可以帮助我们更好地了解周围世界,对未知的事物作出合理的推断和预测. 一、数据处理的一般程序 二、回顾与思考 Ⅰ、数据的收集 1、收集数据的方法(在收集数据时,为了方便统计,可以用字母表示调查的各种类型。) ①问卷调查法:为了获得某个总体的信息,找出与该信息有关的因素,而编制的一些带有问题的问卷调查。 ②媒体调查法:如利用报纸、电话、电视、网络等媒体进行调查。 ③民意调查法:如投票选举。 ④实地调查法:如现场进行观察、收集和统计数据。 例1、调查下列问题,选择哪种方法比较恰当。 ①班里谁最适合当班长()②正在播出的某电视节目收视率() ③本班同学早上的起床时间()④黄河某段水域的水污染情况() 2、收集数据的一般步骤: ①明确调查的问题;——谁当班长最合适 ②确定调查对象;——全班同学 ③选择调查方法;——采用民主推荐的调查方法 ④展开调查;——每位同学将自己心目中认为最合适的写在纸上,投入推荐箱 ⑤统计整理调查结果;——由一位同学唱票,另一位同学记票(划正字),第三位同学在旁边监督。 ⑥分析数据的记录结果,作出合理的判断和决策; 3、收集数据的调查方式 (1)全面调查 定义:考察全体对象的调查叫做全面调查。

全面调查的常见方法:①问卷调查法;②访问调查法;③电话调查法; 特点:收集到的数据全面、准确,但花费多、耗时长、而且某些具有破坏性的调查不宜用全面调查;(2)抽样调查 定义:只抽取一部分对象进行调查,然后根据调查数据来推断全体对象的情况,这种方法是抽样调查。 总体:要考察的全体对象叫做总体; 个体:组成总体的每一个考察对象叫做个体; 样本:从总体中抽取的那一部分个体叫做样本。 样本容量:样本中个体的数目叫做样本容量(样本容量没有单位); 特点:省时省钱,调查对象涉及面广,容易受客观条件的限制,结果往往不如全面调查准确,且样本选取不当,会增大估计总体的误差。 性质:具有代表性与广泛性,即样本的选取要恰当,样本容量越大,越能较好地反映总体的情况。(代表性:总体是由有明显差异的几个部分组成时,每一个部分都应该按照一定的比例抽取到) (3)实际调查中常常采用抽样调查的方法获取数据,抽样调查的要求是什么? ①总体中每个个体都有相等的机会被抽到;②样本容量要适当. 例2、〔1〕判断下面的调查属于哪一种方式的调查。 ①为了了解七年级(22班)学生的视力情况(全面调查) ②我国第六次人口普查(全面调查) ③为了了解全国农民的收支情况(抽样调查) ④灯泡厂为了掌握一批灯泡的使用寿命情况(抽样调查) 〔2〕下面的调查适合用全面调查方式的是 . ①调查七年级十班学生的视力情况;②调查全国农民的年收入状况; ③调查一批刚出厂的灯泡的寿命;④调查各省市感染禽流感的病例。 〔3〕为了了解某七年级2000名学生的身高,从中抽取500名学生进行测量,对这个问题,下面的说法正确的是〔〕 A、2000名学生是总体 B、每个学生是个体 C、抽取的500名学生是样本 D、样本容量是500〔4〕请指出下列哪些抽查的样本缺少代表性: ①在大学生中调查我国青年的上网情况; ②从具有不同文化层次的市民中,调查市民的法治意识; ③抽查电信部门的家属,了解市民对电信服务的满意程度。 Ⅱ、数据的整理1、表格整理2、划记法

数据的收集、整理、描述与分析报告

数据的收集、整理与描述——备课人:发 【问题】统计调查的一般过程是什么?统计调查对我们有什么帮助?统计调查一般包括收集数据、整理数据、描述数据和分析数据等过程;可以帮助我们更好地了解周围世界,对未知的事物作出合理的推断和预测. 一、数据处理的一般程序 二、回顾与思考 Ⅰ、数据的收集 1、收集数据的方法(在收集数据时,为了方便统计,可以用字母表示调查的各种类型。) ①问卷调查法:为了获得某个总体的信息,找出与该信息有关的因素,而编制的一些带有问题的问卷调查。 ②媒体调查法:如利用报纸、、电视、网络等媒体进行调查。 ③民意调查法:如投票选举。 ④实地调查法:如现场进行观察、收集和统计数据。 例1、调查下列问题,选择哪种方法比较恰当。 ①班里谁最适合当班长()②正在播出的某电视节目收视率() ③本班同学早上的起床时间()④黄河某段水域的水污染情况() 2、收集数据的一般步骤: ①明确调查的问题;——谁当班长最合适 ②确定调查对象;——全班同学 ③选择调查方法;——采用推荐的调查方法 ④展开调查;——每位同学将自己心目中认为最合适的写在纸上,投入推荐箱 ⑤统计整理调查结果;——由一位同学唱票,另一位同学记票(划正字),第三位同学在旁边监督。 ⑥分析数据的记录结果,作出合理的判断和决策; 3、收集数据的调查方式 (1)全面调查 定义:考察全体对象的调查叫做全面调查。

全面调查的常见方法:①问卷调查法;②访问调查法;③调查法; 特点:收集到的数据全面、准确,但花费多、耗时长、而且某些具有破坏性的调查不宜用全面调查;(2)抽样调查 定义:只抽取一部分对象进行调查,然后根据调查数据来推断全体对象的情况,这种方法是抽样调查。 总体:要考察的全体对象叫做总体; 个体:组成总体的每一个考察对象叫做个体; 样本:从总体中抽取的那一部分个体叫做样本。 样本容量:样本中个体的数目叫做样本容量(样本容量没有单位); 特点:省时省钱,调查对象涉及面广,容易受客观条件的限制,结果往往不如全面调查准确,且样本选取不当,会增大估计总体的误差。 性质:具有代表性与广泛性,即样本的选取要恰当,样本容量越大,越能较好地反映总体的情况。(代表性:总体是由有明显差异的几个部分组成时,每一个部分都应该按照一定的比例抽取到) (3)实际调查中常常采用抽样调查的方法获取数据,抽样调查的要什么? ①总体中每个个体都有相等的机会被抽到;②样本容量要适当. 例2、〔1〕判断下面的调查属于哪一种方式的调查。 ①为了了解七年级(22班)学生的视力情况(全面调查) ②我国第六次人口普查(全面调查) ③为了了解全国农民的收支情况(抽样调查) ④灯泡厂为了掌握一批灯泡的使用寿命情况(抽样调查) 〔2〕下面的调查适合用全面调查方式的是 . ①调查七年级十班学生的视力情况;②调查全国农民的年收入状况; ③调查一批刚出厂的灯泡的寿命;④调查各省市感染禽流感的病例。 〔3〕为了了解某七年级2000名学生的身高,从中抽取500名学生进行测量,对这个问题,下面的说确的是〔〕 A、2000名学生是总体 B、每个学生是个体 C、抽取的500名学生是样本 D、样本容量是500〔4〕请指出下列哪些抽查的样本缺少代表性: ①在大学生中调查我国青年的上网情况; ②从具有不同文化层次的市民中,调查市民的法治意识; ③抽查电信部门的家属,了解市民对电信服务的满意程度。 Ⅱ、数据的整理1、表格整理2、划记法

回归分析在数学建模中的应用

摘要 回归分析和方差分析是探究和处理相关关系的两个重要的分支,其中回归分析方法是预测方面最常用的数学方法,它是利用统计数据来确定变量之间的关系,并且依据这种关系来预测未来的发展趋势。本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤,并且用它们来研究和分析我们在生活中常遇到的一些难以用函数形式确定的变量之间的关系。在解决的过程中,建立回归方程,再通过该回归方程进行预测。 关键词:多元线性回归分析;参数估计;F检验

回归分析在数学建模中的应用 Abstract Regression analysis and analysis of variance is the inquiry and processing of the correlation between two important branches, wherein the regression analysis method is the most commonly used mathematical prediction method, it is the use of statistical data to determine the relationship between the variables, and based on this relationship predict future trends. introduces a linear regression analysis and multiple linear regression analysis method general way of thinking and the general steps, and use them to research and analysis that we encounter in our life, are difficult to determine as a function relationship between the variables in the solving process, the regression equation is established by the regression equation to predict. Keywords:Multiple linear regression analysis; parameter estimation;inspection II

SAS数据的描述性统计分析答案

实验一数据的描述性统计分析 一、选择题 1、以下( B )语句对变量进行分组,在使用前需按分组变量进行排序? 以下( C )语句可对变量进行分类,在使用前不必按分类变量进行排序? 用( A )语句可以选择输入数据集的一个行子集来进行分析? (A)WHERE语句(B)BY语句(C)CLASS语句(D)FREQ语句2、排序过程步中必须用什么语句对变量进行排序?( A ) (A)BY语句(B)CLASS语句(C)WHERE语句 3、如果要对数据集中的数据进行正态性检验,需要使用哪个过程?( B )(A)MEANS (B)UNIV ARIATE (C)FREQ 4、用UNIV ARIATE过程进行数据分析,要求此过程输出茎叶图、正态概率图等,应在语句中加上什么选项?(plot ) 5、用UNIV ARIATE过程进行数据分析,在输出结果中哪个统计量是对样本均值 为零的T检验的概率值?( A ) (A)T: Mean (B)Prob>|S| (C)Sgn Rank (D)Prob>|T| 二、假设某校100名女生的血清总蛋白含量(g/L)服从均值为75,标准差为3的正态分布,试产生样本数据,并利用SAS软件解决下面问题: 1、计算样本均值、方差、标准差、极差、四分位极差、变异系数、偏度、峰度; 2、画出直方图(垂直条形图); 3、画出茎叶图、盒形图和正态概率图; 4、试进行正态性检验。 Data N; DO i=1to100; x=75+3*normal(12345); output; end; proc print; run; proc univariate data=N; var x; run; proc gchart data=N; block x; run; proc univariate data=N plot; var x;

数学建模的基本步骤

数学建模的基本步骤 一、数学建模题目 1)以社会,经济,管理,环境,自然现象等现代科学中出现的新问题为背景,一般都有一个比较确切的现实问题。 2)给出若干假设条件: 1. 只有过程、规则等定性假设; 2. 给出若干实测或统计数据; 3. 给出若干参数或图形等。 根据问题要求给出问题的优化解决方案或预测结果等。根据问题要求题目一般可分为优化问题、统计问题或者二者结合的统计优化问题,优化问题一般需要对问题进行优化求解找出最优或近似最优方案,统计问题一般具有大量的数据需要处理,寻找一个好的处理方法非常重要。 二、建模思路方法 1、机理分析根据问题的要求、限制条件、规则假设建立规划模型,寻找合适的寻优算法进行求解或利用比例分析、代数方法、微分方程等分析方法从基本物理规律以及给出的资料数据来推导出变量之间函数关系。 2、数据分析法对大量的观测数据进行统计分析,寻求规律建立数学模型,采用的分析方法一般有: 1). 回归分析法(数理统计方法)-用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式。 2). 时序分析法--处理的是动态的时间序列相关数据,又称为过程统计方法。 3)、多元统计分析(聚类分析、判别分析、因子分析、主成分分析、生存数据分析)。 3、计算机仿真(又称统计估计方法):根据实际问题的要求由计算机产生随机变量对动态行为进行比较逼真的模仿,观察在某种规则限制下的仿真结果(如蒙特卡罗模拟)。 三、模型求解: 模型建好了,模型的求解也是一个重要的方面,一个好的求解算法与一个合

适的求解软件的选择至关重要,常用求解软件有matlab,mathematica,lingo,lindo,spss,sas等数学软件以及c/c++等编程工具。 Lingo、lindo一般用于优化问题的求解,spss,sas一般用于统计问题的求解,matlab,mathematica功能较为综合,分别擅长数值运算与符号运算。 常用算法有:数据拟合、参数估计、插值等数据处理算法,通常使用spss、sas、Matlab作为工具. 线性规划、整数规划、多元规划、二次规划、动态规划等通常使用Lindo、Lingo,Matlab软件。 图论算法,、回溯搜索、分治算法、分支定界等计算机算法, 模拟退火法、神经网络、遗传算法。 四、自学能力和查找资料文献的能力: 建模过程中资料的查找也具有相当重要的作用,在现行方案不令人满意或难以进展时,一个合适的资料往往会令人豁然开朗。常用文献资料查找中文网站:CNKI、VIP、万方。 五、论文结构: 0、摘要 1、问题的重述,背景分析 2、问题的分析 3、模型的假设,符号说明 4、模型的建立(局部问题分析,公式推导,基本模型,最终模型等) 5、模型的求解 6、模型检验:模型的结果分析与检验,误差分析 7、模型评价:优缺点,模型的推广与改进 8、参考文献 9、附录 六、需要重视的问题 数学建模的所有工作最终都要通过论文来体现,因此论文的写法至关重要:

数据的统计描述和分析.doc

第十章 数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 §1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x )来表示,如一件产品是合格品记0=x ,是废品记1=x ;一个身高170(cm )的学生记170=x 。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n 件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作n x x x ,,,21Λ,n 称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重

最新数学建模数据分析题

中国矿业大学数学建模常规赛竞赛 承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1. 易阳俊 2. 令月霞 3. 刘景瑞 日期: 2016 年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

中国矿业大学数学建模常规赛竞赛 编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

综合实验一数据的统计描述和分析

综合实验一数据的统计描述和分析综合实验一数据的统计描述和分析 一、实验目的 1(掌握数据的统计描述、参数估计、假设检验和回归分析的基本概念与原理,及用MINITAB实现的方法; 2(练习综合运用数理统计知识解决一些实际问题。 二、实验内容 从某个寄宿制中学高三学生中随机抽取32名男生的身高、体重和体育课的成绩如下表 身高体重成绩身高体重成绩身高体重成绩 167 50 85 172 61 83 169 50 80 179 63 93 170 58 84 166 66 74 168 54 78 177 67 79 163 66 91 187 79 91 172 62 87 175 69 86 173 62 68 166 53 81 173 64 83 176 70 86 174 62 83 169 59 81 170 57 81 141 63 63 167 56 83 170 57 76 169 56 76 163 51 66 162 53 71 167 64 85 158 44 70 177 67 67 169 64 71 175 69 69 179 68 75 167 53 79 (1) 给出这些数据的直观的图形描述.

(2) 根据这些数据对全校的学生的平均身高和体重做出估计. (3) 若普通中学的同龄男生的平均身高为168.3cm,平均体重为56.2kg,你能否认为该中学学生的身高、体重与普通中学相比有显著性区别。 (,,0.05) (4) 身高和体重对体育成绩有何影响? 三、实验思路分析: 1(首先要对这些数据进行直观的图形描述,用MINITAB来进行统计描述,可以以身高,体重,成绩为三个变量,分别做三个频率直方图,按照基本实验的做法,先将数据分组,然后计算好各自的频数,频率,最后用软件画图; 2(根据数据来对平均身高和体重做估计,涉及到参数估计,由于样本空间的方差未知,即正态总体方差未知,对均值的区间估计,用1-Sample T来进行; 3.由提示可知这两个正态总体(身高,体重)的均值,可是方差未知,这里是对两个正态分布的参数分别进行比较,即分别对两个正态总体所进行的单边假设检验,由于选取的统计量为T统计量,故运用的是t检验法,其中用到的是1-Sample T来进行; 4.(1)由于身高和体重是两个变量因素,因此这里是对双因素试验的方差分析.又由于这两个因素对试验指标起作用,且各因素不同水平的搭配也对试验指标起作用,因此这里是对有交互作用的双因素试验的方差分析,可仿照例题,运用 Stat>ANOVA>Balanced ANOVA来试验。 (2)也可以用回归分析的方法来试验,参照例题,用Stat>Regression> Regression。 四、实验步骤: (1)绘图: 1.编写MINITAB程序 首先是对身高的图形描述,编写如下: MTB > set c1

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 计算均值、标准差、极差、偏度、峰度,画出直方图;检验分布的正态性; 若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

数据统计与分析(SPSS).

数据统计与分析(SPSS) 一、课程属性说明 适用对象:教育技术学专业,电子信息科学与技术专业,广告学专业 课程代码:11200913 课程类别:专业任选课 所属学科:计算机科学与技术 授课学期:第8学期 学时:讲授54学时,实验34时 学分:3 教材: 《SPSS for Windows 统计与分析》,卢纹岱主编,电子工业版社,2000年版参考书: 考核方式:考查 评分方法:试验报告20%,上机考试 80% 前导课程:计算机基础,线性代数,概率统计

二、大纲制定依据 对数据进行统计分析是一种十分重要的信息获得的方法,很多领域均需要做这方面的工作。传统的统计分析是由人工计算求解;现在随着计算机应用的普及,越来越多的统计分析工作是由计算机来完成的,现在最为流行也最容易被广大用户接受的统计分析软件是SPSS,本课程就以介绍该软件为核心,并渗透介绍一些统计分析的数学方法,从而满足各专业学生对数据统计分析知识和技能的需求。 三、课程概要与目的任务 1.课程概要 本课程主要由三大部分构成:(1)基本概念和基本操作,其中包括SPSS概述、系统运行管理方式、数据统计处理、数据文件的建立与编辑、文件操作与文本文件编辑;(2)统计分析过程,其中包括统计分析概述、基本统计分析、相关分析均值比较与检验、方差分析、回归分析、据类分析与辨别分析、因子分析、非参数检验、生存分析;(3)统计图形生成与编辑,其中包括生成统计图形、编辑统计图形,创建交互式图形、修饰交互图形 2.课程目的和任务 本课程的目的和任务是使学生理解SPSS软件的功能和应用方法,并能开展简单的数据统计与分析工作。

利用Excel进行数据整理和描述性统计分析

实训一利用Excel进行数据整理和描述性统计分析 一、实训目的 目的有三:(1)掌握Excel中基本的数据处理方法;(2)学会使用Excel进行统计分组;(3)学会使用Excel计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解数据整理中的统计计算问题;理解描述性统计指标中的统计计算问题;已阅读本次实训指导书,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个描述性统计指标计算问题及相应数据(可用本实训所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 有顾客反映某家航空公司售票处售票的速度太慢。为此,航空公司收集了解100位顾客购票所花费时间的样本数据(单位:分钟),结果如下表。

航空公司认为,为一位顾客办理一次售票业务所需的时间在五分钟之内就是合理的。上面的数据是否支持航空公司的说法顾客提出的意见是否合理请你对上面的数据进行适当的分析,回答下列问题。 (1)对数据进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、饼图)。 (2)根据分组后的数据,计算中位数、众数、算术平均数和标准差。 (3)分析顾客提出的意见是否合理为什么 (4)使用哪一个平均指标来分析上述问题比较合理 答:(1): 2:

从表中我们可以得到中位数为众数为1平均数为标准差为 (3):合理,虽然他的平均数是<5属于正常范围,但是依旧有将近20%的购票时间>5分钟属于超过正常范围,那就是速度太慢了。平均数不能代表一切。 所以顾客提出的理由是正确的,购票太慢的现象确实存在。 (4):平均数比较合理,它能较好的反映购票的大概时间。比较有代表性! 实训二用Excel数据分析功能进行统计整理 和计算描述性统计指标 一、实训目的 学会使用Excel数据分析功能进行统计整理和计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解统计整理和描述性统计指标中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤

Kano模型的数据统计分析

Kano模型的数据统计分析 1、用户需求分类 1.1 Kano模型 可以把基本品质、期望品质、和魅力品质理解为客户对产品的要求:功能要求---性价比/品牌效应---附加值/特殊性。 1.2 用户需求分类 将每项用户需求按照Kano模型进行分类,即分为基本品质、期望品质和惊喜品质。先进行用户意见调查,然后对调查结果进行分类和统计。 1.2.1 市场调查 对每项用户需求,调查表列出正反2个问题。例如,用户需求为“一键通紧

急呼叫”,调查问题为“一键通紧急呼叫能随呼随通,您的感受如何?”以及“一键通紧急呼叫不能随呼随通,您的感受如何?”,每个问题的选项为5个,即满足、必须这样、保持中立、可以忍受和不满足。 注:√表示用户意见 1. 2.2 调查结果分类 通过用户对正反2个问题的回答,分析后可以归纳出用户的意见。例如,对某项用户需求,用户对正向问题的回答为“满足”,对反向问题的回答为“不满足”,则用户认为该项需求为“期望品质”。每项用户需求共5×5—25个可能结果。

基本品质、期望品质和惊喜品质是3种需要的结果。其他3种结果分别为可疑、反向和不关心,这是不需要的,必须排除。 (1)可疑结果(用户的回答自相矛盾)。可疑结果共2个,即用户对正反问题的回答均为“满足”或“不满足”。例如,对于“一键通紧急呼叫”,正向问题为“一键通紧急呼叫能随呼随通,您的感受如何?”,用户回答是“满足”;反向问题为“一键通紧急呼叫不能随呼随通,您的感受如何?”,用户回答还是“满足”。这表明无论一键通紧急呼叫是否能随呼随通,用户都会满足,这显然是自相矛盾的。出现可疑结果有2种可能:一是用户曲解了正反问题,二是用户填写时出现错误。统计时需要去除可疑结果。 (2)反向结果(用户回答与调查表设计者的意见相反)。正向问题表明产品具有某项用户需求,反向问题表明不具备该用户需求,正向问题比反向问题具有更高的用户满意,但用户回答却表明反向问题比正向问题具有更高的客户满意度。例如,对用户需求“一键通紧急呼叫”,正向问题为“一键通紧急呼叫能随呼随通,您的感受如何?”,用户回答为“不满足”,反向问题为“一键通紧急呼叫不能随呼随通,您的感受如何?”,用户的回答为“满足”,这显然与调查表设计者的意见相反。反向结果较多时,表明调查表的设计存在问题,需要改进。

Excel的统计分析功能

Excel的统计分析功能 Excel是办公自动化中非常重要的一款软件,很多巨型国际企业和国内行政、企事业单位都用Excel 进行数据管理。它不仅能够方便地进行图形分析和表格处理,其更强大的功能还体现在数据的统计分析研究方面。然而很多缺少数理统计基础知识而对Excel强大统计分析功能不够了解的人却难以更加深入、更高层次地运用Excel。笔者认为,对Excel统计分析功能的不了解正是阻挡普通用户完全掌握Excel的拦路虎,但目前这方面的教学文章却又很少见。下面笔者对Excel的统计分析功能进行简单的介绍,希望能够对Excel进阶者有所帮助。 Microsoft Excel提供了一组数据分析工具,称为“分析工具库”,在建立复杂统计或工程分析时,只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或工程函数,在输出表格中显示相应的结果。其中有些工具在生成输出表格时还能同时生成图表。 在使用Excel的“分析工具库”时,如果“工具”菜单中没有“数据分析”命令,则需要安装“分析工具库”。步骤如下:在“工具”菜单中,单击“加载宏”命令,选中“分析工具库”复选框完成安装。如果“加载宏”对话框中没有“分析工具库”,请单击“浏览”按钮,定位到“分析工具库”加载宏文件“Analys32.xll”所在的驱动器和文件夹(通常位于“Microsoft Office\Office\Library\Analysis”文件夹中)(Microsoft OfficeXP:插入光盘,即可) ;如果没有找到该文件,应运行“安装”程序。 安装完“分析工具库”后,要查看可用的分析工具,请单击“工具”菜单中的“数据分析”命令,Excel提供了以下15种分析工具。 1、方差分析(anova) 本工具提供了三种工具,可用来分析方差。具体使用哪一工具则根据因素的个数以及待检验样本总体中所含样本的个数而定。 (1)“Anova:单因素方差分析”分析工具 此分析工具通过简单的方差分析(anova),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。 (2)“Anova:可重复双因素分析”分析工具 此分析工具是对单因素anova分析的扩展,即每一组数据包含不止一个样本。 (3)“Anova:无重复双因素分析”分析工具 此分析工具通过双因素anova分析(但每组数据只包含一个样本),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。 2、相关系数分析工具 此分析工具及其公式可用于判断两组数据集(可以使用不同的度量单位)之间的关系。总体相关性计算的返回值为两组数据集的协方差除以它们标准偏差的乘积: 可以使用“相关系数”分析工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正相关);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负相关);还是两个集合中的数据互不相关(相关性为零)。 3、协方差分析工具 此分析工具及其公式用于返回各数据点的一对均值偏差之间的乘积的平均值。协方差是测量两组数据相关性的量度。(公式略) 可以使用协方差工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个

(完整版)数学建模五步法与灵敏度分析

灵敏度分析 简介: 研究与分析一个系统(或模型)的状态或输出变化对系统参数或周围条件变化的敏感程度的方法。在最优化方法中经常利用灵敏度分析来研究原始数据不准确或发生变化时最优解的稳定性。通过灵敏度分析还可以决定哪些参数对系统或模型有较大的影响。因此,灵敏度分析几乎在所有的运筹学方法中以及在对各种方案进行评价时都是很重要的。 用途: 主要用于模型检验和推广。简单来说就是改变模型原有的假设条件之后,所得到的结果会发生多大的变化。 举例(建模五步法): 一头猪重200磅,每天增重5磅,饲养每天需花费45美分。猪的市场价格为每磅65美分,但每天下降1美分,求出售猪的最佳时间。 建立数学模型的五个步骤: 1.提出问题 2.选择建模方法 3.推到模型的数学表达式 4.求解模型 5.回答问题 第一步:提出问题 将问题用数学语言表达。例子中包含以下变量:猪的重量w(磅),从现在到出售猪期间经历的时间t(天),t天内饲养猪的花费C(美元),猪的市场价格p(美元/磅),出售生猪所获得的收益R(美元),我们最终要获得的净收益P(美元)。还有一些其他量,如猪的初始重量200磅。 (建议先写显而易见的部分) 猪从200磅按每天5磅增加 (w磅)=(200磅)+(5磅/天)*(t天) 饲养每天花费45美分 (C美元)=(0.45美元/天)*(t天) 价格65美分按每天1美分下降 (p美元/磅)=(0.65美元/磅)-(0.01美元/磅)*(t天) 生猪收益 (R美元)=(p美元/磅)*(w磅) 净利润 (P美元)=(R美元)-(C美元) 用数学语言总结和表达如下: 参数设定: t=时间(天)

w=猪的重量(磅) p=猪的价格(美元/磅) C=饲养t天的花费(美元) R=出售猪的收益(美元) P=净收益(美元) 假设: w=200+5t C=0.45t p=0.65-0.01t R=p*w P=R-C t>=0 目标:求P的最大值 第二步:选择建模方法 本例采用单变量最优化问题或极大—极小化问题 第三步:推导模型的数学表达式子 P=R-C (1) R=p*w (2) C=0.45t (3) 得到R=p*w-0.45t p=0.65-0.01t (4) w=200+5t (5) 得到P=(0.65-0.01t)(200+5t)-0.45t 令y=P是需最大化的目标变量,x=t是自变量,现在我们将问题转化为集合S={x:x>=0}上求函数的最大值: y=f(x)=(0.65-0.01x)(200+5x)-0.45x (1-1) 第四步:求解模型 用第二步中确定的数学方法解出步骤三。例子中,要求(1-1)式中定义的y=f (x)在区间x>=0上求最大值。下图给出了(1-1)的图像和导数(应用几何画板绘制)。在x=8为全局极大值点,此时f(8)=133.20。因此(8,133.20)为f在整个实轴上的全局极大值点,同时也是区间x>=0上的最大值点。 第五步:回答问题 根据第四步,8天后出售生猪的净收益最大,可以获得净收益133.20美元。只要第一步中的假设成立,这一结果正确。

相关主题
文本预览
相关文档 最新文档