《统计学概论》习题解答
第三章 统计分布的数值特征
【7】某大型集团公司下属35个企业工人工资变量数列如下表所示:
试计算该企业平均工资。(注:比重——各组工人人数在工人总数中所占的比重) 【解】 该集团公司职工的平均工资为元/人和755元/人。
【8】某地甲、乙两个农贸市场三种主要水果价格及销售额资料见下表
试计算比较该地区哪个农贸市场水果平均价格高并说明原因。
解:
()千克元甲市场水果平均价格44.2000900000
2002==
()千克元乙市场水果平均价格55.20000001000
5502==
甲市场以较低价格销售的水果所占的比重比乙市场以相同价格销售的水果的比重大,反之,正好
情况相反,故甲市场水果的平均价格较低。
【9】某石材厂2004年和2005年的工人工资资料如下表所示:
2004年2005年
工人构成
工人数(人)工资总额(元)工人数(人)工资总额(元)
熟练工人 425765000 250 475000
不熟练工人175140000350 315000
合计600705000600790000(1)计算各年各组工人平均工资和总平均工资。
(2)从两年的组平均工资与总平均工资的比较中可以看出什么问题针对这些问题作出分析。
解:(1)组平均工资:2004年熟练工人:1800元/人;不熟练工人:800元/人;
2005年熟练工人:1900元/人;不熟练工人:900元/人;
总平均工资:2004年:元/人
2005年:元/人
(2)从两年的组平均工资中可以看出:无论是2004年还是2005年熟练工人工资都高于不熟练工人工资;2005年的各组平均工资都高于2004年,但总平均工资低于2004年。这种
现象的出现是由于2004年熟练工人的人数要高,而熟练工人的工资高于不熟练工人,因
此总平均工资高。
【10】根据某城市500户居民家计调查结果,将居民户按其食品开支占全部消费开支的比重(即恩格尔系数)分组后,得到如下的频数分布资料:
恩格尔系数 ( % )户数向上累计户数
组中值( % )(户)(户)
x f(户%)分组
x f f
20以下15 6 6
20—3025 38 44
30—4035 137 151
40—5045 114288(中)
50—6055 74 402
(1)据资料估计该城市恩格尔系数的中位数和众数,并说明这两个平均的具体分析意义。 (2)利用上表资料,按居民户数加权计算该城市恩格尔系数的算术平均数。 (3)上面计算的算术平均数能否说明该城市恩格尔系数的一般水平为什么
解:
()()()
()%
%%% M %%%% M o e 66.454050114137107137107
1374022.474050137151
25040=-?-+--+==-?-+
=数:众中位数:
以户数为权数计算的恩格尔系数的平均数:
%24.49f
xf =∑∑ 不能作为该500户家庭恩格尔系数的平均水平。
恩格尔系数是相对指标,相对指标的平均数要根据相对数的对比关系来确定平均数的形式来求平均数。
【11】某超市集团公司下属20个零售超市,某月按零售计划完成百分比资料分组如下:
要求:计算该超市集团公司平均计划完成程度。
解:
集团公司平均计划完成百分数%6.1076
.8581000
2==
【12】某厂500名职工工资资料见下表:
试根据上述资料计算该厂职工的平均工资和标准差及标准差系数。
()()%%V x 71.15100364
125
.21425.214500
000
952223641500
000
682=?=
==
==
σσ元人元
第四章 抽样和抽样分布
【20】某市居民家庭人均年收入服从 元元,20010006 X ==σ的正态分布。求该市居民家庭人均年收
入,(1)在5 000~7 000元之间的概率;(2)超过8 000元的概率;(3)低于3 000元的概率。 解:
200
1000
6 X X
X Z -=
-=
σ
设:
()()()()% F Z P Z P X P 35.595935.083.083.0200100060007200100060005000700051===≤=??
? ?
?-<≤-=<≤
()()()
()[][]%
F Z P Z P X P 745.49051.012
1
67.112167.120010006000800082=-=-=>=??? ?
?->=>
()()()
()[][]%
F Z P Z P X P 62.09876.012
1
5.21215.220010006000300033=-=-=->=???
?
?-<=< 【21】本期全体“托福”考生的平均成绩为580分,标准差为150分,现在随机抽取100名考生成绩,
估计样本平均成绩在560 ~ 600分之间的概率是多少样本平均成绩在610分以上的概率是多少
解: 已知: ()()()()100150580====n X X X E 分分σ
()
()
()()
15580
1558015100
1502-=
∴==
=
x Z N x n
X x 设,~分则:σμ
()
()()%
F Z P Z P x P 65.818165.033.133.11558060015580
560600560===<=??? ??-<≤-=<≤
(
)
()
()[][]%
F Z P Z P x P 275.29545.012
1
2121215580610610=-=-=>=??
? ??->=>
第五章 统计推断
【1】某工厂有1 500名工人,随机抽取50名工人作为样本,调查其工资水平,资料如下:
(1) 计算样本平均数和样本标准差,并推算抽样平均误差;
(2) 以% 的概率保证,估计该厂工人的月平均工资和工资总额的区间。 解:
()人元228150
400
61==
x
()()元70.2801
50800
8603=-=
x S
()人元70.3950
70
.280==
μ ()2%45.95=?=Z Z F 由 ()元40.7970.392=?=?
()()()元,,4.30716.14814.7912814.792281:=+-X ()()()()万元,元,11.19629.1724.307115006.14811500:=???X N
【2】从某餐厅连续三个星期抽查49名顾客,调查顾客的平均消费额,得样本平均消费额为元。要求:
(1) 假设总体标准差为元,求抽样平均误差; (2) 以95 %的概率保证,抽样极限误差是多少 (3) 估计总体消费额的置信区间。 解:
已知 ()()()元元 x n X 5.25495.10===σ
()()()()元 n X x 5.149
5.101===σμ
()()()元 Z Z .Z F 94.25.196.196.19502=?=?=?∴==μ
()()()()元,:总体平均消费额: , X 44.2856.2294.25.2594.25.253=+-
【3】假设某产品的重量服从正态分布,现在从一批产品中随机抽取16件,测得平均重量为820克,
标准差为60克,试以显著性水平与(略),分别检验这批产品的平均重量是否是800克。 解:
已知
()()()()()0506082016800.αx S x n X =====克克件克
()t X H X H 双、::800800
10≠=
333.116
60800
820=-=
t
()947.211601
.02=-=ααt
2947.2333.1αt t =<= 克。
均总量是可以认为该批产品的平接受8000
H 【4】某种漆的九个样品,其干燥时间分别为(单位:h ):
设干燥时间总体服从正态分布,现要求在置信度为95%时估计这种漆的平均干燥时间。 (1) 根据经验知总体标准差为小时; (2) 总体标准差未知。
解:根据已知可得:样本均值为6。
(1) 已知总体标准差为,因此用正态分布构造置信区间。
(
) F Z 095 Z 1.96 x=6
x Z 1.96.==±±置信区间为: (2) 总体标准差未知,因此用t 分布构造置信区间。
0.0251-095 t (91) 2.306 x=6 s=0.54
x t 2.306.α=-=±±置信区间为: 【5】采用简单随机重置抽样从2000件产品中抽查200件产品,其中合格产品190件,要求: (1) 计算该产品的合格品率及其抽样平均误差;
(2) 以% 的概率,对产品合格率和产品合格数量进行区间估计; (3) 如果合格品率的极限误差为%,其概率保证程度是多少 解: (1
)190=0.95,200p =
抽样平均误差 (2)
(
) F Z 09545 Z 2 p=0.95
p Z 20.015=(0.92,0.98)
.==±±?置信区间为:
()Z 1.54 F Z 0.8764
==求得:查表可得【6】某电子产品的使用寿命在3 000小时以下为次品,现在从5 000件产品中抽取100件测得使用
寿命分布如下:
(1) 分别按重置抽样和不重置抽样计算该产品平均寿命的抽样平均误差;(略) (2) 分别按重置抽样和不重置抽样计算该产品次品率的抽样平均误差;(略) (3) 以90%的概率保证,对该产品的平均使用寿命进行区间估计; (4) 以90%的概率保证,对该产品的次品率进行区间估。 解:
(3)
()()()小时小时 x S x 7.7341
100000
440533404100
000
434=-=
==
()小时47.73100
7
.734==
μ ()9.12047.73645.1645.1%90=?=?=?=Z Z F
()()()小时,,:
9.44601.42199.12043409.1204340=+-X (4)
()% %p p 4.1100
02.0102.02100
2
=-=
==
μ
()%%Z Z F 303.24.1645.1645.1%90=?=?=?=,
()()%P P 303.40%303.2%2%,303.2%2,:即:
+- 【7】某医院欲估计一名医生花在每个病人身上的平均时间,根据以往经验看病时间的标准差为6分钟。若要求置信度为95%,允许误差范围为2分钟,试问随机抽样中需要多大的样本
()Z 1.54 F Z 0.8764
==求得:查表可得【8】某公司新推出一种营养型豆奶,为了解该豆奶的受欢迎程度,并使置信度为95%,估计误差不超
过5%,下列情况下,你建议样本容量为多少 (1) 初步估计60%的顾客喜欢此豆奶; (2) 没有任何顾客资料。
解:
(1
)0.6,()0.95, 1.96
0.05369
F z z E n π=====,此时样本容量应该为369。
(2
)0.5,()0.95, 1.960.05
385
F z z E n π=====若没有任何顾客资料,则取,此时样本容量应该为385。
【9】为调查某地区人口总数,在该地区150000户家庭中以不重置抽样方式随机抽取30户作为样本,
家庭人口数数据资料如下:
(1) 试以%的概率保证程度,推断该地区人口总数;
(2) 若要求人口总数的极限误差不超过3300人,应至少抽取多少户作为样本。 解:(1)()()()105
x 3.5 S x 1.20 30
=
==人人
(
) F Z 09545 Z 2
x Z 2.==±±平均每户家庭人口数的置信区间为:, 因此该地区的人口总数为150 000*(,)=(459273,590726)
【10】某电视台为了解某电视节目的收视率,随机抽取500户居民作为样本。从调查结果看,有160
户收看该节目。以95%的概率保证推断: (1) 该电视节目的收视率;
(2) 如果收视率的极限误差缩小为原来的1/2,则样本容量至少应为多少户。
解:(1)(
)160
F Z 095 Z 1.96 p=
=0.32500
p Z 1.96=0.32 1.960.02=(0.2808,0.3592)
=Z .==±±±?置信区间为:极限误差(2)(
)160
F Z 095 Z 1.96 p=
=0.32500
1Z 0.0392=1.960.01962625
.n ==?=E=,
样本容量至少应该是625户。
【11】从某县的100个村中,抽取10个村进行各村的全面调查,算得每户平均饲养家畜35头,各村
平均数的方差为16,要求:
(1) 以90%的概率估计全县平均每户饲养家畜的头数; (2) 若极限误差为头,则计算其概率保证程度。
解:(1)因为总体标准差未知,因此用t 分布构造置信区间。
0.051-090 t (101) 1.833 x=35 s=4
x t 1.833.α=-=±±置信区间为: (2
)E=t t=1.9061,1-0911
.α=则 (其中利用t 值计算置信水平,可以参照EXCEL 中的函数TDIST 的计算方法)
第六章 相关和回归分析
【10】设销售收入X 为自变量,销售成本Y 为因变量。现在根据某百货公司12个月的有关资料,计
算出以下数据:
()()
()()09
.33422925
.85526273.0534258
.54988
.6472
2
=--=-=-==∑∑∑Y Y X X Y Y X X Y X (1) 建立一元线性回归方程,解释回归方程中回归系数的经济意义; (2) 计算相关系数和可决系数,对变量的相关性和方程的拟合性进行评价;
(3) 预计明年1月份销售额为800万元,对销售成本进行点估计; (4) 计算回归估计标准误差;
(5) 置信度为95%,利用拟合的回归方程对一月份销售成本进行区间预测。 解:09.22933425.85526273
.05342585498864712======XY YY XX L L L .Y .X
n
(1)求回归方程:
X Y
32786.0358.40?358.405716357.4088.6475635978321786.08.549?32786.05635978321786.073
.05342509
.229334?1
2
+===?-====—固定成本——单位变动成本
—ββ (2)计算相关系数和可决系数:
拟合程度高—方程的—高度正相关
、—— %r Y X r 98.99999834241.09999.0117917999.025
.85526273.05342509
.2293342====?=
(3)回归预测——点预测:
()万元 Y 414.66980078632.0358.40?800
=?+= (4)计算回归估计标准误差:
()()576.4375154596575.4325.885262241834999.0112
2
==?-=?-=∑ L r e YY
()
万元5087.280874768538.22
1275
154596575.4322
n e S e
==-=-=∑
(5)区间估计:
()
()()万元 L X
X
n
S S XX
f
e
ef 226639.273
.05342588.6478001211477087.2112
2
=-++?=-++=
()()()
万元 S t t ef 961.49951960.4639226.2228.2212228
.221205.022==?=?-=?=-=ααα
()()()
万元,的估计区间:
, Y 38.67445.664961.4414.669961.4414.669800=+-
如果样本容量够大可采用简化的形式:
()万元 S Z Z 092.40875.296.196.105.02=?=?=??==αα
()()()万元,,: .. .. Y 51.67332.66509244146690924414669800=+-
【11】银行为了解居民收入和储蓄的关系,对月收入在500~2 000元的100个居民进行里调查。设月收
入为x (元),储蓄金额为 y (元),资料经初步整理和计算,结果如下:
∑∑∑∑∑=====90573221743011879239122y x xy y x
(1) 建立回归直线方程,解释相关系数2
?β的经济意义; (2) 计算相关系数和可决系数,对变量间的相关性和方程的拟合程度进行评价; (3) 计算回归估计标准误差;
(4) 若月收入为1 500元,估计储蓄金额大约为多少
(5) 在置信度为90% 之下,利用以上资料,对储蓄金额进行区间预测。
解: ()79.97012391100132217122
2 X n X L XX =?-=?-=∑∑
19.5398792391100
1
430111=??-=?-=∑∑∑ Y X n XY L XY
()59.178879100
1
90571222=?-=?-=∑∑Y n Y L YY
(1) 建立回归直线方程
2736.079.970119.539?2
=== L L XX XY β ()元 X Y 400.510012392736.0100879??2
1=?-=?-=ββ 回归方程:
X ..Y
27360405?+= 1736.0?2
=β——收入每增减100元,储蓄额则增减元。 (2) 计算相关系数和可决系数
之间具有高度正相关。
、—变量—Y X r 9089.0908851828.059
.17879.197019
.539==?= 高。—线性方程的拟合程度—%r 260.82826011645.0== (3) 回归预测——点预测:
()元 Y
80.41515002736.040.5?1500
=?+=
(4) 计算回归估计标准误差:
()()50725803194.3159.178826011645.01122=?-=?-=∑YY L r e
()元5630.0756********.02
1005
0725803194.312
2
==-=
-=
∑n e
S e
(5) 区间估计:
()
()()元 L X
X n S S XX
f
e e
f 877.1879
.1970100123915001001
15630872.0112
2
=-+
+?=-++=
()()元 t 34.31877.18660.1660.1210010.02=?=?=-=αα
()()()
元,的估计区间:
. ,. Y 144454638234.3180.41534.3180.4151500=+-
v1.0 可编辑可修改