当前位置:文档之家› 第三单元 计数资料的统计描述和统计推断(第一部分)

第三单元 计数资料的统计描述和统计推断(第一部分)

第三单元 计数资料的统计描述和统计推断(第一部分)
第三单元 计数资料的统计描述和统计推断(第一部分)

第三单元计数资料的统计描述和统计推断

【习题】

分析计算题

3.1 某地某年循环系统疾病死亡资料如表18。

表18 某地某年循环系统疾病死亡资料

年龄组/岁平均人口数

循环系统

死亡人数

死亡人数构成比

/%

死亡率

(1/10万)

相对比

(各年龄组死亡率

/0~组死亡率)

0~745000 25

30~538760 236

40~400105 520

50~186537 648

60~52750 373

合计1923152 1802

(1) 请根据以上数据计算各年龄组死亡人数构成比、死亡率和相对比。

(2) 分析讨论各指标的含义。

3.2 请就表19资料比较甲、乙两个医院某传染病的治愈率/%。

表19 甲、乙两院某传染病治愈率(%)的比较

类型

甲医院乙医院

病人数治愈数治愈率/% 病人数治愈数治愈率/% 普通型414 248 59.9 138 90 65.2

重型138 55 39.9 414 186 44.9

暴发型126 25 19.8 126 32 25.4

合计678 328 48.4 678 308 45.4

3.3 传统疗法治疗某病,其病死率为30%,治愈率为70%。今用某种新药治疗该病10人,结果有1人死亡。问该新药的治疗效果是否优于传统疗法(单侧)。

3.4 甲、乙两地各抽样调查1万名妇女,结果甲地卵巢癌患病人数100人,乙地卵巢癌患病人数80人,请问甲乙两地妇女的卵巢癌患病率是否不同。

3.5 对甲地一个由40名新生儿组成的随机样本进行某病的基因检测,结果阳性2例。据此资料,估计该地此病的基因总体携带率的95%可信区间。

3.6 已知一般人群中慢性气管炎患病率为9.7%,现调查了300名吸烟者,发现其中有63人患有慢性气管炎,试推断吸烟人群慢性气管炎患病率是否高于一般人群。

3.7 研究者取4mL某饮料进行细菌培养,得细菌数60个,试估计平均每1mL 饮料中细菌数的均值和标准差,并估计平均每1mL饮料中细菌数的95%可信区间。

3.8 分别从两种饮料中各取10mL样品进行细菌培养,甲饮料培养细菌440个,乙饮料培养细菌300个,问两种饮料中细菌数有无差别。

3.9 若某地区1998年新生儿腭裂发生率为2.15‰ ,1999年在此地区抽样调查1000名新生儿,发现腭裂1例,问此地区1999年腭裂发生率是否比1998年低。

3.10 对某地区居民饮用水进行卫生学检测中,随机抽查1mL水样,经培养获大肠杆菌菌落2个,试估计该地区水中平均每毫升所含大肠杆菌菌落的95%可信区间。

3.11 将80例均为初治的乳腺癌患者随机分配到甲乙两种治疗方案中,每组各40例,甲方案31例有效,乙方案14例有效,问两种治疗方案的有效率有无差别?

3.12 为了解某中药治疗原发性高血压的疗效,将44名高血压患者随机分为两组。实验组用该药加辅助治疗,对照组用安慰剂加辅助治疗,观察结果如表20,问该药治疗原发性高血压是否有效?

表20 两种疗法治疗原发性高血压的疗效

分组例数有效有效率/%

实验组23 21 91.30

对照组21 5 23.81

3.13 100例确诊糖尿病病例,用A试纸检测结果尿葡萄糖阳性90例,同时用B试纸检测阳性74例,其中A、B均阳性70例,问A、B两种试纸阳性率是否不同?

3.14 为研究不同类型原发性肺癌的nm23-H1基因表达情况,整理资料如表21,问不同类型原发性肺癌的nm23-H1基因表达率有无差别?

表21 不同类型原发性肺癌的nm23-H1基因表达资料分型nm23-H1表达nm23-H1不表达合计nm23-H1表达率/%鳞癌95 40 135 70.4

腺癌65 30 95 68.4

腺鳞癌20 10 30 66.7

小细胞癌10 10 20 50.0

合计190 90 280 67.9

3.15 为研究涎腺恶性肿瘤的临床及病理特征,资料如表22,问腺样癌和粘液表皮样癌的好发部位是否不同?

表22 两类涎腺恶性肿瘤好发部位的比较

种类腮腺颌下腺腭颊其他合计腺样癌31 17 47 5 20 120

粘液表皮样癌47 12 22 5 8 94

3.16 为探讨幽门螺杆菌(Hp)感染与血型的关系,随机选择胃镜检239例胃十二指肠疾病患者,测定其血型及幽门螺杆菌(Hp)感染情况,将资料归纳成表23,问血型与幽门螺杆菌(Hp)感染有无关系?

表23 幽门螺杆菌(Hp)感染与血型关系的整理资料

血型Hp阳性Hp阴性合计

A28 19 47

B38 28 66

O95 11 106

AB10 10 20

合计171 68 239

3.17 抽样调查某地1993~1999年损伤与中毒的病死率,见表24,问该地的损伤与中毒的病死率是否随时间变化而呈增加的趋势?

表24 某地1993~1999年损伤与中毒的病死率

年度发病人数病死人数病死率/%

1993 580 8 1.38

1994 571 12 2.10

1995 680 16 2.35

1996 760 30 3.95

1997 942 30 3.18

1998 1100 52 4.73

1999 1084 51 4.70

3.18 观察某新药对高血压病的疗效,拟用标准药物复方降压片作对照,结果如表25。试问新药与标准药物是否等效?(?=0.1,α=0.05)。

表25 两组高血压病患者的治疗效果

分组有效人数无效人数合计

试验新药160 40 200

标准药物148 42 190

合计308 82 390

3.19 选择题:

(1) 甲、乙两个医院的等级相同,规模相当。在某年疾病统计中发现:甲院对5型肝炎的治愈率都高于乙院,但总的治愈率却是乙院的总治愈率反而高于甲院的总治愈率,造成这种矛盾现象,最可能的原因是。

a. 两个医院对预后的诊断标准不一致

b. 两个医院各型病人的构成比相差太大

c. 两个医院医疗技术相差悬殊

d. 两个医院的领导重视程度相差悬殊

e. 两个医院的设备相差太大

(2) 经调查得知甲、乙两地的糖尿病患病率为3.35%,按年龄标准化后,甲地糖尿病患病率为3.54%,乙地为3.02%,据此可以认为 。

a. 甲地年轻人患糖尿病较乙地多

b. 乙地年龄别人口构成较甲地年轻

c. 甲地年龄别人口构成较乙地年轻

d. 甲地糖尿病的诊断较乙地准确

e. 乙地糖尿病的诊断较甲地准确

(3) 在贝努利试验序列中的各次重复试验不必要求 。 a. 每次试验的条件相同 b. 每次试验的结果相同 c. 每次试验相互独立 d. 每次试验的结果概率相同 e. 只有2种互斥的结果

(4) 以下 的方差一定等于均数。

a. 正态分布

b. 二项分布

c. Poisson 分布

d. 标准正态分布

e. 2χ分布 (5) 用计数器测得某放射性物质半小时内发出的脉冲数为390个,该放射性物质每10分钟内平均发出脉冲数的95%可信区间为 。

a. 39096.1390(-,)39096.1390+

b. 3/39096.1390(-,)3/39096.1390+

c. 3/39096.1130(-,130+

d. 13096.1130(-,)13096.1130+

e. 39096.1130(-,)39096.1130+

(6) 两个独立的Poisson 分布变量1X (服从均数为1μ的Poisson 分布)及2

X (服从均数为2μ的Poisson 分布)之和的总体标准差是 。

a. 21μμ+

b. 21μμ-

c.21μμ+

d. 21μμ-

e. 21μμ?

复习思考题

3.20 二项分布、Poisson 分布、正态分布间有何关系?统计分析中哪些地方用了这些关系?

3.21 2χ检验的应用条件有哪些?2χ检验用于解决哪些问题? 3.22 四格表的u 检验和2χ检验有何联系?

3.23 请联系专业实际讨论二项分布、Poisson 分布的应用。

【习题解答】 分析计算题

3.1 解: (1) %100?=

各年龄组死亡总数某年龄组死亡人数

年龄组死亡人数构成比

%39.1%1001802

25

~0=?=

岁组死亡人数构成比 余类推;

万数

某年该年龄组平均人口某年某年龄组死亡人数

死亡率10?=

万万岁组死亡率103.3610745000

25

~0=?=

余类推;

岁组死亡率

各年龄组死亡率

相对比~0=

04.1336

.380

.43~30==

岁组相对比 余类推。

各年龄组死亡人数构成比、死亡率和相对比计算结果见表3.1.1。

表3.1.1 某地某年循环系统疾病死亡资料

年龄组 /岁 平均人口数 循环系统 死亡人数

死亡人数构成比

/%

死亡率 (1/10万) 相对比 (各年龄组死亡率/0~组死亡率)

0~ 745000 25 1.39 3.36 — 30~ 538760 236 13.10 43.80 13.04 40~

400105

520

28.86

129.97

38.68

50~186537 648 35.96 347.38 103.39

60~52750 373 20.70 707.11 210.45

合计1923152 1802 100.00 93.70 —

(2) 死亡人数构成比是指某年龄组死亡人数与各年龄组死亡人口总数之比,说明总死亡人数中各年龄组死亡人数所占的比重;

死亡率是指某年实际死亡数与该年可能发生死亡人数(本题即为该年平均人口数)之比,用以说明死亡发生的频率或强度;

相对比用以说明各年龄组死亡率是0~岁组死亡率的几倍或几分之几。

3.2解:因为甲、乙两医院某传染病的类型构成明显不同,且疾病类型对该病的治疗效果有影响,故应进行标准化,再比较两医院的治愈率。根据本题资料,以两医院合计病人数为标准人口,采用直接标准化法。

表3.2.1 直接法计算甲、乙两医院某传染病标准化治愈率/%

类型标准病人数

N i

甲医院乙医院

原治愈率/%

p i

预期治愈人数

N i p i

原治愈率/%

p i

预期治愈人数

N i p i

普通型55259.933165.2360重型55239.922044.9248暴发型25219.85025.464合计135648.460145.4672

甲医院某传染病标准化治愈率:

601

100%44.3% 1356

p'=?=

乙医院某传染病标准化治愈率:

672

100%49.6% 1356

p'=?=

可以看出,经标准化后乙医院的该传染病的治愈率高于甲医院。

SPSS操作

数据录入:

打开SPSS Data Editor窗口,点击Variable View标签,定义要输入的变量p1、

c1、p2和c2;再点击Data View标签,录入数据(见图3.2.1,图3.2.2)。

图3.2.1 Variable View窗口内定义要输入的变量p1、c1、p2和c2

图3.2.2 Data View窗口内录入数据

分析:

Transform Compute…

Target Variable:键入sp 要生成的变量为sp Numeric Expression:键入p1+p2 生成变量的表达式

Transform Compute…

Target Variable:键入sp1

Numeric Expression:键入c1/p1*sp

Transform Compute…

Target Variable:键入sp2

Numeric Expression :键入 c2/p2*sp

Analyze

Descriptive Statistics

Descriptives

Variable(s): sp sp1 sp2 要分析的变量

点击

sum 对3个变量求和

注:将SPSS 输出的sp1的和除以sp 的和,得到甲医院的标准化治愈率;sp2的和除以sp 的和得到乙医院的标准化治愈率。

3.3解:本题推断样本所代表的总体率π与一个已知总体率0π是否相等。因样本量较小,故采用直接计算概率法。

(1) 建立检验假设,确定检验水准

0H 3.0=π,即该新药的治疗效果与传统疗法相同 :1H 3.0<π,即该新药的治疗效果优于传统疗法 单侧05.0=α

(2) 确定P 值,作出统计推断

在0H 成立的前提下,10名病人中死亡人数)3.0,10(~B X ,则有

1493.07.03.07.0)1()0()1(911

1010=+==+==≤C X P X P X P

按单侧05.0=α水准不拒绝0H ,尚不能认为该新药的治疗效果优于传统疗法。

SPSS 操作

首先新建一个数据文件,任意输入一个数据(见图3.3.2)。 分析:

Transform

Compute…

Target Variable:键入p 生成变量p

Numeric Expression:CDF.BINOM(1, 10, 0.3) 二项分布累积概率函数表达式

点击Data View中p对应的数据,结果显示见图3.3.2

图3.3.1 Compute Variable窗口内输入变量p和表达式

图3.3.2 Data View中p对应的数据结果

3.4解:(1)本题是Poisson分布两样本均数的比较。两样本观察单位相同,而且阳性数均大于20,可用大样本u检验方法。

1) 建立检验假设,确定检验水准

0H 21μμ=,即甲乙两地妇女的卵巢癌患病率相同 :

1H 12μμ≠,即甲乙两地妇女的卵巢癌患病率不同 05.0=α

2) 计算检验统计量

以1万名妇女为一个Poisson 分布观察单位,1μ和2μ的点估计值分别为1X 和

2X ,得

1.4907u =

==

3) 确定P 值,作出统计推断

查u 界值表得0.10

(2) 该资料也可用二项分布的两个样本率比较。 1) 建立检验假设,确定检验水准

0H 21ππ=,即甲乙两地妇女的卵巢癌患病率相同 :

1H 12ππ≠,即甲乙两地妇女的卵巢癌患病率不同 05.0=α

2) 计算检验统计量

本题,1n =10000,1X =100,1p =0.01;2n =10000,2X =80,2p =0.008 合并率 009.010000

1000080

100=++=

c p

4975.1)

10000

1

100001(991.0009.0008

.001.0)11)(

1(2

12

1=+??-=

+--=

n n p p p p u c c

3) 确定P 值,作出统计推断

查u 界值表得0.10

该资料分析在统计软件中用2χ检验实现。

SPSS操作

数据录入:

打开SPSS Data Editor窗口,点击Variable View标签,定义要输入的变量r、c和f;再点击Data View标签,录入数据(见图3.4.1,图3.4.2)。

图3.4.1 Variable View窗口内定义要输入的变量r、c和f

图3.4.2 Data View窗口内录入数据

分析:

Data Weight Cases

Weight Cases by:

Frequency Variable:f 权重为f

Analyze Descriptive Statistics Crosstabs

Row(s):r Columns(s): c

Chi-square

Stata 程序

tabi 100 9900 \ 80 9920, chi2

3.5解:本题是二项分布总体率的区间估计。50≤n , p 很接近0,故采用查表法。

n =40,X =2,查百分率的可信区间表得1-17,故该地此病的基因总体携带率的95%可信区间为(1%,17%)。

Stata 程序

cii 40 2

3.6解:本题目的是推断样本所代表的总体率π与一个已知总体率0π是否不同。因样本量足够大,且p 既不接近于0也不接近于1,故采用正态近似法。

(1) 建立检验假设,确定检验水准

0H 9.7%π=,即吸烟人群慢性气管炎患病率与一般人群相同 :1H 9.7%π>,即吸烟人群慢性气管炎患病率高于一般人群 单侧05.0=α (2) 计算检验统计量 n =300,X =63,21.0300

63

==

p ,0π=0.097,有 6132.6300

903

.0097.0097.021.0)

1(000

=?-=

--=

n

p u πππ

(3) 确定P 值,作出统计推断

查u 界值表得0005.0

SAS 程序

data xt3_6;

q=probbnml(0.097,300,62); /*二项分布0π=0.097,300=n ,()631X ≤-的累积概率*/ p=1-q;

proc print; run;

SAS 输出结果

Obs q p 1

1.00000

3.9425E-9

SPSS 操作

首先新建一个数据文件,任意输入一个数据(见图3.6.2)。 分析:

Transform

Compute…

Target Variable :键入p 要生成的变量为p Numeric Expression :1- CDF.BINOM(62,300,0.097)

点击Data View 中p 对应的数据,结果显示见图3.6.2

图3.6.1 Compute Variable窗口内输入变量p和表达式

图3.6.2 Data View中p对应的数据结果

Stata程序

display Binomial(300,63,0.097) 二项分布n=300,x=63,p=0.097的上侧累积概率3.7解:本题以 1 mL饮料作为Poisson分布观察单位,4

=

n,样本均值为

S=个/mL。

X=60/4=15个/mL,标准差为 3.87

x

-+求得的95%可信区间为本题6050

X=>,按式(X u X

αα

(

60 1.96 1.96

-+,即该饮料中每4mL所含细菌数(个)的95%可信区间为(44.82, 75.18)。所以,该饮料中每1mL所含细菌数(个)的95%可信

区间为(11.2, 18.8)。

Stata 程序

cii 4 60, poisson

3.8解:本题为Poisson 分布两个样本均数的比较。两个样本观察单位相同,且阳性数均大于20,可根据Poisson 分布的近似正态性,利用两大样本u 检验的方法得到检验统计量。

(1) 建立检验假设,确定检验水准

0H 21μμ=,即两种饮料中平均每10mL 细菌数无差别 :

1H 12μμ≠,即两种饮料中平均每10mL 细菌数有差别 05.0=α (2) 计算检验统计量

以10mL 饮料样品为一个Poisson 分布观察单位,1μ和2μ的点估计值分别为

1X 和2X ,得

15.5300

4403004402

121=+-=

+-=

X X X X u

(3) 确定P 值,作出统计推断

查u 界值表得001.0

3.9解:本题是Poisson 分布的样本所代表的总体均数μ与已知总体均数0μ的比较。因μ<20,故采用直接计算概率法。

(1) 建立检验假设,确定检验水准

0H 0μμ=,即此地区1999年腭裂发生率与1998年相等 :1H 0μμ<,即此地区1999年腭裂发生率低于1998年 单侧05.0=α

(2) 确定P 值,作出统计推断

1000=n ,15.20=π‰,15.200==πμn ,在H 0成立的前提下,所调查的

1000名新生儿中发现的腭裂数X ~)15.2(P ,则有

3669.02504.01165.015.2)1()0()1(15.215.2=+=?+==+==≤--e e X P X P X P 按05.0=α的水准不拒绝0H ,差别无统计学意义,尚不能认为此地区1999年腭裂发生率比1998年低。

SAS 程序

data xt3_9;

p=poisson(2.15,1); /*Poission 分布15.20=μ,1X ≤的累积概率*/ proc print; run;

SAS 输出结果

Obs p 1

0.36693

SPSS 操作

首先新建一个数据文件,任意输入一个数据(见图3.9.2)。 分析:

Transform

Compute…

Target Variable :键入p

Numeric Expression :CDF.POISSON(1,2.15) Poisson 分布 2.15μ=的累积概率函数表达式

点击Data View 中p 对应的数据,结果显示见图3.9.2

图3.9.1 Compute Variable窗口内输入变量p和表达式

图3.9.2 Data View中p对应的数据结果

3.10解:本题是Poisson分布总体均数的估计。因50

X,故采用查表法估计

2<

总体均数的95%可信区间。查Poisson分布μ的可信区间表,样本计数X为2的一行,μ的95%可信区间的下限为0.2,上限为7.2,故该地区平均每毫升水所含大肠杆菌菌落的95%可信区间为(0.2,7.2)个。

Stata程序

cii 1 2, poisson

3.11解:本题为二项分布两样本率的比较,可以采用u 检验也可采用2χ检验。 方法一:

(1) 建立检验假设,确定检验水准

0H 21ππ=,即两种治疗方案的有效率无差别 :

1H 21ππ≠,即两种治疗方案的有效率有差别 05.0=α

(2) 计算检验统计量

本题, 1n =40,1X =31,1p =0.775;2n =40,2X =14,2p =0.35 合并率 5625.040

4014

31=++=

c p

3.8314u =

=

=

(3) 确定P 值,作出统计推断

查u 界值表得P <0.001,按05.0=α水准拒绝0H ,接受1H ,差别有统计学意义,可以认为两种治疗方案的有效率有差别,甲方案的疗效优于乙方案。 方法二:

表3.11.1 两种治疗方案治疗乳腺癌有效率的比较

处理 有效 无效 合计 有效率/% 甲方案 31 9 40 77.50 乙方案 14 26 40 35.00 合计

45

35

80

56.25

(1) 建立检验假设,确定检验水准

0H 21ππ=,即两种治疗方案的有效率无差别 :

1H 21ππ≠,即两种治疗方案的有效率有差别 05.0=α

(2) 计算检验统计量

m i n 3540

17.580

T ?=

= 222

()(3126914)80

14.68()()()()45354040

ad bc n a b c d a c b d χ-?-??=++++???==

ν=(2-1)(2-1)=1

(3) 确定P 值,作出统计推断

查2χ界值表得P <0.005,按05.0=α水准拒绝0H ,接受1H ,差别有统计学意义,可以认为两种治疗方案的有效率有差别,甲方案的疗效优于乙方案。

由计算结果可以验证:四格表的双侧u 检验与2χ检验是完全等价的,有

22u =χ。

SAS 程序

data xt3_11; input r c f@@; cards;

1 1 31 1

2 9 2 1 14 2 2 26 ; proc freq;

table r*c/ expected nocol nopercent chisq; /*作r ×c 表的2χ检验,输出理论频数、行百分比*/ weight f; /*权重为f */ run;

SAS 输出结果

The FREQ Procedure

Frequency

Expected Row Pct

Table of r by c r

c

Total

习题-计量资料统计描述

计量资料统计描述----习题 1、中位数是表示变量值()的指标。 A.平均水平 B.变化范围 C.频数分布 D.相互间差别大小 E.变异程度 2、血清学滴度资料最常计算()来表示平均水平。 A.算术均数 B.中位数 C.几何均数 D.全距 E.百分位数 3、最小组段无下限或最大组段无上限的频数分布资料宜用() A.算术均数 B.中位数 C.几何均数 D.全距 E.标准差 4、原始数据同减去一个不等于零的常数后,()。 A. x 不变,S 变 B. x 变,S 不变 C. x 和S 都不变 D. x 和S 都变 E.以上均不对 5、变异系数CV()。 A.表示X 的绝对离散度 B.表示X 的相对离散度 C.表示x的绝对离散度 D.表示x的相对离散度 E.以上均不对 6、描述一组偏态分布资料的变异度,以()指标较好。 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.均数 7、用均数和标准差可以全面描述()资料的特征。 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.分布不知 E.对数正态分布 8、比较身高和体重两组数据变异度大小宜采用() A.变异系数 B.标准差 C.四分位数间距 D.全距 E.方差 9、偏态分布宜用()描述其分布的集中趋势 A.算术均数 B.标准差 C.中位数 D.众数 E.百分位数 10、各观察值同乘以一个不等于0 的常数后,()不变。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 E.变异系数 11、()分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 E.以上均不对 12、随机抽查某地成年女子身高,算得均数x =160cm,标准差S=5cm,则可计算变异系数CV=------- 5 160 C.(160/5)cm D.(5/160)cm ×160 13、变异系数CV 的数值()。 A.一定大于1 B.一定小于1 C.可大于1,也可小于1 D.一定比标准差小 E.不能判定 14、列数8、-3、5、0、4、-1 的中位数是()。 、关于标准差,哪项是错误的()。 A.反映全部观察值的离散程度 B.度量了一组数据偏离平均数的大小 C.反映了均数代表性的好坏 D.不会小于算术均数 E.适用于对称分布资料 16、5 人的血清滴度为<1:20、1:40、1:80、1:160、1:320 描述平均滴度,用哪种指标较好()。 A.平均数 B.几何均数 C.算术均数 D.中位数 E.众数

@2017.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A 、描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度: 标准差、四分位数间距、 变异系数、方差、全距 (一)均数mean 和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median )M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 12n X X X X X n n +++== ∑L

用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n 为奇数时-- n 为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) =第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 ) (天1552 19===+X X M 88451 22221415214.5() M X X X X ?? ==== ???+如果只调查了前八位中学生,则: +(+)(+)天

百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数f x :所在组段频数 注:有的教材X= r ; L f ∑=C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 2565~ 15 34 P 25在此 68~ 25 59 71~ 26 85∑f 75 L 7574~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内;

作业与参考标准答案ch第三部分计数资料统计描述和统计推断

作业与参考标准答案ch第三部分计数资料统计描述和统计推断

————————————————————————————————作者:————————————————————————————————日期:

《医学统计学》 【教材】倪宗瓒主编.医学统计学.北京;高等教育出版 社.2004. 【作业】教材附录二 【习题解答】 第三单元 计数资料的统计描述和统计推断 分析计算题 3.1 解: (1) 100%= ?同年该年龄组死亡人数 年龄组死亡人数构成比某年某年龄组死亡总数 %39.1%1001802 25 ~0=?= 岁组死亡人数构成比 余类推; 10000010= ?同年该年龄组死亡人数 死亡率万某年某年龄组平均人口数 010000010 3.3610?=25 ~岁组死亡率= 万万745000 余类推; 岁组死亡率 各年龄组死亡率 相对比~0= 04.1336 .380 .43~30== 岁组相对比 余类推。 各年龄组死亡人数构成比、死亡率和相对比计算结果见表3.1.1。 表3.1.1 某地某年循环系统疾病死亡资料 年龄组 /岁 平均人口数 循环系统 死亡人数 死亡人数构成比 /% 死亡率 (1/10万) 相对比 (各年龄组死亡率/0~组死亡率)

0~ 745000 25 1.39 3.36 — 30~ 538760 236 13.10 43.80 13.04 40~ 400105 520 28.86 129.97 38.68 50~ 186537 648 35.96 347.38 103.39 60~ 52750 373 20.70 707.11 210.45 合 计 1923152 1802 100.00 93.70 — (2) 死亡人数构成比是指某年龄组死亡人数与各年龄组死亡人口总数之比,说明总死亡人数中各年龄组死亡人数所占的比重; 死亡率是指某年实际死亡数与该年可能发生死亡人数(本题即为该年平均人口数)之比,用以说明死亡发生的频率或强度; 相对比用以说明各年龄组死亡率是0~岁组死亡率的几倍或几分之几。 3.2解:因为甲、乙两医院某传染病的类型构成明显不同,且疾病类型对该病的治疗效果有影响,故应进行标准化,再比较两医院的治愈率。根据本题资料,以两医院合计病人数为标准人口,采用直接标准化法。 表3.2.1 直接法计算甲、乙两医院某传染病标准化治愈率/% 类型 标准病人数 N i 甲医院 乙医院 原治愈率/% p i 预期治愈人数 N i p i 原治愈率/% p i 预期治愈人数 N i p i 普通型 552 59.9 331 65.2 360 重 型 552 39.9 220 44.9 248 暴发型 252 19.8 50 25.4 64 合 计 1356 48.4 601( i i N p ∑) 45.4 672( i i N p ∑) 甲医院某传染病标准化治愈率:601 100%44.3%1356p '=?=甲 乙医院某传染病标准化治愈率:672100%49.6%1356p '=?=乙 可以看出,经标准化后乙医院的该传染病的治愈率高于甲医院。

看医统学习题(计数资料)

《医学统计学习题》计数资料 5、有资料如下表: 甲、乙两个医院某传染病各型治愈率 病型 患者数治愈率(%)甲乙甲乙 普通型300 100 60.0 65.0 重型100 300 40.0 45.0 暴发型100 100 20.0 25.0 合计500 500 48.0 45.0 由于各型疾病的人数在两个医院的内部构成不同,从内部看,乙医院各型治愈率都高于甲医院,但根据栏的结果恰好相反,纠正这种矛盾现象的统计方法是: A、重新计算,多保留几位小数 B、对率进行标准化 C、对各医院分别求平均治愈率 D、增大样本含量,重新计算 6、5个样本率作比较,χ2>χ20.01,4,则在α=0.05检验水准下,可认为: A、各总体率不全等 B、各总体率均不等 C、各样本率均不等 D、各样本率不全等 7、两个独立小样本计量资料比较的假设检验,首先应考虑: A、用t检验 B、用Wilcoxon秩和检验 C、t检验或Wilcoxon秩和检验均可 D、资料符合t检验还是Wilcoxon秩和检验条件 13.对三行四列表资料作 2检验,自由度等于 A. 1 B. 2 C. 3 D. 6 E. 12 14. 根据下述资料,则 病情 病人数治愈数治愈率(%)病人数治愈数治愈率(%)轻型40 36 90 60 54 90 重型60 42 70 40 28 70 合计100 78 78 100 82 82 A. 乙疗法优于甲疗法 B. 甲疗法优于乙疗法 C. 甲疗法与乙疗法疗效相等 D. 此资料甲、乙疗法不能比较 E. 以上都不对15.在实际工作中,同质是指()。 A.被研究指标的非实验影响因素均相同。B.研究对象的测量指标无误差。 C.被研究指标的主要影响因素相同。D.研究对象之间无个体差异。E.以上都对。答案 5、有资料如下表: 甲、乙两个医院某传染病各型治愈率 病型 患者数治愈率(%)甲乙甲乙

计量资料汇总统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

计数资料的统计学分析 (1)

[模拟] 计数资料的统计学分析 A型题题干在前,选项在后。有A、B、C、D、E五个备选答案其中只有一个为最佳答案。 第1题: 计数资料又称如下哪一种资料 A.数量资料 B.抽样资料 C.普查资料 D.调查资料 E.定性资料 参考答案:E 答案解析: 第2题: 计数资料是指将观察单位按下列哪一种分组计数所得的资料 A.数量 B.体重 C.含量 D.属性或类型或品质 E.放射性计数 参考答案:D 答案解析: 第3题: 计数资料的初步分析常常要用下列哪些相对数 A.频数 B.频数和频率指标 C.率、构成比和相对比 D.构成指标和相对比 E.比和构成比 参考答案:C 答案解析: 第4题: 频率指标,它说明某现象发生的如下哪一种

B.强度 C.比重大小 D.例数 E.各组的单位数 参考答案:B 答案解析: 第5题: 构成指标,它说明一事内部各组成部分所占的如下哪一种大小 A.比重 B.强度 C.频数 D.频率 E.例数 参考答案:A 答案解析: 第6题: 对480人进行老年性白内障普查,分60岁一、70岁一和80岁一三个年龄组受检人数分别为300、150和30人,白内障例数分别为150、90和24人。回答70岁一年龄组的患病率(%)是多少 A.5 B.50 C.60 D.80 E.20 参考答案:C 答案解析: 第7题: 对1000人进行老年性白内障普查,分50岁一和60岁一两个年龄组,受检人数分别为480人和520人,白内障例数分别为120人和280人。回答患者50岁一年龄构成比(%)是多少 A.53.9 B.12 C.30 D.28

参考答案:C 答案解析: 第8题: 在计数资料计算相对数时,应注意如下哪些问题 A.分母不宜过大 B.可比性 C.随机性 D.分母不宜过小 E.分母宜中 参考答案:D 答案解析: 第9题: 在计数资料进行相对数间比较时,应注意如下哪些问题 A.分母不宜太小 B.可比性 C.可用频率指标代替构成指标 D.随机性和正态分布 E.其可比性和遵循随机抽样 参考答案:E 答案解析: 第10题: X2检验是要计算检验统计量X2值、X2值是反应如下哪种情况 A.实际频数大于理论频数 B.理论频数大于实际频数 C.实际频率和理论频率的吻合程度 D.实际频数和理论频数的吻合程度 E.实际频率大于理论频率 参考答案:D 答案解析: 第11题: X2值愈大,则X2值的概率P值如下哪种情况

第三单元 计数资料的统计描述和统计推断(第一部分)

第三单元计数资料的统计描述和统计推断 【习题】 分析计算题 3.1 某地某年循环系统疾病死亡资料如表18。 表18 某地某年循环系统疾病死亡资料 年龄组/岁平均人口数 循环系统 死亡人数 死亡人数构成比 /% 死亡率 (1/10万) 相对比 (各年龄组死亡率 /0~组死亡率) 0~745000 25 30~538760 236 40~400105 520 50~186537 648 60~52750 373 合计1923152 1802 (1) 请根据以上数据计算各年龄组死亡人数构成比、死亡率和相对比。 (2) 分析讨论各指标的含义。 3.2 请就表19资料比较甲、乙两个医院某传染病的治愈率/%。 表19 甲、乙两院某传染病治愈率(%)的比较 类型 甲医院乙医院 病人数治愈数治愈率/% 病人数治愈数治愈率/% 普通型414 248 59.9 138 90 65.2 重型138 55 39.9 414 186 44.9 暴发型126 25 19.8 126 32 25.4 合计678 328 48.4 678 308 45.4 3.3 传统疗法治疗某病,其病死率为30%,治愈率为70%。今用某种新药治疗该病10人,结果有1人死亡。问该新药的治疗效果是否优于传统疗法(单侧)。

3.4 甲、乙两地各抽样调查1万名妇女,结果甲地卵巢癌患病人数100人,乙地卵巢癌患病人数80人,请问甲乙两地妇女的卵巢癌患病率是否不同。 3.5 对甲地一个由40名新生儿组成的随机样本进行某病的基因检测,结果阳性2例。据此资料,估计该地此病的基因总体携带率的95%可信区间。 3.6 已知一般人群中慢性气管炎患病率为9.7%,现调查了300名吸烟者,发现其中有63人患有慢性气管炎,试推断吸烟人群慢性气管炎患病率是否高于一般人群。 3.7 研究者取4mL某饮料进行细菌培养,得细菌数60个,试估计平均每1mL 饮料中细菌数的均值和标准差,并估计平均每1mL饮料中细菌数的95%可信区间。 3.8 分别从两种饮料中各取10mL样品进行细菌培养,甲饮料培养细菌440个,乙饮料培养细菌300个,问两种饮料中细菌数有无差别。 3.9 若某地区1998年新生儿腭裂发生率为2.15‰ ,1999年在此地区抽样调查1000名新生儿,发现腭裂1例,问此地区1999年腭裂发生率是否比1998年低。 3.10 对某地区居民饮用水进行卫生学检测中,随机抽查1mL水样,经培养获大肠杆菌菌落2个,试估计该地区水中平均每毫升所含大肠杆菌菌落的95%可信区间。 3.11 将80例均为初治的乳腺癌患者随机分配到甲乙两种治疗方案中,每组各40例,甲方案31例有效,乙方案14例有效,问两种治疗方案的有效率有无差别? 3.12 为了解某中药治疗原发性高血压的疗效,将44名高血压患者随机分为两组。实验组用该药加辅助治疗,对照组用安慰剂加辅助治疗,观察结果如表20,问该药治疗原发性高血压是否有效? 表20 两种疗法治疗原发性高血压的疗效 分组例数有效有效率/% 实验组23 21 91.30 对照组21 5 23.81

计量资料的统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

作业与参考答案-ch03第三单元 计数资料的统计描述和统计推断

《医学统计学》 【教材】倪宗瓒主编.医学统计学.北京;高等教育出版 社.2004. 【作业】教材附录二 【习题解答】 第三单元 计数资料的统计描述和统计推断 分析计算题 3.1 解: (1) 100%= ?同年该年龄组死亡人数 年龄组死亡人数构成比某年某年龄组死亡总数 %39.1%1001802 25 ~0=?= 岁组死亡人数构成比 余类推; 10000010= ?同年该年龄组死亡人数 死亡率万某年某年龄组平均人口数 010000010 3.3610?=25 ~岁组死亡率= 万万745000 余类推; 岁组死亡率 各年龄组死亡率 相对比~0= 04.1336 .380 .43~30== 岁组相对比 余类推。 各年龄组死亡人数构成比、死亡率和相对比计算结果见表3.1.1。 表3.1.1 某地某年循环系统疾病死亡资料 年龄组 /岁 平均人口数 循环系统 死亡人数 死亡人数构成比 /% 死亡率 (1/10万) 相对比 (各年龄组死亡率/0~组死亡率)

0~ 745000 25 1.39 3.36 — 30~ 538760 236 13.10 43.80 13.04 40~ 400105 520 28.86 129.97 38.68 50~ 186537 648 35.96 347.38 103.39 60~ 52750 373 20.70 707.11 210.45 合 计 1923152 1802 100.00 93.70 — (2) 死亡人数构成比是指某年龄组死亡人数与各年龄组死亡人口总数之比,说明总死亡人数中各年龄组死亡人数所占的比重; 死亡率是指某年实际死亡数与该年可能发生死亡人数(本题即为该年平均人口数)之比,用以说明死亡发生的频率或强度; 相对比用以说明各年龄组死亡率是0~岁组死亡率的几倍或几分之几。 3.2解:因为甲、乙两医院某传染病的类型构成明显不同,且疾病类型对该病的治疗效果有影响,故应进行标准化,再比较两医院的治愈率。根据本题资料,以两医院合计病人数为标准人口,采用直接标准化法。 表3.2.1 直接法计算甲、乙两医院某传染病标准化治愈率/% 类型 标准病人数 N i 甲医院 乙医院 原治愈率/% p i 预期治愈人数 N i p i 原治愈率/% p i 预期治愈人数 N i p i 普通型 552 59.9 331 65.2 360 重 型 552 39.9 220 44.9 248 暴发型 252 19.8 50 25.4 64 合 计 1356 48.4 601( i i N p ∑) 45.4 672( i i N p ∑) 甲医院某传染病标准化治愈率:601 100%44.3%1356p '=?=甲 乙医院某传染病标准化治愈率:672100%49.6%1356p '=?=乙 可以看出,经标准化后乙医院的该传染病的治愈率高于甲医院。

统计学计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A、描述平均水平(中心位置): 均数X、中位数和百分位数、几何均数G、众数(mode) B、描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数mean和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median)M和百分位数(percentile) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n为奇数时-- n为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数

是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) = 第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数 注:有的教材X= r ; L f =C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~ 15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合 计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=, 65~组最终的累积频数=34,落在65~组段内; P 75所在的组段:n X %=130×75%=, 此值落在74~组段

最新第一单元 计量资料的统计描述

第一单元计量资料的统计描述 【习题】 分析计算题 1.1 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素锌(Zn)的含量(μg/g),资料如下: 40 87 105 113 121 127 133 142 152 168 215 54 88 105 113 121 127 134 143 153 173 220 61 92 106 113 122 127 135 143 153 176 74 94 107 114 124 128 136 143 155 177 77 94 107 116 124 128 137 145 156 180 80 95 109 117 124 128 138 147 156 182 81 96 109 119 125 130 138 147 163 183 82 97 111 119 125 130 138 149 163 186 83 102 112 120 126 131 140 151 166 188 85 105 112 120 126 132 141 151 168 195 (1) 编制频数表并绘制直方图,简述频数分布类型和频数分布特征。 (2) 计算适当的集中趋势指标和离散程度指标。 1.2 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素铜(Cu)的含量(μg/g),资料如表1,求男性脑卒中患者头发中微量元素铜的平均含量。 表1 102名男性脑卒中患者头发中微量元素铜(Cu)的含量/(μg·g-1)频数表 头发中铜的对数值频数f 0.350 0~ 1 0.450 0~ 2 0.550 0~ 4 0.650 0~ 3 0.750 0~18 0.850 0~36

相关主题
文本预览