r语言与统计分析 第五章课后答案
- 格式:docx
- 大小:20.52 KB
- 文档页数:10
学习使用R编程语言进行统计分析和数据建模导论在现代数据分析和统计学中,R编程语言已经成为了一种非常受欢迎的工具。
它是一种免费开源的软件,具有强大的统计分析和数据建模功能。
本文将介绍如何学习使用R编程语言进行统计分析和数据建模,并探讨一些实际应用案例。
第一章:R语言的基础知识在开始学习R编程语言之前,我们首先要了解一些基础知识。
R语言是一种具有面向对象特性的编程语言,它可以用于数据处理、统计分析、数据可视化等领域。
在这一章节中,我们将介绍R语言的安装方法,基本语法,常用函数和数据结构等内容。
第二章:常用数据处理技巧数据处理是数据分析的第一步,它包括数据清洗、数据转换、数据合并等过程。
在R语言中,有许多常用的数据处理函数和技巧可以帮助我们完成这些任务。
在这一章节中,我们将介绍如何使用R语言对数据进行清洗和转换,以及如何使用函数和包来处理缺失值、异常值等常见问题。
第三章:统计分析方法R语言提供了众多的统计分析函数和方法,可以帮助我们进行描述统计、假设检验、方差分析等各种分析。
在这一章节中,我们将介绍如何使用R语言进行常见统计分析,如线性回归、逻辑回归、聚类分析等,并演示如何从结果中提取有用的信息。
第四章:数据可视化方法数据可视化是将数据转化为图形和图表的过程,有助于我们更好地理解和分析数据。
R语言提供了许多功能强大的数据可视化包,如ggplot2、lattice等。
在这一章节中,我们将介绍如何使用R语言进行数据可视化,并演示如何创建散点图、柱状图、折线图等图形。
第五章:高级数据建模技术除了基本的统计分析外,R语言还可以用于更高级的数据建模任务,如机器学习、深度学习等。
在这一章节中,我们将介绍一些常用的数据建模方法,如决策树、随机森林、神经网络等,并演示如何使用R语言构建和评估这些模型。
第六章:实际应用案例最后,我们将通过一些实际应用案例来展示R语言在统计分析和数据建模中的应用。
这些案例包括金融风险评估、医疗数据分析、市场营销策略等。
⼤数据基础--R语⾔(刘鹏《⼤数据》课后习题答案)1.R语⾔是解释性语⾔还是编译性语⾔? 解释性语⾔2.简述R语⾔的基本功能。
R语⾔是⼀套完整的数据处理、计算和制图软件系统,主要包括以下功能: (1)数据存储和处理功能,丰富的数据读取与存储能⼒,丰富的数据处理功能。
(2)数组运算⼯具 (3)完整连贯的统计分析⼯具 (4)优秀的统计制图功能3.R语⾔通常⽤在哪些领域? ⼈⼯智能、统计分析、应⽤数学、计量经济、⾦融分析、财经分析、⽣物信息学、数据可视化与数据挖掘等。
4.R语⾔常⽤的分类和预测算法有哪些? (1)K-近邻算法,如果⼀个样本与特征空间中的K个最相似(特征空间最近邻)的样本中的⼤多数属于某⼀个类别,则该样本也属于这⼀类别。
(2)决策树,是⼀种依托于分类、训练上的预测树,根据已知预测、归类未来。
(3)⽀持向量机,是⼀个⼆分类的办法,即将数据集中的数据分为两类。
5.简述如何利⽤R程序包进⾏数据分析、建模和数据预测。
数据集加载->数据集中的数据分析->⽆效数据处理->预测模型的构建->模型的评价与选择->实际需求预测->完成对应⽤需求的实现预测6.如何使⽤“聚类”和“分类”对数据样本进⾏分组。
“聚类”和“分类”都可以从历史数据纪录中⾃动推导出给定数据的推⼴描述,从⽽能对未来数据进⾏预测。
不同的是,“分类”算法需要⽤训练样本构造分类器,且样本数据集中的每个样本除了具有类别特征向量外,还需要类别标记。
⽽“聚类”的样本没有标记,需要由聚类学习算法来⾃动确定。
7.SparkR DataFrame的作⽤有哪些? (1)它允许数据科学家分析⼤规模数据集,并通过R Shell交互的在SparkR上运⾏作业。
(2)数据来源⾮常⼴泛,可处理多种类型数据。
(3)⾼拓展性,可以轻易⽤于TB级数据的处理及⽔平服务器的拓展。
(4)会查询优化器⾃动优化,可为计算加速制定智能的决策。
(5)对RDD API的⽀持,可⾼效地进⾏分布式数据计算与分析,解决⼤规模数据集带来的挑战。
《统计分析和SPSS的应用(第五版)》(薛薇)课后练习答案第5章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下: 80, 81, 72, 60, 78, 65, 56, 79, 77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss数据→分析→比较均值→单样本t检验→相关设置→输出结果(Analyze->compare means->one-samples T test;)采用单样本T检验(原假设H0:u=u0=75,总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值 = 75t df Sig.(双侧) 均值差值差分的 95% 置信区间下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test后的框中输入检验值(填75),最后ok!分析:N=11人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean)为2.87.t统计量观测值为-4.22,t统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14),由此采用双尾检验比较a和p。
T统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668>a=0.05所以不能拒绝原假设;且总体均值的95%的置信区间为(67.31,80.14),所以均值在67.31~80.14内,75包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS对上表数据进行描述统计,并绘制相关的图形。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第5章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下: 80, 81, 72, 60, 78, 65, 56, 79, 77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss数据→分析→比较均值→单样本t检验→相关设置→输出结果(Analyze->compare means->one-samples T test;)采用单样本T检验(原假设H0:u=u0=75,总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值 = 75t df Sig.(双侧) 均值差值差分的 95% 置信区间下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test后的框中输入检验值(填75),最后ok!分析:N=11人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean)为2.87.t统计量观测值为-4.22,t统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14),由此采用双尾检验比较a和p。
T统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668>a=0.05所以不能拒绝原假设;且总体均值的95%的置信区间为(67.31,80.14),所以均值在67.31~80.14内,75包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS对上表数据进行描述统计,并绘制相关的图形。
统计建模与R软件第五章习题答案(假设检验)Ex5.1> x<-c(220, 188, 162, 230, 145, 160, 238, 188, 247, 113, 126, 245, 164, 231, 256, 183, 190, 158, 224, 175)> t.test(x,mu=225)One Sample t-testdata: xt = -3.4783, df = 19, p-value = 0.002516alternative hypothesis: true mean is not equal to 22595 percent confidence interval:172.3827 211.9173sample estimates:mean of x192.15原假设:油漆工人的血小板计数与正常成年男子无差异。
备择假设:油漆工人的血小板计数与正常成年男子有差异。
p值小于0.05,拒绝原假设,认为油漆工人的血小板计数与正常成年男子有差异。
上述检验是双边检验。
也可采用单边检验。
备择假设:油漆工人的血小板计数小于正常成年男子。
> t.test(x,mu=225,alternative="less")One Sample t-testdata: xt = -3.4783, df = 19, p-value = 0.001258alternative hypothesis: true mean is less than 22595 percent confidence interval:-Inf 208.4806sample estimates:mean of x192.15同样可得出油漆工人的血小板计数小于正常成年男子的结论。
Ex5.2> pnorm(1000,mean(x),sd(x))[1] 0.5087941> x[1] 1067 919 1196 785 1126 936 918 1156 920 948> pnorm(1000,mean(x),sd(x))[1] 0.5087941x<=1000的概率为0.509,故x大于1000的概率为0.491.要点:pnorm计算正态分布的分布函数。
r语言与统计分析第五章课后答案第五章5.1设总体某是用无线电测距仪测量距离的误差,它服从(α,β)上的均匀分布,在200次测量中,误差为某i的次数有ni次:某i:3579111315171921Ni:21161526221421221825求α,β的矩法估计值α=u-β=u+程序代码:某=eq(3,21,by=2)y=c(21,16,15,26,22,14,21,22,18,25)u=rep(某,y)u1=mean(u)=var(u)1=qrt()a=u1-qrt(3)某1b=u1+qrt(3)某1b=u1+qrt(3)某1得出结果:a=2.217379b=22.402625.2为检验某自来水消毒设备的效果,现从消毒后的水中随机抽取50L,化验每升水中大肠杆菌的个数(假设1L水中大肠杆菌的个数服从泊松分布),其化验结果如下表所示:试问平均每升水中大肠杆菌个数为多少时,才能使上述情况的概率达到最大大肠杆菌数/L:0123456水的升数:1720222100γ=u是最大似然估计程序代码:a=eq(0,6,by=1)b=c(17,20,10,2,1,0,0)c=a某bd=mean(c)得出结果:d=7.1428575.3已知某种木材的横纹抗压力服从正态分布,现对十个试件做横纹抗压力试验,得数据如下:482493457471510446435418394469(1)求u的置信水平为0.95的置信区间程序代码:某=c(482493457471510446435418394469)t.tet(某)得出结果:data:某t=6.2668,df=9,p-value=0.0001467alternativehypothei:truemeaninotequalto095percentconfidenceinterval:7.66829916.331701ampleetimate:meanof某12由答案可得:u的置信水平为0.95的置信区间[7.66829916.331701](2)求σ的置信水平为0.90的置信区间程序代码:chiq.var.tet<-function(某,var,alpha,alternative="two.ided"){ option(digit=4)reult<-lit()n<-length(某)v<-var(某)reult$var<-vchi2<-(n-1)某v/varreult$chi2<-chi2p<-pchiq(chi2,n-1)reult$p.value<-pif(alternative=="le")reult$p.value<-pchaiq(chi2,n-1,loer.tail=F)eleif(alternative=="two.ider")reult$p.value<-2某min(pchaiq(chi2,n-1),pchaiq(chi2,n-1,lower.tail=F))reult$conf.int<-c((n-1)某v/qchiq(alpha/2,df=n-1,lower.tail=F),(n-1)某v/qchiq(alpha/2,df=n-1,lower.tail=T))reult}某<-c(482,493,457,471,510,446,435,418,394,469)y=var(某)chiq.var.tet(某,0.048^2,0.10,alternative="two.ide")得出结果:$conf.int:659.83357.0由答案可得:σ的置信水平为0.90的置信区间[659.83357.0]5.4某卷烟厂生产两种卷烟A和B现分别对两种香烟的尼古丁含量进行6次试验,结果如下:A:252823262922B:282330352127若香烟的尼古丁含量服从正态分布(1)问两种卷烟中尼古丁含量的方差是否相等(通过区间估计考察)(2)试求两种香烟的尼古丁平均含量差的95%置信区间程序代码:某=c(25,28,23,26,29,22)Y=c(28,23,30,35,21,27)Var.tet(某,y)data:某andyF=0.2992,numdf=5,denomdf=5,p-value=0.2115alternativehypothei:trueratioofvarianceinotequalto195percentconfidenceinterval:0.041872.13821ampleetimate:ratioofvariance0.2992由答案可得:其方差不相等,方差区间为[0.041872.13821](2)5.5比较两个小麦品种的产量,选择24块条件相似地实验条,采用相同的耕作方法做实验,结果播种甲品种的12块实验田的单位面积产量和播种乙品种的12块试验田的单位面积产量分别为:A:628583510554612523530615573603334564B:535433398470567480498560503426338547假定每个品种的单位面积产量服从正态分布,甲品种产量的方差为2140,乙品种产量的方差为3250,试求这两个品种平均面积产量差的置信水平为0.95的置信上限和置信水平为0.90的置信下限。
R语言与统计分析第五章习题答案x<-c(3,5,7,9,11,13,15,17,19,21)y<-c(21,16,15,26,22,14,21,22,18,25)e=sum(x*y)/sum(y) #样本期望d=(sum(x*x*y)/sum(y))-e^2 #样本方差a=(8*e+sqrt(64*e^2-4*4*(4*e^2-12*d)))/8 #估计结果b=(8*e-sqrt(64*e^2-4*4*(4*e^2-12*d)))/8ab#5.2x<-c(0,1,2,3,4,5,6)y<-c(17,20,10,2,1,0,0)e=2.718281828459f<-function(λ)(e^(-50*λ)*λ^50)/(2^10*6^2*24) #似然函数optimize(f,c(0,2),maximum=TRUE)#5.3x<-c(482,493,457,471,510,446,435,418,394,469) #0.95置信区间t.test(x)$conf.intchisq.var.test<-function(x,var,alpha,alternative="two.sided"){options(digits=4)result<-list()n<-length(x)v<-var(x)result$var<-vchi2<-(n-1)*v/varresult$chi2<-chi2p<-pchisq(chi2,n-1)result$p.value<-pif(alternative=="less")result$p.value<-pchaisq(chi2,n-1,lower.tail=F)else if (alternative=="two.sider")result$p.value<-2*min(pchaisq(chi2,n-1),pchaisq(chi2,n-1,lower.tail=F)) result$conf.int<-c((n-1)*v/qchisq(alpha/2,df=n-1,lower.tail=F),(n-1)*v/qchisq(alpha/2,df=n-1,lower.tail=T))resultchisq.var.test(x,var(x),0.90,alternative="two.side")$conf.int #0.90置信区间#5.4x<-c(25,28,23,26,29,22)y<-c(28,23,30,35,21,27)chisq.var.test(x,var(x),0.95,alternative="two.side")$conf.int #卷烟A方差0.95置信区间chisq.var.test(y,var(y),0.95,alternative="two.side")$conf.int #卷烟B方差0.95置信区间#方法二两方差比0.95的置信区间var.test(x,y)two.sample.ci<-function(x,y,conf.level=0.95,sigma1,sigama2){ #样本方差作为整体方差options(digits=4)m=length(x)n=length(y)xbar=mean(x)-mean(y)alpha=1-conf.levelzstar=qnorm(1-alpha/2)*(sigma1/m+sigma2/n)^(1/2)xbar+c(-zstar,+zstar)}sigma1<-var(x)sigma2<-var(y)two.sample.ci(x,y,conf.level=0.95,sigma1,sigma2)#5.5x<-c(628,583,510,554,612,523,530,615,573,603,334,564)y<-c(535,433,398,470,567,480,498,560,503,426,338,547)two.sample.ci<-function(x,y,conf.level=0.95,sigma1,sigama2){options(digits=4)m=length(x)n=length(y)xbar=mean(x)-mean(y)alpha=1-conf.levelzstar=qnorm(1-alpha/2)*(sigma1/m+sigma2/n)^(1/2)xbar+c(-zstar,+zstar)}sigma1=2140sigma2=3250a<-two.sample.ci(x,y,conf.level=0.95,sigma1,sigma2)b<-two.sample.ci(x,y,conf.level=0.90,sigma1,sigma2)a[2] #置信水平为0.95的置信上限b[1] #置信水平为0.90的置信下限#5.6x<-c(15.2,14.5,,15.5,14.8,15.1,15.6,14.7)y<-c(15.2,15.0,14.8,15.2,15.0,14.9,15.1,14.8,15.3)var.test(x,y) #x方差与y方差的比值极大,说明x方差大于y方差#5.7prop.test(224,400,conf.level=0.99,correct=TRUE)#5.8size.norm2<-function(s,alpha,d,m){t0<-qt(alpha/2,m,lower.tail=FALSE)n0<-(t0*s/d)^2t1<-qt(alpha/2,n0,lower.tail=FALSE)n1<-(t1*s/d)^2while(abs(n1-n0)>0.5){n0<-(qt(alpha/2,n1,lower.tail=FALSE)*s/d)^2n1<-(qt(alpha/2,n0,lower.tail=FALSE)*s/d)^2}n1}size.norm2(10,0.05,2,100)#5.8size.bin<-function(d,p,conf.level=0.95){alpha=1-conf.level((qnorm(1-alpha/2))/d)^2*p*(1-p)}size.bin(0.01,0.05,0.90)。
第二章2.1> x<-c(1,2,3);y<-c(4,5,6)> e<-c(1,1,1)> z<-2*x+y+e;z[1] 7 10 13> z1<-crossprod(x,y);z1[,1][1,] 32> z2<-outer(x,y);z2[,1] [,2] [,3][1,] 4 5 6[2,] 8 10 12[3,] 12 15 182.2(1) > A<-matrix(1:20,nrow=4);B<-matrix(1:20,nrow=4,byrow=T) > C<-A+B;C(2)> D<-A%*%B;D(3)> E<-A*B;E(4)> F<-A[1:3,1:3](5)> G<-B[,-3]2.3> x<-c(rep(1,5),rep(2,3),rep(3,4),rep(4,2));x2.4> H<-matrix(nrow=5,ncol=5)> for (i in 1:5)+ for(j in 1:5)+ H[i,j]<-1/(i+j-1)(1)> det(H)(2)> solve(H)(3)> eigen(H)2.5> studentdata<-data.frame(姓名=c('张三','李四','王五','赵六','丁一') + ,性别=c('女','男','女','男','女'),年龄=c('14','15','16','14','15'),+ 身高=c('156','165','157','162','159'),体重=c('42','49','41.5','52','45.5')) 2.6> write.table(studentdata,file='student.txt')> write.csv(studentdata,file='student.csv')2.7count<-function(n){if (n<=0)print('要求输入一个正整数')else{repeat{if (n%%2==0)n<-n/2elsen<-(3*n+1)if(n==1)break}print('运算成功')}}第三章3.1首先将数据录入为x。
《统计分析与SPSS的应用(第五版)》课后练习答案第5章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下:80, 81,72, 60, 78, 65, 56, 79,77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss数据T分析T比较均值T单样本t检验T相关设置T输出结果 (Analyze->compare means->one-samples T test;)采用单样本T检验(原假设H0:u=u0=75,总体均值与检验值之间不存在显著差异) ;分析:指定检验值:在test后的框中输入检验值(填75),最后ok!分析:N=11人的平均值(mean)为73.7,标准差(std.deviation )为9.55,均值标准误差(std error mean) 为2.87.t统计量观测值为-4.22, t统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14),由此采用双尾检验比较a和p。
T统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668> a=0.05所以不能拒绝原假设;且总体均值的95%的置信区间为(67.31,80.14),所以均值在67.31~80.14内,75包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1) 请利用SPSS对上表数据进行描述统计,并绘制相关的图形。
(2) 基于上表数据,请利用SPSS给出大学生每周上网时间平均值的9 5%的置信区间。
(1)分析描述统计描述、频率(2)分析 比较均值 单样本T 检验每周上网时间的样本平均值为 27.5,标准差为10.7,总体均值95%的置信区间为23.8-312 3、经济学家认为决策者是对事实做出反应,不是对提出事实的方式做出反应。
r语言第五章作业第五章课后习题#1程序如下:x<-c(220,188,162,230,145,160,238,188,247,113,126,245,164,231,256 ,183,190,158,224,175)t.test(x,alternative="two.sided",mu=225)输入R软件后得出结果为:原假设:油漆工人的血小板计数与正常成年男子无差异。
备择假设:油漆工人的血小板计数与正常成年男子有差异。
由上图可以知道P值=0.002516<0.05,拒绝原假设,我们可以认为油漆工人的血小板计数与正常成年男子有差异。
#2程序如下:x<-c(1067,919,1196,785,1126,936,918,1156,920,948)t.test(x,alternative="less",mu=1000)pnorm(1000,mean(x),sd(x))R软件里的出的结果是由结果知道P值=0.473>0.05,故接受原假设,即这个星期生产出的灯泡能使用1000h以上的概率为0.4912059#3程序如下:x<-c(113,120,138,120,100,118,138,123)y<-c(138,116,125,136,110,132,130,110)t.test(x,y,paired=TRUE)R软件得出结果是:P值=0.5357>0.05,故接受原假设,即两种方法无差异。
#4程序如下:x1<-c(-0.70,-5.6,2.0,2.8,0.7,3.5,4.0,5.8,7.1,-0.5,2.5,-1.6,1.7,3.0,0.4,4.5,4.6,2.5,6.0,-1.4)x2<-c(3.7,6.5,5.0,5.5,0.8,0.2,0.6,3.4,6.6,-1.1,6.0,3.8,2.0,1.6,2.0,2.2,1.2,3.1,1.7,-2.0)(1)shapiro.test(x1)shapiro.test(x2)实验组和对照组的P值均大于0.05,故接受原假设,即实验组和对照组的数据是来之正态分布。
第二章2、(1)> data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE)> 平均数=mean(data[,2]);方差=var(data[,2]);标准差=sd(data[,2]);中位数=median(data[,2]);离散系数=标准差/平均数;全距=max(data[,2])-min(data[,2]); 四分位距=quantile(data[,2],probs=0.75)-quantile(data[,2],probs=0.25)> data=data[,-1]> 不及格率=length(data[data<60])/length(data)> 平均数;方差;标准差;中位数;四分位距;离散系数;全距;不及格率[1] 79.2977[1] 167.7606[1] 12.95224[1] 80.97575%15.975[1] 0.1633369[1] 72.8[1] 0.08865248(2)> data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE)> data=data[,-1]> data1=data[1:141]> data2=data[142:282]> 平均数1=mean(data1);平均数2=mean(data2)> 平均数1;平均数2[1] 81.90816[1] 76.68723> 方差1=var(data1);方差2=var(data2)> 方差1;方差2[1] 113.2225[1] 209.7706> 标准差1=sd(data1);标准差2=sd(data2)> 标准差1;标准差2[1] 10.64061[1] 14.48346> 中位数1=max(data1)-min(data1);中位数2=max(data2)-min(data2)> 中位数1;中位数2[1] 54.2[1] 72.8> 四分位距1=quantile(data1,probs=0.75)-quantile(data1,probs=0.25);四分位距2=quantile(data2,probs=0.75)-quantile(data2,probs=0.25)> 四分位距1;四分位距275%12.3575%18.8> 离散系数1=标准差1/平均数1;离散系数2=标准差2/平均数2> 离散系数1;离散系数2[1] 0.129909[1] 0.188864> 全距1=max(data1)-min(data1);全距2=max(data2)-min(data2)> 全距1;全距2[1] 54.2[1] 72.8> 不及格率1=length(data1[data1<60])/length(data1); 不及格率2=length(data2[data2<60])/length(data2)> 不及格率1; 不及格率2[1] 0.03546099[1] 0.141844(3)> plot.new()> figureparameter=par(mfrow=c(2,2),bg="light green",b=1,font=3)> hist(data1);hist(data2)分析:会计学和经济大类都是左偏分布,成绩集中分布于80~90分,可见普遍成绩较好。
统计学导论基于r语言课后答案1. In Table 3.4, the null hypothesis for "TV" is that in the presence of radio ads and newspaper ads, TV ads have no effect on sales. Similarly, the null hypothesis for "radio" is that in the presence of TV and newspaper ads, radio ads have no effect on sales. (And there is a similar null hypothesis for "newspaper".) The low p-values of TV and radio suggest that the null hypotheses are false for TV and radio. The high p-value of newspaper suggests that the null hypothesis is true for newspaper.2. KNN classifier and KNN regression methods are closely related in formula. However, the final result of KNN classifier is the classification output for Y (qualitative), where as the output for a KNN regression predicts the quantitative value for f(X).3. Y = 50 + 20(gpa) + 0.07(iq) + 35(gender) + 0.01(gpa * iq) - 10 (gpa * gender)(a) Y = 50 + 20 k_1 + 0.07 k_2 + 35 gender + 0.01(k_1 * k_2) - 10 (k_1 * gender) male: (gender = 0) 50 + 20 k_1 + 0.07 k_2 + 0.01(k_1 * k_2) female: (gender = 1) 50 + 20 k_1 + 0.07 k_2 + 35 + 0.01(k_1 * k_2) - 10 (k_1)Once the GPA is high enough, males earn more on average. => iii.(b) Y(Gender = 1, IQ = 110, GPA = 4.0) = 50 + 20 * 4 + 0.07 * 110 +35 + 0.01 (4 * 110) - 10 * 4 = 137.1(c) False. We must examine the p-value of the regression coefficient to determine if the interaction term is statistically significant or not.1. (a) better - a more flexible approach will fit the data closer and with the large sample size a better fit than an inflexible approach would be obtained(b) worse - a flexible method would overfit the small number of observations(c) better - with more degrees of freedom, a flexible model would obtain a better fit(d) worse - flexible methods fit to the noise in the error terms and increase variance2. (a) regression. inference. quantitative output of CEO salary based on CEO firm's features. n - 500 firms in the US p - profit, number of employees, industry(b) classification. prediction. predicting new product's success or failure. n - 20 similar products previously launched p - price charged, marketing budget, comp. price, ten other variables(c) regression. prediction. quantitative output of % change n - 52 weeks of 2012 weekly data p - % change in US market, % change in British market, % change in German market3. (a) See 3a.jpg.(b) all 5 lines >= 0i. (squared) bias - decreases monotonically because increases in flexibility yield a closer fitii. variance - increases monotonically because increases in flexibility yield overfitiii. training error - decreases monotonically because increases in flexibility yield a closer fitiv. test error - concave up curve because increase in flexibility yields a closer fit before it overfitsv. Bayes (irreducible) error - defines the lower limit, the test error is bounded below by the irreducible error due to variance in the error (epsilon) in the output values (0 <= value). When the training error is lower than the irreducible error, overfitting has taken place. The Bayes error rate is defined for classification problems and is determined by the ratio of data points which lie at the 'wrong' side of the decision boundary,。
R语言数据分析练习题参考答案一、问题描述在这个练习中,我们将进行R语言数据分析的练习,并给出相应的参考答案。
以下是各个问题的具体描述:1. 统计数据给定一个包含10个正整数的向量x,求出以下统计数据:(1)向量x的均值;(2)向量x的中位数;(3)向量x的最大值;(4)向量x的最小值;(5)向量x的标准差。
2. 数据可视化使用R语言绘制以下数据的散点图:(1)给定一个包含50个数据点的数据集,x轴为变量x,y轴为变量y;(2)给定一个包含100个数据点的数据集,x轴为变量x,y轴为变量y,并对数据点进行颜色编码。
3. 数据处理给定一个包含100个数据点的数据集,其中的数据存在缺失值。
请使用R语言进行数据处理,具体要求如下:(1)删除包含缺失值的数据点;(2)计算数据集的均值并输出;(3)使用均值填充缺失值,并重新计算数据集的均值并输出。
二、问题解答下面给出以上问题的详细解答。
1. 统计数据(1)向量x的均值:mean(x)(2)向量x的中位数:median(x)(3)向量x的最大值:max(x)(4)向量x的最小值:min(x)(5)向量x的标准差:sd(x)2. 数据可视化(1)散点图1:plot(x, y)(2)散点图2:plot(x, y, col = colors)3. 数据处理(1)删除包含缺失值的数据点:complete_data <- na.omit(data)(2)计算数据集的均值并输出:mean(data)(3)使用均值填充缺失值,并重新计算数据集的均值并输出:data_filled <- datadata_filled[is.na(data_filled)] <- mean(data_filled, na.rm = TRUE)mean(data_filled)以上就是R语言数据分析练习题的参考答案。
通过这些练习,希望能够帮助你熟悉R语言的数据分析操作,并掌握常用的统计和可视化技巧。
#5。
1x<—c(3,5,7,9,11,13,15,17,19,21)y〈-c(21,16,15,26,22,14,21,22,18,25)e=sum(x*y)/sum(y) #样本期望d=(sum(x*x*y)/sum(y))-e^2 #样本方差a=(8*e+sqrt(64*e^2—4*4*(4*e^2-12*d)))/8 #估计结果b=(8*e—sqrt(64*e^2—4*4*(4*e^2—12*d)))/8ab#5。
2x<-c(0,1,2,3,4,5,6)y〈-c(17,20,10,2,1,0,0)e=2.718281828459f〈-function(λ)(e^(—50*λ)*λ^50)/(2^10*6^2*24) #似然函数optimize(f,c(0,2),maximum=TRUE)#5.3x<-c(482,493,457,471,510,446,435,418,394,469)#0.95置信区间t。
test(x)$conf.intchisq。
var。
test<-function(x,var,alpha,alternative=”two.sided”){options(digits=4)result<—list()n〈—length(x)v〈-var(x)result$var<-vchi2<-(n—1)*v/varresult$chi2<—chi2p<—pchisq(chi2,n—1)result$p.value<—pif(alternative==”less")result$p。
value〈-pchaisq(chi2,n—1,lower。
tail=F)else if (alternative==”two。
sider”)result$p.value<—2*min(pchaisq(chi2,n—1),pchaisq(chi2,n-1,lower.tail=F))result$conf。
第五章5.1####写出求正态总体均值检验的R程序(程序名:mean.test1.R)mean.test1<-function(x, mu=0, sigma=-1, side=0){source("P_value.R")n<-length(x); xb<-mean(x)if (sigma>0){z<-(xb-mu)/(sigma/sqrt(n))P<-P_value(pnorm, z, side=side)data.frame(mean=xb, df=n, Z=z, P_value=P)}else{t<-(xb-mu)/(sd(x)/sqrt(n))P<-P_value(pt, t, paramet=n-1, side=side)data.frame(mean=xb, df=n-1, T=t, P_value=P)}}####写出求P值的R程序(程序名:P_value.R)P_value<-function(cdf, x, paramet=numeric(0), side=0){n<-length(paramet)P<-switch(n+1,cdf(x),cdf(x, paramet),cdf(x, paramet[1], paramet[2]),cdf(x, paramet[1], paramet[2], paramet[3]))if (side<0) Pelse if (side>0) 1-Pelseif (P<1/2) 2*Pelse 2*(1-P)}####输入数据,再调用函数mean.test1()>x<-c(220,188,162,230,145,160,238,188,247,113,126,245,164,231,256,183,190,158,224,175) > source("mean.test1.R")> a<-mean.test1(x, mu=225,side=0)> a得到:mean df T P_value1 192.15 19 -3.478262 0.002516436可知,P值小于0.05,故与正常值存在差异5.2####输入数据,再调用函数mean.test1()> x<-c(1067,919,1196,785,1126,936,918,1156,920,948)> source("mean.test1.R")> mean.test1(x, mu=1000,side=1)得到:mean df T P_value1 997.1 9 -0.06971322 0.5270268所以灯泡寿命为1000小时以上的概率是0.47297325.3####写出两总体均值检验的R程序(程序名:mean.test2.R)mean.test2<-function(x, y,sigma=c(-1, -1), var.equal=FALSE, side=0){source("P_value.R")n1<-length(x); n2<-length(y)xb<-mean(x); yb<-mean(y)if (all(sigma>0)){z<-(xb-yb)/sqrt(sigma[1]^2/n1+sigma[2]^2/n2)P<-P_value(pnorm, z, side=side)data.frame(mean=xb-yb, df=n1+n2, Z=z, P_value=P)}else{if (var.equal == TRUE){Sw<-sqrt(((n1-1)*var(x)+(n2-1)*var(y))/(n1+n2-2))t<-(xb-yb)/(Sw*sqrt(1/n1+1/n2))nu<-n1+n2-2}else{S1<-var(x); S2<-var(y)nu<-(S1/n1+S2/n2)^2/(S1^2/n1^2/(n1-1)+S2^2/n2^2/(n2-1))t<-(xb-yb)/sqrt(S1/n1+S2/n2)}P<-P_value(pt, t, paramet=nu, side=side)data.frame(mean=xb-yb, df=nu, T=t, P_value=P)}}####输入数据,再调用函数mean.test2()> x<-c(113,120,138,120,100,118,138,123)> y<-c(138,116,125,136,110,132,130,110)> source("mean.test2.R")> mean.test2(x, y, var.equal=TRUE, side=0)得到:mean df T P_value1 -3.375 14 -0.5659672 0.5803752P值大于0.05,故接受原假设5.4####写出均值已知和均值未知两种情况方差比检验的R程序(程序名:var.test2.R)var.test2<-function(x, y,mu=c(Inf,Inf),side=0){source("P_value.R")n1<-length(x); n2<-length(y)if (all(all(mu<Inf)){Sx2<-sum((x-mu[1])^2)/n1;Sy2<-sum((y-mu[2])^2)/n2df1=n1;df2=n2}else{Sx2<-var(x); Sy2<-var(y);df1=n1-1;df2=n2-1}r<-Sx2/Sy2P<-P_value(pf, r, paramet=c(df1,df2), side=side)data.frame(rate=r, df1=df1, df2=df2,F=f, P_value=P)}}####输入数据>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.5 0,6.00,-1.40)> a<-shapiro.test(x)> aShapiro-Wilk normality testdata: xW = 0.9699, p-value = 0.7527>0.05>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10, 1.70,-2.00)> b<-shapiro.test(y)> bShapiro-Wilk normality testdata: yW = 0.971, p-value = 0.7754>0.05由以上可知,两组数据均为正态分布####输入数据,再调用函数mean.test2()>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.5 0,6.00,-1.40)>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10, 1.70,-2.00)> source("mean.test2.R")> a<-mean.test2(x, y, var.equal=TRUE, side=0);amean df T P_value1 -0.56 38 -0.641872 0.5248097> b<-mean.test2(x, y, var.equal=FALSE, side=0);bmean df T P_value1 -0.56 36.08632 -0.641872 0.525013> c<-t.test(x-y, alternative = "two.sided");cOne Sample t-testdata: x - yt = -0.6464, df = 19, p-value = 0.5257alternative hypothesis: true mean is not equal to 095 percent confidence interval:-2.373146 1.253146sample estimates:mean of x-0.56以上P值均大于0.05,故均值无差异。
R语言数据分析与挖掘智慧树知到课后章节答案2023年下中央财经大学中央财经大学第一章测试1.下面哪些是R可以存储的数据对象?()。
A:数据框B:矩阵C:列表框D:其余选项都是答案:其余选项都是2.关于 attach( ) 函数说法正确的是?()。
A:把数据库加载到R的搜索空间B:其余选项均正确C:执行 attach( ) 加载数据库后,可以直接访问该数据库中的一些对象D: 与detach( )的功能不同答案:其余选项均正确3.下面哪些方式可以查看到帮助文档?()。
A:help(mean)B:?mean和help(mean)都不正确C:?meanD:?mean和help(mean)都正确答案:?mean和help(mean)都正确4.假设 y<-c(1,2,3,-1,0,2), 那么关于语句 y[c(-2,-3)],说法正确的是___.()。
A:该语句选取y的第2和第3个元素B:执行该语句不会改变y的长度C:执行该语句将改变y的长度 D:该语句存在语法错误答案:执行该语句不会改变y的长度5.下面关于修改向量 x<-c(1,2,-1,-3,-5) 的说法错误的是___.()。
A:执行语句 x[1]<-0 后,x的值为 0,2,-1,-3,-5B:执行语句 x[c(1,5)]<-0 后,x的值为 0,2,-1,-3,0C: 执行语句 x<-0 后,x的值为 0D:执行语句 x<-0 后,x的值为 0,0,0,0,0答案:执行语句 x<-0 后,x的值为 0,0,0,0,0第二章测试1.若从正态分布总体中抽样得到一组样本,样本的值为 1, -1, 2, 3, 4, 5, 1, 2, 4, 3,那么样本的中位数为?()。
A:4B:2C:3D:2.5答案:2.52.若从正态分布总体中抽样得到一组样本,样本的值为7, 7, 5, 2, 5, 4, 7, 9, 4, 8,那么样本的众数为?()。
第五章5.1 设总体x是用无线电测距仪测量距离的误差,它服从(α,β)上的均匀分布,在200次测量中,误差为xi的次数有ni次:Xi:3 5 7 9 11 13 15 17 19 21Ni:21 16 15 26 22 14 21 22 18 25求α,β的矩法估计值α=u-√3sβ=u+√3s程序代码:x=seq(3,21,by=2)y=c(21,16,15,26,22,14,21,22,18,25)u=rep(x,y)u1=mean(u)s=var(u)s1=sqrt(s)a=u1-sqrt(3)*s1b=u1+sqrt(3)*s1b=u1+sqrt(3)*s1得出结果:a= 2.217379b= 22.402625.2为检验某自来水消毒设备的效果,现从消毒后的水中随机抽取50L,化验每升水中大肠杆菌的个数(假设1L水中大肠杆菌的个数服从泊松分布),其化验结果如下表所示:试问平均每升水中大肠杆菌个数为多少时,才能使上述情况的概率达到最大大肠杆菌数/L:0 1 2 3 4 5 6水的升数:17 20 10 2 1 0 0γ=u是最大似然估计程序代码:a=seq(0,6,by=1)b=c(17,20,10,2,1,0,0)c=a*bd=mean(c)得出结果:d= 7.1428575.3已知某种木材的横纹抗压力服从正态分布,现对十个试件做横纹抗压力试验,得数据如下:482 493 457 471 510 446 435 418 394 469(1)求u的置信水平为0.95的置信区间程序代码:x=c(482 493 457 471 510 446 435 418 394 469 )t.test(x)得出结果:data: xt = 6.2668, df = 9, p-value = 0.0001467alternative hypothesis: true mean is not equal to 095 percent confidence interval:7.668299 16.331701sample estimates:mean of x12由答案可得:u的置信水平为0.95的置信区间[7.668299 16.33170 1](2)求σ的置信水平为0.90的置信区间程序代码:chisq.var.test<-function(x,var,alpha,alternative="two.sided"){options(digits=4)result<-list()n<-length(x)v<-var(x)result$var<-vchi2<-(n-1)*v/varresult$chi2<-chi2p<-pchisq(chi2,n-1)result$p.value<-pif(alternative=="less")result$p.value<-pchaisq(chi2,n-1,loer.tail=F)else if(alternative=="two.sider")result$p.value<-2*min(pchaisq(chi2,n-1),pchaisq(chi2,n-1,lower.tail=F))result$conf.int<-c((n-1)*v/qchisq(alpha/2,df=n-1,lower.tail=F),(n-1)*v/qchisq(alpha/2,df=n-1,lower.tail=T))result}x<-c(482,493,457,471,510,446,435,418,394,469)y=var(x)chisq.var.test(x,0.048^2,0.10,alternative="two.side")得出结果:$conf.int: 659.8 3357.0由答案可得:σ的置信水平为0.90的置信区间[659.8 3357.0] 5.4某卷烟厂生产两种卷烟A和B 现分别对两种香烟的尼古丁含量进行6次试验,结果如下:A:25 28 23 26 29 22B:28 23 30 35 21 27若香烟的尼古丁含量服从正态分布(1)问两种卷烟中尼古丁含量的方差是否相等(通过区间估计考察)(2)试求两种香烟的尼古丁平均含量差的95%置信区间(1)程序代码:X=c(25,28,23,26,29,22)Y=c(28,23,30,35,21,27)Var.test(x,y)得出结果:F test to compare two variancesdata: x and yF = 0.2992, num df = 5, denom df = 5, p-value = 0.2115 alternative hypothesis: true ratio of variances is not equa l to 195 percent confidence interval:0.04187 2.13821sample estimates:ratio of variances0.2992由答案可得:其方差不相等,方差区间为[0.04187 2.13821](2)5.5 比较两个小麦品种的产量,选择24块条件相似地实验条,采用相同的耕作方法做实验,结果播种甲品种的12块实验田的单位面积产量和播种乙品种的12块试验田的单位面积产量分别为:A:628 583 510 554 612 523 530 615 573 603 334 564B:535 433 398 470 567 480 498 560 503 426 338 547假定每个品种的单位面积产量服从正态分布,甲品种产量的方差为2140,乙品种产量的方差为3250,试求这两个品种平均面积产量差的置信水平为0.95的置信上限和置信水平为0.90的置信下限。
程序代码:two.sample.ci=function(x,y,conf.level=0.95,sigma1.sigma2) {options(digits=4)m=length(x); n=length(y)xbar=mean(x)-mean(y)alpha=1-conf.levelzstar=qnorm(1-alpha/2)*(sigma1/m+sigma2/n)^(1/2)xbar+c(-zstar, +zstar)}x=c(628,583,510,554,612,523,530,615,573,603,334,564)y=c(535,433,398,470,567,480,498,560,503,426,338,547)sigma1=2140sigma2=3250two.sample.ci(x,y,conf.level=0.95,sigma1.sigma2)得到结果:31.29 114.37程序代码:two.sample.ci=function(x,y,conf.level=0.95,sigma1.sigma2) {options(digits=4)m=length(x); n=length(y)xbar=mean(x)-mean(y)alpha=1-conf.levelzstar=qnorm(1-alpha/2)*(sigma1/m+sigma2/n)^(1/2)xbar+c(-zstar, +zstar)}x=c(628,583,510,554,612,523,530,615,573,603,334,564)y=c(535,433,398,470,567,480,498,560,503,426,338,547)sigma1=2140sigma2=3250two.sample.ci(x,y,conf.level=0.90,sigma1.sigma2)得到结果:37.97 107.695.6有两台机床生产同一型号的滚珠,根据以往经验知,这两台机床生产的滚珠直径都服从正态分布,现分别从这两台机床生产的滚珠中随机地抽取7个和9个,测得它们的直径如下:机床甲:15.2 14.5 15.5 14.8 15.1 15.6 14.7机床乙:15.2 15.0 14.8 15.2 15 14.9 15.1 14.8 15.3试问机床乙生产的滚珠的方差是否比机床甲生产的滚珠直径的方差小?程序代码:x=c(5.2,14.5,15.5,14.8,15.1,15.6,14.7)y=c(15.2,15.0,14.8,15.2,15,14.9,15.1,14.8,15.3)var.test(x,y)得出结果:F test to compare two variancesdata: x and yF = 430.1, num df = 6, denom df = 8, p-value = 2.723e-09 alternative hypothesis: true ratio of variances is not equa l to 195 percent confidence interval:92.47 2408.54sample estimates:ratio of variances430.1由结果可得:其甲机床的滚珠半径远超出乙机床的滚珠半径5.7某公司对本公司生产的两种自行车型号A,B的销售情况进行了了解,随机选取了400人询问他们对A B的选择,其中有224人喜欢A,试求顾客中喜欢A的人数比例p的置信水平为0.99的区间估计。
方程代码:Binom.test(224,400,conf.level=0.99)得出结果:Exact binomial testdata: 224 and 400number of successes = 224, number of trials = 400, p-value = 0.01866alternative hypothesis: true probability of success is not equal to 0.599 percent confidence interval:0.4944077 0.6241356sample estimates:probability of success0.56由结果可得:顾客中喜欢a的人数比例p的置信水平为0.99的区间估计:[0.4944077 0.6241356]5.8某公司生产了一批新产品,产品总体服从正态分布,现估计这批产品的平均重量,最大允许误差为1,样本标准差s=10,试问在0.95的置信水平下至少要抽取多少个产品程序代码:Size,norm2=function(s,alpha,d,m){t0=qt(alpha/2,m,lower.tail = FALSE)n0=(t0*s/d)^2t1=qt(alpha/2,n0,lower.tail = FALSE)n1=(t1*s/d)^2while(abs(n1-n0)>0.5){n0=(qt(alpha/2,n1,lower.tail = FALSE)*s/d)^2n1=(qt(alpha/2,n0,lower.tail = FALSE)*s/d)^2}n1}Size.norm2(10,0.01,2,100)得出结果:98.44268由结果可得,在0.95的置信水平下至少要抽取99个产品5.9根据以往的经验,船运大量玻璃器皿,损坏率不超过5%,现要估计某船中玻璃器皿的损坏率,要求估计与真值间不超过1%,且置信水平为0.90,那么要抽取多少样本验收可满足上诉要求程序代码:size.bin=function(d,p,conf.level){alpha=1-conf.level((qnorm(1-alpha/2))/d)^2*p*(1-p)}size.bin(0.01,0.05,0.90)得出结果:1285.133由结果可得:要抽取1285个样本验收可满足上诉要求。