R语言傻瓜教程——1基础
0. 约定
阴影为代码或R的输出内容。
1.安装
1.1 安装R和RStudio
(1)从https://www.doczj.com/doc/9011539659.html,/cran/下载R语言相应版本,双击安装;
(2)从https://https://www.doczj.com/doc/9011539659.html,/products/rstudio/download/下载RStudio安装。
1.2 说明
(1)R语言本身仅提供了命令行工具,一般用户可能会觉得使用不便,所以用RStudio 作为工具来使用R语言;
(2)RStudio仅为R的IDE(集成开发环境),依赖于R;
(2)在苹果系统中,启动RStudio时要求安装command line tools,在弹出窗口中选择安装即可);
(3)R和RStudio都是免费开放源代码的,所以尽可能在官方网站上下载(R在全球有很多镜像,等同于官网,上述下载地址即其在北京交通大学的镜像)。
2.运行
2.1运行R语言
如果不使用RStudio,双击R语言图标(如下图)即可启动。
启动后如下图所示,在提示符处输入R语言命令。
1.2 RStudio启动
RStudio相对于R语言自身提供的命令行工具,使用要便捷得多。RStudio图标如下图。
启动后RStudio的环境如下图所示。左侧为同启动R时一样的命行窗口;右上侧为“环境”和“历史”。环境是指当前R语言的运行环境,也称为工作空间,在使用过程中所创建的变量、数据都在这里列出,而用户在使用过程中输入的命令都在“历史”子窗口中列出。
右侧包括“文件”、“绘图”、“扩展包”、“帮助”、“视图”等子窗口。相关功能在后续使用过程中再详细说明。
除此之外RStudio还有很多默认没有显示的子窗口,通过顶部菜单view中的选项可以
选择显示它们。
1.3 退出
在退出时,R和RStudio默认都会弹出窗口询问是否保存工作空间,如果选择保存,则R或RStudio会保存全部的变量、数据等,下次打开R或RStudio时还可以继续使用而不用再次输入。
如下分别为R和RStudio退出时的弹出窗口。
3. R语言运算符号
运算符号:+(加)、-(减)、*(乘)、/(除)、^(乘方)、%/%整除、%%求余;
逻辑判断符号:>(大于)、<(小于)、>=(大于等于)、<=(小于等于)、!=(不等)、==(相等)
逻辑运算符号:&(逻辑与)、|(逻辑或,Enter键上边的竖线)
赋值符号:<-或->
示例:
在命令窗口输入
x<-2
此时,变量a的值就为2。2->a的功能与a<-2一样。赋值符号也可以用=替代,但是在某些情况下会出错,所以不建议在R语言中使用。
4. R语言数据类型
4.1基本数据类型
R语言中基本数据类型是指仅包含一个数值的数据类型,主要包括数值型、字符型、逻辑型、空值等。
(1)数值型
如1,3.14等能够进行数学运算的数字。
(2)字符型
即文本数据,需放在双引号或单引号之间,如"a”、'abc'、"张三"。
特别提示,这里的单引号和双引号都是英文输入法下的双引号和单引号,中文的符号只能算是普通文本。在各种编程语言中,中文标点都只能作为同普通文本一样的字符使用,代码中不应出现,如下代码会出现错误:
x<-“hello R”
y<-‘hello R’
下面是正确代码(注意引号):
x<-"hello R"
y<- 'hello R'
用中文标点符号替代英文符号是初学编程的人最容易出现的错误,需特别注意以免打击学习积极性。
(3)逻辑型
逻辑型数据只有两个取值TRUE和FALSE,TRUE和FALSE必须是大写的。TRUE 和FALSE可以分别简写为T和F,也必须大写。如:
x<-TRUE
y<-FALSE
(4)空值
在统计数据中常常会出现一些缺失的值,R语言中用一个特殊的值NA(大写)来表示。NA与其他数据的运算结果都是NA。如:
x<-NA
有时候,不能确定一个变量是否是空值,R语言提供了一个函数is.na()用来判断是否空值,如:
x<-NA
is.na(x)
结果为TRUE。
4.2数据对象
R语言中数据对象是指包含一组数值的数据类型,主要包括向量、矩阵、数组、列表、数据框。
(1)向量
向量是由相同基本类型数值组成的序列,可以认为其等同于数学中的向量,在R语言
中向量的使用相当频繁。
在R语言中使用函数c()来创建一个向量,如:
x<-c(1,2,3,4,5)
x
输出为:
[1] 1 2 3 4 5
其中[1]为输出内容的行号。
a. 向量运算
向量的加减乘除运算是对向量元素的加减乘除运算。
输入
x x+1 x 输出为 [1]2 3 4 5 输入 x<-c(1,2,3,4) y<-c(1,1,1,1) x+y 输出为 [1]2 3 4 5。 b. 快速生成有序向量(函数seq和rep) 在需要大量有序数值向量时,为了避免手工输入的麻烦,R语言提供了快速生成的方法。如: 输入 x<-1:10 x 输出为 [1] 1 2 3 4 5 6 7 8 9 10 输入 x<-10:1 x 输出为 [1] 10 9 8 7 6 5 4 3 2 1 上述利用“:”只能生成步长为1的向量,若要生成任意步长的向量需要使用函数seq(),它有三个参数,(最小值,最大值,步长)。如: 输入 x<-seq(1,20,2) x 输出为 [1] 1 3 5 7 9 11 13 15 17 19 输入 x<-seq(1,5,0.5) x 输出为 [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 别外一个函数rep()可以通过重复一个基本数值或数值对象多次来创建一个较长的向量,它有二个参数,(数据,重复次数)。如: 输入 x<-rep(1,10) x 输出 [1] 1 1 1 1 1 1 1 1 1 1 输入 x<-rep(c(1,2,3),3) x 输出 [1] 1 2 3 1 2 3 1 2 3 c. 向量索引 向量索引也称为向量中数值元素的下标,用来引用向量中的单个数值,用方括号[]表示,如: 输入 x<-c(1,2,3,4,5) x[1] 输出 [1] 1 向量索引除了引用单个值之外,还起过滤的作用,如:输入 x<-c(1,2,3,4,5) x[x>3] 输出x中大于3的数值 [1] 4 5 d.常用的向量函数 提示:利用help函数可以查看R语言文档。例如,当不知道replace函数的功能时,输入help(replace),在RStudio右下的help窗口中即显示repalce函数的详细说明。 (2)矩阵 矩阵运算虽然是统计理论的重要工具,但与基本统计方法的应用关系不大,因此没有矩阵运算基础可以跳过本部分。 R语言中的矩阵基本等同与数学中的矩阵。R语言中使用matrix函数创建一个矩阵。matrix函数有三个参数,(数值向量,行数,列数)。如: 输入 x<-matrix(c(1,2,3,4),2,2) x 输出两行两列的矩阵及其行号和列号 [,1] [,2] [1,] 1 3 [2,] 2 4 matrix还有第四个参数byrow,即数据向量转为矩阵时数据的排列顺序,其默认值为FALSE,如: 输入 x<-matrix(c(1,2,3,4),2,2,TRUE) 输出 [,1] [,2] [1,] 1 2 [2,] 3 4 a. 矩阵运算 矩阵的+-*/运算是对矩阵元素的运算,如:输入 x<-matrix(c(1,2,3,4),2,2) x*2 输出 [,1] [,2] [1,] 2 6 [2,] 4 8 输入 x<-matrix(c(1,2,3,4),2,2) y<-matrix(c(5,6,7,8),2,2) x+y 输出 [,1] [,2] [1,] 6 10 [2,] 8 12 矩阵运乘法运算符号为%*%,如: 输入 x<-matrix(c(1,2,3,4),2,2) y<-matrix(c(5,6,7,8),2,2) x%*%y 输出 [,1] [,2] [1,] 23 31 [2,] 34 46 b. 矩阵下标 矩阵下标类似向量的下标。所不同的是,向量是两维的,下标包括两个数字,表示相应元素所在的行和列,如: 输入 x<-matrix(c(1,2,3,4),2,2) x[1,2] 输出第一行第二列元素 [1] 3 c. 常用的矩阵函数 (3)数组 R语言中,数组是向量和矩阵的推广,向量和矩阵是数组的特殊形式。向量是一维数组,而矩阵是二维数组。利用array()函数创建数组,其参数为(数据向量,维数向量)如:输入 x<-array(c(1,2,3,4),c(2,2)) x 上述语句输入数据为1,2,3,4,生成两行两列的数组,输出为 [,1] [,2] [1,] 1 3 [2,] 2 4 所以,array(c(1,2,3,4),c(2,2)等价于matrix(c(1,2,3,4),2,2)。利用array函数可以生成更高维的数组。 注意:向量、矩阵和数组中也可以包含其他的数据类型,如字符型、逻辑型、空值。(4)列表 向量、矩阵和数组要求元素必须为同一基本数据类型。如果一组数据需要包含多种类型的数据,则可以使用列表,如: 输入 x<-list(a=1,b=2,c=3) 输出为 $a [1] 1 $b [1] 2 $c [1] 3 与向量、矩阵和数组相比,列表没有下标号,但是每个数据都有一个名字。数组使用下标来引用元素,而列表用名字来引用元素,如: 输入 x<-list(a=1,b=2,c=3) x$a 输出 [1] 1 列表与向量、矩阵和数组的另一个重要区别是,向量、矩阵和数组的元素只能是一个简单基本数据,而列表的元素还可以是其他的其他各种数据对象,比如向量、矩阵、数组或者另一个列表,如: 输入 x<-list(a=1,b=c(1,2,3),c="ab",d=c("a","c","c"),e=matrix(c(1,2,3,4),2,2),f=list(a=1,b =2)) x 这是一个复杂的列表,a为数字,b为向量,c为字符,d为字符向量,e为矩阵,而f Liu Chen 为另一个列表。输出为 $a [1] 1 $b [1] 1 2 3 $c [1] "a" $d [1] "a" "c" "c" $e [,1] [,2] [1,] 1 3 [2,] 2 4 $f $f$a [1] 1 $f$b [1] 2 列表的名字可以连续引用,输入 x$f$a 输出为 [1] 1 (5)数据框 数据框是另一种可以有不同基本数据类型元素的数据对象。简单来说,一个数据框包含多个向量,向量的数据类型可以不一样。因此,数据框是介于数组和列表之间的一种数据对象,与矩阵相比它可有不同数据类型,与列表相比它只能包含向量,而且这些向量的长度通常是相等的。 a. 创建数据框 R语言使用data.frame()来创建数据框,如: 输入 x<-c("张三","李四","王五","赵六") y<-c("男","女","女","男") z<-c(89,90,78,67) data.frame(x,y,z) 输出为 x y z 1 张三男89 2 李四女90 3 王五女78 4 赵六男67 其中,每行行首的数字是该行名字,可以使用https://www.doczj.com/doc/9011539659.html,s()来重新为每行命名。 输入 https://www.doczj.com/doc/9011539659.html,s(student)<-c("a","b","c","d") student 输出 x y z a 张三男89 b 李四女90 c 王五女78 d 赵六男67 当然,数据框中每列向量也可以有名字,如: 输入 data.frame(姓名=x,性别=y,分数=z) 输出为 姓名性别分数 1 张三男89 2 李四女90 3 王五女78 4 赵六男67 注意,这些的姓名、性别和分数为变量,所以不能加引号。 b. 数据框中数据的引用 获取数据框中的一行或多行: 输入 student[1,] 输出 x y z a 张三男89 输入 student[(1:2),] 输出 x y z a 张三男89 b 李四女90 获取数据框一列或多列: 输入 student[,1] 输出 [1] 张三李四王五赵六 输入 student[,(1:2)] 输出 x y a 张三男 b 李四女 c 王五女 d 赵六男 还可以用访问列表数据的方式访问数据框:输入 student$x 输出 [1] 张三李四王五赵六 同向量的引用一样,可以过滤数据框中的数据,如: 输入 student[student$y>80,] 输出 x y z a 张三男89 b 李四女90 5. 数据导入导出 分别介绍利用RStudio导入数据,利用R函数导入导出数据。初学者可以忽略后一种方法。 假设有文件student.txt以及student.csv,csv文件是以Tab符号分隔的文本文件,Excel 数据可以另存为csv文件(Mac 系统中建议使用Numbers编辑、导出csv文件,以避免出现乱码)。这两个文件内容相同: 姓名性别分数 张三男89 李四女90 王五女78 赵六男67 5.1 利用RStudio导入数据 顶部菜单选择tools->Import Dataset->From Local File,弹出窗口选择要导入的数据文件,然后弹出如下窗口: 因为数据文件中包含了列名,所以Heading选择yes;文件中列是用逗号分隔的,所以Separator选择Comma,点击Import即可导入数据并保存入student对象。 其他格式文件的导入方法一样。 5.2 导入R包中的数据 R的扩展包中常常包含样例数据,这些数据有助于学习扩展包的功能。此外,datasets 包中包含大量的数据,可以用来学习R语言。要想利用这些数据,就要将它们导入到当前工作空间中来。可以利用data函数导入扩展包中的数据,如: 输入 data(package="datasets") 该命令导入datasets包中的全部数据。 输入