当前位置:文档之家› 如何透彻理解C语言中指针的概念

如何透彻理解C语言中指针的概念

如何透彻理解C语言中指针的概念
如何透彻理解C语言中指针的概念

如何透彻理解C语言中指针的概念

强大的指针功能是C语言区别于众多高级语言的一个重要特征。C语言指针的功能强大,使用灵活多变,可以有效地表示复杂的数据结构、动态分配内存、高效地使用数组和字符串、使得调用函数时得到多个返回值。而它的应用远不限于此。初学者对于指针的概念总是感到无所适从,有时觉得“自己懂了,为什么编译器就是不懂呢”,常有茫然和无助的感觉。

学好指针的关键在于深入了解内存地址的空间可以理解为一个一维线性空间,内存的编址和寻址方法,以及指针在使用上的一些规定。事实上,指针就是方便我们对内存地址直接进行操作的,是为程序员服务的,我们只要抓住指针想要帮助我们解决什么问题这个核心,就可以轻松地理解它的工作原理。

什么是指针,指针有什么作用

指针就是指向一个特定内存地址的一个变量。简化了的内存空间模型是按照从0到某一个数(比如1048575=1M-1)的一维线性空间,其中的每一个数对应一个存储单元,即1个字节。指针有两个属性:指向性和偏移性。指向性指的是指针一定要有一个确定的指向,偏移性则是体现指针重要应用的方面,即指针可以按程序员的要求向前或向后偏移。

指针的应用往往与数组联系在一起,为了方便说明问题,不妨从数组开始解释指针的偏移。数组就是许多的变量,它的一个重要特征就是在内存空间中连续地存放,而且是按下标顺序存放。比如我们定义一个有100个变量的一维整型数组,它一定从内存的某一个存储单元开始按数组下标顺序存放,连续占用100*4=400字节。当我们定义一个数组时,系统就会自动为它分配一个指针,这个指针指向数组的首地址。(在本文剩余部分的论述中,不加区分地使用“指向数组的首地址”与“指向数组的第一个元素”这两种说法,事实上这两种说法也是一致的。)

为了让系统了解每一次指针偏移的单位,也为了方便程序员进行指针偏移(让程序员记住一个整形变量占用4字节,一个字符型变量占用1字节……等等是很麻烦的),不用每次去计算要偏移多少个字节,C语言引入了指针的基类型的概念。基类型的作用就是让系统了解某个指针每次偏移的字节数。比如,对于一个字符型指针,它每次偏移(比如ptr=ptr+1)所起到的作用就是让指针偏移1字节;而对于一个整型指针,它每次偏移就应该是4字节。这样操作数组时就带来了方便。比如对于一个指向某个整型数组起始存储单元(称为首地址)的指针ptr,ptr=ptr+1就表示将该指针指向这个数组的下一个元素的存储单元,即向后移动4字节,而不仅仅是移动一个存储单元(即移动1字节)。

&()、*()、和[ ]运算符的意义

在本文中,将&()、*()和[ ]都看成是运算符。这样可以方便理解这三个概念。简单地说,&()将某个标识符(比如变量)转化为其在内存空间中的地址,而*()是产生一个对应于某个地址的标识符,[ ]就更复杂一点,ptr[i]表示

将ptr这个指针虚拟地按其基类型进行i个单位的后移,再进行*(ptr)运算。但这是一个虚拟的后移,即ptr[i]并不改变ptr的指向,只是将其后移i个单位并取*()运算的结果算出来了而已。要改变指针的指向,我们只能通过类似于

ptr=ptr+i这样的语句来实现。

实际中,我们往往不愿意经常改变指针的指向,因为指针的移动虽然是自由的,但移动后往往会“移不回来”,因为我们可能无法清楚地确定指针的偏移量。后面我们将看到,对于用指针来表示的数组,其元素的引用和赋值是完全可以不用改变指向这个数组的首地址的指针指向的,而一旦要改变这个指针的指向,问题就会变得复杂一些,我们在后面有一个关于程序的命令行参数处理例子专门介绍这个问题。

指针类型和系统自动分配的指针

指针可以指向几乎所有我们感兴趣的程序设计要素:函数、数组、结构体、链表节点等等。其中不同函数间往往并不存在严格的线性关系。链表节点可以根据算法需要在逻辑上(或物理上)不按线性连续存储。但数组、结构体的共同特征就是它们在物理上都是线性连续存储的。只要指针指向了它们的首地址,就可以通过简单的偏移来访问各个它们的元素。指针的偏移性在这两种数据结构中发挥着至关重要的作用。这时,我们再回想基类型的定义目的,就会有更深层次的认识了。对于一个数组或结构体,它的基类型长度应当是其元素的长度(这里的长度即指在内存空间中占用的字节数),而不再限于定义为某种简单数据类型的长度。

在我们定义数组和函数时,系统都会为其自动分配一个指向其首地址的指针。其中,指针在数组中的应用是最频繁的,也是最基础的。对于一个数组,其名称就是一个指针变量,亦即假如我们定义“int a[10];”的同时就定义了“int *a=a;”(这只是为了说明问题,这样的语句显然是不合法的)。

数组应用中典型的二级指针

设定一个指向指针的指针,即设定一个二级指针。一般认为,指针不宜超过二级,否则会大大增加逻辑错误出现的可能性。因此,下面详细解释数组二级指针的实现方法及原理。在此基础上理解指针的其它相关概念是非常简单的。

刚才一直提及指针的基类型,以及对它的正确理解方法。请在阅读下面论述的过程中不断地考虑“我们所提到的每个指针的基类型是什么”这个问题。

首先我们先要对二维数组进行重新定义,即将一个M*N的二维数组定义为有M个元素的一维数组,它的每个元素都是一个具有N个元素的一维数组。这种理解方式对于以前学习过Basic、Pascal等语言的程序员来说比较难以接受,因为它们更容易直观地将其理解为一张二维表。事实上,二维数组在内存中

的线性存储是这样实现的:把每一行看作它的一个元素,然后按照一维数组的按下标顺序排列的原则以每一行为单位进行排列。而对于每一行,也还是按照一维数组按下标顺序排列的原则进行排列。也就是说,我们可以按行优先的方式将数组的数字逐个“填入”内存空间。或者也可以说,多维数组在内存中的排列方式是递归定义的。

既然如此,当我们定义“int a[10][10];”的时候,a是什么样的指针呢?是的,a就是一个二级指针。它的基类型是有10个元素的一维数组,不再是整型变量了。它所指向的是一维数组指针(第一行的数组指针)。当我们执行a=a+1的时候,a将指向二维数组第二行的数组指针,而不是第一行的第二个元素,因为基类型的长度决定了a+1跨越了一整行。

因此,我们要得到数组a的(i,j)位置上的元素的值,应该按照下面的步骤来进行:

1、 a+i,这表示将a指针移到第i行的首地址。

2、*(a+i),这表示将第i行的首地址转化为第i行的标识符,前面已经述及,*()运算符的作用就是将地址转化为标识符。但*(a+i)不是第i行的第一个元素而是一个指针,这个指针的基类型已经变成了整型变量,不再是有10个元素的一维数组了。或许你要说,第i行的首地址不就是第i行第一个元素的地址吗?那么*(a+i)不就是第i行第一个元素的值了?首先,我们可以肯定

*(a+i)不是第i行第一个元素的值,但第i行的首地址的确就是第i行第一个元素的地址。前面对*()运算符的说明只是一个表面现象,下面的说法可以辅助你理解*()运算符的真正本质:*()将指针还原为其所指,而不是简单地将地址变成这个地址所存储的值。*()将地址变成这个地址所存储的值这样的说法只对一级指针是正确的。对于二级指针,*()只是将二级指针还原为其所指,即还原为一级指针。物理上“第i行的首地址同时就是第i行第一个元素的地址”这一事实,是容易导致混淆的根本原因。但只我们要从逻辑的角度出发,就可以较为轻松地理解这个问题。

3、*(a+i)+j,这表示将一级指针向后偏移j个单位,要注意*(a+i)这个指针已经是一个以整型变量为基类型的指针了。这时*(a+i)+j是一个偏移后的一级指针,它的值是a[i][j]元素的地址,亦即它所指的就是a[i][j]元素。

4、*(*(a+i)+j),将一级指针还原为其所指,即得到了a[i][j]元素的值。

理解了以上的概念,将会对指针有全新的认识,而对于二级以上的指针和其它类型的指针,原理也都是类似的。对指针的更深入理解只有在编程的实践中得到。从算法设计的角度来看,使用指针对数组进行遍历等操作可降低时间复杂度,因为指针按照基类型偏移1个单位的效率很高。

一维指针数组中的二级指针

透彻地理解下面这段程序对于进一步理解指针的原理是很有裨益的。下面是一个将系统分配的指针(即数组名指针)进行偏移的例子:

main(int argc,char *argv[])

{

while (argc>1) {

++argv;

printf(“%s\n”,*argv);

--argc;

}

}

粗略地看,不难发现这个程序的作用就是将其命令行参数(不包括第一个程序路径及文件名参数)逐个输出。但其中却用到了二级指针,究竟是也不是,我们从细节入手分析。

首先,argv是一个指针数组,它的每个元素所指向的是每个命令行参数字符串的首地址。比如,我们的参数是“abc def”,那么argv[1]和argv[2]所指向的就分别是字符串“abc”和“def”的首地址(注意argv[0]指向的是程序路径及文件名字符串的首地址)。

那么,第四行的++argv是什么意思呢?我们知道,一个数组的名称就是一个指针,在没有被改动的情况下,它指向这个数组的首地址。++argv的作用就是将argv这个指针(数组名)按照其基类型宽度向后移动一个单位,如果原来argv所指向的是argv这个数组的首地址,那么执行以后它将指向其第二个元素(即argv[1])。也就是说,这个程序改动了数组名(本身也就是一个指针)的指向,不断将其后移。

理解到这里,你可能已经初步感到问题并不像看上去那么简单了。下面的一句“printf(“%s\n”,*argv)”更是有意义了。你会不会觉得奇怪呢?因为printf(“%s”,ptr)或者puts(ptr)所需要的参数都是指针。既然argv已经是指针,又为什么要在前面再加上一个“*”运算符呢?原因如下:argv确实是指针,但它所指的argv这个数组自己的某一个元素(因为我们已经分析过,argv 这个指针是从自己的第一个元素argv[0]的地址开始不断地后移的)。这看起来和一个指向字符串的指针char *ptr=”string content”是类似的。但我们在输出ptr指针所指的字符串时是使用printf(“%s”,ptr)而不是

printf(“%s”,*ptr)来输出的。那如果我们的这句话是

“printf(“%s\n”,argv)”会怎样呢?程序运行后得到的是一堆乱码。那这堆乱码是什么呢?这堆乱码实际上是argv这个在不断向后移动的指针的所指,即argv数组的元素的地址(如&argv[1],&argv[2]等),也即指向某个命令行参数字符串的首地址的指针的地址。如果能理解到这一点,就会知道为什么我们说这个短短的程序中用到了二级指针了。既然argv只是argv这个数组的某个元素的地址,那么加上一个“*”运算符对其进行间接访问,即可得到argv数组的元

素的值,这个值是一个指针,它指向某个命令行参数字符串的首地址。因此这个语句的意义也就大白于天下了。事实上,这个语句还可以等价地写为

“printf(“%s\n”,argv[0])”,因为对于一个指针来说,*(ptr)运算与ptr[0]运算是无条件等价的。不要认为这个语句等价为“printf(“%s\n”,argv[i])”(i是循环变量),因为argv这个数组名指针本身已经在后移了,不能用i再次进行后移。

虽然理解起来显得复杂,但程序本身却短小精悍,可以作为处理命令行参数的一般方法来使用。这也从一个侧面证明了指针可以大大简化某些程序设计过程。

由此我们可以总结出,所有指针数组中都包含了二级指针。第一次由指针数组名指向其元素,第二次由其元素再次指向其它的程序设计要素(本例中是字符串的首地址)。

使用字符串常量的一个常见错误分析

这个部分留给具有一定编程经验的读者。如果要使用C语言编写复杂应用程序,下面的知识是必须的。

在指针应用中容易导致错误的一种常见行为就是对字符串常量进行更改。程序员在对字符串常量进行引用、修改时,一定要特别注意C语言对于字符串常量的处理方法。否则,容易导致十分隐蔽的错误。这些错误往往集中在熟悉Pascal等编程语言的程序员身上,并在OOP编程中出现。

当程序中包含了几个字符串常量时,这些常量是在程序入口一次性分配内存的,而不是在每次执行某个函数时开辟一块新的内存区域来存放的。下面用一个具体的错误例子来说明这个问题。

这是一个C++ Builder 6下的例子。某个窗体的代码中包含下面两个事件函数:

void __fastcall TfrmMain::btnSearchClick(TObject *Sender)

{

nmuMain->InputString = edtKeyword->Text;

char* query = new char[ nmuMain->Encode.Length() + 1 ];

strcpy (query, nmuMain->Encode.c_str() );

HTTPGet(strcat("https://www.doczj.com/doc/1c5939167.html,/search?hl=zh-CN&q=",query)); }

void __fastcall TfrmMain::nmhMainSuccess(CmdType Cmd)

{

frmMain->pnlStatus->Caption = "Successfully retrieved data from Google.";

AddResults();

}

在btnSearchClick事件中,请注意strcat(str1,str2)这个函数。它的作用是将str2连接到str1的后面。这将导致str1变长。这会导致两种后果:

第一,当用户再次点击btnSearch时,HTTPGet()函数的参数将变成“https://www.doczj.com/doc/1c5939167.html,/search?hl=zh-CN&q=”和第一次用户提供query,以及第二次用户提供的query。为什么呢?因为字符串常量

“https://www.doczj.com/doc/1c5939167.html,/search?hl=zh-CN&q=”变长了,它已经包含了第一次用户提供的query。

第二,第二个事件函数中的“Successfully retrieved data from Google.”将被替换成用户输入的query。这又是为什么呢?前已述及,两个字符串常量是在程序入口一次性分配内存的。它们是在内存中连续存放的。因此第一个字符串常量变长自然就替换了后面字符串常量。如果没有意识到这一点,很可能导致难以预料的严重系统错误。事实上,C语言对字符串的起始和结束的判定严格遵守下面的简单规律:根据字符串名称(是一个指针)指向的地址来确定字符串的起始,根据“\0”转义符来确定字符串的中止。

为了修正上面的错误,应该避免对字符串常量进行修改。即将第一个事件函数改为:

void __fastcall TfrmMain::btnSearchClick(TObject *Sender)

{

nmuMain->InputString = edtKeyword->Text;

char* query = new char[ nmuMain->Encode.Length() + 1 ];

char searchstr[41];

char* original_searchstr =

"https://www.doczj.com/doc/1c5939167.html,/search?hl=zh-CN&q=";

strcpy (searchstr, original_searchstr );

strcpy (query, nmuMain->Encode.c_str() );

HTTPGet(strcat(searchstr,query));

}

此外,在OOP编程中,应该注意两个有关字符串的问题。第一,如果采用 char* str = new char[ length ];来分配内存空间,虽然可以实现根据带有变量的表达式length“动态”分配内存空间的效果,比如length=i+j-1;但这种分配也是一次性的,即下一次执行该语句时,不会再次分配新的内存区域。第二,C++ Builder从Pascal的VCL中引入了AnsiString类型,这是一种指针类型。应注意绝大部分C++ Builder的函数中如果要求AnsiString作参数(不论是要求地址还是指针),都应提供字符串名称来作参数。典型的例子包括str.pos(str1),ShowMessage(str),以及上面的例子中出现的几种情况。

最后,所有C++ Builder程序员不应忘记VCL是用Pascal语言编写的。

遇到一些难以解决或解释的问题时,不妨从Pascal语言的编程思想入手,一般很快就能想到解决办法(绝大部分Object Pascal函数都有对应的C语言版本)。这种方法对于学过Delphi的程序员来说是特别有用的。

以上只是对指针基本概念的简单论述,旨在让初学者能透彻地理解指针的概念。限于作者水平,不妥之处在所难免,请各位读者不吝赐教。只有学习好指针的相关概念,才能真正发挥C语言的强大功能,编写出质量上乘的系统软件。而对于指针的使用技巧,只能在编程过程中日积月累,经历从量变到质变的过程。

相关主题
文本预览
相关文档 最新文档