深入理解C语言

fmms 12年前
     <p> Dennis Ritchie  过世了，他发明了C语言，一个影响深远并彻底改变世界的计算机语言。一门经历40多年的到今天还长盛不训的语言，今天很多语言都受到C的影响，C++，Java，C#，Perl， PHP， Javascript， 等等。但是，你对C了解吗？相信你看过本站的《<a title="C语言的谜题" href="/misc/goto?guid=4958197012092950411" target="_blank">C语言的谜题</a>》还有《<a title="谁说C语言很简单？" href="/misc/goto?guid=4958197013049845269" target="_blank">谁说C语言很简单？</a>》，这里，我再写一篇关于深入理解C语言的文章，一方面是缅怀 Dennis，另一方面是告诉大家应该如何学好一门语言。（顺便注明一下，下面的一些例子来源于<a href="/misc/goto?guid=4958197013799634761" target="_blank">这个 slides</a>）</p>    <p> 首先，我们先来看下面这个经典的代码：</p>    <blockquote>     <pre class="brush:cpp; toolbar: true; auto-links: false;">    　　int main ()        　　{        　　int a = 42;        　　printf(“%d\n”， a);        　　}</pre>    </blockquote>    <p> 从这段代码里你看到了什么问题？我们都知道，这段程序里少了一个#include <stdio.h> 还少了一个 return 0;的返回语句。</p>    <p> 不过，让我们来深入的学习一下，</p>    <ul>     <li>这段代码在 C++ 下无法编译，因为 C++ 需要明确声明函数</li>     <li>这段代码在C的编译器下会编译通过，因为在编译期，编译器会生成一个 printf 的函数定义，并生成.o 文件，链接时，会找到标准的链接库，所以能编译通过。</li>     <li> 但是，你知道这段程序的退出码吗？在 ANSI-C下，退出码是一些未定义的垃圾数。但在 C89 下，退出码是3，因为其取了 printf 的返回值。为什么 printf 函数返回3呢？因为其输出了’4′， ’2′，’\n’ 三个字符。而在 C99 下，其会返回0，也就是成功地运行了这段程序。你可以使用 gcc 的 -std=c89或是-std=c99来编译上面的程序看结果。</li>     <li>另外，我们还要注意 main ()，在C标准下，如果一个函数不要参数，应该声明成 main (void)，而 main ()其实相当于 main (…)，也就是说其可以有任意多的参数。</li>    </ul>    <p> 我们再来看一段代码：</p>    <blockquote>     <pre class="brush:cpp; toolbar: true; auto-links: false;">    　　#include <stdio.h>        　　void f(void)        　　{        　　   static int a = 3;        　　   static int b;        　　   int c;        　　   ++a; ++b; ++c;        　　   printf("a=%d\n", a);        　　   printf("b=%d\n", b);        　　   printf("c=%d\n", c);        　　}        　　int main (void)        　　{        　　   f();        　　   f();        　　   f();        　　}</pre>    </blockquote>    <p> 这个程序会输出什么？</p>    <ul>     <li>我相信你对a的输出相当有把握，就分别是4，5，6，因为那个静态变量。</li>     <li>对于c呢，你应该也比较肯定，那是一堆乱数。</li>     <li>但是你可能不知道b的输出会是什么？答案是1，2，3。为什么和c不一样呢？因为，如果要初始化，每次调用函数里，编译器都要初始化函数栈空间，这太费性能了。但是c的编译器会初始化静态变量为0，因为这只是在启动程序时的动作。</li>     <li>全局变量同样会被初始化。</li>    </ul>    <p> 说到全局变量，你知道静态全局变量和一般全局变量的差别吗？是的，对于 static 的全局变量，其对链接器不可以见，也就是说，这个变量只能在当前文件中使用。</p>    <p> 我们再来看一个例子：</p>    <blockquote>     <pre class="brush:cpp; toolbar: true; auto-links: false;"> 　　#include <stdio.h>    　　void foo (void)    　　{    　　int a;    　　printf("%d\n", a);    　　}    　　void bar (void)    　　{    　　int a = 42;    　　}    　　int main (void)    　　{    　　bar ();    　　foo ();    　　}</pre>     <br />    </blockquote>    <p> 你知道这段代码会输出什么吗？A) 一个随机值，B) 42。A 和 B 都对（在“<a title="在函数外存取局部变量的一个比喻" href="/misc/goto?guid=4958197014533739155" target="_blank">在函数外存取局部变量的一个比喻</a>”文中的最后给过这个例子），不过，你知道为什么吗？</p>    <ul>     <li>如果你使用一般的编译，会输出42，因为我们的编译器优化了函数的调用栈（重用了之前的栈），为的是更快，这没有什么副作用。反正你不初始化，他就是随机值，既然是随机值，什么都无所谓。</li>     <li>但是，如果你的编译打开了代码优化的开关，-O，这意味着，foo ()函数的代码会被优化成 main ()里的一个 inline 函数，也就是说没有函数调用，就像宏定义一样。于是你会看到一个随机的垃圾数。</li>    </ul>    <p> 下面，我们再来看一个示例：</p>    <blockquote>     <pre class="brush:c#; toolbar: true; auto-links: false;">    　　#include <stdio.h>        　　int b(void) { printf(“3”); return 3; }        　　int c(void) { printf(“4”); return 4; }        　　int main (void)        　　{        　　   int a = b () + c ();        　　   printf(“%d\n”， a);        　　}</pre>    </blockquote>    <p> 这段程序会输出什么？，你会说是，3，4，7。但是我想告诉你，这也有可能输出，4，3，7。为什么呢？ 这是因为，在C/C++中，表达的评估次序是没有标准定义的。编译器可以正着来，也可以反着来，所以，不同的编译器会有不同的输出。你知道这个特性以后，你就知道这样的程序是没有可移植性的。</p>    <p> 我们再来看看下面的这堆代码，他们分别输出什么呢？</p>    <p>示例一</p>    <blockquote>     <p><code></code></p>     <pre class="brush:cpp; toolbar: true; auto-links: false;"><code>int a=41; a++; printf("%d\n", a);</code></pre>     <code></code>     <p></p>    </blockquote>    <p>示例二</p>    <blockquote>     <p> <code>int</code> <code>a=41; a++ & </code><code>printf</code><code>(</code><code>"%d\n"</code><code>, a);</code></p>    </blockquote>    <p>示例三</p>    <blockquote>     <pre class="brush:cpp; toolbar: true; auto-links: false;">int a=41; a++ && printf("%d\n", a);</pre>     <code></code>     <p></p>    </blockquote>    <p>示例四</p>    <blockquote>     <p></p>     <pre class="brush:cpp; toolbar: true; auto-links: false;">int a=41; if (a++ < 42) printf("%d\n", a);</pre>     <code></code>     <p></p>    </blockquote>    <p>示例五</p>    <blockquote>     <p></p>     <pre class="brush:cpp; toolbar: true; auto-links: false;">　　int a=41; a = a++; printf("%d\n", a);</pre>     <code></code>     <p></p>    </blockquote>    <p> 只有示例一，示例三，示例四输出42，而示例二和五的行为则是未定义的。关于这种未定义的东西又叫 Sequence Points，因为这会让编译器不知道在一个表达式顺列上如何存取变量的值。比如a = a++，a + a++，不过，在C中，这样的情况很少。</p>    <p> 下面，再看一段代码：（假设 int 为4字节，char 为1字节）</p>    <blockquote>     <pre class="brush:cpp; toolbar: true; auto-links: false;">    　　struct X { int a; char b; int c; };        　　printf("%d,", sizeof(struct X));        　　struct Y { int a; char b; int c; char d};        　　printf("%d\n", sizeof(struct Y));</pre>     <br />    </blockquote>    <p> 这个代码会输出什么?</p>    <p> a) 9，10</p>    <p> b)12, 12</p>    <p> c)12, 16</p>    <p> 答案是C，我想，你一定知道字节对齐，是向4的倍数对齐。</p>    <ul>     <li>但是，你知道为什么要字节对齐吗？还是因为性能。因为这些东西都在内存里，如果不对齐的话，我们的编译器就要向内存一个字节一个字节的取，这样一来，struct X，就需要取9次，太浪费性能了，而如果我一次取4个字节，那么我三次就搞定了。所以，这是为了性能的原因。</li>     <li>但是，为什么 struct Y 不向 12 对齐，却要向16对齐，因为 char d; 被加在了最后，当编译器计算一个结构体的尺寸时，是边计算，边对齐的。也就是说，编译器先看到了 int，很好，4字节，然后是 char，一个字节，而后面的 int 又不能填上还剩的3个字节，不爽，把 char b 对齐成4，于是计算到d时，就是 13 个字节，于是就是16啦。但是如果换一下d和c的声明位置，就是12了。</li>    </ul>    <p> 另外，再提一下，上述程序的 printf 中的%d并不好，因为，在64位下，sizeof 的 size_t是 unsigned long，而32位下是 unsigned int，所以，C99引入了一个专门给 size_t用的%zu。这点需要注意。在64位平台下，C/C++ 的编译需要注意很多事。你可以参看《<a title="64位平台C/C++开发注意事项" href="/misc/goto?guid=4958190874516626487" target="_blank">64位平台C/C++开发注意事项</a>》。</p>    <p> 下面，我们再说说编译器的 Warning，请看代码：</p>    <blockquote>     <pre class="brush:cpp; toolbar: true; auto-links: false;">    　　#include <stdio.h>        　　int main (void)        　　{        　　int a;        　　printf("%d\n", a);        　　}</pre>     <br />    </blockquote>    <p> 考虑下面两种编译代码的方式 ：</p>    <ul>     <li>cc -Wall a.c</li>     <li>cc -Wall -O a.c</li>    </ul>    <p> 前一种是不会编译出a未初化的警告信息的，而只有在-O的情况下，再会有未初始化的警告信息。这点就是为什么我们在 makefile 里的 CFLAGS 上总是需要-Wall 和 -O。</p>    <p> 最后，我们再来看一个指针问题，你看下面的代码：</p>    <blockquote>     <pre class="brush:cpp; toolbar: true; auto-links: false;"> 　　#include <stdio.h>    　　int main (void)    　　{    　　int a[5];    　　printf("%x\n", a);    　　printf("%x\n", a+1);    　　printf("%x\n", &a);    　　printf("%x\n", &a+1);    　　}</pre>     <br />    </blockquote>    <p> 假如我们的a的地址是：0Xbfe2e100, 而且是32位机，那么这个程序会输出什么？</p>    <ul>     <li>第一条 printf 语句应该没有问题，就是 bfe2e100</li>     <li>第二条 printf 语句你可能会以为是 bfe2e101。那就错了，a+1，编译器会编译成 a+ 1*sizeof (int)，int 在32位下是4字节，所以是加4，也就是 bfe2e104</li>     <li>第三条 printf 语句可能是你最头疼的，我们怎么知道a的地址？我不知道吗？可不就是 bfe2e100。那岂不成了a==&a啦？这怎么可能？自己存自己的？也许很多人会觉得指针和数组是一回事，那么你就错了。如果是 int *a，那么没有问题，a == &a。但是这是数组啊a[]，所以&a其实是被编译成了 &a[0]。</li>     <li>第四条 printf 语句就很自然了，就是 bfe2e104。</li>    </ul>    <p> 看过这么多，你可能会觉得C语言设计得真拉淡啊。不过我要告诉下面几点 Dennis 当初设计C语言的初衷：</p>    <p> <strong>1）相信程序员，不阻止程序员做他们想做的事。</strong></p>    <p> <strong>2）保持语言的简洁，以及概念上的简单。</strong></p>    <p> <strong>3）保证性能，就算牺牲移植性。</strong></p>    <p> 今天很多语言进化得很高级了，语法也越来越复杂和强大，但是C语言依然光芒四射，Dennis 离世了，但是C语言的这些设计思路将永远不朽。<br /> <br /> 来自: <a id="link_source2" href="/misc/goto?guid=4958197015955441598" target="_blank">coolshell.cn</a></p>
深入理解C语言

相关资讯