Python的字符编码

jopen 11年前

字符编码

我在第一版的《零基础学python》中，这个标题前面加了“坑爹”两个字。在后来的实践中，很多朋友都在网上问我关于编码的事情。说明这的确是一个“坑”。

首先说明，在python2中，编码问题的确有点麻烦。但是，python3就不用纠结于此了。但是，正如前面所说的原因，至少本教程还是用python2，所以，必须要搞清楚编码。当然了，搞清楚，也不是坏事。

字符编码，在编程中，是一个让学习者比较郁闷的东西，比如一个str，如果都是英文，好说多了。但恰恰不是如此，中文是我们不得不用的。所以，哪怕是初学者，都要了解并能够解决字符编码问题。

>>> name = '老齐'  >>> name  '\xe8\x80\x81\xe9\xbd\x90'

在你的编程中，你遇到过上面的情形吗？认识最下面一行打印出来的东西吗？看人家英文，就好多了

>>> name = "qiwsir"  >>> name  'qiwsir'

难道这是中文的错吗？看来投胎真的是一个技术活。是的，投胎是技术活，但上面的问题不是中文的错。

encode和decode

历史部分说完了，接下怎么讲？比较麻烦了。因为不管怎么讲，都不是三言两语说清楚的。姑且从encode()和decode()两个内置函数起吧。

codecs.encode(obj[, encoding[, errors]]):Encodes obj using the codec registered for encoding. codecs.decode(obj[, encoding[, errors]]):Decodes obj using the codec registered for encoding.

python2默认的编码是ascii，通过encode可以将对象的编码转换为指定编码格式（称作“编码”），而decode是这个过程的逆过程（称作“解码”）。

做一个实验，才能理解：

>>> a = "中"  >>> type(a)  <type 'str'>  >>> a  '\xe4\xb8\xad'  >>> len(a)  3    >>> b = a.decode()  >>> b  u'\u4e2d'  >>> type(b)  <type 'unicode'>  >>> len(b)  1

这个实验不做之前，或许看官还不是很迷茫（因为不知道，知道的越多越迷茫），实验做完了，自己也迷茫了。别急躁，对编码问题的理解，要慢慢来，如果一时理解不了，也肯定理解不了，就先注意按照要求做，做着做着就豁然开朗了。

上面试验中，变量a引用了一个字符串，所谓字符串(str)，严格地将是字节串，它是经过编码后的字节组成的序列。也就是你在上面的实验中，看到的是“中”这个字在计算机中编码之后的字节表示。（关于字节，看官可以google一下）。用len(a)来度量它的长度，它是由三个字节组成的。

然后通过decode函数，将字节串转变为字符串，并且这个字符串是按照unicode编码的。在unicode编码中，一个汉字对应一个字符，这时候度量它的长度就是1.

反过来，一个unicode编码的字符串，也可以转换为字节串。

>>> c = b.encode('utf-8')  >>> c  '\xe4\xb8\xad'  >>> type(c)  <type 'str'>  >>> c == a  True

关于编码问题，先到这里，点到为止吧。因为再扯，还会扯出问题来。看官肯定感到不满意，因为还没有知其所以然。没关系，请尽情google，即可解决。

python中如何避免中文是乱码

这个问题是一个具有很强操作性的问题。我这里有一个经验总结，分享一下，供参考：

首先，提倡使用utf-8编码方案，因为它跨平台不错。

经验一：在开头声明：

# -*- coding: utf-8 -*-

有朋友问我-*-有什么作用，那个就是为了好看，爱美之心人皆有，更何况程序员？当然，也可以写成：

# coding:utf-8

经验二：遇到字符（节）串，立刻转化为unicode，不要用str()，直接使用unicode()

unicode_str = unicode('中文', encoding='utf-8')  print unicode_str.encode('utf-8')

经验三：如果对文件操作，打开文件的时候，最好用codecs.open，替代open(这个后面会讲到，先放在这里)

import codecs  codecs.open('filename', encoding='utf8')

我还收集了网上的一片文章，也挺好的，推荐给看官：Python2.x的中文显示方法

最后告诉给我，如果用python3，坑爹的编码问题就不烦恼了。

原文： https://github.com/qiwsir/StarterLearningPython/blob/master/110.md

Python的字符编码

字符编码

encode和decode

python中如何避免中文是乱码

相关经验

目录