Python 代码精简和优化

jopen 9年前

Python很简单,容易使用,开发效率很高,移植性很好,代码资源也很丰富,被广泛使用。但是Python代码编出来的动态库比较大,python库很全,缺点就是库比较大。

在内存占用方法,随着py库的引入,内存也成倍的增加,这里来讨论下如何来给Python瘦身,以及如何优化内存的占用。

 

一、如何给Python的动态库瘦身。

Python的代码还是很精练的,所以要减小小代码的大小比较困难,但是仍然有一些思路来减小Python库的大小。

1、strip python动态库。

动态库一般都是包含符号表,这些在调用的时候很有用,但是对于release版本,完全可以把符号表去调,方法就是用strip命令,这样大小可以从八九兆锐减到3兆以内。

2、使用代码优化选项:-O3,该参数会对代码进行最大程度的优化,包括优化生成的二进制代码的大小,缺点是优化后会对调试带来困难。

3、去除代码中的Doc String.

Python的代码里有用PyDoc_STRVAR宏定义的模块的帮助说明,这些是可以去掉的,方法是在configure的时候指定--without-doc-strings,这样生成的pyconfig.h中就会不会有下面的定义:

#define WITH_DOC_STRINGS 1

这可以减小生成的动态库的大小,当然在运行时也可以减小模块的内存的占用,因为这些模块不再包含帮助信息。

4、去掉unicode支持。

python中unicode支持不是必需的,当然python 3另当别论。python中要支持unicode可以采用utf-8编码的方式。去掉unicode的支持可以在configure的时候使用下面的参数:

--enable-unicode=no

这样,在pyconfig.h中会去掉下面的定义:

#define Py_USING_UNICODE 1

 

二:如何减小Python的扩展库的大小?

 

Python的扩展库放在lib目录下,可以在lib目录下执行下面的命令来编译Python代码:

python -OO -m compileall .

这样会生成pyo扩展名的库文件,-OO参数会去掉doc string,这样在py文件中注释比较多的时候可以显著减小编译目标文件的大小。

注意不要使用绝对路径:

如python -OO -m compileall /path/to/python/lib 这样使用绝对路径的命令,因为生成pyo文件的时候,,每个函数和类的方法会生成一个一个的code object对象,每个code object都会保存它所在的模块的路径,如果使用绝对路径,在路径比较长的时候,函数又比较多的时候,很显著的增加pyo文件的大小。

当然,在代码运行时,也可以减小内存的占用量。

 

三、如何裁减扩展库。

有个py2exe的工具可以打包python代码和依赖的动态库,把python所必须的扩展库打包到zip文件中,但是实际上这个zip包往往并不是最精简的。其实裁减的最大难点是要找出所有依赖的模块,可以用下面的方法来找出某个模块所依赖的其它模块:

 

    import importlib        def module_diff(mod):            import sys            keys = []            for key in sys.modules.keys():                keys.append(key)            importlib.import_module(mod)            for key in sys.modules.keys():                if not key in keys:                    print key,sys.modules[key]  
</div> </div>
如要查看multiprocessing模块所依赖的模块,可以用下面的命令:
    module_diff('multiprocessing')  


将会得到下面的输出:

    multiprocessing.atexit None        multiprocessing.weakref None        multiprocessing.signal None        threading <module 'threading' from 'C:\Python27\lib\threading.pyc'>        cPickle <module 'cPickle' (built-in)>        _multiprocessing <module '_multiprocessing' from 'C:\Python27\DLLs\_multiprocessing.pyd'>        multiprocessing.os None        multiprocessing.itertools None        multiprocessing.threading None        multiprocessing.util <module 'multiprocessing.util' from 'C:\Python27\lib\multiprocessing\util.pyc'>        multiprocessing.sys None        cStringIO <module 'cStringIO' (built-in)>        multiprocessing._multiprocessing None        multiprocessing.multiprocessing None        thread <module 'thread' (built-in)>        atexit <module 'atexit' from 'C:\Python27\lib\atexit.pyc'>        multiprocessing <module 'multiprocessing' from 'C:\Python27\lib\multiprocessing\__init__.pyc'>        weakref <module 'weakref' from 'C:\Python27\lib\weakref.pyc'>        itertools <module 'itertools' (built-in)>        time <module 'time' (built-in)>        multiprocessing.process <module 'multiprocessing.process' from 'C:\Python27\lib\multiprocessing\process.pyc'  
</div> </div>

 

这样就可以知道所依赖的模块了。

 要查看所有的模块,则更简单:

    def print_all_module():            import sys            keys = []            for key in sys.modules.keys():                print key,sys.modules[key]  
</div> </div>
在代码初始化完后执行上面的函数,就可以知道程序运行所需的模块了。