Dictionary(lib_texts) corpus = [dictionary.doc2bow(text) for text in lib_texts] #doc2bow(): 将collection words 转为词袋,用两元组(word_id
我非常确定,作为开发人员我们都喜爱技术文档。我们喜欢阅读文档、写文档,更不用说维护文档了,我简直爱死它了! 我也知道,每次你创建一个类或者一个方法,你都会想到要为此写文档。我也很确定你很享受于写文档,就像你喜欢偶尔美
。 下面以生成一个word表格为例,这样就ok了,测试成功,再根据自己的需求丰富一下就可以了。 WordDocument doc = new WordDocument(); Run run1 = new
ToroDB 是一个运行在PostgreSQL之上,开源的面向文档的 JSON 数据库。JSON 文档关系化存储,而非 blob/jsonb 方式,显著的存储和I/O节省 ,兼容 MongoDB。
Sphinx 允许开发人员以纯文本格式编写文档,以便采用满足不 同需求的格式轻松生成输出。虽然 Sphinx 是用 Python 编写的,并且最初是为 Python 语言文档而创建,但它并不一定是以语言为中心
Tornado4.3 的中文文档,所以为了让更多的朋友能接触并学习到它,我开始了这个翻译项目,希望感兴趣的小伙伴可以一起参与翻译,项目地址是 tornado-zh on Github ,翻译好的文档在 Read the
它的用途了;它可以为应用提供文档预览的功能。 Quick Look Framework 使用起来很简单,它可以预览特定类型的文件。它支持的文件类型有: iWork 文档 (Pages,Numbers
pdf2djvu 从PDF 文件中解析出图片、文字、超链、书签、元数据等,并生成 DjVu 文件。
Pdftk 是一个简单的命令行工具,用来进行日常的 PDF 文档处理,包括合并、拆分和加密、增加水印、解析PDF元数据、压缩和解压、修复受损的PDF文档等功能。具体说明如下: Merge PDF Documents
py2pdf 可以用来将 Python 和 ASCII 代码转成 PDF 文档,具有Python语法着色功能,以及对 Python的类和方法以及函数会通过PDF 的书签来进行标注,相当不错。 查看示例PDF:
Etherpad是一个开源应用程序,可以让任意数据的用户实时共同协作编程同一份文档 ,它拥有以下功能特性 : 能自动把不同人写的东西用不同颜色标出来 可以无限撤销 嵌入其他网站很方便,把EtherPad嵌入其他网页只需要一行代码
epdfview 是一个轻量的 PDF 文档阅读工具,基于 Poppler 开发。 由于 PDF 文档格式具有良好的跨平台特性,所以在交换资料时采用此种格式可以最大限度的满足各方的需求。ePDFView 包含一些辅助阅读
一个很好很强大的解析Office Excel 文档的类库,支持 Excel 2007, Excel 2010文档,支持中文内容。 项目主页: http://www.open-open.co
如何通过dom4j来对xml文档进行增、删、改、查 2.如何从本地读入xml文档 3.如何把xml文档转换成xml字符串 4.如何把xml输出以指定的编码输出到xml文档。 5.如何把xml字符串转换成document。
PhpDocumentor是一个能从PHP代码生成javaDoc样式的API文档和用户指南。 项目主页: http://www.open-open.com/lib/view/home/1325937165609
PDF文档切割和合并工具 pdfsam
I/O Docs 是一个用于 RESTful Web APIs 的交互式文档系统。使用 JSON 模型根据资源、方法和参数定义 APIs。I/O Docs 将生成 JavaScript 客户端接口,可通过这些接口来调用系统。服务器端基于
重复检测软件(Python实现) 可以检测英文文档之间的重复,包括完全重复(除标点,格式外都相同),和相近重复(部分(90%)抄袭) TODO: 1. 数据抄袭(英文文档中数据集中的地方,比较多的数据相同)
具,用于抽取多种文档格式中的文本内容。它包含一个控制台应用和C/C++工具包, 允许嵌入到其他应用程序中实现文本提取功能。 它支持的文档格式包括: MS Word ( DOC ), MS Excel
本项目由Rust中文圈社区发起和运作,致力于把Rust编程语言文档全部翻译为中文。 我们热忱欢迎所有Rust爱好者加入我们的行列,为Rust在中文圈的推广尽一份力量。 本项目拟在 Creative