Node OS 是一个开源完全基于 npm 的操作系统,基于 Linux 内核构建,使用 Node.js 作为运行环境,使用 npm 进行包管理。 linux kernel node-os is
P34 基于JAVA的仓库管理系统的设计与研究 福州大学至诚学院 本科生毕业设计(论文) 题 目: 基于JAVA的仓库管理系统 的设计与研究 姓 名: 段瑞祺 学 号: 211006270 系 别: 计算机工程系
Casein 是一个用 Rails 框架开发的 CMS 系统。 主要特性: 媒体上传以及选择部件 脚手架功能 内容版本化管理 内置对 has_many 关系的支持 Full namespacing
Skyline 是一个灵活的可扩展的开源内容管理系统,基于 Rails 框架开发,具有直观的管理界面。 项目地址: http://www.skylinecms.nl/ 在线演示: http://www
Webiva 是一个Web 2.0 的网站构建系统,提供可扩展模块系统允许轻松对功能进行扩展。基于 Rails 开发。 在线演示: http://webiva.org/demo 项目地址:
Twitter 宣布其整个系统基于开源软件系统构建,同时该公司也贡献很多开源的软件,并为这些开源软件专门制作一个汇集页面 http://twitter.github.io/ Twitter是国
P7 L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据。 软件版本: pdi-ce-4.1.0-stable, 官方网址:http://kettle
Mapper。Controller 里大量使用servlet的API,所以不能把controller层抽取出来作为远程调用的接口。Mapper本身只是一个接口,service层与 mapper层之间没法再
SILVERCODERS DocToText是一个强大的开源免费工具,用于抽取多种文档格式中的文本内容。它包含一个控制台应用和C/C++工具包, 允许嵌入到其他应用程序中实现文本提取功能。 它支持的文档格式包括:
Toxy是一个.NET文本/数据抽取框架类似于Java中的 Apache Tika。它支持许多流行的格式比如:docx, xlsx, xls, pdf, csv, txt, epub, html 等。
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展
HtmlExtractor是一个Java实现的基于模板的通用的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为
goose是一个开源的HTML内容/文章抽取器,采用Java实现。 收录时间:2011-05-16 14:44:17
.NET下的文本数据抽取库,能够支持许多常用文件格式,如 docx, xlsx, xls, pdf, csv, txt, vcf, html等,是数据挖掘领域不可多得利器。 项目主页: http://www
JsonPath 对于 JSON 来说相当于 XPATH 对于 XML。这是一个简单的从文档中抽取指定信息的工具,提供多种语言实现版本,包括:Javascript, Java, Python 和 PHP。
基于统计特征抽取HT/XML文档正文。 Libextract提供两个现成的抽取器:api.articles 和 api.tabular。 libextract.api.articles(document
P5 例如:有如下不规范的html文件(有未关闭标签) 通过节点的toHtml()方法补全标签 补全了没有关闭的标签 本系统采用先读取html文件并将其转换为字符串htmlString: String htmlString
对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大
抽取文章中的图片并保存的PHP代码
一个框架用于在iOS中从PDF文档抽取数据。实现查找/搜索 PDF 文档中的文字功能。 项目主页: http://www.open-open.com/lib/view/home/1343919872415