开源项目,开源代码,开源文档,开源新闻,开源社区

Node OS 是一个开源完全基于 npm 的操作系统，基于 Linux 内核构建，使用 Node.js 作为运行环境，使用 npm 进行包管理。 linux kernel node-os is

jopen 2014-09-11 29705 0

Node OS

P34

基于JAVA的仓库管理系统的设计与研究福州大学至诚学院本科生毕业设计（论文）题目：基于JAVA的仓库管理系统的设计与研究姓名：段瑞祺学号： 211006270 系别：计算机工程系

duanruiqi 2017-01-07 3683 0

Java开发

Casein 是一个用 Rails 框架开发的 CMS 系统。主要特性：媒体上传以及选择部件脚手架功能内容版本化管理内置对 has_many 关系的支持 Full namespacing

fmms 2011-11-01 6619 0

Rails CMS

Skyline 是一个灵活的可扩展的开源内容管理系统，基于 Rails 框架开发，具有直观的管理界面。项目地址： http://www.skylinecms.nl/ 在线演示： http://www

fmms 2011-11-01 6613 0

Rails CMS

Webiva 是一个Web 2.0 的网站构建系统，提供可扩展模块系统允许轻松对功能进行扩展。基于 Rails 开发。在线演示： http://webiva.org/demo 项目地址：

fmms 2011-11-01 6542 0

Rails CMS

Twitter 宣布其整个系统基于开源软件系统构建，同时该公司也贡献很多开源的软件，并为这些开源软件专门制作一个汇集页面 http://twitter.github.io/ Twitter是国

jopen 2014-01-12 5652 0

Twitter

P7

L. Envirnonment”只取首字母的缩写，这意味着它被设计用来帮助你实现你的ETTL需要：抽取、转换、装入和加载数据。软件版本: pdi-ce-4.1.0-stable，官方网址：http://kettle

xzz168 2014-10-13 5431 0

数据挖掘

Mapper。Controller 里大量使用servlet的API，所以不能把controller层抽取出来作为远程调用的接口。Mapper本身只是一个接口，service层与 mapper层之间没法再

jopen 2014-11-30 35856 0

Java 反射 Java开发

SILVERCODERS DocToText是一个强大的开源免费工具，用于抽取多种文档格式中的文本内容。它包含一个控制台应用和C/C++工具包，允许嵌入到其他应用程序中实现文本提取功能。它支持的文档格式包括：

jopen 2014-01-07 16668 0

DocToText Office文档处理

Toxy是一个.NET文本/数据抽取框架类似于Java中的 Apache Tika。它支持许多流行的格式比如：docx, xlsx, xls, pdf, csv, txt, epub, html 等。

jopen 2014-10-01 22668 0

Toxy .NET开发

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展

openkk 2011-12-30 21483 0

POI 搜索引擎 PDFBox

HtmlExtractor是一个Java实现的基于模板的通用的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为

jopen 2014-08-07 59221 0

HTML操作类库 HtmlExtractor

goose是一个开源的HTML内容/文章抽取器，采用Java实现。收录时间：2011-05-16 14:44:17

码头工人 2019-01-17 503 0

其它开源项目

.NET下的文本数据抽取库，能够支持许多常用文件格式，如 docx, xlsx, xls, pdf, csv, txt, vcf, html等，是数据挖掘领域不可多得利器。项目主页： http://www

jopen 2014-04-30 12856 0

Toxy .NET开发

JsonPath 对于 JSON 来说相当于 XPATH 对于 XML。这是一个简单的从文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Java, Python 和 PHP。

jopen 2013-11-29 65289 0

JsonPath JSON开发包

基于统计特征抽取HT/XML文档正文。 Libextract提供两个现成的抽取器：api.articles 和 api.tabular。 libextract.api.articles(document

xpkdi 2015-05-18 19204 0

Python开发 libextract

P5

例如：有如下不规范的html文件(有未关闭标签) 通过节点的toHtml（）方法补全标签补全了没有关闭的标签本系统采用先读取html文件并将其转换为字符串htmlString: String htmlString

huafenged 2012-07-20 647 0

HTML解析 HTML

对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大

javacas 2012-01-05 72833 0

正文抽取搜索引擎

抽取文章中的图片并保存的PHP代码

fmms 2012-01-19 21110 0

PHP PHP开发

一个框架用于在iOS中从PDF文档抽取数据。实现查找/搜索 PDF 文档中的文字功能。项目主页： http://www.open-open.com/lib/view/home/1343919872415

openkk 2012-08-02 22189 0

IOS iOS开发移动开发

基于 npm 的操作系统：Node OS 经验

基于java的仓库管理系统文档

基于 Rails 实现的CMS系统 Casein 资讯

基于 Rails 实现的CMS系统 Skyline CMS 资讯

基于 Rails 实现的CMS系统 Webiva 资讯

Twitter 系统完全基于开源软件构建资讯

kettle 接口抽取同步应用实例文档

Java 反射抽取类的方法信息经验

多种文档的文本抽取工具：DocToText 经验

.NET文本/数据抽取框架：Toxy 经验

内容抽取工具集合 Apache Tika 经验

Java网页信息抽取组件：HtmlExtractor 经验

HTML内容抽取类库goose 开源项目

文本数据抽取库：Toxy 经验

JSON 信息抽取类库：JsonPath 经验

Python开源的正文抽取模块：libextract 经验

HTMLParser抽取Web网页正文信息文档

通用网页正文抽取 cx-extractor 经验

抽取文章中的图片并保存的PHP代码经验

PDFKitten - 从PDF抽取数据iOS框架经验

基于jsp的专家抽取系统的相关搜索

关键词

基于 npm 的操作系统：Node OS 经验

基于java的仓库管理系统 文档

基于 Rails 实现的CMS系统 Casein 资讯

基于 Rails 实现的CMS系统 Skyline CMS 资讯

基于 Rails 实现的CMS系统 Webiva 资讯

Twitter 系统完全基于开源软件构建 资讯

kettle 接口抽取同步应用实例 文档

Java 反射 抽取类的方法信息 经验

多种文档的文本抽取工具：DocToText 经验

.NET文本/数据抽取框架：Toxy 经验

内容抽取工具集合 Apache Tika 经验

Java网页信息抽取组件：HtmlExtractor 经验

HTML内容抽取类库goose 开源项目

文本数据抽取库：Toxy 经验

JSON 信息抽取类库：JsonPath 经验

Python开源的正文抽取模块：libextract 经验

HTMLParser抽取Web网页正文信息 文档

通用网页正文抽取 cx-extractor 经验

抽取文章中的图片并保存的PHP代码 经验

PDFKitten - 从PDF抽取数据iOS框架 经验

基于jsp的专家抽取系统 的相关搜索

关键词

基于java的仓库管理系统文档

Twitter 系统完全基于开源软件构建资讯

kettle 接口抽取同步应用实例文档

Java 反射抽取类的方法信息经验

HTMLParser抽取Web网页正文信息文档

抽取文章中的图片并保存的PHP代码经验

PDFKitten - 从PDF抽取数据iOS框架经验

基于jsp的专家抽取系统的相关搜索