开源项目,开源代码,开源文档,开源新闻,开源社区

在我所阅读过的大量书籍中，我发现其中的一部分虽然从技术角度来说“不属于”API、HTTP 和 REST 的范畴，但对于我进行分布式应用的设计及实现依然能够提供很大的帮助。以下这些书籍是我精挑细选过的，希望它们能够将你的视野从一般的

jopen 2015-03-05 22254 0

REST

P47

求首席安全官安全专家三观论宏观/中观/微观量化/指标化合作/外包管理理念涉密系统安全病毒/蠕虫分布式 拒绝服务攻击办公安全网上银行骨干网网站安全ERP服务器安全火灾/水灾设备故障内部人员作案网络渗透

timdeng 2012-12-17 3030 0

方案

设计 Twitter 时间线和搜索 (或者 Facebook feed 和搜索) 解答设计一个网页爬虫解答设计 Mint.com 解答为一个社交网络设计数据结构解答为搜索引擎设计一个 key-value

justphb 2017-04-17 70314 0

数据库软件架构 NOSQL

存，如果命中直接返回数据； 2、如果本地缓存不命中数据，则查询分布式Redis集群，如果命中数据，则直接返回； 3、如果分布式Redis集群不命中，则会调用Tomcat进行回源处理；然后把结果异步写入Redis集群，并返回。

ygfb 2015-12-07 27052 0

京东

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

码头工人 2019-01-17 14647 0

搜索引擎

Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

码头工人 2019-01-17 13318 0

Web爬虫

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。

码头工人 2019-01-17 1182 0

Web爬虫

NodeJS单线程、事件驱动的特性可以在单台机器上实现极大的吞吐量，非常适合写网络爬虫这种资源密集型的程序。

xvg9rabp 2016-08-11 754 0

关系链

Methanol是一个可编写脚本，多用途的Web爬虫系统。拥有一个可扩展配置系统和速度优化架构设计。项目主页： http://www.open-open.com/lib/view/home/1350028910181

jopen 2012-10-12 17155 0

爬虫网络爬虫

ItSucks是一个java web spider（web机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。

码头工人 2019-01-17 1537 0

Web爬虫

自然语言处理方向的学者方便获取Aclweb.org上面与研究方向相关的论文. 本人初学Python和爬虫，不足之处还望谅解. 项目主页： http://www.open-open.com

jopen 2014-10-31 19990 0

网络爬虫 NLPPaperCrawler

用服务器（如Resin，Orion，Tomcat等）。其典型应用就把动态URL静态化，便于搜索引擎爬虫抓取你的动态网页。

码头工人 2019-01-17 516 0

其它开源项目

, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。

码头工人 2019-01-17 8625 0

Html解析类库

Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

码头工人 2019-01-17 8737 0

Web爬虫

Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

码头工人 2019-01-17 9988 0

Web爬虫

Crawler是一个简单的Web爬虫。它让你不用编写枯燥，容易出错的代码，而只专注于所需要抓取网站的结构。此外它还非常易于使用。 CrawlerConfiguration cfg = new CrawlerConfiguration

码头工人 2019-01-17 3558 0

Web爬虫

web 挖掘模块，它绑定了 Google 、 Twitter 、 Wikipedia API ，提供网络爬虫、 HTML 解析功能，文本分析包括浅层规则解析、 WordNet 接口、句法与语义分析、 TF-IDF

jopen 2015-12-25 64171 0

机器学习

从图上可以简单的看出，平台底层有海量的数据不断积累、不断增长，包括宏观数据、行业的数据、场合数据，官方数据，也包括各种通过爬虫爬来的各种数据。接下来会通过数据生产、数据清洗、数据上线等过程，将这些表面上看似没什么关联的数据通

ozhc1633 2016-04-23 39175 0

大数据 QCon 分布式/云计算/大数据

高并发查询，日PV过亿；3. 请求需要快速响应。这些共同点使商品搜索使用了与大搜索类似的技术架构，将系统分为：1. 爬虫系统；2. 离线信息处理系统；3. 索引系统；4. 搜索服务系；5.反馈和排序系统。京东商品

jopen 2015-11-11 24932 0

技术

Pattern是Python的web挖掘模块，它绑定了 Google、Twitter 、Wikipedia API，提供网络爬虫、HTML解析功能，文本分析包括浅层规则解析、WordNet接口、句法与语义分析、TF-IDF、L

jopen 2014-07-03 90516 0

Python 机器学习

分布式爬虫的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

zerg: 基于docker的分布式爬虫服务 - GitHub NOSQL Python 数据库搜索引擎 REST 大数据机器学习软件架构网络爬虫分布式/云计算/大数据 Web爬虫 QCon 关系链 NLPPaperCrawler 其它开源项目 Html解析类库

有关REST知识的阅读清单资讯

高端信息安全检测与大数据文档

想染指系统架构？看这篇就够了经验

京东商品详情页服务闭环实践经验

Nutch 开源项目

Heritrix 开源项目

Crawler4j 开源项目

用NodeJS爬取知乎的关系链问答

Methabot Web Crawler 经验

ItSucks 开源项目

从aclweb anthology爬取所需论文：NLPPaperCrawler 经验

UrlRewriteFilter 开源项目

HotSAX 开源项目

Arale 开源项目

LARM 开源项目

Crawler 开源项目

Python机器学习库经验

构建大数据生态需要哪些核心技术？经验

电商11.11：盘点双十一背后的技术较量资讯

Python机器学习库经验

分布式爬虫的相关搜索

关键词

有关REST知识的阅读清单 资讯

高端信息安全检测与大数据 文档

想染指系统架构？看这篇就够了 经验

京东商品详情页服务闭环实践 经验

Nutch 开源项目

Heritrix 开源项目

Crawler4j 开源项目

用NodeJS爬取知乎的关系链 问答

Methabot Web Crawler 经验

ItSucks 开源项目

从aclweb anthology爬取所需论文：NLPPaperCrawler 经验

UrlRewriteFilter 开源项目

HotSAX 开源项目

Arale 开源项目

LARM 开源项目

Crawler 开源项目

Python机器学习库 经验

构建大数据生态需要哪些核心技术？ 经验

电商11.11：盘点双十一背后的技术较量 资讯

Python机器学习库 经验

分布式爬虫 的相关搜索

关键词

有关REST知识的阅读清单资讯

高端信息安全检测与大数据文档

想染指系统架构？看这篇就够了经验

京东商品详情页服务闭环实践经验

用NodeJS爬取知乎的关系链问答

Python机器学习库经验

构建大数据生态需要哪些核心技术？经验

电商11.11：盘点双十一背后的技术较量资讯

Python机器学习库经验

分布式爬虫的相关搜索