开源项目,开源代码,开源文档,开源新闻,开源社区

3) 基础服务层用于提供短信发送、邮件收发、全文检索、图片存储与读取、消息通讯、日志集中存储与读取、分布式缓存等业务相关度低的服务。 4) 数据存储层用于对结构化数据与文件数据的存储。 4网络部署

slsbctc 2016-02-07 37461 0

软件架构

创造了 Lucene 生平：开发了 Lucene 搜索引擎以及 Web 爬虫 Nutch 和用于大型数据集的分布式处理套件 Hadoop 。一位强有力的开源支持者（Lucene、Nutch 以及

jopen 2015-11-25 19277 0

程序员

P3

txt文件。--这些都是在进行下一步之前所要做的事情。 1.2 Pre selector ：预选择器。查看爬虫的域，看是否这个URL已经被处理（捉取）过了。如果被捉取过了，那么就把这个URL的状态置为 OUT_OF_SCOPE

xiaoyuer 2011-11-11 5852 0

网络爬虫

叶孤城___的简书先一一介绍一下上面4个东西。第一个叫做Scrapy的东西是用python写的爬虫框架。 Flask是python写的一个非常有名的web开发框架，python界有两个名气最大

cymt 2015-05-03 20881 0

Scrapy

使用CDN时要考虑URL的设计，比如URL中不能有随机数，否则每次都穿透CDN，回源到源服务器，相当于CDN没有任何效果。对于爬虫可以返回过期数据而选择不回源。接入层缓存对于没有CDN缓存的应用来说，可以考虑使用如Ng

jopen 2015-08-02 9383 0

服务

P28

ng）建筑学中的不同风格流派举例：山西平遥乔家大院、安徽歙县徽商大宅院、江苏苏州拙政园 4. 分布式应用的架构风格服务设计、服务粒度划分面向服务的架构（Service Oriented Architecture，简称SOA）

wubudomain 2017-02-22 909 0

Apache HTTP HTML Java Go

P16

中计算机之间必要的通信。采用Map-Reduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。我们的Map-Reduce实现运行在规模可以灵活调整的由普通

hadooper 2013-05-30 2639 0

分布式/云计算/大数据 Go

P13

目录互联网是一张巨大的图图的遍历—— 网络爬虫爬取网页切词PageRank排序 3. 搜索引擎做些啥？帮我们找信息保存网址和网页的部分内容，供我们查找咋找网址？——爬虫——图论——搜索技术 4. Web上的蜘蛛——网络爬虫如何找到网页？

2236614248 2014-03-13 5887 0

搜索引擎

ElasticSearch Elastic Search 是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。

jopen 2013-04-04 54524 0

搜索引擎

主要有数据抓取，也即通常说的网络爬虫。需要考虑数据抓取的实时性与完整性，还有数据及时更新，数据去重等等。严格来说，和通常意义上的大数据相关性不大，主要是后端开发的一系列技术，其中也会涉及分布式的一些技术。 E

gptqw89y 2016-01-29 16057 0

分布式/云计算/大数据

,工作原理,配置文件以及方法,几乎一模一样。配置简单,功能强大) Ganglia：分布式监控系统 fleet：分布式init系统 Ansible：能够大大简化Unix管理员的自动化配置管理与流程控制方式。

ymquan1987 2017-03-09 38211 0

程序员

分：1. 爬虫系统、2. 离线信息处理系统、3. 索引系统、4. 搜索服务系统。为了使各位读者能够深入了解京东商品搜索引擎的架构，本文首先介绍了商品搜索的总体架构，然后依次介绍了爬虫系统、离线信

VaniaTeakle 2016-11-30 11438 0

京东软件架构

urlhttperror(url) 2.爬虫伪装成浏览器的访问在访问一些网站时，会出现 HTTPError: HTTP Error 403: Forbidden 这样的异常，这是由于现在有些网站禁止爬虫访问，爬虫会带来服务器上

jopen 2014-03-28 34933 0

Python开发 Python

Python 灵活及各类爬虫库的优势，最终选用 Python 来做数据获取的主体架构；也有新潮的小伙伴使用 Go，同时用 Go 搭建了一个很酷的框架来制造分布式的智能爬虫，应对各种反爬策略。抓取数据主要来自于如下网站：

jopen 2016-01-25 43708 0

基金 Python 创业

，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的

jopen 2015-02-02 32640 0

架构

Grinder – Grinder是一个开源的JVM负载测试框架，它通过很多负载注射器来为分布式测试提供了便利。支持用于执行测试脚本的Jython脚本引擎HTTP测试可通过HTTP代理进行管理。根据项目网站的说法，Grinder的

jopen 2014-01-15 28325 0

测试工具

0. Grinder – Grinder是一个开源的JVM负载测试框架，它通过很多负载注射器来为分布式测试提供了便利。支持用于执行测试脚本的Jython脚本引擎HTTP测试可通过HTTP代理进行管理。根据项目网站的说法，Grinder的

jopen 2012-12-01 56634 0

测试工具

P43

3. 为什么要学习并发编程？充分利用服务器资源提高服务吞吐量、降低响应时间爬虫、WebServer、日志分析…… 分布式系统资源的争用、可伸缩性 4. 多线程的优点 5. 多线程的代价设计更复杂资源共享、数据一致性及可见性、调试困难

jachonen 2015-08-11 395 0

Java开发 Java

提升性能等。我遇到的比较多的隔离手段有线程隔离、进程隔离、集群隔离、机房隔离、读写隔离、动静隔离、爬虫隔离等。而出现系统问题时可以考虑负载均衡路由、自动/手动切换分组或者降级等手段来提升可用性。线程隔离

xbkadopv 2016-09-12 14210 0

并发 Redis 运维

需求最近项目在做新闻爬虫，想实现这个功能：爬虫某个页面失败后，把这个页面的 url 发到笔者的邮箱。最终实现的效果图如下，后期可以加上过滤标签、失败状态码等，方便分类搜索异常。开发人员可以根据邮件里的

SylArmenta 2016-02-09 3545 0

APP上架程序员 java

海淘平台架构实践经验

超神们：15 位健在的世界级程序员！资讯

Heritrix主要api文档文档

Scrapy+Flask+Mongodb+Swift 开发全攻略（1）经验

构建亿级前端读服务资讯

内网api设计风格对比分析文档

Google Map-Reduce 中文版文档

图论与搜索引擎文档

大数据处理方面的 7 个开源搜索引擎资讯

0x0E 大数据职位，数据场技能(上) 经验

成为专业程序员路上用到的各种优秀资料、神器及框架经验

京东亿级商品搜索核心技术解密经验

python网页抓取经验

你用 Python 做过什么有趣的数据挖掘项目？资讯

基于 DHT 网络的磁力链接和BT种子的搜索引擎架构资讯

十个免费的Web压力测试工具经验

十个免费的 Web 压力测试工具经验

Java 并发编程分享文档

聊聊高并发之隔离术经验

Java 基于JavaMail实现向QQ邮箱发送邮件代码段

分布式爬虫的相关搜索

关键词

海淘平台架构实践 经验

超神们：15 位健在的世界级程序员！ 资讯

Heritrix主要api文档 文档

Scrapy+Flask+Mongodb+Swift 开发全攻略（1） 经验

构建亿级前端读服务 资讯

内网api设计风格对比分析 文档

Google Map-Reduce 中文版 文档

图论与搜索引擎 文档

大数据处理方面的 7 个开源搜索引擎 资讯

0x0E 大数据职位，数据场技能(上) 经验

成为专业程序员路上用到的各种优秀资料、神器及框架 经验

京东亿级商品搜索核心技术解密 经验

python网页抓取 经验

你用 Python 做过什么有趣的数据挖掘项目？ 资讯

基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 资讯

十个免费的Web压力测试工具 经验

十个免费的 Web 压力测试工具 经验

Java 并发编程分享 文档

聊聊高并发之隔离术 经验

Java 基于JavaMail实现向QQ邮箱发送邮件 代码段

分布式爬虫 的相关搜索

关键词