开源项目,开源代码,开源文档,开源新闻,开源社区

P54

，都需要一样东西来支援它，那就是网络爬虫Spider。网络爬虫，又被称为蜘蛛Spider，或是网络机器人、BOT等，这些都无关紧要，最重要的是要认识到，由于爬虫的存在，才使得搜索引擎有了丰富的资源。

www.xinwei 2011-01-16 798 0

Heritrix 网络爬虫 Heritrix的使用入门

P150

(5)Hadoop的使用 (6)Google (7)参考资料 3. Hadoop是什么?一个分布式文件系统和并行执行环境; 一个软件集；让用户便捷地处理海量数据; Apache软件基金会下面的一个开源项目;

tony2007 2015-06-20 625 0

Hadoop 分布式/云计算/大数据方案报告 Apache

P150

术，而且可以分为四大类： 分布式基础设施：GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理：MapReduce 和 Sawzall。 分布式数据库技术：BigTable

robinzhang 2012-03-22 713 0

Hadoop 分布式/云计算/大数据方案报告 Apache

P16

在机群上的调度,机器的错误处理,管理机器之间必要的通信.这样就可以让那些没有并行分布式处理系统经验的程序员利用大量分布式系统的资源. 我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的机群上

ljp123456 2014-03-22 304 0

分布式/云计算/大数据

P150

术，而且可以分为四大类： 分布式基础设施：GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理：MapReduce 和 Sawzall。 分布式数据库技术：BigTable

pnx8 2014-08-17 388 0

Hadoop 分布式/云计算/大数据

是用来进行大数据查询的补充工具。 Impala 并没有取代像Hive这样基于MapReduce的分布式处理框架。Hive和其它基于MapReduce的计算框架非常适合长时间运行的批处理作业，例如那些涉及到批量

ew45 2015-03-12 325553 0

大数据分布式/云计算/大数据

P22

go12355 2012-07-25 8332 0

Ehcache 缓存组件手册

P26

宕机或者重启）下，消息短暂的乱序，使用普通顺序方式比较合适。 ▶严格顺序消息顺序消息的一种，无论正常异常情况都能保证顺序，但是牺牲了分布式 Failover 特性，即 Broker 集群中只要有一台机器不可用，则整个集群都不可用，服务可用性大大降低。

sunshine42 2016-09-16 2514 0

消息中间件方案

P44

搜索引擎结构文档文本提取索引程序索引库(Lucene)搜索查询服务器(Solr)文件数据库爬虫NBA搜索 3. Lucene是什么包括全文索引库简单的语言解析功能不包括爬虫文档格式解析 “PageRank”等排序算法 4. Lucene来源与发展1999

chaohuis 2011-07-11 5916 0

Lucene 搜索引擎 Apache HTTP Java

机上已经安装的app上吗？或者干脆直接跳到某个页面？搜索搜索结果是不是可以做得更好呢。对于爬虫，在我们的印象中都是去爬网站的数据。但是现在作为一个巨大内容载体的移动平台却被忽略了，”似乎”只能

weas2883 2016-02-05 55413 0

安卓开发移动开发

Compute 1 + 2 ... 1 + 2 = 3 在爬虫中使用asyncio来实现异步IO 下面我们来通过一个简单的例子来看一下怎么在Python爬虫项目中使用asyncio。by the way:

Hester8856 2017-01-05 14036 0

IO 并发 Python Python开发

注：其中，pagerSize设置pdf的格式。结果如下：利用这些提供的特性，你完全可以做一个爬虫去爬去别人的网站。 8、文件操作相关文件操作在编码中非常有用，例如你可以将一些配置信息放

jopen 2015-11-05 32078 0

PhantomJS JavaScript开发

P27

备库MySQL 备库日志系统 Log ServerHadoop开发平台Gateway ServersDBSync爬虫数据Map Reduce Java JobsStreaming JobsHive JobsTime

lxz 2014-01-03 2361 0

分布式/云计算/大数据方案培训 HTTP Java

P44

he Log（我所读过的最好的一篇分布式技术文章）》对本文做了很赞的摘要和解读。但作为一篇经典文章，还是值得去完整地研读和理解： 1. 原文可以作为大数据/分布式系统领域一份导论式的资料。作者对整

june.zk 2016-09-12 479 0

P12

缓存一词搞技术的都接触过，很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。架构方面的缓存，对Apache比较熟悉的人都能知道Apache提供了自己的缓存

lxg3600136 2010-12-23 7192 0

前端技术

P13

4、缓存缓存一词搞技术的都接触过，很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。架构方面的缓存，对Apache比较熟悉的人都能知道Apache提供了自己的缓存

liujun58love 2012-11-21 4264 0

方案

P54

对于大型搜索服务可行，但对于一般的系统性价比较高这些系统往往查询负担并不太重用户可以对响应稍作等待26 27. 分布式索引考虑有多台机器进行索引的情况如何利用并行来提高性能两种基本方法建立索引时切分词典切分文档集27

腾云驾物 2012-12-21 2160 0

Go

也有一点麻烦，有些集群是没法迁 Docker 的，比如 ElasticSearch 这种有状态的服务。我们现在也开始自研分布式存储系统，从 EMC 挖人来做，但还处于冒烟阶段。再来说说大数据的 TP（ Transaction

发如雪 2018-02-17 31778 0

混合云软件架构

王栋：这是肯定的，但工业界的数据跟学术界不太一样，有很多噪声。我们在现实中处理这些数据时，一方面会遇到爬虫，或者有人去刷单，我们需要结合风控部门在训练模型时把这些噪声处理掉；还有一些用户可能数据特别稀疏

jopen 2015-12-08 28480 0

Heritrix的使用入门文档

Hadoop 介绍文档

Hadoop 入门文档

MapReduce 超大机群上的简单数据处理文档

Hadoop 介绍文档

开源大数据处理系统/工具大全经验

Ehcache 学习手册文档

消息中间件解决方案文档

搜索引擎解密(Lucene与Solr) 文档

Deep Link是什么经验

Python并发编程之协程/异步IO 经验

PhantomJS快速入门经验

淘宝数据应用开发平台idata 文档

the log：每个程序员都应该知道有关实时数据的统一抽象文档

大型WEB网站架构深入分析文档

网站架构（页面静态化，图片服务器分离,负载均衡）方案全解析文档

7-索引和搜索indexing and searching 文档

饿了么混合云架构探索经验

王栋：要做好推荐，只有技术是不够的资讯

构建需求响应式亿级商品详情页经验

分布式爬虫的相关搜索

关键词

Heritrix的使用入门 文档

Hadoop 介绍 文档

Hadoop 入门 文档

MapReduce 超大机群上的简单数据处理 文档

Hadoop 介绍 文档

开源大数据处理系统/工具大全 经验

Ehcache 学习手册 文档

消息中间件解决方案 文档

搜索引擎解密(Lucene与Solr) 文档

Deep Link是什么 经验

Python并发编程之协程/异步IO 经验

PhantomJS快速入门 经验

淘宝数据应用开发平台idata 文档

the log：每个程序员都应该知道有关实时数据的统一抽象 文档

大型WEB网站架构深入分析 文档

网站架构（页面静态化，图片服务器分离,负载均衡）方案全解析 文档

7-索引和搜索indexing and searching 文档

饿了么混合云架构探索 经验

王栋： 要做好推荐，只有技术是不够的 资讯

构建需求响应式亿级商品详情页 经验

分布式爬虫 的相关搜索

关键词

Heritrix的使用入门文档

Hadoop 介绍文档

Hadoop 入门文档

MapReduce 超大机群上的简单数据处理文档

Hadoop 介绍文档

开源大数据处理系统/工具大全经验

Ehcache 学习手册文档

消息中间件解决方案文档

Deep Link是什么经验

PhantomJS快速入门经验

the log：每个程序员都应该知道有关实时数据的统一抽象文档

大型WEB网站架构深入分析文档

网站架构（页面静态化，图片服务器分离,负载均衡）方案全解析文档

饿了么混合云架构探索经验

王栋：要做好推荐，只有技术是不够的资讯

构建需求响应式亿级商品详情页经验

分布式爬虫的相关搜索