开源项目,开源代码,开源文档,开源新闻,开源社区

消息模型。生产者和消费者的速率？无法应付时是否需要缓冲队列？消息流量控制？速率控制的精细度？缓存系统。缓存的分层？分布式部署还是集中式缓存服务？使用什么缓存淘汰算法（比如LRU）？参考： In-Process Caching

y37f 2015-03-15 14172 0

系统设计

org/ 4. Nutch Nutch是一个用java实现的开源的web搜索引擎，包括爬虫crawler，索引引擎，查询引擎. 其中Nutch是基于Lucene的，Lucene为Nutch提供了文本索引和搜索的API

jopen 2013-04-02 520316 0

全文搜索

4. Nutch Nutch是一个用java实现的开源的web搜索引擎，包括爬虫crawler，索引引擎，查询引擎. 其中Nutch是基于Lucene的，Lucene为Nutch提供了文本索引和搜索的API

yg3n 2015-06-04 25487 0

搜索引擎

如果把来访用户比作来犯的"敌人"，我们一定要把他们挡在800里地以外，即不能让他们的请求一下打到我们的指挥部（指挥部就是数据库及分布式存储）。如：能缓存在用户电脑本地的，就不要让他去访问CDN。能缓存CDN服务器上的，就不要

jopen 2014-01-24 25139 0

网站并发

服务注册、发现、负载均衡和健康检查和单块(Monolithic)架构不同，微服务架构是由一系列职责单一的细粒度服务构成的分布式网状结构，服务之间通过轻量机制进行通信，这时候必然引入一个服务注册发现问题，也就是说服务提供方要

jopen 2015-11-30 161068 0

微服务

全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB :存储网页数据和连接信息 Fetch lists :将WebDB所存储的连接分成多个组，来用于分布式检索 Fetchers

fmms 2012-02-07 169808 0

Hadoop 搜索引擎 nutch

Dataset (RDD)弹性分布数据集 RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不

jopen 2014-09-23 100810 0

Spark Hadoop 分布式/云计算/大数据

P4

Cutting，从2000年开始开发并且开放源代码，拥有强大的在线社区，至今已经很成熟。Lucene并不是服务器更不是网络爬虫她仅仅是一个代码库，甚至有没有任何配置文件。如果想直接使用Lucene需要编写代码来实现保存和查询

shit_up 2011-07-21 7546 0

Solr 搜索引擎

csproj", 这是网络爬虫，即数据搜集部分。 "IveelySE.IDFS", "IveelySE.IDFS\IveelySE.IDFS.csproj", 这是分布式文件系统部分，包括MapR

openkk 2012-08-05 65697 0

搜索引擎

Subject：主体，代表了当前“用户”，这个用户不一定是一个具体的人，与当前应用交互的任何东西都是Subject，如网络爬虫，机器人等。 SecurityManager：安全管理器，即所有与安全有关的操作都会与Secu

jopen 2014-06-12 28402 0

Shiro 安全相关 Apache Shiro

最近我们 Team 利用 Dream 分布式计算平台，做了这样一件事情，将 Github 的大量数据通过爬虫抓取下来，通过分析后，我们抽取最近一年中部分的开发者和项目信息，得到了如下有趣的信息，故分享之，数据原汁原味，无人工干涉。

jopen 2013-08-28 5402 0

大数据

P13

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch

q985962490 2012-02-29 724 0

搜索引擎 nutch

1）Python工作环境及基础语法知识了解（包括正则表达式相关知识学习）； 2）数据采集相关知识（python爬虫相关知识）； 3）数据分析学习； 4）数据可视化学习。 PYTHON学习路径计划图

ne8c 2016-02-16 713348 0

Python 数据分析 Python开发

P54

3的简单可用的多库搜索引擎。整个设计过程致力于提高管理维护的方便性和可扩展性。关键词： Lucene；Solr；搜索引擎；爬虫；中文分词 Abstract With the advent of the information

victorzcs 2012-07-19 5866 0

Solr 搜索引擎

P35

PIG：并行计算的一种高级语言，yahoo贡献 Nutch：网页搜索软件，不只是爬虫 Avro：数据序列化系统 Chukwa：用于管理大规模分布式集群的数据收集系统 ZooKeeper：用于分布式应用的高性能协同服务 Hbase：类似于B

也许那样飞 2016-01-15 2782 0

分布式/云计算/大数据

P35

PIG：并行计算的一种高级语言，yahoo贡献 Nutch：网页搜索软件，不只是爬虫 Avro：数据序列化系统 Chukwa：用于管理大规模分布式集群的数据收集系统 ZooKeeper：用于分布式应用的高性能协同服务 Hbase：类似于B

lxz 2014-01-03 2919 0

Hadoop 分布式/云计算/大数据教学报告 Apache

lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间

jopen 2014-11-17 109482 0

Spark 分布式/云计算/大数据

对通用网站的数据抓取，比如：谷歌和百度，都有自己的爬虫，当然，爬虫也都是有程序写出来的。根据百度百科的定义：网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动的抓取万维网信息的程序

jopen 2015-02-27 12191 0

天猫

主要成就：Lucene 的缔造者上榜理由：他开发了Lucene搜索引擎，Nutch网络爬虫引擎以及Hadoop分布式大数据处理工具。他是开源项目的拥趸（Lucene，Nutch和Hadoop都是开源的）

jopen 2016-01-10 24043 0

程序员

创造了 Lucene 生平：开发了 Lucene 搜索引擎以及 Web 爬虫 Nutch 和用于大型数据集的分布式处理套件 Hadoop 。一位强有力的开源支持者（Lucene、Nutch 以及Hadoop

jopen 2017-02-14 15094 0

程序员

系统设计典型问题的思考经验

13 款开源的全文搜索引擎资讯

13 款开源的全文搜索引擎经验

如何才能做到网站高并发访问? 经验

实施微服务，我们需要哪些基础框架？资讯

Nutch+Hadoop集群搭建经验

Spark与Hadoop的结合经验

Solr简介文档

C#实现的搜索引擎 - Iveely Search Engine 经验

Apache Shiro 介绍经验

用大数据告诉你身边的IT故事资讯

搜索相关笔记(Nutch) 文档

史上最全Python数据分析学习路径图经验

基于Solr的搜索引擎研究与实现文档

Hadoop及mapreduce入门文档

Hadoop及Mapreduce入门文档

Spark介绍经验

天猫、淘宝运营数据抓取技术概述资讯

15 位健在的牛叉程序员，你知道哪几位？资讯

超神们：15 位健在的世界级程序员！资讯

分布式爬虫的相关搜索

关键词

系统设计典型问题的思考 经验

13 款开源的全文搜索引擎 资讯

13 款开源的全文搜索引擎 经验

如何才能做到网站高并发访问? 经验

实施微服务，我们需要哪些基础框架？ 资讯

Nutch+Hadoop集群搭建 经验

Spark与Hadoop的结合 经验

Solr简介 文档

C#实现的搜索引擎 - Iveely Search Engine 经验

Apache Shiro 介绍 经验

用大数据告诉你身边的IT故事 资讯

搜索相关笔记(Nutch) 文档

史上最全Python数据分析学习路径图 经验

基于Solr的搜索引擎研究与实现 文档

Hadoop及mapreduce入门 文档

Hadoop及Mapreduce入门 文档

Spark介绍 经验

天猫、淘宝运营数据抓取技术概述 资讯

15 位健在的牛叉程序员，你知道哪几位？ 资讯

超神们：15 位健在的世界级程序员！ 资讯

分布式爬虫 的相关搜索

关键词