系统设计典型问题的思考 经验

消息模型。生产者和消费者的速率?无法应付时是否需要缓冲队列?消息流量控制?速率控制的精细度? 缓存系统。缓存的分层?分布式部署还是集中式缓存服务?使用什么缓存淘汰算法(比如LRU)?参考: In-Process Caching

y37f 2015-03-15   14172   0

13 款开源的全文搜索引擎 资讯

org/ 4.  Nutch Nutch是一个用java实现的开源的web搜索引擎,包括爬虫crawler,索引引擎,查询引擎. 其中Nutch是基于Lucene的,Lucene为Nutch提供了文本索引和搜索的API

jopen 2013-04-02   520316   0

13 款开源的全文搜索引擎 经验

4.  Nutch Nutch是一个用java实现的开源的web搜索引擎,包括爬虫crawler,索引引擎,查询引擎. 其中Nutch是基于Lucene的,Lucene为Nutch提供了文本索引和搜索的API

yg3n 2015-06-04   25487   0

如何才能做到网站高并发访问? 经验

如果把来访用户比作来犯的"敌人",我们一定要把他们挡在800里地以外,即不能让他们的请求一下打到我们的指挥部(指挥部就是数据库及分布式存储)。 如:能缓存在用户电脑本地的,就不要让他去访问CDN。 能缓存CDN服务器上的,就不要

jopen 2014-01-24   25139   0

实施微服务,我们需要哪些基础框架? 资讯

服务注册、发现、负载均衡和健康检查 和单块(Monolithic)架构不同,微服务架构是由一系列职责单一的细粒度服务构成的分布式网状结构,服务之间通过轻量机制进行通信,这时 候必然引入一个服务注册发现问题,也就是说服务提供方要

jopen 2015-11-30   161068   0

Nutch+Hadoop集群搭建 经验

全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB :存储网页数据和连接信息 Fetch lists :将WebDB所存储的连接分成多个组,来用于分布式检索 Fetchers

fmms 2012-02-07   169808   0

Spark与Hadoop的结合 经验

Dataset (RDD)弹性分布数据集 RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核 心的东西,它表示已被分区,不

jopen 2014-09-23   100810   0
P4

  Solr简介 文档

Cutting,从2000年开始开发并且开放源代码,拥有强大的在线社区,至今已经很成熟。Lucene并不是服务器更不是网络爬虫她仅仅是一个代码库,甚至有没有任何配置文件。如果想直接使用Lucene需要编写代码来实现保存和查询

shit_up 2011-07-21   7546   0

C#实现的搜索引擎 - Iveely Search Engine 经验

csproj", 这是网络爬虫,即数据搜集部分。 "IveelySE.IDFS", "IveelySE.IDFS\IveelySE.IDFS.csproj", 这是分布式文件系统部分,包括MapR

openkk 2012-08-05   65697   0

Apache Shiro 介绍 经验

Subject:主体,代表了当前“用户”,这个用户不一定是一个具体的人,与当前应用交互的任何东西都是Subject,如网络爬虫,机器人等。 SecurityManager:安全管理器,即所有与安全有关的操作都会与Secu

jopen 2014-06-12   28402   0

用大数据告诉你身边的IT故事 资讯

最近我们 Team 利用 Dream 分布式计算平台,做了这样一件事情,将 Github 的大量数据通过爬虫抓取下来,通过分析后,我们抽取最近一年中部分的开发者和项目信息,得到了如下有趣的信息,故分享之,数据原汁原味,无人工干涉。

jopen 2013-08-28   5402   0
P13

  搜索相关笔记(Nutch) 文档

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。Nutch

q985962490 2012-02-29   724   0

史上最全Python数据分析学习路径图 经验

1)Python工作环境及基础语法知识了解(包括正则表达式相关知识学习); 2)数据采集相关知识(python爬虫相关知识); 3)数据分析学习; 4)数据可视化学习。 PYTHON学习路径计划图

ne8c 2016-02-16   713348   0
P54

  基于Solr的搜索引擎研究与实现 文档

3的简单可用的多库搜索引擎。整个设计过程致力于提高管理维护的方便性和可扩展性。 关键词: Lucene;Solr;搜索引擎;爬虫;中文分词 Abstract With the advent of the information

victorzcs 2012-07-19   5866   0
P35

  Hadoop及mapreduce入门 文档

PIG:并行计算的一种高级语言,yahoo贡献 Nutch:网页搜索软件,不只是爬虫 Avro:数据序列化系统 Chukwa:用于管理大规模分布式集群的数据收集系统 ZooKeeper:用于分布式应用的高性能协同服务 Hbase:类似于B

P35

  Hadoop及Mapreduce入门 文档

PIG:并行计算的一种高级语言,yahoo贡献 Nutch:网页搜索软件,不只是爬虫 Avro:数据序列化系统 Chukwa:用于管理大规模分布式集群的数据收集系统 ZooKeeper:用于分布式应用的高性能协同服务 Hbase:类似于B

lxz 2014-01-03   2919   0

Spark介绍 经验

lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点; 但不同于MapReduce的是Job中间

jopen 2014-11-17   109482   0

天猫、淘宝运营数据抓取技术概述 资讯

对通用网站的数据抓取,比如:谷歌和百度,都有自己的爬虫,当然,爬虫也都是有程序写出来的。根据百度百科的定义:网络爬虫(又被称为网页蜘 蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序

jopen 2015-02-27   12191   0
天猫  

15 位健在的牛叉程序员,你知道哪几位? 资讯

主要成就:Lucene 的缔造者 上榜理由:他开发了Lucene搜索引擎,Nutch网络爬虫引擎以及Hadoop分布式大数据处理工具。他是开源项目的拥趸(Lucene,Nutch和Hadoop都是开源的)

jopen 2016-01-10   24043   0

超神们:15 位健在的世界级程序员! 资讯

创造了 Lucene 生平: 开发了 Lucene 搜索引擎以及 Web 爬虫 Nutch 和用于大型数据集的分布式处理套件 Hadoop 。一位强有力的开源支持者(Lucene、Nutch 以及Hadoop

jopen 2017-02-14   15094   0
1 2 3 4 5 6 7 8 9 10