P648

  搜索引擎核心技术与实现 文档

1 网络爬虫 5 1.3.2 全文索引结构与Lucene实现 5 1.3.3 搜索用户界面 10 1.3.4 计算框架 10 1.3.5 文本挖掘 12 1.4 本章小结 12 第2章 网络爬虫的原理与应用

lxfsbxh 2012-05-11   790   0

Java 搜索引擎,Apache Nutch v2.0 发布 资讯

是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降.

jopen 2012-07-09   8807   0
nutch  

Google是什么? 资讯

和搜索按钮的 HTML 表格,做起来费不了多少精力。 对一个搜索引擎来说,真正困难的地方在于用爬虫爬行网络、为内容做索引,并飞快地检索相关结果。这些问题的解决有赖于在数量庞大的电脑上并行做 复杂运

jopen 2012-07-15   9702   0
Google  

GitHub上整理的一些工具 经验

工作原理,配置文件以及方法,几乎一模一样。配置简单,功能强大) Ganglia:分布式监控系统 fleet:分布式init系统 爬虫相关(好玩的工具) Phantomjs berserkJS(基于Phantomjs的改进版本)

jopen 2015-11-18   110476   0
Github  

GitHub上整理的一些工具 资讯

配置文件以及方法,几乎一模一样。配置简单,功能强大) Ganglia:分布式监控系统 fleet:分布式init系统 爬虫相关(好玩的工具) Phantomjs berserkJS(基于Phantomjs的改进版本)

jopen 2015-02-16   97295   1
Github  

GitHub上整理的一些资料 经验

工作原理,配置文件以及方法,几乎一模一样。配置简单,功能强大) Ganglia:分布式监控系统 fleet:分布式init系统 爬虫相关(好玩的工具) Phantomjs berserkJS(基于Phantomjs的改进版本)

jopen 2014-11-25   115612   0
Github  
P24

  大数据分析系统架构之探讨 文档

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统(Hadoop Distributed

guet_lee 2017-01-12   2237   0
P24

  大数据分析系统架构 文档

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统(Hadoop Distributed

wzf1118 2016-11-04   2940   0

安全行业从业人员自研开源扫描器合集 经验

(web应用指纹识别) https://github.com/nanshihui/Scan-T (网络爬虫式指纹识别) https://github.com/OffensivePython/Nscan (a

CZUCorina 2017-01-12   61172   0

HTTP协议理解与应用总结 经验

301 - 永久跳转,原地址不存在了,url被指向到另一个地址。这个主要是搜索引擎相关,影响爬虫的检索行为。 302 - 临时跳转,服务器会返回一个新的url给客户端,客户端可以继续访问这个url来获取内容。

jopen 2013-10-22   24651   0
HTTP  

电商搜索引擎的架构设计和性能优化 经验

一步是爬虫系统,第二步是数据分析,第三步才是检索结果。首先,电商的搜索引擎并没有爬虫系统,因为所有的数据都是结构化的,一般都是微软的数据库或者 Oracle 的数据库,所以不用像百度一样用「爬虫」去不

jopen 2015-11-21   27022   0
P9

  Nutch 主要类分析 文档

Indexer:     这个类的任务是另一方面的工作了,它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。     这里的输入就比较多了,有segments下的fetch_dir

228823266 2012-01-17   5175   0

4个能够与Lucene相媲美的开源搜索引擎 资讯

Moffat和Timothy所写,名字是《管理十亿字节:压缩并且索引文档和图片》。在使用他们的分布式、可容错的网页爬虫UbiCrawler收集到大量的网页数据后,它的作者需要一个软件来解析那些收集来的数据,由于这个需求,MG4J诞生了。

jopen 2012-10-11   13452   0
Lucene  

最好的15个Python开源框架 经验

:Python版的Spark DPark是Spark的Python克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现,目前豆瓣内部的绝大多数

jopen 2015-01-05   35535   0

500lines项目简介 经验

Mei 小型Ruby测试框架 Ruby 459 ci Malini Das Mozilla 简化的分布式持续集成系统 Posix,Python2.7+,Git 627 cluster Dustin J.

jopen 2014-12-07   41071   0
P4

  Nutch 源代码学习(5)-解读 Nutch -运行,爬行过程 文档

  Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。

228823266 2012-01-17   582   0

《Hadoop基础教程》之初识Hadoop 经验

个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google

jopen 2015-01-12   27646   0

使用Nginx+Lua(OpenResty)开发高性能Web应用 经验

1。此处为什么分两层呢? 1、核心Nginx层是无状态的,可以在这一层实现流量分组(内网和外网隔离、爬虫和非爬虫流量隔离)、内容缓存、请求头过滤、故障切换(机房故障切换到其他机房)、限流、防火墙等一些通用型功能;

LauVega 2016-03-06   106125   0

Java资源大全中文版(Awesome最新版) 经验

Phoenix:HBase针对低延时应用程序的高性能关系数据库层。 官网 Crate:实现了数据同步、分片、缩放、复制的分布式数据存储。除此之外还可以使用基于SQL的语法跨集群查询。 官网 Flyway:简单的数据库迁移工具。

awzebr76hj 2016-09-18   10317   0

微博付费打赏架构:一个社交场景下准金融项目开发和实践 经验

注于高可用、高并发、可伸缩系统架构研究,对 IM、防爬虫、搜索、股票相关技术领域均有涉猎。目前在微博商业产品部担任资深研发工程师,致力于后端分布式、金融交易领域相关技术的研究和探索。 互联网风口的环境

whocases 2016-07-20   21679   0
微博   财经  
1 2 3 4 5 6 7 8 9 10