P136

Web Crawling and Data Mining with Apache Nutch 文档

Web Crawling and Data Mining with Apache Nutch。Perform web crawling and apply data mining in your application

chdzh2001 2014-10-23   5227   0
P51

  Nutch 源代码 文档

inject操作调用的是nutch的核心包之一crawl包中的类Injector。 inject操作主要作用: 1.  将URL集合进行格式化和过滤,消除其中的非法URL,并设定URL状态(UNFETCHED),按照一定方法进行初始化分值; 2. 将URL进行合并,消除重复的URL入口; 3.  将URL及其状态、分值存入crawldb数据库,与原数据库中重复的则删除旧的,更换新的。

n8cx 2014-08-24   2979   0
P18

  Nutch 安装使用 文档

做完之前的实做,已经对hadoop有一定的体验,然而各位也许心中有些疑问,就是我学了hadoop到底可以用来..?,因此在此介绍一个hadoop的应用,搜寻引擎nutch 此篇的重点在於 o完整的安装nutch o用hadoop的角度来架设nutch o解抉中文乱码问题 o搜寻引擎不只是找网页内的资料,也能爬到网页内的档案(如pdf,msword) o也可运行在多台node

n8cx 2014-08-24   3371   0
P5

Nutch 二次开发培训讲义 文档

做 Nutch二次开发,开发阶段用什么操作系统都可以,只要有 JDK和Eclipse 即可,源代码 的管理需要使用一个集中的版本控制系统,可以使用 SVN或GIT,建议采用Bitbucket 免费 的私有库托管。如果想阶段性地在 Hadoop集群上面试运行,需要搭建一个 Hadoop 伪分布式 集群或完全分布式集群,开发组可以共用一个集群。

d478 2014-05-06   4697   0
P117

Nutch 公开课从搜索引擎到网络爬虫 文档

Nutch是Apache旗下的Java开源项目,最初是一个搜索引擎,现在是一个网络爬虫。下图为发起人Doug Cutting Doug Cutting同时也是 Lucene和Hadoop的发起人Nutch的特性插件架构,高度模块化 大多数功能都可以通过插件来实现和改变易扩展,极强的伸缩性 增加机器即可,不用修改代码,从一台可扩展到成千上 万台 高可用性,健壮容错容忍宕机情况的出现。

d478 2014-05-02   4667   0
P5

Nutch1.7 二次开发培训讲义 文档

做 Nutch二次开发,开发阶段用什么操作系统都可以,只要有 JDK和Eclipse 即可,源代码 的管理需要使用一个集中的版本控制系统,可以使用 SVN或GIT,建议采用Bitbucket 免费 的私有库托管。如果想阶段性地在 Hadoop集群上面试运行,需要搭建一个 Hadoop 伪分布式 集群或完全分布式集群,开发组可以共用一个集群。

picu 2014-03-29   4397   0
P8

  Nutch搜索引擎数据获取 文档

1基本原理:1.1体系结构设计:网络蜘蛛一般都具有3模块:HTTP下载模块,链接分析模块,下载控制模块。HTTP下载模块利用http网络协议下载,获取并存储内容。链接分析模块能提取网页中的超链接,用来获得后续页面入口。下载控制模块控制页面访问次序、更新策略、访问队列调度等工作。工作流程:访问URL数据库,读取URL入口地址,生成内存访问队列。寻找空闲的HTTP下载模块,分配URL,启动下载任务。HTTP下载模块访问互联网,得到的网页内容放入结果队列。

w523399859 2013-08-30   536   0
P12

  nutch1.4 Windows Eclipse配置和使用 文档

网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下仅供参考!

w523399859 2013-08-30   3022   0
P8

  Nutch 配置过程 文档

Nutch搜索引擎数据获取。1基本原理:1.1体系结构设计:网络蜘蛛一般都具有3模块:HTTP下载模块,链接分析模块,下载控制模块。HTTP下载模块利用http网络协议下载,获取并存储内容。链接分析模块能提取网页中的超链接,用来获得后续页面入口。下载控制模块控制页面访问次序、更新策略、访问队列调度等工作。工作流程:访问URL数据库,读取URL入口地址,生成内存访问队列。寻找空闲的HTTP下载模块,分配URL,启动下载任务。HTTP下载模块访问互联网,得到的网页内容放入结果队列。定期保存到网页数据库,为后续索引做准备。链接分析模块提取页面内的新连接,存入URL数据库等待下载。重复上述过程直到全部下载完成,等待新的任务。

Johey 2012-09-06   3853   0
P17

  Nutch 入门 文档

Nutch中的所有配置文件都放置在总目录下的conf子文件夹中,最基本的配置文件是conf/nutch-default.xml。这个文件中定义了 Nutch的所有必要设置以及一些默认值,它是不可以被修改的。如果你想进行个性化设置,你需要在conf/nutch-site.xml进行设置,它会 对默认设置进行屏蔽。

xcp881012 2012-08-19   3726   0
P8

基于nutch的专题网页资源采集服务系统的设计与实现 文档

摘要 在数字图书馆系统集成应用的框架下, 提出基于 Nutch的专题网页资源采集服务系统设计方案。该方案 引入信息过滤模块、 基于计算机通信领域专业词典的中文分词模块、 GUI信息定制模块、 词典和关键词管理模块 等, 保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、 Plugin插件开发 以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于 Webservice的服务接口, 实现其在数字图 书馆资源层的集成应用。

cuikaibest 2012-07-24   5783   0
P12

  nutch1.4 windows下eclipse配置图文详解 文档

网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下仅供参考!如有其它问题欢迎加1277140354一起交流学习!

cuikaibest 2012-07-24   5332   0
P61

Nutch 入门学习 文档

Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

xavierzx 2012-07-23   4656   0
P17

Nutch 入门 文档

Nutch 入门

linyouzhu 2012-05-31   581   0
P4

Nutch 中网页排序效果的改进方法 文档

Nutch 是一个 Java 实现的开源搜索引擎。针对目前 Nutch 对中文进行单字切分且没有实现 PageRank 计算的缺点,改进 PageRank 算法,设计并实现基于 MapReduce 的 PageRank 计算方法,对 Nutch 中文分词进行改进,加入 JE 中文分词器。实验结果表明,改进后的 Nutch 具有更高的查询结果准确率和中文网页排序效果。

linyouzhu 2012-05-31   4733   0
P61

Nutch 入门学习 文档

Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch致力于让每个人能很容易, 同时花费很少就可以配置世界一流的 Web 搜索引擎.

uu_wangwei 2012-03-09   7631   0
P13

  搜索相关笔记(Nutch) 文档

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。

q985962490 2012-02-29   692   0
P51

  Nutch 1.0 源代码分析 文档

Nutch1.0源代码分析

228823266 2012-01-17   399   0
P9

  Nutch 主要类分析 文档

org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造url,CrawlDatum,在构造过程中给CrawlDatum初始化得分,分数可影响urlhost的搜索排序,和采集优先级!5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host。

228823266 2012-01-17   5150   0
P4

  Nutch 源代码学习(5)-解读 Nutch -运行,爬行过程 文档

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。

228823266 2012-01-17   549   0
1 2