Apache Nutch 2.3.1 发布,搜索引擎 资讯

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是 Doug Cutting ,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

jopen 2016-01-22   8172   0

Vue.js开源 - 豆瓣读书 经验

start 状态 在浏览器中访问 http://127.0.0.1:4000/api/spider 启动爬虫 目前完成的界面: 首页, 读书首页, 标签页, 列表页, 详情页 http://127.0

DewMcConach 2016-11-29   11643   0

HTML和XML文档的Python解析器:Beautiful Soup 经验

在网页中查找索引所需要的文本。利用urllib2和Beautiful Soup, 我们可以建立一个爬虫程序。 urllib2是一个与Python绑定的库,其作用是方便网页的下载。urllib和ur

jopen 2014-02-21   50566   0
P27

  MapReduce 技术的初步了解与学习 文档

    相信读计算机的没有人不知道“分布式计算”与“云计算”这两个名词。什么是分布式?简单的说就是把一件庞大的任务抛给n多个计算机去处理。“云计算”依我的解释就是分布式计算的一种,由于我没有仔细研究过云

lzqkean 2013-11-06   427   0

用Python爬取微博数据生成词云图片 经验

}] } 第二步:构建请求头和查询参数 分析完网页后,我们开始用 requests 模拟浏览器构造爬虫获取数据,因为这里获取用户的数据无需登录微博,所以我们不需要构造 cookie信息,只需要基本的请

chauxiang 2017-08-29   42595   0

什么是大数据?先了解三个概念:数据沉淀、数据挖掘和数据呈现 资讯

用大白话说就是数据抓取。目前有四大方式获取数据 : 网络爬虫,用Python及Go等开发自己的爬虫平台,对几十个网站进行每日抓取获得相关信息 (详见: 能利用爬虫技术做到哪些很酷很有趣很有用的事情? - 何明科的回答

jopen 2015-07-23   27962   0

统计数据显示360搜索近一周损失用户368万 资讯

这位名叫赵明华的百度互联网数据研发部经理称,百度的工程师制作的几个特殊页面没有任何外链,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的 “孤岛”,不可能被搜索引擎抓取到。但令人意外的是,百度工程师试着在

jopen 2012-09-06   10171   0
360  

大众点评起诉百度侵权窃用信息 要求赔偿9000万元 资讯

益,而且还有益于对方的推广宣传。 名词解释 Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots

jopen 2016-04-11   4416   0

Jsoup代码解读之七-实现一个CSS Selector 经验

html 当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图,希望以后webmagic也能挑战Jsoup

civu2452 2016-02-17   8545   0
CSS   Java开发  

Apache Nutch 1.10 发布,搜索引擎 资讯

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是 Doug Cutting ,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

jopen 2015-05-09   13572   0

BT搜索引擎:ssbc 经验

作为最早在国内研究和实践DHT爬虫的人,我的灵感是来自芬兰Helsinki大学的这篇论文: Real-World Sybil Attacks in BitTorrent Mainline DHT 英文

sdww 2015-07-18   21676   0

Python布隆过滤器实现代码 代码段

之前用python写了一个网络爬虫,里面url去重用的就是布隆过滤器,不过那个是用c++写的,在windows下用boost编译成 python模块之后再python里面调用,现在用纯python重新写一个,这样爬虫在lin

jopen 2015-08-26   1588   0
Python  

微服务核心架构梳理 经验

系统,可以有效的减少复杂程度,使服务架构的逻辑更清晰明了。 但是这样也会带来很多问题,就譬如分布式环境下的数据一致性,测试的复杂性,运维的复杂性。 什么组织适合使用微服务? 微服务带了种种优点

Robofox2014 2018-12-18   17241   0
P39

  REST与面向资源的Web开发 文档

架构风格的概念来自建筑学,比架构更为抽象 例子:分布式对象(DO)、远程过程调用(RPC) 类比:接口-实现 或 类-实例 为运行在Internet环境的分布式超媒体系统量身定制 Internet环境的特点

yuzhu712 2013-01-22   6628   0

谷歌三大核心技术(二)Google MapReduce中文版 经验

群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的 程序员有效利用分布式系统的丰富资源。 我们的MapReduce实现运行在规模可以灵活调整的由普通机

fmms 2012-02-08   280103   0
P20

  Google MapReduce中文版 文档

集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。   我们的MapReduce实现运行在规模可以灵活调整的由普

wujianhai 2011-11-26   5219   0
Go  
P20

  Google MapReduce中文版 文档

集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。   我们的MapReduce实现运行在规模可以灵活调整的由普

suncf1985 2014-05-08   305   0

微服务架构和企业实施策略 经验

开发中,可以看到需要同时满足电脑,平板,手机APP终端等多种前端展现和访问。而这种访问必须是支持分布式的接口服务访问模式。传统单体应用要做到这点也只有进行改造,比如再单独增加一个服务代理组件来发布服务。

sinwee 2017-03-08   20998   0

如何设计稳定性横跨全球的Cron服务 经验

这篇文章主要来描述下 Google 是如何实现一套可靠的 分布式Cron服务 ,服务于内部那些需要绝大多数计算作业定时调度的团队。 在这个系统的实践过程中,我们收获了很多,包括如何设计、如何实现 使得他看上去像一个靠谱的基础服务。

ArlField 2016-10-12   4816   0
P38

  各公司服务器架构 文档

用相应的框架进行开发后,即可做到对外统一界面、统一运维管理、统一报表展示等;也包括分布式缓存、分布式文件系统、分布式数据库等通用技术,上层应用可以根据自己的需要使用相应的API就可以使用到这些通用技术。

lxhoyxc 2014-05-05   3818   0
1 2 3 4 5 6 7 8 9 10