hadoop分布式集群搭建 博客

hadoop版本:hadoop-0.20.205.0-1.i386.rpm 下载地址:http://www.fayea.com/apache-mirror/hadoop/common/hadoop-0.20.205.0/ jdk版本:jdk-6u35-linux-i586-rpm.bin 下载地址:http://www.oracle.com/technetwork/java/javase/down

jopen 2012-09-06   2021   0
fast el   拉手  
P7

  如何用C#语言构造蜘蛛程序(网络爬虫实现) 文档

[转]如何用C#语言构造蜘蛛程序(网络爬虫实现)   "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并

yyt1987 2011-10-28   621   0

爬虫入门到精通-headers的详细讲解(模拟登录知乎) 经验

本次我们实现如何模拟登陆知乎。

zhousiruo 2017-04-19   47598   0

爬虫开源:抓取外卖平台(美团,饿了么,百度)的商户订单 经验

外卖订单爬虫:美团,饿了么,百度 这个程序是用来抓取外卖平台(美团,饿了么,百度)的商户订单开发,并不是一个通用库,而是为这个 特定场景进行开发的。 适用场景:餐饮企业拥有多家外卖门店,订单量非常大,有对订单进行数据分析的需求。

AstridPolan 2017-03-13   54996   0

基于简单脚本的下一代开源爬虫框架 - Creeper 经验

About Creeper is a next-generation crawler which fetches web page by creeper script. As a cross-platform embedded crawler, you can use it for your news app, subscribe program, etc. Warning:At present

fjlvjie 2017-02-17   31504   0

PHP爬虫:百万级别知乎用户数据爬取与分析 经验

求,这类似于linux系统中一个进程开多条线程执行的功能。下面是使用curl_multi实现多线程爬虫的示例: $mh = curl_multi_init(); //返回一个新cURL批处理句柄 for

haifengwzf 2016-01-20   30330   0

搜狗输入法收集用户隐私信息,未屏蔽爬虫 资讯

搜狗移动输入法 被发现 将用户隐私数据如图片、视频、音频上传到云端,由于网站安全设计问题,它没有屏蔽搜索爬虫的索引,导致许多用户的私人消息泄露,安全研究人员从搜狗的 pinyin.cn 网站上发现了身份证、裸体照,甚至检举信。目前

jopen 2013-06-05   8877   0
搜狗  

程序员发现疑似苹果官方网络爬虫活动踪迹 资讯

源自苹果公司的网络爬虫踪迹显现,一位名为 Jan Moesen 软件工程师近日公布了他的发现,称他发现了用 Go 语言编译的苹果网络爬虫的抓取网页数据的活动证据。可以追溯至 10 月 15 日他发现来

jopen 2014-11-07   6216   0

Python进阶:理解Python中的异步IO和协程(Coroutine),并应用在爬虫 经验

from,使得协程代码更加简洁易懂。 在爬虫中使用协程实现异步IO 异步IO特别适合爬虫的工作,因为爬虫中所有的请求都属于IO密集型任务,想得到比较好的爬虫效率,使用协程很重要。关于Http异步请求,建议使用

duckbill 2016-12-04   25094   0

Python爬虫+ K-means 聚类分析电影海报主色调 经验

每部电影都有自己的海报,即便是在如今这互联网时代,电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报,精致的电影海报可以吸引人们的注意力。那么问题来了,不同风格的电影海报对颜色有什么样的偏好呢?

zbadderfzh 2016-03-01   39187   0

养一只Node.js爬虫溜达中国证券网 经验

爬虫的世界如同武林,派别繁多,其中Python 一派简单易学,深受各位小伙伴的喜爱。现在做大数据(呵呵),不写几个爬虫都不好意思了,甚至数据分析R语言也被大牛们插上翅膀,开始在Web上溜达,寻觅着数据分析的原料。

FVIPrecious 2017-02-09   12659   0

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 经验

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,

jopen 2014-09-01   86773   0

php判断来访者是否是搜索引擎的爬虫 代码段

Google 爬虫 'Baiduspider', // 百度爬虫 'Yahoo! Slurp', // 雅虎爬虫 'YodaoBot', // 有道爬虫 'msnbot' // Bing爬虫 // 更多爬虫关键字

phpw34 2015-04-21   2911   0
PHP  

SeimiCrawler一个敏捷强大的Java爬虫框架 — SeimiCrawler 0.2.6 文档 经验

SeimiCrawler一个敏捷强大的Java爬虫框架 ¶ An agile,powerful,standalone,distributed crawler framework. SeimiC

jopen 2016-01-14   39785   0

Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集 经验

,希望大家能提供更多的线索,来汇总整理一套Python网页爬虫,文本处理,科学计算,机器学习和数据挖掘的兵器谱。 一、Python网页爬虫工具集 一个真实的项目,一定是从获取数据开始的。无论文

jopen 2014-07-29   192610   0

使用爬虫技术实现 Web 页面资源可用性检测 经验

显然,要确保网站中的所有链接都具有可访问性,通过人工进行检测肯定是不现实的,常用的做法是使用爬虫技术定期对网站进行资源爬取,及时发现访问异常的链接。 对于网络爬虫,当前市面上已经存在大量的开源项目和技术讨论的文章。不过,感觉大

B6m4g7p55 2018-05-27   38275   0

云时代的分布式数据库:阿里分布式数据库服务 DRDS 资讯

MongoDB为代表的NoSQL数据库和以阿里DRDS、VoltDB、ScaleBase为代表的分布式NewSQL数据库如雨后春笋般不断涌现出来。 本文将会介绍阿里DRDS的技术理念、发展历程、技术特性等内容。

jopen 2015-07-16   26158   0
DRDS  
P5

  分布式集群内存数据技术引领12306技术革命 文档

http://server.chinabyte.com/151/12820151.shtml 分布式集群内存数据技术引领12306技术革命 原文出自【比特网】,转载请保留原文链接:http://server

wyhydwyhyd 2016-12-28   1319   0
P13

  学生分布式系统复习题与参考答案 文档

关于分布式系统复习题与参考答案 一、 填空题(每题n分,答错 个扣 分,全错全扣,共计m分) 1.访问透明性是指对不同数据表示形式以及资源访问方式的隐藏。而位置透明是用户无法判别资源在系统中的物理位置。

ziqian 2014-06-02   575   0
P25

  Taobao分布式文件系统TFS简析 文档

Taobao分布式文件系统TFS简析  http://blog.csdn.net/liuben/archive/2010/10/17/5946583.aspx Taobao自主研发分布式文件系统TFS(Taobao

syskernel 2012-07-05   530   0
1 2 3 4 5 6 7 8 9 10