大规模数据处理利器:BloomFilter 经验

n的20倍时,false positive发生的概率是0.0000889 ,这个概率基本能满足网络爬虫的需求了。 原文地址:http://www.cnblogs.com/heaad/arc

jopen 2014-02-25   11927   0

常用的.net开源项目 经验

http://ncrawler.codeplex.com/ NCrawler是一款国外的开源网络爬虫软件,遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库,采用xpath的方式处理定位网页元素

jopen 2014-03-03   110440   0

利用bloom filter算法处理大规模数据过滤 经验

Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。 它相比hash容器的一个优势就是,不需要存储元素的实际数据到容器中去来一个个的比较是否存在。

jopen 2016-01-10   14813   0
算法  

TBOX v1.5.1 发布,轻量级跨平台 C 开发库 资讯

transfer_pool: 传输池,基于asio,维护大量并发的传输,可以用于实现爬虫、批量下载等等。 static_stream: 针对静态数据buffer优化的静态流,用于轻量快速的数据解析。

jopen 2016-01-26   20629   0

推荐一个轻量级跨平台c开发库:TBOX 问答

io传输操作。 transfer_pool:传输池,基于asio,维护大量并发的传输,可以用于实现爬虫、批量下载等等。 static_stream:针对静态数据buffer优化的静态流,用于轻量快速的数据解析。

waruqi 2015-12-01   17399   0
跨平台   libc   asio   stream   IOS  

Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影 代码段

"##############################################" print u"名字:豆瓣图书电影爬虫机器人" print u"版本:2.5" print u"作者:jetou" print u"说明:按照指令操作即可"

LasonyaHart 2016-01-24   8636   2
Python  

常用的.net开源项目 经验

http://ncrawler.codeplex.com/ NCrawler是一款国外的开源网络爬虫软件,遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库,采用xpath的方式处理定位网页元素

jopen 2015-10-08   32319   0

利用python进行识别相似图片(一) 经验

至于opencv,在做人脸识别的时候会用到,但本文不会涉及到, 在本专栏的后续中会谈及openCV的人脸识别和基于此的python图片爬虫,有兴趣的朋友可以关注本专栏。 相关背景 要识别两张相似图像,我们从感性上来谈是怎么样的一个过

ivxy1928 2016-02-21   112359   0

手把手带你实现Markdown编辑器语法高亮 经验

串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。 如果有同学写过爬虫,应该对正则表达式很熟悉,强大的匹配功能让很多问题引刃而解.运用正则表达式可以验证用户输入(手机号,邮箱,密码)提取特定规则字符串

JoeOKQE 2017-03-01   13492   0

微信小程序开源项目库汇总 经验

微信小程序-公众号热门文章信息流 weapp-girls ★31 - 通过Node.js实现的妹子照片爬虫微信小程序 仿芒果TV ★31 - 微信小程序demo 番茄时钟 ★31 - 番茄时钟微信小程序版

xsbu9066 2017-01-10   40021   0

20170222 前端开发日报 经验

Selector方式选择DOM元素,也可过滤HTML文本,防止XSS攻击。 学习Jsoup是为了更好的开发我的另一个爬虫框架webmagic,为了学的比较详细,就强制自己用很规范的方式写出这部分文章。 代码部分来自https://github

AlyLinderma 2017-02-24   11776   0

15000个Python开源项目中精选Top30,Github平均star为3707 经验

https://github.com/NicolasHug/Surprise No 29:Gain Web爬虫框架。[Github 1009 stars,由高久力提供] https://github.com/gaojiuli/gain

FlorianGarz 2018-01-16   40907   0
Python   开源   Github  

Android开源库集锦 经验

HTML解析,并且能很好理解DOM,CSS,以及JQuery。 GitHub 官方 PS:这是java库。做网页爬虫(Crawler,Robot)必备。 toml: 这是个跨语言的配置信息存取方案。 GitHub

xg48 2015-04-10   39029   0

TBOX v1.5.0 发布,轻量级跨平台开发库 资讯

传输操作。 transfer_pool:传输池,基于asio,维护大量并发的传输,可以用于实现爬虫、批量下载等等。 static_stream:针对静态数据buffer优化的静态流,用于轻量快速的数据解析。

jopen 2015-10-21   14804   0
tbox  

开发人员在github上留下私钥,或有可能暴露企业数据 资讯

开发人员很可能会不经意间地将这些访问凭证上传至公共页面,而且实际的情况也正是如此。 无论在任何时候,攻击者都可以利用网络爬虫程序来爬取GitHub中的数据,并在GitHub中寻找所有暴露出来的凭证信息。因此,即便是开发人员迅速地意识到了自己的操作失误

jopen 2016-05-05   8672   0

Async 模块实现入门浅析 经验

执行操作的时候,在量小的情况下是没有问题的,但是当异步操作的量特别大的时候,就需要对其进行一定的控制。比如写一个爬虫去某种网站上爬图片,那么将图片下载到本地的过程中存在一个文件描述符的限制,即同时打开的文件(保存图

summeryct 2017-06-12   27149   0

割裂的中国互联网:充分竞争还是重复建设? 资讯

径靠广大的中小站长赢了那一仗,反而成了今天的电商巨 头。2008 年 9 月,淘宝高调宣布封杀百度爬虫,理由是百度破坏了淘宝的信用排名制度,但其实质,是百度那样做会让淘宝自身的广告售卖排序无法持续——而这正是淘宝网的盈

jopen 2014-02-24   9474   0

2014春晚广告风向标:移动安全、移动支付、大数据 资讯

以下图文为罗超总结的三巨头大数据的优势与策略: 百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共 web 数据。 阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘

jopen 2014-02-01   7749   0

使用最好技术的不可见成本:AngularJS 资讯

SPA(单页应用程序)之外的“混合”页面,它们是 Django(我们在用 Python 框架)里的普通页面,内容是可被爬虫抓取的。这些页面只在一个地方调用了 AngularJS,那就是搜索框,当你搜索的时候,AngularJS

jopen 2014-09-14   20765   0

还记得Flash吗?这些人在努力保存那份记忆 资讯

虽然“时光机器”(WaybackMachine)和其他众多项目都能自动记录世界各地的 HTML 网站,但网络爬虫却很难保存 Flash 网站。储存了音乐、游戏、命令和图片的 SWF 文件很容易保存,可是单靠算法却很难理解它们相互之间的结构。’

jopen 2015-04-13   5731   0
Flash  
1 2 3 4 5 6 7 8 9 10