开源项目,开源代码,开源文档,开源新闻,开源社区

n的20倍时，false positive发生的概率是0.0000889 ，这个概率基本能满足网络爬虫的需求了。原文地址：http://www.cnblogs.com/heaad/arc

jopen 2014-02-25 11927 0

http://ncrawler.codeplex.com/ NCrawler是一款国外的开源网络爬虫软件,遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库,采用xpath的方式处理定位网页元素

jopen 2014-03-03 110440 0

Filter是由Bloom在1970年提出的一种快速查找算法，通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。它相比hash容器的一个优势就是，不需要存储元素的实际数据到容器中去来一个个的比较是否存在。

jopen 2016-01-10 14813 0

算法

transfer_pool: 传输池，基于asio，维护大量并发的传输，可以用于实现爬虫、批量下载等等。 static_stream: 针对静态数据buffer优化的静态流，用于轻量快速的数据解析。

jopen 2016-01-26 20629 0

io传输操作。 transfer_pool：传输池，基于asio，维护大量并发的传输，可以用于实现爬虫、批量下载等等。 static_stream：针对静态数据buffer优化的静态流，用于轻量快速的数据解析。

waruqi 2015-12-01 17399 0

跨平台 libc asio stream IOS

"##############################################" print u"名字：豆瓣图书电影爬虫机器人" print u"版本：2.5" print u"作者：jetou" print u"说明：按照指令操作即可"

LasonyaHart 2016-01-24 8636 2

Python

http://ncrawler.codeplex.com/ NCrawler是一款国外的开源网络爬虫软件,遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库,采用xpath的方式处理定位网页元素

jopen 2015-10-08 32319 0

开源项目 .NET开发

至于opencv，在做人脸识别的时候会用到，但本文不会涉及到，在本专栏的后续中会谈及openCV的人脸识别和基于此的python图片爬虫，有兴趣的朋友可以关注本专栏。相关背景要识别两张相似图像，我们从感性上来谈是怎么样的一个过

ivxy1928 2016-02-21 112359 0

Python 图形/图像处理

串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。如果有同学写过爬虫，应该对正则表达式很熟悉，强大的匹配功能让很多问题引刃而解.运用正则表达式可以验证用户输入（手机号，邮箱，密码）提取特定规则字符串

JoeOKQE 2017-03-01 13492 0

Markdown 正则表达式 iOS开发移动开发

微信小程序-公众号热门文章信息流 weapp-girls ★31 - 通过Node.js实现的妹子照片爬虫微信小程序仿芒果TV ★31 - 微信小程序demo 番茄时钟 ★31 - 番茄时钟微信小程序版

xsbu9066 2017-01-10 40021 0

微信小程序开发开源微信小程序移动开发

Selector方式选择DOM元素，也可过滤HTML文本，防止XSS攻击。学习Jsoup是为了更好的开发我的另一个爬虫框架webmagic，为了学的比较详细，就强制自己用很规范的方式写出这部分文章。代码部分来自https://github

AlyLinderma 2017-02-24 11776 0

前端技术 JavaScript

https://github.com/NicolasHug/Surprise No 29：Gain Web爬虫框架。[Github 1009 stars，由高久力提供] https://github.com/gaojiuli/gain

FlorianGarz 2018-01-16 40907 0

Python 开源 Github

HTML解析，并且能很好理解DOM，CSS，以及JQuery。 GitHub 官方 PS：这是java库。做网页爬虫（Crawler,Robot）必备。 toml: 这是个跨语言的配置信息存取方案。 GitHub

xg48 2015-04-10 39029 0

Android Android开发移动开发

传输操作。 transfer_pool：传输池，基于asio，维护大量并发的传输，可以用于实现爬虫、批量下载等等。 static_stream：针对静态数据buffer优化的静态流，用于轻量快速的数据解析。

jopen 2015-10-21 14804 0

tbox

开发人员很可能会不经意间地将这些访问凭证上传至公共页面,而且实际的情况也正是如此。无论在任何时候,攻击者都可以利用网络爬虫程序来爬取GitHub中的数据,并在GitHub中寻找所有暴露出来的凭证信息。因此,即便是开发人员迅速地意识到了自己的操作失误

jopen 2016-05-05 8672 0

执行操作的时候，在量小的情况下是没有问题的，但是当异步操作的量特别大的时候，就需要对其进行一定的控制。比如写一个爬虫去某种网站上爬图片，那么将图片下载到本地的过程中存在一个文件描述符的限制，即同时打开的文件（保存图

summeryct 2017-06-12 27149 0

JavaScript开发 JavaScript

径靠广大的中小站长赢了那一仗，反而成了今天的电商巨头。2008 年 9 月，淘宝高调宣布封杀百度爬虫，理由是百度破坏了淘宝的信用排名制度，但其实质，是百度那样做会让淘宝自身的广告售卖排序无法持续——而这正是淘宝网的盈

jopen 2014-02-24 9474 0

互联网

以下图文为罗超总结的三巨头大数据的优势与策略：百度拥有两种类型的大数据：用户搜索表征的需求数据；爬虫和阿拉丁获取的公共 web 数据。阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现，挖掘

jopen 2014-02-01 7749 0

大数据

SPA（单页应用程序）之外的“混合”页面，它们是 Django（我们在用 Python 框架）里的普通页面，内容是可被爬虫抓取的。这些页面只在一个地方调用了 AngularJS，那就是搜索框，当你搜索的时候，AngularJS

jopen 2014-09-14 20765 0

angularjs

虽然“时光机器”(WaybackMachine)和其他众多项目都能自动记录世界各地的 HTML 网站，但网络爬虫却很难保存 Flash 网站。储存了音乐、游戏、命令和图片的 SWF 文件很容易保存，可是单靠算法却很难理解它们相互之间的结构。’

jopen 2015-04-13 5731 0

Flash

分布式爬虫的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

zerg: 基于docker的分布式爬虫服务 - GitHub Android JavaScript Python Flash IOS 移动开发互联网 Github 开源项目正则表达式大数据 Markdown 前端技术 angularjs stream tbox JavaScript开发 .NET开源跨平台 Android开发 iOS开发微信小程序图形/图像处理 .NET开发微信小程序开发 libc asio BloomFilter

大规模数据处理利器：BloomFilter 经验

常用的.net开源项目经验

利用bloom filter算法处理大规模数据过滤经验

TBOX v1.5.1 发布，轻量级跨平台 C 开发库资讯

推荐一个轻量级跨平台c开发库：TBOX 问答

Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影代码段

常用的.net开源项目经验

利用python进行识别相似图片（一）经验

手把手带你实现Markdown编辑器语法高亮经验

微信小程序开源项目库汇总经验

20170222 前端开发日报经验

15000个Python开源项目中精选Top30，Github平均star为3707 经验

Android开源库集锦经验

TBOX v1.5.0 发布，轻量级跨平台开发库资讯

开发人员在github上留下私钥，或有可能暴露企业数据资讯

Async 模块实现入门浅析经验

割裂的中国互联网：充分竞争还是重复建设？资讯

2014春晚广告风向标：移动安全、移动支付、大数据资讯

使用最好技术的不可见成本：AngularJS 资讯

还记得Flash吗？这些人在努力保存那份记忆资讯

分布式爬虫的相关搜索

关键词

大规模数据处理利器：BloomFilter 经验

常用的.net开源项目 经验

利用bloom filter算法处理大规模数据过滤 经验

TBOX v1.5.1 发布，轻量级跨平台 C 开发库 资讯

推荐一个轻量级跨平台c开发库：TBOX 问答

Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影 代码段

常用的.net开源项目 经验

利用python进行识别相似图片（一） 经验

手把手带你实现Markdown编辑器语法高亮 经验

微信小程序开源项目库汇总 经验

20170222 前端开发日报 经验

15000个Python开源项目中精选Top30，Github平均star为3707 经验

Android开源库集锦 经验

TBOX v1.5.0 发布，轻量级跨平台开发库 资讯

开发人员在github上留下私钥，或有可能暴露企业数据 资讯

Async 模块实现入门浅析 经验

割裂的中国互联网：充分竞争还是重复建设？ 资讯

2014春晚广告风向标：移动安全、移动支付、大数据 资讯

使用最好技术的不可见成本：AngularJS 资讯

还记得Flash吗？这些人在努力保存那份记忆 资讯

分布式爬虫 的相关搜索

关键词

常用的.net开源项目经验

利用bloom filter算法处理大规模数据过滤经验

TBOX v1.5.1 发布，轻量级跨平台 C 开发库资讯

Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影代码段

常用的.net开源项目经验

利用python进行识别相似图片（一）经验

手把手带你实现Markdown编辑器语法高亮经验

微信小程序开源项目库汇总经验

20170222 前端开发日报经验

Android开源库集锦经验

TBOX v1.5.0 发布，轻量级跨平台开发库资讯

开发人员在github上留下私钥，或有可能暴露企业数据资讯

Async 模块实现入门浅析经验

割裂的中国互联网：充分竞争还是重复建设？资讯

2014春晚广告风向标：移动安全、移动支付、大数据资讯

还记得Flash吗？这些人在努力保存那份记忆资讯

分布式爬虫的相关搜索