开源项目,开源代码,开源文档,开源新闻,开源社区

https://github.com/NicolasHug/Surprise No 29：Gain Web爬虫框架。[Github 1009 stars，由高久力提供] https://github.com/gaojiuli/gain

FlorianGarz 2018-01-16 40907 0

Python 开源 Github

还有一些系统设计典型和经典问题，想到的先列在下面，等后续有时间总结了再补充到上面去：搜索引擎设计（包括网页爬虫）邮件系统设计（例如GMail）聊天系统无论如何，对于这些问题的解决，思考是最有趣的环节

y37f 2015-03-15 14172 0

系统设计

HTML解析，并且能很好理解DOM，CSS，以及JQuery。 GitHub 官方 PS：这是java库。做网页爬虫（Crawler,Robot）必备。 toml: 这是个跨语言的配置信息存取方案。 GitHub

xg48 2015-04-10 39029 0

Android Android开发移动开发

传输操作。 transfer_pool：传输池，基于asio，维护大量并发的传输，可以用于实现爬虫、批量下载等等。 static_stream：针对静态数据buffer优化的静态流，用于轻量快速的数据解析。

jopen 2015-10-21 14804 0

tbox

开发人员很可能会不经意间地将这些访问凭证上传至公共页面,而且实际的情况也正是如此。无论在任何时候,攻击者都可以利用网络爬虫程序来爬取GitHub中的数据,并在GitHub中寻找所有暴露出来的凭证信息。因此,即便是开发人员迅速地意识到了自己的操作失误

jopen 2016-05-05 8672 0

执行操作的时候，在量小的情况下是没有问题的，但是当异步操作的量特别大的时候，就需要对其进行一定的控制。比如写一个爬虫去某种网站上爬图片，那么将图片下载到本地的过程中存在一个文件描述符的限制，即同时打开的文件（保存图

summeryct 2017-06-12 27149 0

JavaScript开发 JavaScript

径靠广大的中小站长赢了那一仗，反而成了今天的电商巨头。2008 年 9 月，淘宝高调宣布封杀百度爬虫，理由是百度破坏了淘宝的信用排名制度，但其实质，是百度那样做会让淘宝自身的广告售卖排序无法持续——而这正是淘宝网的盈

jopen 2014-02-24 9474 0

互联网

以下图文为罗超总结的三巨头大数据的优势与策略：百度拥有两种类型的大数据：用户搜索表征的需求数据；爬虫和阿拉丁获取的公共 web 数据。阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现，挖掘

jopen 2014-02-01 7749 0

大数据

SPA（单页应用程序）之外的“混合”页面，它们是 Django（我们在用 Python 框架）里的普通页面，内容是可被爬虫抓取的。这些页面只在一个地方调用了 AngularJS，那就是搜索框，当你搜索的时候，AngularJS

jopen 2014-09-14 20765 0

angularjs

中也不乏很多感人的评论。但是，网易云音乐并没有提供热评排行榜和按评论排序的功能，没关系，本文就使用爬虫给大家爬一爬网易云音乐上那些热评的歌曲。结果对过程没有兴趣的童鞋直接看这里啦。

TristanMaco 2017-01-16 30144 0

Python Python开发

https://segmentfault.com/a/1190000004421758 序 BerkeleyDB在爬虫、搜索领域里头用的比较多，整体来讲的特点是嵌入式、kv数据库，功能强大，能支持几百T的存储。本文主要讲述怎么在java里头使用它。

feipigzi 2016-02-08 7232 0

Java

Blocker中添加其它过滤规则。 Ad Blocker们不仅能屏蔽广告；它们还能屏蔽网站跟踪爬虫与恶意域名。要打开额外过滤规则，点击ad blocker图标 > 点击首选项，转至过滤规则订阅

jopen 2014-12-22 8641 0

浏览器

提供了一个很棒的免费课程，带你引入 Python 编程学习，学习搜索引擎的更多东西，以及如何构建你自己的小型网络爬虫。它的确是一个值得参与的有趣的课程，并且还提供了额外的引导和社区支持. http://www.youtube

jopen 2014-06-12 50306 0

Python Python开发

HTML解析，并且能很好理解DOM，CSS，以及JQuery。 GitHub 官方 PS：这是java库。做网页爬虫（Crawler,Robot）必备。 toml: 这是个跨语言的配置信息存取方案。 GitHub

jopen 2013-12-18 49931 0

Android Android开发移动开发

subtitle: 雪忆, 如雪般单纯, 冷静思考. #博客副标题 description: #网站描述, 用于爬虫抓取的关键词 author: Andrew Liu #作者名称 email: Liu.bin.coder@gmail

jopen 2014-11-25 36178 0

Hexo 建站系统CMS

Artisan 开发编写，成功运行。之后，我使用该方式创建了两个具有完整功能的 Artisan 命令（一个是爬虫并和 MySQL 交互，另一个是和 Redis 交互），目前尚没有发现有任何问题。入口文件、启动文件和配置文件

jopen 2015-06-15 75438 0

Lumen Web框架

限于个人的阅历与认识，在此只是列举其中一部分出来。 2.1 开发相关主要有数据抓取，也即通常说的网络爬虫。需要考虑数据抓取的实时性与完整性，还有数据及时更新，数据去重等等。严格来说，和通常意义上的大数据

gptqw89y 2016-01-29 16057 0

分布式/云计算/大数据

P5

n的20倍时，false positive发生的概率是0.0000889 ，这个概率基本能满足网络爬虫的需求了。四. Bloom Filter实现代码　下面给出一个简单的Bloom

goushit 2011-06-30 3257 0

Java开发

问：怎么自动化的？答：减少我们去服务器查日志的时间，频繁的grep xxx。问：百度爬虫并发大没抗住，怎么自动化处理？答：首先你是想让它爬还是不爬，不爬就匹配useragent。

HilMariano 2016-11-26 29488 0

运维技术运维

户的浏览器不支持gzip ，那么filter 会把缓存的元素拿出来解压后再返回给客户浏览器（大多数爬虫是不支持gzip 的，所以filter 也会解压后再返回流），这样做的优点是节省带宽，缺点就是增加

jopen 2014-06-18 16244 0

Ehcache 缓存组件

15000个Python开源项目中精选Top30，Github平均star为3707 经验

系统设计典型问题的思考经验

Android开源库集锦经验

TBOX v1.5.0 发布，轻量级跨平台开发库资讯

开发人员在github上留下私钥，或有可能暴露企业数据资讯

Async 模块实现入门浅析经验

割裂的中国互联网：充分竞争还是重复建设？资讯

2014春晚广告风向标：移动安全、移动支付、大数据资讯

使用最好技术的不可见成本：AngularJS 资讯

使用Python爬一爬网易云音乐上那些评论火爆的歌曲经验

BerkeleyDB的Java版本的使用经验

5个最佳开源的浏览器安全应用资讯

学习Python编程的11个资源经验

Android开源库大全经验

通过Hexo在Github上搭建博客教程经验

Lumen 初体验（二）经验

0x0E 大数据职位，数据场技能(上) 经验

BloomFilter大规模数据处理利器文档

游戏平台的运维自动化扩展：故障自愈经验

细谈Ehcache页面缓存的使用经验

爬虫Mozilla 的相关搜索

关键词

15000个Python开源项目中精选Top30，Github平均star为3707 经验

系统设计典型问题的思考 经验

Android开源库集锦 经验

TBOX v1.5.0 发布，轻量级跨平台开发库 资讯

开发人员在github上留下私钥，或有可能暴露企业数据 资讯

Async 模块实现入门浅析 经验

割裂的中国互联网：充分竞争还是重复建设？ 资讯

2014春晚广告风向标：移动安全、移动支付、大数据 资讯

使用最好技术的不可见成本：AngularJS 资讯

使用Python爬一爬网易云音乐上那些评论火爆的歌曲 经验

BerkeleyDB的Java版本的使用 经验

5个最佳开源的浏览器安全应用 资讯

学习Python编程的11个资源 经验

Android开源库大全 经验

通过Hexo在Github上搭建博客教程 经验

Lumen 初体验（二） 经验