开源项目,开源代码,开源文档,开源新闻,开源社区

优秀程序员的标准《程序员》：谈谈你在Mozilla的工作？ John Resig：我以前是JavaScript程序员，2007年2月加入Mozilla，工作了几年。后来jQuery变得很大，我必须全力来做。所以向

openkk 2011-08-15 31307 1

jQuery

P97

/ HTTP/1.1 Host: finance.yahoo.com User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; … Cookie: C=abcdefg

dunderhead 2012-09-12 2941 0

软件架构 Apache CSS Go Basic

已经击败微软 IE。微软要记住这一点啊。Mozilla 的火狐(Firefox)也是输家，只是谷歌为 Mozilla 的主要资金捐助者，因此 Mozilla 的痛苦程度也有所缓解。但无论如何，谷歌通过

openkk 2012-08-28 11486 1

谷歌

Writers JavaScript Parsers and Extensions Narcissus Mozilla's experimental JavaScript compiler in JavaScript

n342 2015-04-29 73711 0

JavaScript开发 JavaScript

P97

/ HTTP/1.1 Host: finance.yahoo.com User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; … Cookie: C=abcdefg

shootings 2012-03-09 4946 0

软件架构 Apache CSS Go Basic

装。接下来就让我们通过锋芒初试，来亲自体验一下Nutch的强大功能吧！　　Nutch的爬虫抓取网页有两种方式，一种方式是Intranet Crawling，针对的是企业内部网或少量网站，使

523520954 2011-04-12 8825 0

爬虫搜索引擎 nutch

8357 或者 8358 页。生存技巧：Google 会持续的提醒同一件事情：针对人而不是爬虫来撰写好的原创内容。如果你现在躲开了这枚“子弹”，不要期望下次也能这么幸运。现在就是让你的 SEO

jopen 2014-02-27 13148 0

Web设计

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降.

jopen 2013-04-04 54524 0

搜索引擎

难，同样人眼识别也轻松不到哪里去。用这种方式作为验证码最大的担忧就是怕脚本或人工对其图片进行爬虫遍历，然后将所有的图片保存后与关键字进行对比并关联入库，当然前提是这些图片都是静态的。 12306

cmb2 2015-03-18 10121 0

12306

n的20倍时，false positive发生的概率是0.0000889 ，这个概率基本能满足网络爬虫的需求了。原文地址：http://www.cnblogs.com/heaad/arc

jopen 2014-02-25 11927 0

BloomFilter

http://ncrawler.codeplex.com/ NCrawler是一款国外的开源网络爬虫软件,遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库,采用xpath的方式处理定位网页元素

jopen 2014-03-03 110440 0

.NET开发 .NET开源

Filter是由Bloom在1970年提出的一种快速查找算法，通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。它相比hash容器的一个优势就是，不需要存储元素的实际数据到容器中去来一个个的比较是否存在。

jopen 2016-01-10 14813 0

算法

leader，曾在金融界、赶集等公司担任架构设计和技术管理工作，专注于高可用、高并发、可伸缩系统架构研究，对 IM、防爬虫、搜索、股票相关技术领域均有涉猎。目前在微博商业产品部担任资深研发工程师，致力于后端分布式、金融交易领域相关技术的研究和探索。

whocases 2016-07-20 21679 0

微博财经

transfer_pool: 传输池，基于asio，维护大量并发的传输，可以用于实现爬虫、批量下载等等。 static_stream: 针对静态数据buffer优化的静态流，用于轻量快速的数据解析。

jopen 2016-01-26 20629 0

io传输操作。 transfer_pool：传输池，基于asio，维护大量并发的传输，可以用于实现爬虫、批量下载等等。 static_stream：针对静态数据buffer优化的静态流，用于轻量快速的数据解析。

waruqi 2015-12-01 17399 0

跨平台 libc asio stream IOS

http://ncrawler.codeplex.com/ NCrawler是一款国外的开源网络爬虫软件,遵循LGPL许可协议。其HTML处理使用的是htmlagilitypack开源库,采用xpath的方式处理定位网页元素

jopen 2015-10-08 32319 0

开源项目 .NET开发

至于opencv，在做人脸识别的时候会用到，但本文不会涉及到，在本专栏的后续中会谈及openCV的人脸识别和基于此的python图片爬虫，有兴趣的朋友可以关注本专栏。相关背景要识别两张相似图像，我们从感性上来谈是怎么样的一个过

ivxy1928 2016-02-21 112359 0

Python 图形/图像处理

串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。如果有同学写过爬虫，应该对正则表达式很熟悉，强大的匹配功能让很多问题引刃而解.运用正则表达式可以验证用户输入（手机号，邮箱，密码）提取特定规则字符串

JoeOKQE 2017-03-01 13492 0

Markdown 正则表达式 iOS开发移动开发

微信小程序-公众号热门文章信息流 weapp-girls ★31 - 通过Node.js实现的妹子照片爬虫微信小程序仿芒果TV ★31 - 微信小程序demo 番茄时钟 ★31 - 番茄时钟微信小程序版

xsbu9066 2017-01-10 40021 0

微信小程序开发开源微信小程序移动开发

Selector方式选择DOM元素，也可过滤HTML文本，防止XSS攻击。学习Jsoup是为了更好的开发我的另一个爬虫框架webmagic，为了学的比较详细，就强制自己用很规范的方式写出这部分文章。代码部分来自https://github

AlyLinderma 2017-02-24 11776 0

前端技术 JavaScript

爬虫Mozilla 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

JavaScript jQuery Python Web设计 IOS CSS Apache 搜索引擎移动开发开源项目 12306 正则表达式 Markdown nutch 前端技术 stream Basic JavaScript开发 .NET开源软件架构跨平台 iOS开发微信小程序图形/图像处理 .NET开发微信小程序开发 libc asio BloomFilter

对话jQuery之父John Resig：JavaScript的开发之路资讯

腾讯大讲堂09-如何建设高性能网站文档

谷歌如何由搜索引擎向内容引擎演进资讯

可以编译为Javascript的语言列表大全经验

腾讯-如何建设高性能网站文档

nutch应用-安装与使用文档

2014年七个最明显的web设计趋势及其生存技巧资讯

大数据处理方面的 7 个开源搜索引擎资讯

12306 售票网站新版验证码识别对抗资讯

大规模数据处理利器：BloomFilter 经验

常用的.net开源项目经验

利用bloom filter算法处理大规模数据过滤经验

微博付费打赏架构：一个社交场景下准金融项目开发和实践经验

TBOX v1.5.1 发布，轻量级跨平台 C 开发库资讯

推荐一个轻量级跨平台c开发库：TBOX 问答

常用的.net开源项目经验

利用python进行识别相似图片（一）经验

手把手带你实现Markdown编辑器语法高亮经验

微信小程序开源项目库汇总经验

20170222 前端开发日报经验

爬虫Mozilla 的相关搜索

关键词

对话jQuery之父John Resig：JavaScript的开发之路 资讯

腾讯大讲堂09-如何建设高性能网站 文档

谷歌如何由搜索引擎向内容引擎演进 资讯

可以编译为Javascript的语言列表大全 经验

腾讯-如何建设高性能网站 文档

nutch应用-安装与使用 文档

2014年七个最明显的web设计趋势及其生存技巧 资讯

大数据处理方面的 7 个开源搜索引擎 资讯

12306 售票网站新版验证码识别对抗 资讯

大规模数据处理利器：BloomFilter 经验

常用的.net开源项目 经验

利用bloom filter算法处理大规模数据过滤 经验

微博付费打赏架构：一个社交场景下准金融项目开发和实践 经验

TBOX v1.5.1 发布，轻量级跨平台 C 开发库 资讯

推荐一个轻量级跨平台c开发库：TBOX 问答

常用的.net开源项目 经验

利用python进行识别相似图片（一） 经验

手把手带你实现Markdown编辑器语法高亮 经验

微信小程序开源项目库汇总 经验

20170222 前端开发日报 经验

爬虫Mozilla 的相关搜索

关键词

对话jQuery之父John Resig：JavaScript的开发之路资讯

腾讯大讲堂09-如何建设高性能网站文档

谷歌如何由搜索引擎向内容引擎演进资讯

可以编译为Javascript的语言列表大全经验

腾讯-如何建设高性能网站文档

nutch应用-安装与使用文档

2014年七个最明显的web设计趋势及其生存技巧资讯

大数据处理方面的 7 个开源搜索引擎资讯

12306 售票网站新版验证码识别对抗资讯

常用的.net开源项目经验

利用bloom filter算法处理大规模数据过滤经验

微博付费打赏架构：一个社交场景下准金融项目开发和实践经验

TBOX v1.5.1 发布，轻量级跨平台 C 开发库资讯

常用的.net开源项目经验

利用python进行识别相似图片（一）经验

手把手带你实现Markdown编辑器语法高亮经验

微信小程序开源项目库汇总经验

20170222 前端开发日报经验