开源项目,开源代码,开源文档,开源新闻,开源社区

优势： a、阻塞队列防止了内存中排队等待的任务过多，造成内存溢出（毕竟一般生产者速度比较快，比如爬虫准备好网址和规则，就去执行了，执行起来（消费者）还是比较慢的） b、CompletionSer

jopen 2016-01-16 15974 0

Java开发

default 0; 127.0.0.1-127.0.0.1 1; } #定义UA白名单，忽略常用网络爬虫 whitelist_ua $ua_wl { #忽略大小写 caseless; "Baiduspider"

jopen 2015-10-05 16368 0

SEnginx Linux

是Python编程语言的Web挖掘模块。它捆绑了数据挖掘工具（Google + Twitter +维基百科API，网络爬虫，HTML DOM解析器），自然语言处理（词性标记，n元语法搜索，情感分析，WordNet），机器学习

opsd7938 2016-11-25 26331 0

数据挖掘 Python 开源 Python开发

显示出词汇，生成图片。频率高的词汇显示的大，频率低的词汇显示的小。文本数据可以是本地数据，也可是是爬虫动态从网络中获取的。 4. 效果截图二、开发准备打开Xfce终端，进入 Code 目录，创建

ojxr1023 2017-03-03 27303 0

Python Linux Python开发

JCrawler是一个开源( CPL ) 的WEB应用压力测试工具。通过其名字，你就可以知道这是一个用Java写的像网页爬虫一样的工具。只要你给其几个URL，它就可以开始爬过去了，它用一种特殊的方式来产生你WEB应用的负

jopen 2012-12-01 56634 0

测试工具

个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。随后在2003年Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS也就是google

jopen 2015-01-12 27646 0

Hadoop 分布式/云计算/大数据

和搜索按钮的 HTML 表格，做起来费不了多少精力。对一个搜索引擎来说，真正困难的地方在于用爬虫爬行网络、为内容做索引，并飞快地检索相关结果。这些问题的解决有赖于在数量庞大的电脑上并行做复杂运

jopen 2012-07-15 9702 0

Google

每轮的总执行时间不超过1毫秒。 Memcached Memcached里有个文不对题的 LRU爬虫线程，利用了之前那条LRU的队列，可以设置多久跑一次(默认也是100毫秒)，沿着列尾一直检查过去

n6xb 2015-04-06 16766 0

缓存服务器 memcached

（实现关联产品推荐功能）、集群数据分析（在大规模数据集中发掘相似的数据子集）、搜索引擎核心技术（爬虫、索引、查询引擎、PageRank算法等）、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯

d3fw 2015-04-27 16815 0

程序员

输操作。 transfer_pool: 传输池，基于asio，维护大量并发的传输，可以用于实现爬虫、批量下载等等。 static_stream: 针对静态数据buffer优化的静态流，用于轻量快速的数据解析。

jopen 2014-08-15 33794 0

C/C++开发 tbox

5、vue服务器渲染 6、vue性能优化 4、 nodejs相关 1、nodejs常用模块 2、nodejs爬虫 3、nodejs 流 4、nodejs请求如何返回大文件 5、 es6相关 1、generate和async

KalKastner 2018-05-27 36919 0

Vue Node.js 前端技术

P43

并发工具监控与跟踪 3. 为什么要学习并发编程？充分利用服务器资源提高服务吞吐量、降低响应时间爬虫、WebServer、日志分析…… 分布式系统资源的争用、可伸缩性 4. 多线程的优点 5. 多线程的代价设计更复杂

jachonen 2015-08-11 395 0

Java开发 Java

惯的同时，用同步的方式写异步I/O的代码。在12-13年的时候，我也用过gevent做过一些爬虫、网络编程的工作。在我使用场景中，使用Gevent的性能确实要比用传统的线程高，甚至高很多。

yangdebin84 2016-12-15 21333 0

gevent 并发 Python开发

装饰器可以把与业务逻辑无关的代码抽离出来，让代码保持干净清爽，而且装饰器还能被多个地方重复利用。比如一个爬虫网页的函数，如果该 URL 曾经被爬过就直接从缓存中获取，否则爬下来之后加入到缓存，防止后续重复爬取。

ozaz9529 2017-03-02 12509 0

Python Python开发

org/ 4. Nutch Nutch是一个用java实现的开源的web搜索引擎，包括爬虫crawler，索引引擎，查询引擎. 其中Nutch是基于Lucene的，Lucene为Nutch提供了文本索引和搜索的API

jopen 2013-04-02 520316 0

全文搜索

1）没有形成自己独特的优势，和项目技术优势的唯一性，不具备不可替代性。 2）技术方面仍然不够深入，新项目多涉及爬虫、数据采集、大数据，这几点都比较薄弱。 3）擅长C、C++、Shell，但公司中Java、Python占了近8层，在努力跟进学习中。

jopen 2016-03-04 7362 0

工程师，俨然成为程序员重点讨论的热门话题之一。什么样的人可以成为 AI 工程师？薪酬如何？基于腾讯云上的 Python 爬虫，我们抓取了几家主流招聘网站的 AI 相关的技术岗位，剔除重复数据和非工程师类的岗位需求，AI 相关的技术岗位样本量为

jopen 2017-03-17 15574 0

AI工程师

4. Nutch Nutch是一个用java实现的开源的web搜索引擎，包括爬虫crawler，索引引擎，查询引擎. 其中Nutch是基于Lucene的，Lucene为Nutch提供了文本索引和搜索的API

yg3n 2015-06-04 25487 0

搜索引擎

P25

Lucene各种Query 7. Lucene简介包括全文检索类库简单的语言解析功能不包括爬虫文档格式解析 7 8. Lucene的特性纯Java代码，跨平台，使用简单速度快 API使用简单

yintaibing 2011-08-15 6587 0

Lucene 搜索引擎培训 Java

密码和登录密码的处理，很多很多处理吧，那都不属于入门的了，不在做学习和实践介绍了。下一篇就是爬虫抓取的介绍，最简单的操作一次。来自： http://my.oschina.net/u/2352644/blog/552734

jopen 2015-12-29 21163 0

Node.js 开发

Java并发专题带返回结果的批量任务执行 CompletionService ExecutorService.invokeAll 经验

SEnginx安全相关模块配置经验

2016 年十大 Python 机器学习开源项目经验

使用Python定制词云经验

十个免费的 Web 压力测试工具经验

《Hadoop基础教程》之初识Hadoop 经验

Google是什么？资讯

Redis、Memcached、Guava、Ehcache中的算法经验

程序员必看的书(十二) 资讯

用c语言实现的多平台开发库：TBOX 经验

2018年中高级前端面试题目小结经验

Java 并发编程分享文档

使用 Python 进行并发编程：我为什么不喜欢 Gevent 经验

代码这样写更优雅（Python 版）经验

13 款开源的全文搜索引擎资讯

夜谈程序员的职业生涯规划资讯

大数据揭秘：AI工程师真的能拿到百万年薪吗？资讯

13 款开源的全文搜索引擎经验

Lucene培训文档

开始nodejs+express的学习+实践（8）经验

爬虫Mozilla 的相关搜索

关键词

Java并发专题 带返回结果的批量任务执行 CompletionService ExecutorService.invokeAll 经验

SEnginx安全相关模块配置 经验

2016 年十大 Python 机器学习开源项目 经验

使用Python定制词云 经验

十个免费的 Web 压力测试工具 经验

《Hadoop基础教程》之初识Hadoop 经验

Google是什么？ 资讯

Redis、Memcached、Guava、Ehcache中的算法 经验

程序员必看的书(十二) 资讯

用c语言实现的多平台开发库：TBOX 经验

2018年中高级前端面试题目小结 经验

Java 并发编程分享 文档