Java并发专题 带返回结果的批量任务执行 CompletionService ExecutorService.invokeAll 经验

优势: a、阻塞队列防止了内存中排队等待的任务过多,造成内存溢出(毕竟一般生产者速度比较快,比如爬虫准备好网址和规则,就去执行了,执行起来(消费者)还是比较慢的) b、CompletionSer

jopen 2016-01-16   15974   0

SEnginx安全相关模块配置 经验

default 0; 127.0.0.1-127.0.0.1 1; } #定义UA白名单,忽略常用网络爬虫 whitelist_ua $ua_wl { #忽略大小写 caseless; "Baiduspider"

jopen 2015-10-05   16368   0
SEnginx   Linux  

2016 年十大 Python 机器学习开源项目 经验

是Python编程语言的Web挖掘模块。 它捆绑了数据挖掘工具(Google + Twitter +维基百科API,网络爬虫,HTML DOM解析器),自然语言处理(词性标记,n元语法搜索,情感分析,WordNet),机器学习

opsd7938 2016-11-25   26331   0

使用Python定制词云 经验

显示出词汇,生成图片。频率高的词汇显示的大,频率低的词汇显示的小。文本数据可以是本地数据,也可是是爬虫动态从网络中获取的。 4. 效果截图 二、开发准备 打开Xfce终端,进入 Code 目录,创建

ojxr1023 2017-03-03   27303   0

十个免费的 Web 压力测试工具 经验

JCrawler是一个开源( CPL ) 的WEB应用压力测试工具。通过其名字,你就可以知道这是一个用Java写的像网页爬虫一样的工具。只要你给其几个URL,它就可以开始爬过去了,它用一 种特殊的方式来产生你WEB应用的负

jopen 2012-12-01   56634   0

《Hadoop基础教程》之初识Hadoop 经验

个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google

jopen 2015-01-12   27646   0

Google是什么? 资讯

和搜索按钮的 HTML 表格,做起来费不了多少精力。 对一个搜索引擎来说,真正困难的地方在于用爬虫爬行网络、为内容做索引,并飞快地检索相关结果。这些问题的解决有赖于在数量庞大的电脑上并行做 复杂运

jopen 2012-07-15   9702   0
Google  

Redis、Memcached、Guava、Ehcache中的算法 经验

每轮的总执行时间不超过1毫秒。 Memcached Memcached里有个文不对题的 LRU爬虫线程 ,利用了之前那条LRU的队列,可以设置多久跑一次(默认也是100毫秒),沿着列尾一直检查过去

n6xb 2015-04-06   16766   0

程序员必看的书(十二) 资讯

(实现关 联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量 信息并进行分析统计得出结论的优化算法、贝叶斯

d3fw 2015-04-27   16815   0

用c语言实现的多平台开发库:TBOX 经验

输操作。 transfer_pool: 传输池,基于asio,维护大量并发的传输,可以用于实现爬虫、批量下载等等。 static_stream: 针对静态数据buffer优化的静态流,用于轻量快速的数据解析。

jopen 2014-08-15   33794   0

2018年中高级前端面试题目小结 经验

5、vue服务器渲染 6、vue性能优化 4、 nodejs相关 1、nodejs常用模块 2、nodejs爬虫 3、nodejs 流 4、nodejs请求如何返回大文件 5、 es6相关 1、generate和async

KalKastner 2018-05-27   36919   0
P43

  Java 并发编程分享 文档

并发工具 监控与跟踪 3. 为什么要学习并发编程?充分利用服务器资源 提高服务吞吐量、降低响应时间 爬虫、WebServer、日志分析…… 分布式系统 资源的争用、可伸缩性 4. 多线程的优点 5. 多线程的代价设计更复杂

jachonen 2015-08-11   395   0

使用 Python 进行并发编程:我为什么不喜欢 Gevent 经验

惯的同时,用同步的方式写异步I/O的代码。 在12-13年的时候,我也用过gevent做过一些爬虫、网络编程的工作。在我使用场景中,使用Gevent的性能确实要比用传统的线程高,甚至高很多。

yangdebin84 2016-12-15   21333   0

代码这样写更优雅(Python 版) 经验

装饰器可以把与业务逻辑无关的代码抽离出来,让代码保持干净清爽,而且装饰器还能被多个地方重复利用。比如一个爬虫网页的函数,如果该 URL 曾经被爬过就直接从缓存中获取,否则爬下来之后加入到缓存,防止后续重复爬取。

ozaz9529 2017-03-02   12509   0

13 款开源的全文搜索引擎 资讯

org/ 4.  Nutch Nutch是一个用java实现的开源的web搜索引擎,包括爬虫crawler,索引引擎,查询引擎. 其中Nutch是基于Lucene的,Lucene为Nutch提供了文本索引和搜索的API

jopen 2013-04-02   520316   0

夜谈程序员的职业生涯规划 资讯

1)没有形成自己独特的优势,和项目技术优势的唯一性,不具备不可替代性。 2)技术方面仍然不够深入,新项目多涉及爬虫、数据采集、大数据,这几点都比较薄弱。 3)擅长C、C++、Shell,但公司中Java、Python占了近8层,在努力跟进学习中。

jopen 2016-03-04   7362   0

大数据揭秘:AI工程师真的能拿到百万年薪吗? 资讯

工程师,俨然成为程序员重点讨论的热门话题之一。 什么样的人可以成为 AI 工程师?薪酬如何? 基于腾讯云上的 Python 爬虫,我们抓取了几家主流招聘网站的 AI 相关的技术岗位,剔除重复数据和非工程师类的岗位需求,AI 相关的技术岗位样本量为

jopen 2017-03-17   15574   0

13 款开源的全文搜索引擎 经验

4.  Nutch Nutch是一个用java实现的开源的web搜索引擎,包括爬虫crawler,索引引擎,查询引擎. 其中Nutch是基于Lucene的,Lucene为Nutch提供了文本索引和搜索的API

yg3n 2015-06-04   25487   0
P25

  Lucene培训 文档

Lucene各种Query 7. Lucene简介包括 全文检索类库 简单的语言解析功能 不包括 爬虫 文档格式解析 7 8. Lucene的特性纯Java代码,跨平台,使用简单 速度快 API使用简单

yintaibing 2011-08-15   6587   0

开始nodejs+express的学习+实践(8) 经验

密码和登录密码的处理,很多很多处理吧,那都不属于入门的了,不在做学习和实践介绍了。 下一篇就是爬虫抓取的介绍,最简单的操作一次。 来自: http://my.oschina.net/u/2352644/blog/552734

jopen 2015-12-29   21163   0
1 2 3 4 5 6 7 8 9 10