P13

  web应用漏洞学习利器 - WebGoat使用教程 文档

对于老道的应用程序安全审计人员来说,可用的辅助工具有很多。就我们这种类型的安全审计来说,最常用的工具就是本地代理和web/应用程序爬虫。为了完成全套WebGoat课程,web代理程序是必不可少的。 0IBhb(X   5z7U1:

dunderhead 2012-06-07   7090   0

实施微服务,我们需要哪些基础框架? 资讯

屏蔽了后台服务的升级和变化。 安全认证和防爬虫,所有外部请求必须经过网关,网关可以集中对访问进行安全控制,比如用户认证和授权,同时还可以分析访问模式实现防爬虫功能,网关是连接企业内外系统的安全之门。

jopen 2015-11-30   161068   0

Spark介绍 经验

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。 容错性 。 在分布式数据集计算时通过checkpo

jopen 2014-11-17   109482   0
P13

  搜索相关笔记(Nutch) 文档

索引,最后仍然由ouputFormat类完成写入索引的工作。   注意,如果你仅想使用Nutch的爬虫,而不是其索引功能,可以仿照Indexer重写自己的实现,比如把segments内容直接搬进数据库。

q985962490 2012-02-29   724   0

Python 资源大全中文版 经验

awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。由伯乐在线持续更新。

lijohnj 2016-11-28   106130   0

如何成为一名冠军程序员? 资讯

码控制的时候,让我们在目录之间拷贝源代码树。每周的 build 时我们都要同时做这件事,服务器就像爬虫一样缓慢。在机器卡壳的时候往往需要几个小时,所有的人都只能慢慢等,这是令人痛苦和沮丧的。我对 VSS(Visual

jopen 2015-07-04   9836   0

Python 基础语法概览 经验

honking great idea -- let's do more of those! 应用领域:网络爬虫、网站开发、GUI开发、数据挖掘、机器学习、自然语言处理等。 小提示:在 Python shell

EusebiaConc 2017-03-21   12370   0

2018年,20大Python数据科学库都做了哪些更新? 经验

Scrapy(提交:6625,贡献者:281) Scrapy是一个用于创建扫描网站页面并收集结构化数据的爬虫的库。此外,Scrapy可以从API中提取数据。因为具备良好的可扩展性和可移植性,该库使用起来非常方便。

user_zhou 2018-07-25   23584   0

最好的Python机器学习库 资讯

集和分析数据。数据挖掘部分可以帮助你收集来自谷歌、推特和维基百科等网络服务的数据。它也有一个Web爬虫和HTML DOM解析器。“引入这些工具的优点就是:在同一个程序中收集和训练数据显得更加容易。

jopen 2015-12-21   50373   0

必看的 jQuery性能优化的38个建议 经验

板或当用户点击它们时展开)。而当Javascript没有启用的时候,浏览器呈现所有的内容,搜索引擎爬虫也会勾去所有内容。我将来会更多的使用这个技巧。 二十八、推迟到$(window).load

jopen 2014-06-02   827807   0

Nodejs学习路线图 经验

给跨浏览器构建实时应用提供了完整的封装,socket.io完全由javascript实现。 2.4 Web爬虫:Cheerio/Request cheerio 是一个为服务器特别定制的,快速、灵活、封装j

jopen 2014-06-23   254388   0

Java缓存组件 EhCache 入门教程 经验

然如果客户端不支持gzip,那么filter会把缓存的元素拿出来解压后在返回给客户端浏览器(大多数爬虫是不支持gzip的,所以filter也会解压后在返回流)。 总之,Ehcache是一个非常轻量级的缓存实现,而且从1

openkk 2011-12-03   149809   0

分布式搜索方案选型 经验

reduce算法来批量建立索 引,它的很大部分特性都是参考了nutch(一个基于hadoop的开源爬虫项目),它提供的搜索功能很弱,只有最基本的查询方法,一些高级的如:分 组,统计,范围查询都没有的,

fmms 2012-03-15   74648   0

超轻量级Java缓存组件 - EhCache 经验

然如果客户端不支持gzip,那么filter会把缓存的元素拿出来解压后在返回给客户端浏览器(大多数爬虫是不支持gzip的,所以filter也会解压后在返回流)。 总之,Ehcache是一个非常轻量级的缓存实现,而且从1

fmms 2012-02-22   48506   0

Nutch+Hadoop集群搭建 经验

Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB :存储网页数据和连接信息 Fetch

fmms 2012-02-07   169808   0

Python机器学习库 经验

web 挖掘模块,它绑定了 Google 、 Twitter 、 Wikipedia API ,提供网络爬虫、 HTML 解析功能,文本分析包括浅层规则解析、 WordNet 接口、句法与语义分析、 TF-IDF

jopen 2015-12-25   64171   0

美团是如何通过搜索排序优化提升转化效果的 经验

产出Deal(团购单)/POI(商家)、用户和Query等维度的特征供排序模型使用。 数据清洗标注 & 模型训练 数据清洗去掉爬虫、作弊等引入的脏数据;清洗完的数据经过标注后用作模型训练。 效果报表生成 统计生成算法效果指标,指导排序改进。

TreBernardi 2016-01-29   15023   0

TBOX是一个用c语言实现的多平台开发库 经验

io传输操作。 transfer_pool:传输池,基于asio,维护大量并发的传输,可以用于实现爬虫、批量下载等等。 static_stream:针对静态数据buffer优化的静态流,用于轻量快速的数据解析。

LaunaCamari 2016-01-29   30694   0
P9

  php面试题 - 某搜索引擎 文档

org/data/2006/1128/article_1872.htm 26.说说你所了解的搜索引擎包含那些技术?(本题选作) 爬虫(采集)、切词(分词)、索引(存储)、查询以及其他相关技术 八、项目及设计题 4.一个Web开发团

workman 2012-02-26   6022   0
P7

  jQuery性能优化的38个建议 文档

板或当用户点击它们时展开)。而当Javascript没有启用的时候,浏览器呈现所有的内容,搜索引擎爬虫也会勾去所有内容。我将来会更多的使用这个技巧。 二十八、推迟到$(window).load 有时候采用$(window)

ainubis 2014-06-26   603   0
1 2 3 4 5 6 7 8 9 10