开源项目,开源代码,开源文档,开源新闻,开源社区

CFEngine 上的工作成果，才促成了这本书的出现。这本书能够帮助你思考，如何成功地为网络创建安全的自动化爬虫机器人。《信息简史》（Information: A History， a Theory，

jopen 2015-03-05 22254 0

REST

需要网关来进行反向路由。即将外部请求转换成内部具体服务条用安全认证：网络中会有很多恶意访问，譬如爬虫，譬如黑客攻击，网关维护安全功能。限流熔断：参考我学好分布式zookepper的博客，当请求很多

Robofox2014 2018-12-18 17241 0

微服务架构

P14

Acunetix Web Vulnerability Scanner（漏洞扫描工具）这是一款网络漏洞扫描工具。通过网络爬虫测试网站安全，检测流行的攻击 ,如跨站点脚本、sql 注入等。在被入侵者攻击前扫描购物车、表格、安全区域和其他Web应用程序。

不日夜游 2017-04-05 3451 0

软件测试

务出错报警等。未来可以做到父子任务的关联，任务资源的自动分配和协调，任务的故障转移和均衡。那么网络爬虫，报表分析，弹性计算等资源型任务就可以适用了。统一监控平台（开源地址： http://git

jopen 2015-10-28 22032 0

电子商务软件架构

[python] lantern访问中文维基百科及selenium爬取维基百科语料 [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒下载结果如下图所示，共30

MiraS01 2016-02-18 145597 0

算法

较卡（firefox会一次性将数据导入内存，想想就觉得吓人啊） ④ localStorage不能被爬虫爬取，不要用它完全取代URL传参 4. sessionStorage 和服务器端使用的sess

shijinbiao 2016-11-16 7011 0

JavaScript开发 Localstorage

P47

可信计算的风格特征基于TPM的完整性检查 10. 可信计算的风格特征 11. 检测的发展宏观监测 APT检测蜜罐B爬虫沙箱A静态数据体病毒检测代码代码检查C管理体系风险评估合规测评S 12. 基于风险管理思想的体系化方法国内的一些规章制度等级保护

timdeng 2012-12-17 3030 0

方案

P39

的 POST方法：不安全的、不幂等的过度使用GET方法敏感信息位于URL中，不够安全容易受到爬虫的伤害过度使用POST方法例子：SOAP等RPC风格的调用协议一个资源承担了过多的职责没有充分利用HTTP的优点

yuzhu712 2013-01-22 6628 0

Web框架 Apache ActionScript C# Basic

分布式大规模数据处理 MapReduce 首先，在Google数据中心会有大规模数据需要处理，比如被网络爬虫（Web Crawler）抓取的大量网页等。由于这些数据很多都是PB级别，导致处理工作不得不尽可能

jopen 2012-12-06 74726 0

Google

- IMDB的链接 - 豆瓣的链接豆瓣对机器人访问有比较大的限制，如果不限制抓取速度的话，爬虫一打开就会被豆瓣封掉IP。测试了几遍，发现每五秒钟抓取一次页面目前还不会被封掉。运行脚本大概一周后

jopen 2015-07-12 26561 0

分布式/云计算/大数据 Apache Spark

图一量化派的数据来源二、量化派的大数据平台架构量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结构化数据，还有第三方的接入数据，系统运行产生的日志数据等等，数据的形式多种多样，如何保

jopen 2015-10-06 52802 0

Hadoop 分布式/云计算/大数据

当然有时候除了学新技术，还派上了另一番用场，诸如某次同事对一个 App 的某些数据信息感兴趣，于是乎专门做了爬虫到网上爬取数据，后来我反编译了 App 后大致捋了一遍，发现该 App 在 raw 目录下其实已经

ty223880 2016-07-05 42921 0

Java 安卓开发 Android开发移动开发

Yelp 是合作伙伴，但当 Google 收购 Yelp 未果之后，合作停止，Google 开始用爬虫抓 Yelp 的数据，并且不给来源的显示在 Google Maps 上。被抗议之后，Google 干脆自己做了

jopen 2013-03-21 15766 0

Google

反向索引和快速搜索快速索引更好的搜索结果为了这个演示，我编了一个小的维基百科爬虫，爬到相当多（85000）维基百科文章的第一段。由于索引到所有85K文件需要90秒左右，在我的电脑

jopen 2015-04-02 17468 0

JavaScript开发 JavaScript

另一个长期被期待的特性是服务器端渲染的能力。服务器端渲染可以缩短首屏呈现时间并解决客户端动态渲染无法被爬虫抓取从而影响SEO的问题。页面渲染的加快将会明显地提升下一代基于 Angular 开发的 web app

jopen 2015-12-13 39563 0

React

的问题，我查找各种资料，有时候能找到，但有时候你会陷入互联网的海洋中，你感觉到自己就像是一个机器人爬虫，永远都在无尽的网上爬啊爬。。。有时候自己可以跳出这种漩涡，而有时候是因为耗尽了时间，已经到

jopen 2016-01-19 14644 0

Scala

P57

我们回看这些注入的地方，发现大部分注入点都是Ajax请求，一般来说，我们了解的漏洞扫描工具都是以爬虫式的偏列页面的地址，但对于这种Ajax或者是Javascript触发的请求，漏洞扫描工具就显得无力了。

ccn4 2013-10-18 4860 0

报告手册 HTML Java Go

3天的时间去完成。我得到了面试，得到了那份工作——但对于我来说，最大的收获是这道编程作业强迫我去钻研并有所获。我需要去开发一个网页爬虫，一个拼写检查/纠正器，还有一些其它的功能。不错的东西。然而，最终，我拒绝了这份工作。终于

jopen 2012-07-16 11712 2

面试 C/C++ Go

P10

N，就可以保证强一致性。实际应用：今年上半年我在aspire的搜索团队中负责互联网搜索的设计与开发，我设计的网页爬虫系统就是采用Cassandra来存储网页与链接信息的。下面结合我的实际使用经验谈谈我对Cassandra的看法：

tanzhen 2012-03-21 472 0

分布式/云计算/大数据

介绍:在线Neural Networks and Deep Learning电子书《Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱》 1 介绍:python的17个关于机器学习的工具

jopen 2014-12-23 109147 0

机器学习

有关REST知识的阅读清单资讯

微服务核心架构梳理经验

渗透测试的原理文档

.net 大型分布式电子商务架构说明经验

word2vec词向量训练及中文文本相似度计算经验

Javascript本地存储小结经验

高端信息安全检测与大数据文档

REST与面向资源的Web开发文档

Google的十个核心技术经验

使用Apache Spark分析豆瓣电影数据经验

量化派基于Hadoop、Spark、Storm的大数据风控架构经验

那些值得你试试的 Android 竞品分析工具经验

Google 精神之死：别了，曾经的理想和信念资讯

JavaScript 全文搜索之相关度评分经验

[译]ANGULAR VS. EMBER VS. REACT 如何选择前端框架资讯

2015年阿里工作与生活回顾资讯

web常见漏洞与挖掘技巧文档

一次谷歌面试趣事问答

分布式存储技术及应用文档

机器学习和深度学习学习资料经验

爬虫XSScrapy 的相关搜索

关键词

有关REST知识的阅读清单 资讯

微服务核心架构梳理 经验

渗透测试的原理 文档

.net 大型分布式电子商务架构说明 经验

word2vec词向量训练及中文文本相似度计算 经验

Javascript本地存储小结 经验

高端信息安全检测与大数据 文档

REST与面向资源的Web开发 文档

Google的十个核心技术 经验

使用Apache Spark分析豆瓣电影数据 经验

量化派基于Hadoop、Spark、Storm的大数据风控架构 经验

那些值得你试试的 Android 竞品分析工具 经验

Google 精神之死：别了，曾经的理想和信念 资讯

JavaScript 全文搜索之相关度评分 经验

[译]ANGULAR VS. EMBER VS. REACT 如何选择前端框架 资讯

2015年阿里工作与生活回顾 资讯

web常见漏洞与挖掘技巧 文档

一次谷歌面试趣事 问答

分布式存储技术及应用 文档

机器学习和深度学习学习资料 经验