P39

  REST与面向资源的Web开发 文档

的 POST方法:不安全的、不幂等的 过度使用GET方法 敏感信息位于URL中,不够安全 容易受到爬虫的伤害 过度使用POST方法 例子:SOAP等RPC风格的调用协议 一个资源承担了过多的职责 没有充分利用HTTP的优点

yuzhu712 2013-01-22   6628   0

Google的十个核心技术 经验

分布式大规模数据处理 MapReduce 首先,在Google数据中心会有大规模数据需要处理,比如被网络爬虫(Web Crawler)抓取的大量网页等。由于这些数据很多都是PB级别,导致处理工作不得不尽可能

jopen 2012-12-06   74726   0
Google  

使用Apache Spark分析豆瓣电影数据 经验

- IMDB的链接 - 豆瓣的链接 豆瓣对机器人访问有比较大的限制,如果不限制抓取速度的话,爬虫一打开就会被豆瓣封掉IP。测试了几遍,发现每五秒钟抓取一次页面目前还不会被封掉。运行脚本大概一周后

jopen 2015-07-12   26561   0

量化派基于Hadoop、Spark、Storm的大数据风控架构 经验

图一 量化派的数据来源 二、量化派的大数据平台架构 量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结构化数据,还有第三方的接入数据,系统运行产生的日志数据等 等,数据的形式多种多样,如何保

jopen 2015-10-06   52802   0

那些值得你试试的 Android 竞品分析工具 经验

当然有时候除了学新技术,还派上了另一番用场,诸如某次同事对一个 App 的某些数据信息感兴趣,于是乎专门做了爬虫到网上爬取数据,后来我反编译了 App 后大致捋了一遍,发现该 App 在 raw 目录下其实已经

ty223880 2016-07-05   42921   0

Google 精神之死:别了,曾经的理想和信念 资讯

Yelp 是合作伙伴,但当 Google 收购 Yelp 未果之后,合作停止,Google 开始用爬虫抓 Yelp 的数据,并且不给来源的显示在 Google Maps 上。被抗议之后,Google 干脆自己做了

jopen 2013-03-21   15766   0
Google  

JavaScript 全文搜索之相关度评分 经验

反向索引和快速搜索 快速索引 更好的搜索结果 为了这个演示,我编了一个小的维基百科爬虫,爬到相当多(85000)维基百科文章的第一段。由于索引到所有85K文件需要90秒左右,在我的电脑

jopen 2015-04-02   17468   0

[译]ANGULAR VS. EMBER VS. REACT 如何选择前端框架 资讯

另一个长期被期待的特性是服务器端渲染的能力。服务器端渲染可以缩短首屏呈现时间并解决客户端动态渲染无法被爬虫抓取从而影响SEO的问题。页面渲染的加快将会明显地提升下一代基于 Angular 开发的 web app

jopen 2015-12-13   39563   0
React  

2015年阿里工作与生活回顾 资讯

的问题,我查找各种资料,有时候能找到,但有时候你会陷入互联网的海洋中,你感觉到自己就像是一个机器人爬虫,永远都在无尽的网上爬啊爬。。。 有时候自己可以跳出这种漩涡,而有时候是因为耗尽了时间,已经到

jopen 2016-01-19   14644   0
Scala  
P57

  web常见漏洞与挖掘技巧 文档

我们回看这些注入的地方,发现大部分注入点都是Ajax请求,一般来说,我们了解的漏洞扫描工具都是以爬虫式的偏列页面的地址,但对于这种Ajax或者是Javascript触发的请求,漏洞扫描工具就显得无力了。

ccn4 2013-10-18   4860   0
报告   手册   HTML   Java   Go  

一次谷歌面试趣事 问答

3天的时间去完成。我得到了面试,得到了那份工作——但对于我来说,最大的收获是这道编程作业强迫我去钻研并有所获。我需要去开发一个网页爬虫,一个拼写 检查/纠正器,还有一些其它的功能。不错的东西。然而,最终,我拒绝了这份工作。 终于

jopen 2012-07-16   11712   2
面试   C/C++   Go  
P10

  分布式存储技术及应用 文档

N,就可以保证强一致性。 实际应用: 今年上半年我在aspire的搜索团队中负责互联网搜索的设计与开发,我设计的网页爬虫系统就是采用Cassandra来存储网页与链接信息的。下面结合我的实际使用经验谈谈我对Cassandra的看法:

tanzhen 2012-03-21   472   0

机器学习和深度学习学习资料 经验

介绍:在线Neural Networks and Deep Learning电子书 《Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱》 1 介绍:python的17个关于机器学习的工具

jopen 2014-12-23   109147   0

python编码的意义 经验

序的大部分问题。 异常蛋疼的windows控制台 简单粗暴 就在不久前,本文作者在服务器上部署爬虫代码,就不得不在控制台输出(当然不是因为作者懒得用其他方式跑代码),结果是一连串的乱码,自认不是新

jopen 2015-12-20   24362   0

李彦宏、周鸿祎的旧怨新仇 资讯

名工程师的搜索技术团队。 360称 360 搜索引擎“拥有 13000 多台服务器,庞大的蜘蛛爬虫系统每日抓取网页数量 10 多亿,引擎索引的优质网页数量超过 200 亿”。 百度工程师赵明华在微博中称,“360搜索不顾

openkk 2012-09-01   16281   0
360   百度  

360举办开放日 周鸿祎回应“黑匣子之谜” 资讯

cn/privacy/v2/yunanquan.html 2 360服务器上的“用户隐私”数据被谷歌搜索爬虫抓取,包括浏览的网页、下载过的应用、搜索的关键字等。 解释:这是混淆隐私概念的说法。这些数据只

jopen 2013-02-28   8793   0
360  

谷歌女强人:看梅洛迪如何领导程序工具制作团队 资讯

Wojcicki)等,为填补大多数科技公司中的“性别鸿沟”而付出了更多的努力——至少据麦克菲赛尔来说是这样,她曾在谷歌旗下搜索和“网络爬虫”基础 设施中工作,还曾负责谷歌的全球服务器管理系统以及开发者工具相关工作。 “在谷歌,人们真

jopen 2013-07-09   4834   0
谷歌  

Python 语言在企业应用方面遭遇的十大谬误 资讯

目前比较有著名的很早就使用 Python 的例子是在1996年: Google 的第一个成功的网络爬虫 . 如果你对于长长的 Python 历史比较好奇,Python 的作者 Guido van Rossum

jopen 2014-12-28   52112   0
Python  

我2年学习编程的经验总结 资讯

一个脚本并且成功运行的时候。又比如说在我部署我的第一个 app 给服务器的时候。以及写下我的第一个爬虫来填充数据库的那一瞬间。我感觉自己就像阿拉丁一样,得到了一个无所不能的神灯。 编程就像毒品一样

jopen 2015-06-22   19042   0
编程  

如何选择移动应用前端框架 资讯

另一个长期被期待的特性是服务器端渲染的能力。服务器端渲染可以缩短首屏呈现时间并解决客户端动态渲染无法被爬虫抓取从而影响 seo 的问题。页面渲染的加快将会明显地提升下一代基于 Angular 开发的 web

jopen 2016-01-12   30509   0
1 2 3 4 5 6 7 8 9 10