开源项目,开源代码,开源文档,开源新闻,开源社区

从图上可以简单的看出，平台底层有海量的数据不断积累、不断增长，包括宏观数据、行业的数据、场合数据，官方数据，也包括各种通过爬虫爬来的各种数据。接下来会通过数据生产、数据清洗、数据上线等过程，将这些表面上看似没什么关联的数据通

ozhc1633 2016-04-23 39175 0

大数据 QCon 分布式/云计算/大数据

不乏也有Codrops的开发者。国内：太多的技术类型的网站，除了作者自己主动分发。更多的还是爬虫抓取，最后抹去源作者的信息，也不注明来源出处。最后不得不说让源作者的原创不能得到很好的保护，还造成了很多垃圾水文的存在。

MichellCott 2016-10-21 13476 0

Node.js 开源 Node.js 开发

作为使用互联网的主要途径。 PageRank 的工作依赖于两个组成部分，一是叫做“蜘蛛”或者“爬虫”的自动程序，另一部分是关键词索引及其位置。这个算法通过计算某个网页的相关链接数量和链接质量，来

jopen 2014-10-09 15437 0

算法

使用CDN时要考虑URL的设计，比如URL中不能有随机数，否则每次都穿透CDN，回源到源服务器，相当于CDN没有任何效果。对于爬虫可以返回过期数据而选择不回源。接入层缓存对于没有CDN缓存的应用来说，可以考虑使用如Ng

jopen 2015-08-02 9383 0

服务

高并发查询，日PV过亿；3. 请求需要快速响应。这些共同点使商品搜索使用了与大搜索类似的技术架构，将系统分为：1. 爬虫系统；2. 离线信息处理系统；3. 索引系统；4. 搜索服务系；5.反馈和排序系统。京东商品

jopen 2015-11-11 24932 0

技术

工智能，结合了计算机视觉和微软的云端软件堆栈 AzureStack。你可以理解为，认知服务就是新的爬虫，让现实世界中的物体可以被索引、搜索和交互。微软认知服务最早出现在两年前。当时微软在自己的服务器里部署了一些训练好的人工智能

jopen 2017-05-10 12271 0

微软

本篇文章《开源跨平台数据格式化框架概览》由 Dennis Gao 发表自博客园，未经作者本人同意禁止任何形式的转载，任何自动或人为的爬虫转载行为均为耍流氓。原文链接：http://www.cnblogs.com/gaochund

jopen 2015-01-14 22855 0

开源

HTML解析，并且能很好理解DOM，CSS，以及JQuery。 GitHub 官方 PS：这是java库。做网页爬虫（Crawler,Robot）必备。 toml: 这是个跨语言的配置信息存取方案。 GitHub

jopen 2013-12-28 91646 0

Android Android开发移动开发

Pattern是Python的web挖掘模块，它绑定了 Google、Twitter 、Wikipedia API，提供网络爬虫、HTML解析功能，文本分析包括浅层规则解析、WordNet接口、句法与语义分析、TF-IDF、L

jopen 2014-07-03 90516 0

Python 机器学习

较卡（firefox会一次性将数据导入内存，想想就觉得吓人啊） ④ localstorage不能被爬虫爬取，不要用它完全取代URL传参瑕不掩瑜，以上问题皆可避免，所以我们的关注点应该放在如何使用

encn 2015-05-20 33488 0

HTML5 前端技术 Localstorage

（商家）、用户和Query等维度的特征供排序模型使用。数据清洗标注 & 模型训练数据清洗去掉爬虫、作弊等引入的脏数据；清洗完的数据经过标注后用作模型训练。效果报表生成统计生成算法效果指标，指导排序改进。

www345 2015-11-16 13243 0

O2O

x拉取数据，然后渲染，之后js操控全部的逻辑。但是这也就主要造成了两个问题： 1、SEO问题，爬虫抓不到内容。目前这个也是有五花八门的解决方案。 2、客户端初始化渲染比服务端页面直出还是慢，需要等js加载完之后才能渲染。

zhujuned 2016-03-11 36545 0

Redux 前端技术 webpack

可能会很爱的一个功能 - 模式迁移系统。 4、Scrapy 简介：一个快速、高级的屏幕抓取及 web 爬虫框架。亮点：Scrapy 保持整个爬取过程简单。创建一个类，并定义你要删除的项目的类型，并

es8207 2017-02-09 13866 0

Python Python开发

find_ip(html) print(ip+ ' : ' +ipaddrs) 这个简单我是直接像爬虫那样写的，用ip138的网址(接口没有找到，百度注册了好几次都不成功，有api的可以用api)。主函数

msoc0751 2017-02-14 13019 0

日志分析数据库 Python开发

替换img元素，并使用image-set函数。这种方式可以正常显示，但缺点就是，标签是具有语义的，使用div降低了爬虫的可访问性。结论没有解决高DPI图片问题的银弹。最简单的解决方案是完全避免图像，选择SVG和CSS。

LorenzoBarn 2017-02-16 11946 0

CSS 前端技术

方向，努力而深入的研究，计算机技术发展到今天已经细分很细，努力研究一种Java开源框架或者开源HTTP服务器源码或者研究过网络爬虫源码或者WEBKIT内核，不愁没有人要你。如果你是非常了解金融，企业ERP，证券，保险，移动应用行业的应用开发业务的人，

openkk 2012-06-17 37544 3

Java

React可以在服务器上预渲染应用再发送到客户端。它可以从预渲染的静态内容中恢复一样的记录到动态应用程序中。因为搜索引擎的爬虫程序依赖的是服务端响应而不是JavaScript的执行，预渲染你的应用有助于搜索引擎优化。 React与其它框架/库兼容性好

jopen 2015-02-21 29931 1

Angular

强加给用户。不幸被他言中。穆里根发现的移除办法本来已经深埋在某种互联网子菜单中，那里可能只有爬虫出没过。你需要点击进入一个听起来很随意的网页“发现有趣的日历”，接着忽略让整个页面看起来非常非常无

jopen 2015-01-20 5736 0

算法

在文章开始之前，我觉得有必要描述一下所谓的小众语言，这里我在最初进行技术选型时，考察了包括： Python: 你可能在接触爬虫、大数据分析等等方面听过Python的大名，大家都知道Pythonist都习惯说的一句话就是：人生苦短，我用Python。

jopen 2016-01-26 20722 0

Python Go语言 Ruby

x拉取数据，然后渲染，之后js操控全部的逻辑。但是这也就主要造成了两个问题： 1、SEO问题，爬虫抓不到内容。目前这个也是有五花八门的解决方案。 2、客户端初始化渲染比服务端页面直出还是慢，需要等js加载完之后才能渲染。

lyk517 2016-02-14 42817 0

Redux 前端技术 webpack

构建大数据生态需要哪些核心技术？经验

从Nodejs脚本到vue首页看开源始末的DemoHouse 经验

又来了！这次是真真正正统治世界的十大算法资讯

构建亿级前端读服务资讯

电商11.11：盘点双十一背后的技术较量资讯

微软新认知技术，让真实世界可被识别和“搜索” 资讯

开源跨平台数据格式化框架概览经验

Android开源库集锦经验

Python机器学习库经验

HTML5本地存储Localstorage 经验

美团O2O排序解决方案——线上篇经验

Redux服务端渲染及webpack优化经验

隐藏的宝藏，13 个不可忽视的优秀 Python 库经验

我的日志分析之道：简单的Web日志分析脚本经验

高dpi图片对于不同设备的适配方案经验

Java系统程序员修炼之道资讯

我由Angular转向React，为什么？资讯

谷歌日历强行添加联系人生日，强大算法展现出丑陋一面资讯

聊聊初创公司的后端语言选型(小众语言) 资讯

Redux服务端渲染及webpack优化经验

爬虫XSScrapy 的相关搜索

关键词

构建大数据生态需要哪些核心技术？ 经验

从Nodejs脚本到vue首页看开源始末的DemoHouse 经验

又来了！这次是真真正正统治世界的十大算法 资讯

构建亿级前端读服务 资讯

电商11.11：盘点双十一背后的技术较量 资讯

微软新认知技术，让真实世界可被识别和“搜索” 资讯

开源跨平台数据格式化框架概览 经验

Android开源库集锦 经验

Python机器学习库 经验

HTML5本地存储Localstorage 经验

美团O2O排序解决方案——线上篇 经验

Redux服务端渲染及webpack优化 经验

隐藏的宝藏，13 个不可忽视的优秀 Python 库 经验

我的日志分析之道：简单的Web日志分析脚本 经验

高dpi图片对于不同设备的适配方案 经验

Java系统程序员修炼之道 资讯

我由Angular转向React，为什么？ 资讯

谷歌日历强行添加联系人生日，强大算法展现出丑陋一面 资讯

聊聊初创公司的后端语言选型(小众语言) 资讯

Redux服务端渲染及webpack优化 经验

爬虫XSScrapy 的相关搜索

关键词

构建大数据生态需要哪些核心技术？经验

又来了！这次是真真正正统治世界的十大算法资讯

构建亿级前端读服务资讯

电商11.11：盘点双十一背后的技术较量资讯

开源跨平台数据格式化框架概览经验

Android开源库集锦经验

Python机器学习库经验

美团O2O排序解决方案——线上篇经验

Redux服务端渲染及webpack优化经验

隐藏的宝藏，13 个不可忽视的优秀 Python 库经验

我的日志分析之道：简单的Web日志分析脚本经验

高dpi图片对于不同设备的适配方案经验

Java系统程序员修炼之道资讯

我由Angular转向React，为什么？资讯

谷歌日历强行添加联系人生日，强大算法展现出丑陋一面资讯

Redux服务端渲染及webpack优化经验