开源项目,开源代码,开源文档,开源新闻,开源社区

如果就单纯的 Excel 来进行数据处理是远远不能满足的。但如果只用一些操作软件来分析，而不怎么如何用逻辑数据来分析的话，那也只是简单的数据处理。替代性很高的工作，而无法深入规划策略的核心。

jopen 2014-07-31 21663 0

大数据

1，使用了Kerberos作为认证支持；相关技术栈中，Spark应用版本包含1.1、1.3、1.4、1.5，同时使用了Zeppelin作为Spark notebook的开发工具；在查询引擎方面Hive有0

juce7588 2017-04-11 36681 0

HDFS 集群/负载均衡

MRQL (发音 miracle) 是一个查询处理和优化系统，适用于大规模分布式的数据分析。MRQL (MapReduce Query Language) 是一个在计算机集群中对大规模数据的类 SQL

jopen 2013-11-01 15661 0

Apache MRQL

开发架构CUDA类库也是需要C++的技术。此外R语言和matlab是更容易学习上手的专业数学分析的工具语言。 R语言是开源项目，较适合个人研究者；matlab则是功能强大的商业应用系统，部署成本较高。

youhaofy 2017-03-07 22202 0

深度学习

Functions Virtualization，NFV）平台功能初级版、Sahara套件也支持Hadoop和Spark来快速建置与管理大资料丛集。每隔半年就推出新版本的OpenStack云端作业平台，如

jopen 2014-10-26 11784 0

OpenStack

腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分：MapReduce和Spark，两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析，并对两个计算引擎的Shuffle过程进行比较。

jopen 2014-05-21 56177 0

shuffle 数据挖掘

计算资源 – EMR Amazon EMR 在于我们可以很方便并快速的构建一个基于 Hadoop，Spark，Hive等大数据产品的计算集群，如果不是需要长久服役，我们可以在其所有 Job 完成之后，销毁

hh306311 2016-08-09 22195 0

Hive ETL 数据库分布式/云计算/大数据

Dpark/Spark中最重要的核心就是RDD（弹性分布式数据集，Resilient Distributed Datasets），为了给今后的分析打下基础，这篇文章首先会解释RDD相关的重要概念。接着

jopen 2016-01-07 7940 0

分布式文件系统分布式/云计算/大数据

StitchFix 数据科学家，创业前是 Twitter 的 Data Scientist，在目标广告投放和预测分析等领域有着丰富的经验。 Evan Chen: Google 软件工程师，对 Machine Learning

jopen 2015-09-27 32649 0

机器学习

云、百度开放云、易观和链家网。演讲话题点包含机器学习、数据存储、用户画像、数据查询、数据迁移和数据分析等关键技术点，完整的诠释了构建大数据生态必备的技能和构建生态最终的目的。具体内容往下看！机器学习

ozhc1633 2016-04-23 39175 0

大数据 QCon 分布式/云计算/大数据

垃圾邮件过滤、人脸识别、推荐引擎——当你有一个大数据集并且希望利用它们执行预测分析和模式识别，机器学习是必经之路。这门科学，计算机可以在没有事先规划的前提下自主学习、分析和操作数据，现在越来越多的开发人员关注机器学习。

jopen 2014-12-05 46666 0

机器学习

程、集合等基础框架，熟悉分布式、缓存、消息、搜索等机制； 3、具有良好的系统分析、架构设计能力，熟悉软件系统分析/设计的方法论，并有丰富的实践经验；（高级及以上） 4、熟悉单元测试技术和TDD，熟悉Linux、UML；

王小舆 2014-02-18 13562 0

京东商城招聘了~~ 数据库缓存 C/C++

大数据指的是海量数据的分析处理，可能是EB级的数量处理，我们之前也提到过大数据拥有4V特性，Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值），对于大数据的分析处理，需要

y37f 2015-03-15 37847 0

工具分布式/云计算/大数据

ODPS，它是一个离线的结构化数据存储和计算服务，主要是做海量的结构化数据的分析和挖掘。常见的使用场景，包括云端的数仓，云端的 BI 分析、日志分析等。除了 ODPS，阿里云还有其他基于飞天的产品，OTS 是半结构化数据的实时随机读写服务；OSPS

jopen 2014-03-19 30451 0

阿里云飞天系统

与众不同的是： (1) 可定制算法 (2) 多个执行模式，包括单个，Hadoop 批量和 Spark 批量, (3) 自动优化 SystemML 先进的机器学习主要基于两方面： SystemML

jopen 2015-11-05 10110 0

SystemML

其中有3个鞍点，对应将一天分为早、中、晚3个时间段，分时间段统计POI热销。从召回层面看POI排序对比之前变化比较大，但由于下文中Rerank的作用，对推荐整体的影响并不大。用户历史行为强相关策略

MMCLin 2017-03-28 12206 0

推荐系统软件架构

算法的书《数据结构与算法分析-Java语言描述第2版》够薄，数据结构与算法分析的点基本都涵盖了，而且示例代码还是Java写的。《算法第4版》可与上一本对比着读，厚一些，也多些图，但知识点没上面的全，也是Java的。

jopen 2015-10-28 35552 0

开发

输出到标准输出外，该脚本还提供CSV Reporter，即将结果以CSV文件的形式存储，便于在其它分析工具中使用该测试结果 $KAFKA_HOME/bin/kafka-consumer-perf-test

jopen 2016-01-06 13470 0

Kafka 性能测试消息系统

特性之一号称是“由你做主的Linux”，它全面支持主流开源软件，任由开发者选择自己所熟悉和偏爱的开源工具，支持包括 Apache Spark 、Node.js、MongoDB、MariaDB、PostgreSQL、Chef和Docker

jopen 2015-11-19 22774 0

LinuxONE

鉴于许多企业组织在竭力采用易于使用的数据分析技术让大数据广泛可用，它们应考虑将部分功能外包到云端。如果选择一种大数据即服务解决方案，可以处理像Hadoop、Spark和Hive等这些大数据技术很耗费资源、

jopen 2016-03-09 4973 0

大数据数据仓库 Hadoop

Flink，Spark Streaming，Storm对比分析的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

性能测试数据库 Hadoop ETL C/C++ Hive 数据挖掘消息系统 OpenStack 大数据机器学习 Kafka 阿里云飞天系统深度学习 HDFS 软件架构推荐系统 LinuxONE SystemML 数据仓库集群/负载均衡分布式/云计算/大数据 shuffle 分布式文件系统 QCon 京东商城招聘了~~ Apache MRQL

十种程序语言帮你读懂大数据的“秘密” 资讯

HDFS Federation在美团点评的应用与改进经验

查询处理和优化系统：Apache MRQL 经验

[从0到1]关于深度学习，这里比你想的还要全经验

新版 OpenStack 首度支持 NFV 网络功能虚拟化资讯

通过腾讯shuffle部署对shuffle过程进行详解经验

英语流利说基础数据平台经验

Dpark源码剖析一（概述）经验

听 StitchFix 数据科学家和 Google 工程师聊聊机器学习的机会资讯

构建大数据生态需要哪些核心技术？经验

值得mark的11个开源机器学习项目经验

京东商城招聘了~~ 问答

大数据领域一些实用工具经验

汤子楠：飞天、ODPS经历了许多血淋淋教训资讯

机器学习语言：SystemML 经验

旅游推荐系统的演进经验

我的后端开发书架2015 2.0版资讯

Kafka设计解析（五）：Kafka Benchmark 经验

IBM LinuxONE 在手，开源开放易如反掌资讯

指点迷津的现代数据数据架构之道资讯

Flink，Spark Streaming，Storm对比分析的相关搜索

关键词

十种程序语言帮你读懂大数据的“秘密” 资讯

HDFS Federation在美团点评的应用与改进 经验

查询处理和优化系统：Apache MRQL 经验

[从0到1]关于深度学习，这里比你想的还要全 经验

新版 OpenStack 首度支持 NFV 网络功能虚拟化 资讯

通过腾讯shuffle部署对shuffle过程进行详解 经验

英语流利说基础数据平台 经验

Dpark源码剖析一（概述） 经验

听 StitchFix 数据科学家和 Google 工程师聊聊机器学习的机会 资讯

构建大数据生态需要哪些核心技术？ 经验

值得mark的11个开源机器学习项目 经验

京东商城招聘了~~ 问答

大数据领域一些实用工具 经验

汤子楠：飞天、ODPS经历了许多血淋淋教训 资讯

机器学习语言：SystemML 经验

旅游推荐系统的演进 经验

我的后端开发书架2015 2.0版 资讯

Kafka设计解析（五）：Kafka Benchmark 经验

IBM LinuxONE 在手，开源开放易如反掌 资讯

指点迷津的现代数据数据架构之道 资讯

Flink，Spark Streaming，Storm对比分析 的相关搜索

关键词

HDFS Federation在美团点评的应用与改进经验

[从0到1]关于深度学习，这里比你想的还要全经验

新版 OpenStack 首度支持 NFV 网络功能虚拟化资讯

通过腾讯shuffle部署对shuffle过程进行详解经验

英语流利说基础数据平台经验

Dpark源码剖析一（概述）经验

听 StitchFix 数据科学家和 Google 工程师聊聊机器学习的机会资讯

构建大数据生态需要哪些核心技术？经验

值得mark的11个开源机器学习项目经验

大数据领域一些实用工具经验

汤子楠：飞天、ODPS经历了许多血淋淋教训资讯

旅游推荐系统的演进经验

我的后端开发书架2015 2.0版资讯

IBM LinuxONE 在手，开源开放易如反掌资讯

指点迷津的现代数据数据架构之道资讯

Flink，Spark Streaming，Storm对比分析的相关搜索