开源项目,开源代码,开源文档,开源新闻,开源社区

如何利用相对廉价的机器搭建分布式超大规模机器学习集群是一件非常复杂的事情，对工程和算法都有极高的要求，从Spark到李沐的通用参数服务器，业界对此都进行过哪些尝试？本文尝试梳理一下这方面的历史和当前最佳实践。 1

TraceyVang 2017-10-09 42260 0

数据挖掘算法程序员机器学习

Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像

jopen 2015-12-28 33401 0

Hadoop 大数据分布式/云计算/大数据 Apache Flink

。不过，这也恰好是它的强项。Mesos本身提供了很多SDN接口，或者是有模块加载机制，可以做自定义修改，平台定制功能比较强。所以用Mesos的方案，需要考虑团队是否可以Hold住整个开发过程。从

JeaWagstaff 2017-09-11 33759 0

Mesos Docker

的运行速度。届时，Hive将在 Hadoop上提供企业级SQL用户所享有的全部表达能力。它将在支持窗口函数、用户自定义函数、子查询、Rollup、Cube、标准聚集、内连接、外连接、半连接和交叉连接

jopen 2014-09-14 10444 0

Hive

生出很多不同类型的程序(任务)运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、Java、Shell、Python等。这些任务需要不同的运行环境，并且除了定时运行，各种

jopen 2015-10-20 52068 0

大数据

P13

mysql-connector-java-5.0.7-bin 4.准备好mysql，mysql-5.1.52.tar.gz 二、修改/etc/hosts文件添加以下内容： 192.168.99.102 openfire2 192

nolimited 2012-09-05 7894 0

电话/通讯/IM聊天 Openfire

P10

smack开发之openfire介绍和部署[1] 前言 Java领域的即时通信的解决方案可以考虑openfire+spark+smack。当然也有其他的选择。 Openfire是基于Jabber协议(XMPP)实现的即时通信服务器端版本，目前建议使用3

1726013735 2014-04-07 3477 0

电话/通讯/IM聊天

规模、大数据量、高并发企业级或者互联网应用面临的若干痛点。三、Ignite和Hadoop以及Spark的关系 Ignite和Hadoop解决的是不同的问题，即使在一定程度上可能应用了类似的底层基

jopen 2016-01-12 20334 0

分布式/云计算/大数据

底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架（如Spark、MapReduce等）提供内存级速度的跨集群文件共享服务。Tachy

dy223 2015-03-26 11635 0

Tachyon

我们离线数据处理使用 TDW 平台。TDW 基于 Hive、Pig、Hadoop、Spark 等研发，支持 SQL、Pig Latin、MR、SPARK 等编程接口，为业务提供离线服务。 TRC 是我们的实时数据处理平台。它基于

jopen 2014-11-25 33331 0

腾讯大数据

P24

9 Oozie： 9 Cloudera Hue： 9 二、Spark生态圈： 10 Spark： 10 Spark SQL： 11 Spark Streaming： 12 MLLib： 13 GraphX

guet_lee 2017-01-12 2237 0

分布式/云计算/大数据

P24

9 Oozie： 9 Cloudera Hue： 9 二、Spark生态圈： 10 Spark： 10 Spark SQL： 11 Spark Streaming： 12 MLLib： 13 GraphX

wzf1118 2016-11-04 2940 0

分布式/云计算/大数据

https://github.com/apple/swift 2.Apache Spark Apache Spark以速度快和易于使用著称，因而让开发人员可以使用Java、Python或Scala

jopen 2016-01-19 23359 0

https://github.com/apple/swift 2. Apache Spark Apache Spark以速度快和易于使用著称，因而让开发人员可以使用Java、Python或Scal

jopen 2016-01-06 24997 0

rson]虽然以Person为类型参数，但Spark框架本身不了解 Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列

si19891002 2016-03-21 17146 0

Spark SQL 分布式系统数据挖掘

支持的存储策略，不同的策略，存储方式是不同的。用户可以针对不同类型的文件，定制相应的存储策略。说到异构存储，很多人可能会想到 Spark 社区提出的 Tachyon，它是 Distributed cache system on HDFS，最初是为了解决不同应用程序间共享

码头工人 2015-12-30 20231 0

Hadoop

P6

2014-07-16 13:51 大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供

tony2007 2015-06-19 2795 0

Hadoop 分布式/云计算/大数据

P12

mysql-connector-java-5.0.7-bin 4.准备好mysql，mysql-5.1.52.tar.gz 二、修改/etc/hosts文件添加以下内容： 192.168.99.102 openfire2 192

15907236 2012-04-28 13940 0

电话/通讯/IM聊天 Openfire

P10

Linux：ubuntu 12.10 Win：Windows 7 版本：Openfire 3.9.1 Spark 2.6.3 Java统一使用6u45这个版本 1 Openfire服务器部署（非源码） 1.1

jielysong 2014-09-10 629 0

电话/通讯/IM聊天

本都是必须考虑的。就拿Spark Hive和Hive来说，同样是在Yarn上来跑P，而且替换任务的执行引擎也很方便。修改任务执行引擎的确，Spark的大多数任务都会比MapRed

BetterCoo1 2017-01-10 32210 0

数据挖掘大数据分布式/云计算/大数据

后台程序员转算法的参考秘籍：大规模机器学习框架的四重境界经验

新一代大数据处理引擎 Apache Flink 经验

基于Mesos/Docker构建数据处理平台经验

Hive未来两年的路线图资讯

大数据平台任务调度与监控系统资讯

Openfire3.7.1 For Linux集群正确配置文档

基于xmpp openfire smack开发之openfire介绍和部署文档

Apache Ignite(一)：简介以及和Coherence、Gemfire、Redis等的比较经验

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统资讯

从业务驱动和技术实现角度谈腾讯大数据资讯

大数据分析系统架构之探讨文档

大数据分析系统架构文档

2015年开源项目荣登GitHub十强榜单资讯

2015 年，哪些开源项目荣登 GitHub 十强榜单？资讯

RDD、DataFrame和DataSet的区别是什么经验

Hadoop年度回顾与2016发展趋势资讯

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术文档

Openfire For Linux 集群正确配置文档

Openfire环境搭建文档

大数据挖掘更多时间都在于清洗数据经验

Spark修改窗口的相关搜索

关键词

后台程序员转算法的参考秘籍：大规模机器学习框架的四重境界 经验

新一代大数据处理引擎 Apache Flink 经验

基于Mesos/Docker构建数据处理平台 经验

Hive未来两年的路线图 资讯

大数据平台任务调度与监控系统 资讯

Openfire3.7.1 For Linux集群正确配置 文档

基于xmpp openfire smack开发之openfire介绍和部署 文档

Apache Ignite(一)：简介以及和Coherence、Gemfire、Redis等的比较 经验

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统 资讯

从业务驱动和技术实现角度谈腾讯大数据 资讯

大数据分析系统架构之探讨 文档

大数据分析系统架构 文档

2015年开源项目荣登GitHub十强榜单 资讯

2015 年，哪些开源项目荣登 GitHub 十强榜单？ 资讯

RDD、DataFrame和DataSet的区别是什么 经验

Hadoop年度回顾与2016发展趋势 资讯

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术 文档

Openfire For Linux 集群正确配置 文档

Openfire环境搭建 文档

大数据挖掘更多时间都在于清洗数据 经验

Spark修改窗口 的相关搜索

关键词

后台程序员转算法的参考秘籍：大规模机器学习框架的四重境界经验

基于Mesos/Docker构建数据处理平台经验

Hive未来两年的路线图资讯

大数据平台任务调度与监控系统资讯

Openfire3.7.1 For Linux集群正确配置文档

基于xmpp openfire smack开发之openfire介绍和部署文档

Apache Ignite(一)：简介以及和Coherence、Gemfire、Redis等的比较经验

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统资讯

从业务驱动和技术实现角度谈腾讯大数据资讯

大数据分析系统架构之探讨文档

大数据分析系统架构文档

2015年开源项目荣登GitHub十强榜单资讯

2015 年，哪些开源项目荣登 GitHub 十强榜单？资讯

RDD、DataFrame和DataSet的区别是什么经验

Hadoop年度回顾与2016发展趋势资讯

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术文档

Openfire For Linux 集群正确配置文档

Openfire环境搭建文档

大数据挖掘更多时间都在于清洗数据经验

Spark修改窗口的相关搜索