后台程序员转算法的参考秘籍:大规模机器学习框架的四重境界 经验

如何利用相对廉价的机器搭建分布式超大规模机器学习集群是一件非常复杂的事情,对工程和算法都有极高的要求,从Spark到李沐的通用参数服务器,业界对此都进行过哪些尝试?本文尝试梳理一下这方面的历史和当前最佳实践。 1

TraceyVang 2017-10-09   42260   0

新一代大数据处理引擎 Apache Flink 经验

Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像

jopen 2015-12-28   33401   0

基于Mesos/Docker构建数据处理平台 经验

。不过,这也恰好是它的强项。Mesos本身提供了很多SDN接口,或者是有模块加载机制,可以做自定义修改,平台定制功能比较强。所以用Mesos的方案,需要考虑团队是否可以Hold住整个开发过程。 从

JeaWagstaff 2017-09-11   33759   0
Mesos   Docker  

Hive未来两年的路线图 资讯

的运行速度。届时,Hive将在 Hadoop上提供企业级SQL用户所享有的全部表达能力。它将在支持窗口函数、用户自定义函数、子查询、Rollup、Cube、标准聚集、内连接、外 连接、半连接和交叉连接

jopen 2014-09-14   10444   0
Hive  

大数据平台任务调度与监控系统 资讯

生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python等。 这些任务需要不同的运行环境,并且除了定时运行,各种

jopen 2015-10-20   52068   0
P13

  Openfire3.7.1 For Linux集群正确配置 文档

mysql-connector-java-5.0.7-bin 4.准备好mysql,mysql-5.1.52.tar.gz 二、修改/etc/hosts文件 添加以下内容: 192.168.99.102 openfire2 192

nolimited 2012-09-05   7894   0
P10

  基于xmpp openfire smack开发之openfire介绍和部署 文档

smack开发之openfire介绍和部署[1] 前言 Java领域的即时通信的解决方案可以考虑openfire+spark+smack。当然也有其他的选择。 Openfire是基于Jabber协议(XMPP)实现的即时通信服务器端版本,目前建议使用3

1726013735 2014-04-07   3477   0

Apache Ignite(一):简介以及和Coherence、Gemfire、Redis等的比较 经验

规模、大数据量、高并发企业级或者互联网应用面临的若干痛点。 三、Ignite和Hadoop以及Spark的关系 Ignite和Hadoop解决的是不同的问题,即使在一定程度上可能应用了类似的底层基

jopen 2016-01-12   20334   0

Tachyon:一个高性能、高容错、基于内存的开源分布式存储系统 资讯

底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集群文件共享服务。Tachy

dy223 2015-03-26   11635   0
Tachyon  

从业务驱动和技术实现角度谈腾讯大数据 资讯

我们离线数据处理使用 TDW 平台。TDW 基于 Hive、Pig、Hadoop、Spark 等研发,支持 SQL、Pig Latin、MR、SPARK 等编程接口,为业务提供离线服务。 TRC 是我们的实时数据处理平台。它基于

jopen 2014-11-25   33331   0
P24

  大数据分析系统架构之探讨 文档

9 Oozie: 9 Cloudera Hue: 9 二、Spark生态圈: 10 Spark: 10 Spark SQL: 11 Spark Streaming: 12 MLLib: 13 GraphX

guet_lee 2017-01-12   2237   0
P24

  大数据分析系统架构 文档

9 Oozie: 9 Cloudera Hue: 9 二、Spark生态圈: 10 Spark: 10 Spark SQL: 11 Spark Streaming: 12 MLLib: 13 GraphX

wzf1118 2016-11-04   2940   0

2015年开源项目荣登GitHub十强榜单 资讯

https://github.com/apple/swift 2.Apache Spark Apache Spark以速度快和易于使用著称,因而让开发人员可以使用Java、Python或Scala

jopen 2016-01-19   23359   0

2015 年,哪些开源项目荣登 GitHub 十强榜单? 资讯

https://github.com/apple/swift 2. Apache Spark Apache   Spark以速度快和易于使用著称,因而让开发人员可以使用Java、Python或Scal

jopen 2016-01-06   24997   0

RDD、DataFrame和DataSet的区别是什么 经验

rson]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列

si19891002 2016-03-21   17146   0

Hadoop年度回顾与2016发展趋势 资讯

支持的存储策略,不同的策略,存储方式是不同的。用户可以针对不同类型的文件,定制相应的存储策略。 说到异构存储,很多人可能会想到 Spark 社区提出的 Tachyon,它是 Distributed cache system on HDFS,最初是为了解决不同应用程序间共享

码头工人 2015-12-30   20231   0
Hadoop  
P6

  大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术 文档

2014-07-16 13:51 大 数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大 数据项目,这里整理一下,供

tony2007 2015-06-19   2795   0
P12

  Openfire For Linux 集群正确配置 文档

mysql-connector-java-5.0.7-bin 4.准备好mysql,mysql-5.1.52.tar.gz 二、修改/etc/hosts文件 添加以下内容: 192.168.99.102 openfire2 192

15907236 2012-04-28   13940   0
P10

  Openfire环境搭建 文档

Linux:ubuntu 12.10 Win:Windows 7 版本:Openfire 3.9.1 Spark 2.6.3 Java统一使用6u45这个版本 1 Openfire服务器部署(非源码) 1.1

jielysong 2014-09-10   629   0

大数据挖掘更多时间都在于清洗数据 经验

本都是必须考虑的。 就拿Spark Hive和Hive来说,同样是在Yarn上来跑P,而且替换任务的执行引擎也很方便。 修改任务执行引擎 的确,Spark的大多数任务都会比MapRed

1 2 3 4 5 6 7 8 9 10