P20

  以hadoop入门大数据之hadoop阶段 文档

以Hadoop入门大数据一目标及计划目标:从Hadoop开始,走进大数据领域;计划:分三个阶段(Hadoop、Spark、Storm)来学习,重点是spark和storm;结合实际业务场景应用大数据技术。了解大数据领域内技术兴起与发展

364337403 2017-03-28   11360   0

腾讯正式开源高性能分布式计算平台Angel1.0,追赶同行脚步 资讯

和 Scala 开发,能在社区的 Yarn 上直接调度运行,并基于 PS Service,支持 Spark on Angel,未来将会支持图计算和深度学习框架集成。 根据腾讯大数据部的说法,Angel

jopen 2017-06-19   19782   0
腾讯  

Oozie4.2.0配置安装实战 经验

义语言)来描述这个图。 软件版本: Oozie4.2.0,Hadoop2.6.0,Spark1.4.1,Hive0.14,Pig0.15.0,Maven3.2,JDK1.7,zookeeper3

ltww3128 2016-01-23   82306   0

Flink 原理与实现:Table & SQL API 经验

DAY) """) Table API & SQL 原理 Flink 非常明智,没有像Spark那样重复造轮子(Spark Catalyst),而是将 SQL 校验、SQL 解析以及 SQL 优化交给了 Apache

ThaliaXGJZ 2017-03-30   56715   0
SQL   API  

GitHub上整理的一些工具 经验

不说了),值得介绍的是Cloudera的Hadoop分支CDH5,基于YARN MRv2集成了Spark可直接用于生产环境的Hadoop,对于企业快速构建数据仓库非常有用。 Ceph:Linux分布式文件系统(特点:无中心)

jopen 2015-11-18   110476   0
Github  

GitHub上整理的一些工具 资讯

说了),值 得介绍的是Cloudera的Hadoop分支CDH5,基于YARN MRv2集成了Spark可直接用于生产环境的Hadoop,对于企业快速构建数据仓库非常有用。 Ceph:Linux分布式文件系统(特点:无中心)

jopen 2015-02-16   97295   1
Github  

GitHub上整理的一些资料 经验

不说了),值得介绍的是Cloudera的Hadoop分支CDH5,基于YARN MRv2集成了Spark可直接用于生产环境的Hadoop,对于企业快速构建数据仓库非常有用。 Ceph:Linux分布式文件系统(特点:无中心)

jopen 2014-11-25   115612   0
Github  

移动大数据平台架构思想以及实践经验 经验

以分离负载;计算有离线和实时两部分,实时是Storm,离线是Hadoop,数据仓库用Hive,数据挖掘正在从Pig迁移到Spark,大量的数据通 过计算之后,存储在HDFS上,最后存储在HBase里面,通过ES来提供多级索引,以弥补HBase二级索引的缺失……

jopen 2015-10-26   39870   0

CentOS 7下MySQL服务启动失败的解决思路 经验

今天,启动MySQL服务器失败,如下所示: [root@spark01 ~]# /etc/init.d/mysqld start Starting mysqld (via systemctl): Job

RonnieNXRT 2016-01-20   13591   0
MySQL   Linux  

年度最佳硬件、软件、开发工具和云服务 资讯

on job)。面向Mesos的其他流行框架包括Cassandra、Hadoop、Storm和Spark。 如果你需要另外的动力在今年关注Mesos,不妨看看支持Mesos的一些公司。Twitte

jopen 2016-01-22   63864   0

基于Scala的产品开发实践 经验

: 我们选择了Spark作为我们的大数据分析平台。基于目前的应用场景,主要使用了Spark SQL,目前使用的版本为Spark 1.5.0。我们有计划去同步升级Spark最新版本。 在研发期间,我们从Spark

ohew2481 2017-03-13   28958   0

LinkedIn开源Cubert,着眼于大数据分析 资讯

算法处理大时间窗口下的大数据集,CPU 和内存利用率显著提升。CUBE 是 Cubert 定义的一个新操作符,可以计算累加和非累加分析维度。非累加维度是计算密集型的,如计算一个时间窗口内不同的用户数,但

jopen 2014-12-22   8774   0

浅谈开源大数据平台的演变 经验

以省掉这些IO 开销,那么对计算速度的提升将是巨大的,因此业界兴起了一股基于内存计算的潮流,而Spark则是这方面的佼佼者。它提出了RDD的概念,通过对RDD的 使用将每轮的计算结果分布式地放在内存中

b77m 2015-04-22   37643   0

浅谈开源大数据平台的演变 经验

以省掉这些IO开销,那 么对计算速度的提升将是巨大的,因此业界兴起了一股基于内存计算的潮流,而Spark则是这方面的佼佼者。它提出了RDD的概念,通过对RDD的使用将每 轮的计算结果分布式地放在内存中

jopen 2015-11-21   25453   0

成为专业程序员路上用到的各种优秀资料、神器及框架 经验

Learning)资料 Docker资料合集 学习使用Strom Hadoop Internals Spark Internals 大数据时代的数据分析与数据挖掘 – 基于Hadoop实现 如何制作操作系统

ymquan1987 2017-03-09   38211   0
P14

  (5)RDDs介绍 文档

我们提供专业的大数据学习视频,包括Hadoop,Spark,Storm,Mahout,机器学习等。 我们定价合理,让每个人都学得起大数据。 3. 友情提示本系列课程主要由Learning.Spark这本书整理而来。 本系列课

ngn6 2015-08-12   3530   0

攻略:如何用一天时间做一个开源版的Nest 资讯

,神马硬件都是浮云。买不到?太贵?不用担心,我们来自己动手做一个。 来自于开源硬件领域的 Spark 已经利用自家的产品把这事搞定了,而且只是 3 个工程师花了一天的时间,成本也不过几十美金。让我们一起来看看他们是怎么做到的。

jopen 2014-01-20   6125   0
开源  

Olivier Grisel谈scikit-learn和机器学习技术的未来 资讯

区自身的贡献。他们不断给scikit-learn库进行修改和补充,并为scikit- learn更好的后续版本提交这些工作。然后我们会对这些修改进行测试,并将其添加到每个新的版本中。例如,在最近的一个测试版本里,我们的一个贡献者开

jopen 2015-10-13   13668   0
P22

  大数据应用 - 数据安全和数据分析 文档

改造使用单独的可信虚机(VM2)将用户的计算与其他组件隔离 使用剪裁过的JAR包以减小TCB 使用修改过的Task Tracker创建虚机VM2 在VM2中添加一个加解密引擎负责对进出VM2的数据进行加解密。

cpp45 2015-01-18   627   0
P32

  分布式 XMPP Server 文档

Server Jabberd, ejabberd, openfire… Client Pidgin, Spark, Exodus, iChat Library Libjingle(c++), gloox(c++)

aasdfg 2013-08-09   677   0
1 2 3 4 5 6 7 8 9 10