基于HBase做Storm 实时计算指标存储 经验

年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向。 这次探讨的主题是: 基于 HBase 做 Storm 实时计算指标存储 HBase 实时指标存储是我入职乐视云后对原有的实时系统改造的一部分。部

jopen 2015-11-27   25009   0

SyncSpout:用来构造可交互的、同步的 Storm 拓扑的组件 经验

同步的Storm拓扑的组件。我们在做实时推荐系统中,希望将Storm的并发性和分布式计算能力应用到“请求-响应”范式中, 比如客户的某次购买行为能够以消息的形式发送到storm拓扑中,storm在指定

zchkingdom 2016-12-26   7578   0
P3

  Storm 是什么、能做什么 文档

Storm 是什么、能做什么 storm是一个开源的分布式实时计算系统,可以简单、可靠地处理大量的数据流。Storm有很多实用场景:如实时分析、在线机器学习、持续计算、分布式RPC、ETL等等。St

猫咪700 2013-08-27   1279   0

Flink 原理与实现:架构和拓扑概览 经验

功后各个节点都启动了哪些服务,各个服务之间又是怎么交互和协调的。下方是 Flink 集群启动后架构图。 当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由

iohd0529 2016-05-03   20394   0

Apache Flink 1.0.0 发布,通用数据处理平台 资讯

Apache Flink 1.0.0 发布了,Apache Flink 是高效和分布式的通用数据处理平台。 Apache Flink 声明式的数据分析开源系统,结合了分布式 MapReduce 类

jopen 2016-03-10   4935   0

Flink运行时之流处理程序生成流图 经验

FlinkPlan 接口。 Flink效仿了传统的关系型数据库在执行SQL时生成执行计划并对其进行优化的思路。FlinkPlan是Flink生成执行计划的基接口,定义在Flink优化器模块中,流处理程序对

紫丁香 2017-02-05   6664   0
技术  

高效和分布式的通用数据处理平台:Apache Flink 经验

Apache Flink 是高效和分布式的通用数据处理平台。 Apache Flink 声明式的数据分析开源系统,结合了分布式 MapReduce 类平台的高效,灵活的编程和扩展性。同时在并行数据库发现查询优化方案。

jopen 2014-08-28   41962   0

新一代大数据处理引擎 Apache Flink 经验

著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像

jopen 2015-12-28   33401   0

Spark实战1:单节点本地模式搭建Spark运行环境 经验

前言: Spark本身用scala写的,运行在JVM之上。 JAVA版本:java 6 /higher edition. 1 下载Spark http://spark.apache.org/downloads

jopen 2014-09-15   51473   0

Spark实战:单节点本地模式搭建Spark运行环境 经验

前言: Spark本身用scala写的,运行在JVM之上。 JAVA版本:java 6 /higher edition. 1 下载Spark http://spark.apache.org/downloads

jopen 2014-11-25   17404   0

使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码 经验

在对 Spark 有了一定使用经验后,为了能够跟进 Spark 源代码的开发进展,对其源代码进行详细的阅读分析,本文详细说明了如何使用 IntelliJ IDEA 从 Github 上导入最新的 Spark

jopen 2015-01-23   194482   0

Apache Spark 1.3发布,新增Data Frames API,改进Spark SQL和MLlib 资讯

ache-spark-1.3-released Apache Spark项目刚刚 发布了1.3版本 。该版本主要的功能改进包括新增DataFrames API,更加成熟的Spark SQL,机

jopen 2015-03-24   23841   0

Apache Spark 内存管理详解 经验

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出

wiki 2017-03-28   19298   0

搭建hadoop/spark集群环境 经验

hadoop和spark集群的搭建,主要用到了hadoop2.5.2、spark1.2.0、scala2.11.4 hadoop2.5.2的安装可以参照 http://blog.csdn.ne

jopen 2014-12-25   113517   0

部署Spark 0.9集群 经验

Spark 0.9 1 部署Spark集群 这种是运维人员在生产环境下,搭建起一个Spark集群。 (可选)创建新用户 Spark 一般我倾向于把需要启动daemon进程,对外提供服务的程序,

jopen 2016-01-03   15823   0

在Ubuntu环境部署Apache Spark集群 经验

本文主要讲述怎样在Ubuntu系统上部署Apache Spark独立集群(Standalone Cluster)的过程。所需的软件如下: Ubuntu 15.10 x64 Apache Spark 1.5.1 2、安装所需的一切

jopen 2016-01-08   22110   0

Apache Spark介绍及案例展示 经验

2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架

Ros62P 2016-02-02   54213   0

含 Apache Spark 的 Lambda 架构 经验

拿到更新后的分析报告?这篇文章会向你介绍 Lambda Architecture ,它被设计出来既可以利用批量处理方法,也可以使用流式处理方法。这样我们就可以利用Apache Spark(核心, SQL

wwang1969 2016-11-10   10257   0

Spark学习-RDD编程基础 经验

1. RDD基础概念 Spark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同访问一个分区元素的集合,这就是

风云决 2017-03-09   13473   0

Spark 1.6今天发布 资讯

今天,我们很开心的宣布发布Apache Spark 1.6!这也是开源社区开发的一个里程碑,2015年贡献spark的代码是1000行,是2014一整年的两倍,见下图。 接下来揭开Spark 1.6新发布的功能。

jopen 2016-01-05   26489   0
Spark  
1 2 3 4 5 6 7 8 9 10