0推荐
27K 浏览

Apache pig 学习

本地模式 -pig在本地模式下运行,您需要访问一台机器,使用本地主机和文件系统的所有文件都安装并运行。指定使用-x标志(pig-X本地)的本地模式。需要注意的是本地模式下不支持并行映射执行与Ha...
0推荐
34K 浏览

hadoop2.x 完全分布式详细集群搭建(图文:4台机器)

hadoop2.x 完全分布式详细集群搭建(图文:4台机器)
0推荐
8K 浏览

高可扩展分布式应用程序的架构原则

Elastisys 云平台诞生于 瑞典默奥大学 的 分布式系统研究小组 。它由一组以预测性扩展引擎为中心的工具组成,可以自动扩展云部署。近日,其官方网站发表了一篇 文章 ,介绍他们在高可扩展分布...
0推荐
27K 浏览

大数据机器学习工具:Apache MADlib

Apache MADlib 是为数据科学提供的 SQL 大数据机器学习工具。Apache MADlib 拥有强大的大数据分析能力。Apache MADlib 支持 Postgres, Pivot...
0推荐
40K 浏览

大数据系统数据采集产品的架构分析

任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数据处理 数据展现(可视化,报表和监控)
0推荐
35K 浏览

分布式系统中负载均衡算法在高可用场景下的分析

在分布式系统中,负载均衡是非常重要的环节,通过负载均衡将请求派发到网络中的一个或多个节点上进行处理。通常来说,负载均衡分为硬件负载均衡及软件负载均衡。硬件负载均衡,顾名思义,在服务器节点之间安装...
0推荐
13K 浏览

分布式计算系统:Go Glow

Glow 是使用 Go 编写的易用分布式计算系统,是 Hadoop Map Reduce,Spark,Flint,Samza 等等的替代品。 Glow 的目标是提供一个库,可以在并行线程...
0推荐
11K 浏览

分布式文件系统:SeaweedFS

SeaweedFS 是简单,高伸缩性的分布式文件系统,包含两部分:存储数十亿的文件;快速为文件服务。SeaweedFS 作为支持全 POSIX 文件系统语义替代,Seaweed-FS 选择仅实现...
0推荐
15K 浏览

大数据管理系统:Apache AsterixDB

Apache AsterixDB 是开源的大数据管理系统 (BDMS),可以在一个集群中大规模存储,索引,管理和查询语义结构的数据。Hyracks 是 AsterixDB 的底层数据流运行平台。...
0推荐
40K 浏览

移动大数据平台架构思想以及实践经验

摘要:友盟大数据平台的架构借鉴了Lambda架构思想, 数据接入层让Kafka集群承担,后面由Storm消费,存储在MongoDB里面,通过Kafka自带的Mirror功能同步,两个Kafka集...
0推荐
10K 浏览

开源计算框架:Apache Tez

Tez 是 Apache 最新的支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用 户...
0推荐
10K 浏览

Spark 集群概述

本篇博客简述 Spark 集群相关的概念。 Spark 的"集群"不是提供运算服务的,而是一种资源分配的调度器。 执行任务的 Spark 进程作为客户端向"集群"申请资源(运算节...
0推荐
21K 浏览

Akka 和 Storm 的设计差异

Akka 和 Storm 都是实现低延时, 高吞吐量计算的重要工具. 不过它们并非完全的竞品, 如果说 Akka 是 linux 内核的话, storm 更像是类似 Ubuntu 的发行...
0推荐
12K 浏览

系统分布式情况下最终一致性方案梳理

目前的应用系统,不管是企业级应用还是互联网应用,最终数据的一致性是每个应用系统都要面临的问题,随着分布式的逐渐普及,数据一致性更加艰难,但 是也很难有银弹的解决方案,也并不是引入特定的中间件或者...
0推荐
74K 浏览

zookeeper 管理界面:zkdash

zkdash是一个 zookeeper 的管理界面,也可以作为任何基于 zookeeper 的配置管理项目比如:Qconf。
0推荐
53K 浏览

量化派基于Hadoop、Spark、Storm的大数据风控架构

量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况,撮合金融机构为用 户提供最优质的贷款服务。金融的本质是风险和流动性,但是目...
0推荐
44K 浏览

大数据研究常用软件工具与应用场景

如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。
0推荐
15K 浏览

理解Ceph的存储设计

在大部分中心化存储系统中(如GFS)中,通常有一个中心节点管理整个系统元数据的更新、协调节点之间的数据复制,检测并处理节点故障以及后续的数据迁移工作。Ceph认为将所有的管理工作全部交一个节点不...
0推荐
13K 浏览

分布式,高可用性,数据中心感知调度器:Nomad

Nomad 是一个分布式,高可用性,数据中心感知调度器,专为微服务和批量处理工作流设计。Nomad 是分布式,高可用,可扩展到跨数据中心和区域的数千个节点。
0推荐
19K 浏览

logstash+es+kibana+redis搭建

logstash+es+kibana+redis搭建
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档