0推荐
26K 浏览

云存储平台:Storj

Storj 是基于 blockchain 技术和点对点协议来提供最安全,私有和加密的云存储。
0推荐
49K 浏览

大数据基础架构总结

简介:本文是对大数据领域的基础论文的阅读总结,相关论文包括GFS,MapReduce、BigTable、Chubby、SMAQ。
0推荐
20K 浏览

使用OpenStack构建Packet平台过程中的经验和教训

Packet是一家成立不久的公司,他们主要是为用户提供基于裸机服务器的IaaS,本文的作者是Packet平台的VP,作者在文中讲述了他们构建Packet平台的动机以及在构建过程中遇到了哪些问题。...
0推荐
193K 浏览

大数据相关技术、Hadoop生态、LinkedIn内部实战

大数据相关技术、Hadoop生态、LinkedIn内部实战
0推荐
38K 浏览

分布式跟踪系统调研

把分布式系统中各个组件的工作汇总起来,就可以得到一个全面的跟踪系统。 每个公司都会有一套自己的分布式跟踪系统。Google的Dapper,Twitter的zipkin,淘宝的鹰眼,新浪的...
0推荐
85K 浏览

讲给硅谷创业者的大数据精华集合

讲给硅谷创业者的大数据精华集合
0推荐
17K 浏览

分布式Actor模型:Orleans

Orleans是一个提供构建分布式高伸缩性计算应用的简单方法的框架,不需要学习和应用复杂并发或者其它伸缩模式。
0推荐
41K 浏览

Ceph读写流程

Ceph读写流程
0推荐
24K 浏览

Hadoop 数据管理平台:Apache Falcon

Apache Falcon 提供了一个用于治理和编排 Hadoop 内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核...
0推荐
31K 浏览

ceph 集群访问权限配置

ceph 集群访问权限配置
0推荐
24K 浏览

搭建Spark完全分布式集群

本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。
0推荐
24K 浏览

常见计算框架算子层对比

前段时间在为内部自研的计算框架设计算子层,参考对比了一些开源的计算框架的算子层,本文做一个粗粒度的梳理。 下面这张图是我对计算框架抽象层次的一个拆分,具体可以参考上周日杭州S...
0推荐
18K 浏览

谈谈分布式计算的算子层

本文是我对分布式计算的算子这层的一些认识和想法。因为最近自己的开发任务也是这方面相关的,公司内部有自研的类流式计算框架需要做一层算子层。我主要分析的是流式系统上实现算子这一点入手,对比现有计算框...
0推荐
45K 浏览

Spark的任务调度

本文尝试从源码层面梳理Spark在任务调度与资源分配上的做法。
0推荐
17K 浏览

如何使用Pig集成分词器来统计新闻词频?

散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求...
0推荐
25K 浏览

典型大数据计算模式与系统

典型大数据计算模式与系统
0推荐
23K 浏览

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优...
0推荐
21K 浏览

Apache Zookeeper 集群环境搭建

Zookeeper 是 一个分布式。开放源码的分布式应用程序协调服务,是Google Chubby的一个开源实现,大多数的分布式应用都需要Zookeeper的支持,这篇文章先简单的和大家分享如何...
0推荐
58K 浏览

Spark初探

Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。
0推荐
29K 浏览

Hive 0.14 + hadoop 2.4.1 环境下的 jdbc连接

本文记录在Hive 0.14 + hadoop 2.4.1 环境下,如何时用 jdbc连接到hive hive 的JDBC驱动还是比较好找的,在hive的包里就有 hive-jdbc-0....
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档