• 浅析 Bigtable 和 LevelDB 的实现

     发表于 1 周 前

    在 2006 年的 OSDI 上,Google 发布了名为 Bigtable: A Distributed Storage System for Structured Data 的...

  • 云端的SRE发展与实践

     发表于 2 周 前

    美团点评作为综合性多业务的互联网+生活服务平台,覆盖“吃住行游购娱”各个领域,SRE就会面临一些特殊的挑战。...

  • 深入浅出时序数据库之分布式计算

     发表于 3 周 前

    物联网领域近期如火如荼,互联网和传统公司争相布局物联网。作为物联网领域数据存储的首选,时序数据库也越来越多进入人们的视野,而早在2016年7月,百度云在其天工物联网平台上发布了国内...

  • 9个最佳的大数据处理编程语言

     发表于 1 个月 前

    大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实...

  • 深入理解Hystrix之文档翻译

     发表于 1 个月 前

    在分布式系统中,服务与服务之间依赖错综复杂,一种不可避免的情况就是某些服务将会出现失败。Hystrix是一个库,它提供了服务与服务之间的容错功能,主要体现在延迟容错和容错,从而做到...

  • 浅谈分布式服务协调技术 Zookeeper

     发表于 1 个月 前

    Google的三篇论文影响了很多很多人,也影响了很多很多系统。这三篇论文一直是分布式领域传阅的经典。根据MapReduce,于是我们有了Hadoop;根据GFS,于是我们有了HDF...

  • 如何做到“恰好一次”地传递数十亿条消息

     发表于 1 个月 前

    在分布式领域中存在着三种类型的消息投递语义,分别是:最多一次(at-most-once)、至少一次(at-least-once)和恰好一次(exactly-once)。本文作者介绍...

  • Spark Block存储管理分析

     发表于 3 个月 前

    Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中...

  • 一分钟吃透 Spark 之 TaskScheduler

     发表于 3 个月 前

    spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个...

  • 基于Ignite+Lucene+Log4j2的分布式统一日志查询最佳实践

     发表于 3 个月 前

    应用开发时的常规做法,是调用日志系统的API进行日志的记录,日志的具体记录方式,通过日志系统实现库对应的配置文件进行配置,比如使用log4j2的话,可能就是 log4j2.xml ...

  • 这些优秀的国产分布式任务调度系统,你用过几个?

     发表于 4 个月 前

    分布式调度在互联网企业中占据着十分重要的作用,尤其是电子商务领域,由于存在数据量大、高并发的特点,对数据处理的要求较高,既要保证高效性,也要保证准确性和安全性,相对比较耗时的业务逻...

  • 分布式一致性算法Paxos

     发表于 4 个月 前

    最近在学习zookeeper原理的时候了解到了paxos算法,看了几篇文章之后还是感觉有些迷糊,后来看了知行学社的 paxos视频 才对这个算法有了一定的了解,这里就做一下总结....

  • 以交易系统为例,看分布式事务架构的五大演进

     发表于 4 个月 前

    在支付、交易、订单等强一致性系统中,我们需要使用分布式事务来保证各个数据库或各个系统之间的数据一致性。...

  • Spark性能调优之道——解决Spark数据倾斜(Data Skew)的N种姿势

     发表于 4 个月 前

    对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。...

  • Apache Spark 内存管理详解

     发表于 4 个月 前

    Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能...

  • Apache Spark 内存管理详解

     发表于 4 个月 前

    Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能...

  • 阿里RocketMQ如何解决消息的顺序&重复两大硬伤?

     发表于 5 个月 前

    分布式消息系统作为实现分布式系统可扩展、可伸缩性的关键组件,需要具有高吞吐量、高可用等特点。而谈到消息系统的设计,就回避不了两个问题:...

  • Trail:分布式追踪

     发表于 5 个月 前

    在又拍云,即使是 应用层服务 也依赖到其他服务,而那些服务又依赖到了更多服务。当一个接口超时时,定位接口的性能瓶颈是困难的。...

  • 为什么Google用Apache Beam彻底替换掉MapReduce

     发表于 5 个月 前

    近日,Apache软件基金会宣布, Apache Beam 成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源。...

  • Spark学习-RDD编程基础

     发表于 5 个月 前

    Spark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同...