• Confluent:在Kafka上飞驰的数据交换者

     发表于 4 天 前

    今天我们要讲的大数据公司叫作Confluent,这个公司是前LinkedIn员工出来后联合创办的,而创业的基础是一款叫作Apache Kafka的开源软件。...

  • 流计算框架 Flink 与 Storm 的性能对比

     发表于 2 个月 前

    Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm (以下简称“Storm”)在美团点评实时计算业务...

  • 浅谈分布式消息技术 Kafka

     发表于 5 个月 前

    Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/ngin...

  • 如何做到“恰好一次”地传递数十亿条消息

     发表于 6 个月 前

    在分布式领域中存在着三种类型的消息投递语义,分别是:最多一次(at-most-once)、至少一次(at-least-once)和恰好一次(exactly-once)。本文作者介绍...

  • PHP开源:Kafka-php-使用 PHP 编写的 Kafka 客户端

     发表于 8 个月 前

    Kafka-php 使用纯粹的PHP 编写的 kafka 客户端,目前支持 0.8.x 以上版本的 Kafka,该项目 v0.2.x 和 v0.1.x 不兼容,如果使用原有的 v0...

  • Kafka开源:Chaperone-Uber 出品的 Kafka 集群监控工具

     发表于 11 个月 前

    As Kafka audit system, Chaperone monitors the completeness and latency of data stream. The...

  • Kafka通讯协议指南

     发表于 11 个月 前

    如果想深入了解Kafka的通讯协议的话,这篇文章不可不读。感谢 watchword 将原文翻译成了中文,我基于最新版进行了修订,修订和完善翻译中的错误。...

  • Kafka——性能逆天的存在

     发表于 1 年 前

    Kafka是LinkedIn开源出来的一款消息服务器,用scala语言实现;这货的性能是百万级的QPS(估计是挂载了多块磁盘)。...

  • Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

     发表于 1 年 前

    DirectKafkaInputDStream 只在 driver 端接收数据,所以继承了 InputDStream,是没有 receivers 的在结合 Spark Stream...

  • 流处理技术谬见大消除

     发表于 1 年 前

    我们在思考流处理问题上花了很多时间,更酷的是,我们也花了很多时间帮助其他人认识流处理,以及如何在他们的组织里应用流处理来解决数据问题。...

  • 使用Apache Spark构建实时分析Dashboard

     发表于 1 年 前

    本篇文章中我们将学习如何使用Apache Spark streaming,Kafka,Node.js,Socket.IO和Highcharts构建实时分析Dashboard。...

  • Kafka:架构简介

     发表于 1 年 前

    Kafka是一个开源的、分布式的、可分区的、可复制的基于日志提交的发布订阅消息系统。...

  • Storm 的可靠性保证测试

     发表于 1 年 前

    Storm 是一个分布式的实时计算框架,可以很方便地对流式数据进行实时处理和分析,能运用在实时分析、在线数据挖掘、持续计算以及分布式 RPC 等场景下。Storm 的实时性可以使得...

  • Kafka 设计详解之队列

     发表于 1 年 前

    本文介绍了 Kafka 的队列实现以及其读写过程。Kafka 认为操作系统级别的文件缓存比 Java 的堆内存更省空间和高效,如果生产者消费者之间比较「和谐」的话,大部分的读写操作...

  • 京东消息中间件JMQ:架构,与Kafka的对比,主要特性和应用场景

     发表于 1 年 前

    JMQ是京东自主研发的一款消息中间件系统,具有高可用、数据高可靠等特性。广泛应用于公司内部系统,包括订单、支付、库房等场景。...

  • Kafka 设计详解之网络通信

     发表于 1 年 前

    Kafka 是 LinkedIn 开发的一个分布式的消息中间件。由于其高吞吐量、可水平扩展等特性,目前被广泛使用,已经是目前大数据生态系统中不可或缺的一环,有关其详细介绍可以查看官...

  • Kafka和DistributedLog技术对比

     发表于 1 年 前

    从技术上来讲DistributedLog并不是一个象Apache Kafka那么成熟的、有分区机制的广播/订阅系统。DistributedLog是一个复制日志流仓库,它用来做日志分...

  • Kafka消息存储概览

     发表于 1 年 前

    Kafka作为一个消息中间件系统,面临的首要问题就是消息如何持久化,如何方便地进行读写和解析。...

  • 分布式追踪系统架构与设计

     发表于 1 年 前

    先前的博客公告 中讨论过为什么Knewton需要一个分布式追踪系统,并且数值可以被添加到一个公司中。这个章节将会更加深入探讨技术细节,我们如何实施分布式追踪系统的。...

  • Kafka实战:从RDBMS到Hadoop,七步实现实时传输

     发表于 1 年 前

    本文是关于Flume成功应用Kafka的研究案例,深入剖析它是如何将RDBMS实时数据流导入到HDFS的Hive表中。...