• 常用的几种大数据架构剖析

     发表于 6 个月 前

    数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是...

  • 数据科学家必须要掌握的5种聚类算法

     发表于 8 个月 前

    聚类是一种将数据点按一定规则分群的机器学习技术。给定一组数据点,我们可以使用聚类算法将每个数据点分类到一个特定的簇中。理论上,属于同一类的数据点应具有相似的属性或特征,而不同类中的...

  • Zeppelin:一个分布式 KV 存储平台之概述

     发表于 8 个月 前

    过去的一年多的时间中,大部分的工作都围绕着Zeppelin这个项目展开,经历了Zeppelin的从无到有,再到逐步完善稳定。见证了Zeppelin的成长的同时,Zeppelin也见...

  • CAP 理论与分布式系统设计

     发表于 8 个月 前

    在现代分布式系统中,节点数目是巨大的。在 CAP 理论的范围内, MichaelStonebraker 断言分区必然会发生,并且系统内发生节点失败的机会随着节点数的增加而呈指数级增...

  • 分布式事务的总结与思考

     发表于 9 个月 前

    思来想去,个人觉得要理解 「分布式事务」 ,必须先知道什么是“事务(Transaction)”。...

  • 日存储量超10TB,海量数据挑战下腾讯全链路日志监控平台实践

     发表于 9 个月 前

    本文主要介绍腾讯 SNG 开发全链路日志监控平台所经历的挑战及解决方案。...

  • 像Apache Storm一样简单的分布式图计算

     发表于 9 个月 前

    本文从计算机领域的“祖师爷”艾伦·图灵提出的图灵机概念开始,介绍了图形计算的概念,并以示例介绍了apache storm,基于apache storm如何进行分布式图形计算。apa...

  • 如何做到单机毫秒完成上亿规模大数据常规统计

     发表于 9 个月 前

    虽然现在最火的是AI,但是大数据和计算能力仍然是机器学习/AI算法的重要支撑,我们的业务场景大部分是通过手机终端、服务器日志不断产生日志数据,通过消息通道发送到大数据平台进行存储、...

  • 基于云上分布式NoSQL的海量气象数据存储和查询方案 已认证的机构

     发表于 10 个月 前

    气象数据是一类典型的大数据,具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量,每天产生的数据量...

  • 云时代的终结

     发表于 10 个月 前

    我们正面临云时代的终结,这是一个很大胆的论调,甚至有一些疯狂,但请耐心看完下面的内容。...

  • 关于云存储系统的六大技术分析

     发表于 11 个月 前

    随着监控领域的飞速发展,新技术的诞生也是接踵而至,云存储是人们最为乐道的高新技术产品。它具有如下几大主要的技术。...

  • Apache Beam实战指南之基础入门

     发表于 1 年 前

    随着大数据 2.0 时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。早期的处理模型 (Map/Reduce) 早已经力不从心,而且也很难应用到...

  • 五分钟了解你不得不知道的人工智能热门词汇

     发表于 1 年 前

    大数据和人工智能的浪潮正在席卷全球,众多热门词汇蜂拥而至:人工智能(Artificial Intelligence)、大数据(Big Data)、云计算(Cloud Computi...

  • 分布式架构的演进

     发表于 1 年 前

    初始阶段 的小型系统 应用程序、数据库、文件等所有的资源都在一台服务器上通俗称为LAMP特征:应用程序、数据库、文件等所有的资源都在一台服务器上。描述:通常服务器操作系统使用lin...

  • Azure Stack设计哲学之物理架构探秘

     发表于 1 年 前

    Azure Stack 作为微软最新的混合云产品,在整个软件架构和基础设施层面结合了原生的 Azure 技术与最新的 Windows Server 2016 软件定义数据中心(So...

  • 关于CarbonData+Spark SQL的一些应用实践和调优经验分享

     发表于 1 年 前

    大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的...

  • 腾讯云海量社交网络业务下的DevOps架构应用实践

     发表于 1 年 前

    在DevOps的理念中,企业的IT价值链流转的速度越快,意味着企业的互联网产品的交付能力越强,这也意味着在同行业的竞争中,企业凭借IT能力的优势,能够收获更大的竞争优势。也因此,D...

  • HBase原理 – 所有Region切分的细节都在这里了

     发表于 1 年 前

    Region自动切分是HBase能够拥有良好扩张性的最重要因素之一,也必然是所有分布式系统追求无限扩展性的一副良药。HBase系统中Region自动切分是如何实现的?这里面涉及很多...

  • 浅析 Bigtable 和 LevelDB 的实现

     发表于 1 年 前

    在 2006 年的 OSDI 上,Google 发布了名为 Bigtable: A Distributed Storage System for Structured Data 的...

  • 云端的SRE发展与实践

     发表于 1 年 前

    美团点评作为综合性多业务的互联网+生活服务平台,覆盖“吃住行游购娱”各个领域,SRE就会面临一些特殊的挑战。...