• 关于CarbonData+Spark SQL的一些应用实践和调优经验分享

     发表于 2 个月 前

    大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的...

  • Spark Block存储管理分析

     发表于 6 个月 前

    Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中...

  • 一分钟吃透 Spark 之 TaskScheduler

     发表于 6 个月 前

    spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个...

  • Spark性能调优之道——解决Spark数据倾斜(Data Skew)的N种姿势

     发表于 7 个月 前

    对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。...

  • Apache Spark 内存管理详解

     发表于 7 个月 前

    Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能...

  • Apache Spark 内存管理详解

     发表于 7 个月 前

    Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能...

  • Spark学习-RDD编程基础

     发表于 8 个月 前

    Spark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同...

  • 30分钟概览Spark分布式计算引擎

     发表于 8 个月 前

    本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。...

  • Facebook官方详解:使用Apache Spark进行大型语言模型训练

     发表于 9 个月 前

    Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社...

  • 英特尔推出用于Apache Spark的深度学习库

     发表于 9 个月 前

    英特尔今天宣布推出开源 BigDL,一个用于 Apache Spark 开源集群计算框架的分布式深度学习库。...

  • Fregata: Spark上支持万亿维机器学习模型

     发表于 10 个月 前

    大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的数量可能并不是太大,...

  • 搭建 Spark 源码研读和代码调试的开发环境

     发表于 11 个月 前

    搭建Spark源码研读和代码调试的开发环境...