• Spark新愿景:让深度学习变得更加易于使用

     发表于 1 年 前

    Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新的愿景:让深度学习变得更容易。 当然牛好吹,也是要做些实际行动的,所有便...

  • 关于CarbonData+Spark SQL的一些应用实践和调优经验分享

     发表于 1 年 前

    大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的...

  • Spark Block存储管理分析

     发表于 1 年 前

    Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中...

  • 一分钟吃透 Spark 之 TaskScheduler

     发表于 1 年 前

    spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个...

  • Spark性能调优之道——解决Spark数据倾斜(Data Skew)的N种姿势

     发表于 1 年 前

    对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。...

  • Apache Spark 内存管理详解

     发表于 1 年 前

    Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能...

  • Apache Spark 内存管理详解

     发表于 1 年 前

    Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能...

  • Spark学习-RDD编程基础

     发表于 1 年 前

    Spark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同...

  • 30分钟概览Spark分布式计算引擎

     发表于 1 年 前

    本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。...

  • SparkSQL-从DataFrame说起

     发表于 1 年 前

    本着更好地理解大数据生态圈的本意以及工作的需要,前段时间熟悉了SQL查询引擎SparkSQL、Hadoop文件格式Parquet/CarbonData、大数据基准测试标准TPCDS...

  • Facebook官方详解:使用Apache Spark进行大型语言模型训练

     发表于 1 年 前

    Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社...

  • 英特尔推出用于Apache Spark的深度学习库

     发表于 1 年 前

    英特尔今天宣布推出开源 BigDL,一个用于 Apache Spark 开源集群计算框架的分布式深度学习库。...

  • Fregata: Spark上支持万亿维机器学习模型

     发表于 2 年 前

    大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的数量可能并不是太大,...

  • Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

     发表于 2 年 前

    DirectKafkaInputDStream 只在 driver 端接收数据,所以继承了 InputDStream,是没有 receivers 的在结合 Spark Stream...

  • 深入理解 Spark RDD 抽象模型和编写 RDD 函数

     发表于 2 年 前

    Spark revolves around the concept of a resilient distributed dataset (RDD), which is an im...

  • 搭建 Spark 源码研读和代码调试的开发环境

     发表于 2 年 前

    搭建Spark源码研读和代码调试的开发环境...

  • Apache Spark:大数据处理统一引擎

     发表于 2 年 前

    工业和研究中数据的大幅增长为计算机科学带来了巨大的机会与挑战。由于数据大小超过了单台机器的能力,用户需要新的系统将计算扩展到多个节点。因此,针对不同计算工作负载的新集群编程模型已呈...

  • 基于 Spark 的用户行为路径分析的产品化实践

     发表于 2 年 前

    用户行为路径分析是互联网行业特有的一类数据分析方法,它主要根据每位用户在App或网站中的点击行为日志,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或点击模式,进...

  • 使用Apache Spark构建实时分析Dashboard

     发表于 2 年 前

    本篇文章中我们将学习如何使用Apache Spark streaming,Kafka,Node.js,Socket.IO和Highcharts构建实时分析Dashboard。...

  • 含 Apache Spark 的 Lambda 架构

     发表于 2 年 前

    市场上很多玩家已经建造了MapReduce工作流用来日常处理兆兆字节的历史数据。但是谁愿意等待24小时来拿到更新后的分析报告?这篇文章会向你介绍 Lambda Architectu...