• 容器和微服务在Hadoop生态系统中找到一席之地

     发表于 2 年 前

    云计算是将Hadoop、Spark和其他大数据技术推向虚拟化、容器和微服务的动力之一。还有许多基础设施需要构建,但目前已经有公司开始用技术简化这个过程。...

  • 大数据领域开源技术 除了Hadoop你还知道哪些

     发表于 2 年 前

    众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值...

  • Hadoop和Spark框架的异同

     发表于 2 年 前

    谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什...

  • 一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

     发表于 2 年 前

    机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase...

  • Kafka实战:从RDBMS到Hadoop,七步实现实时传输

     发表于 2 年 前

    本文是关于Flume成功应用Kafka的研究案例,深入剖析它是如何将RDBMS实时数据流导入到HDFS的Hive表中。...

  • Hadoop大数据系统的七大危险信号

     发表于 2 年 前

    大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部署Hadoop系统的用户来说,最常遇到的就是扩展问题,此类问题往往导致企业因噎废食,终止大数据应用项目。...

  • Kudu:支持快速分析的新型Hadoop存储系统

     发表于 2 年 前

    Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补...

  • 你应该知道的大数据领域12大动向

     发表于 2 年 前

    最近这几周大数据领域可谓动作频频,初创公司和老牌企业都纷纷发布新品,更新或改进现有的产品系列,以及达成战略性关系。...

  • 如何让Hadoop支持优先级且性能可预测

     发表于 2 年 前

    Apache Hadoop近十年的成长证明,用开源技术处理与访问海量数据并不是什么炒作。然而,Hadoop的一个缺点是不可预测性。Hadoop不能确保企业的关键任务按时完成,也不能...

  • 呼之欲出!比Spark快10倍的Hadoop3.0有哪些实用新特性?

     发表于 2 年 前

    Apache  hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。...

  • Hadoop运维经验杂谈

     发表于 2 年 前

    分为Administrator和Development两门课程 运维事故...

  • 自定义Spark Partitioner提升es-hadoop Bulk效率

     发表于 2 年 前

    之前写过一篇文章, 如何提高ElasticSearch 索引速度 。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集...

  • Hadoop 入门实践

     发表于 2 年 前

    Hadoop 包括如下几个模块:...

  • 搭建docker hadoop环境

     发表于 2 年 前

    因为很难真正的有一个集群环境。在一般的条件下想要模拟hadoop集群的话,我只好选择docker 关于docker的简介我就不在这里写了。...

  • 从零自学Hadoop(18):Hive的CLI和JDBC

     发表于 2 年 前

    文章是哥(mephisto)写的,SourceLink 上一篇,我们对hive的数据导出,以及集群Hive数据的迁移进行描述。了解到了基本的hive导出操作。这里,我们将对...

  • Hadoop2.6.2的Eclipse插件的使用

     发表于 2 年 前

    插件下载后,放在eclipse安装目录下的plugins文件夹下,然后重启eclipse,就会发现Project Explorer窗口里多出DFS Locations这一项,对应的...

  • hadoop与mysql数据库的那点事

     发表于 2 年 前

    转眼间已经接触了hadoop两周了,从之前的极力排斥到如今的有点喜欢,刚开始被搭建hadoop开发环境搞得几乎要放弃,如今学会了编写小程序,每天都在成长一点挺好的,好好努力,为自己...

  • [Apache Kafka]Kafka集成

     发表于 2 年 前

    少量数据的实时处理可以使用JMS(Java Messaging Service)这类技术,但是数据量很大时便会出现性能瓶颈。而且这些方案不适合横向扩展。...

  • 让python在hadoop上跑起来

     发表于 2 年 前

    duang~好久没有更新博客啦,原因很简单,实习啦~好吧,我过来这边上班表示觉得自己简直弱爆了。第一周,配置环境;第二周,将数据可视化,包括学习了excel2013的一些高大上的技...

  • Hadoop 压缩实现分析

     发表于 2 年 前

    Hadoop 作为一个较通用的海量数据处理平台,每次运算都会需要处理大量数据,我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率,提高数据在磁盘和网络中的传输速度,从...