0推荐
28K 浏览

你应该知道的大数据领域12大动向

最近这几周大数据领域可谓动作频频,初创公司和老牌企业都纷纷发布新品,更新或改进现有的产品系列,以及达成战略性关系。
0推荐
8K 浏览

Glow Cache 构架

作为一家大数据公司,Glow每天都会收到海量的数据。这些数据的快速存取,是必须面对的一个问题。Cache,则是众多解决方案中,最实用的一个。笔者将给大家介绍一下Glow的Cache框架,希望能对...
0推荐
12K 浏览

为什么说Spark SQL远远超越了MPP SQL

这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的。
0推荐
27K 浏览

京东618:从演习、监控到预案,京东无线全面备战

在京东上季度的财报中,无线端(包括移动端和微信等其他无线平台)占比已经超过72%,这也给京东无线业务部带来了巨大的压力。今年,京东618主会场首次全面采用个性化策略,同时,618期间的一系列促销...
0推荐
12K 浏览

如何让Hadoop支持优先级且性能可预测

Apache Hadoop近十年的成长证明,用开源技术处理与访问海量数据并不是什么炒作。然而,Hadoop的一个缺点是不可预测性。Hadoop不能确保企业的关键任务按时完成,也不能完全发挥集群的性能。
0推荐
25K 浏览

RPC原理与实现

RPC 的主要功能 目标是让构建分布式计算(应用)更容易 ,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透明调用机制让使用者 不必显式的区分本地调用和远程调用 。
0推荐
11K 浏览

天天在做大数据,你的时间都花在哪了

我每天都在思考,思考很重要,是一个消化和不断深入的过程。
0推荐
22K 浏览

Torus登场:CoreOS打造的新一代分布式存储系统

最近CoreOS推出来重量级产品Torus,专门为容器集群量身打造的分布式存储系统,可以为通过Kubernetes编排和管理的容器集群提供可靠可扩展的存储。让我们来感受下新产品给我们的集群分布式...
0推荐
13K 浏览

分布式锁1 Java常用技术方案

由于在平时的工作中,线上服务器是分布式多台部署的,经常会面临解决分布式场景下数据一致性的问题,那么就要利用分布式锁来解决这些问题。所以自己结合实际工作中的一些经验和网上看到的一些资料,做一个讲解...
0推荐
24K 浏览

DevOps年度报告:Docker、Puppet和Chef,谁更受欢迎?

2016年1月,RightScale进行了年度云计算现状调查。此次调查就云计算架构的应用情况询问了大部分典型组织内的技术专家。
0推荐
27K 浏览

呼之欲出!比Spark快10倍的Hadoop3.0有哪些实用新特性?

Apache  hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。
0推荐
23K 浏览

Apache Spark 2.0前瞻:为机器学习模型注入持久性

在所有的这些例子中,如果有了模型的持久性,那么保存和加载模型的问题将变得更容易解决。在即将到来的2.0版本中,通过基于DataFrame的API,Spark机器学习库MLlib将实现几乎完整的M...
0推荐
33K 浏览

LinkedIn 开源其分布式对象存储系统 Ambry

日前,LinkedIn在 Github上 基于Apache 2许可证协议开源了其 分布式对象存储系统Ambry 。Ambry是一个是 不可变对象的存储系统 ,非常易于扩展,它能够存储KB到GB大...
0推荐
148K 浏览

用Spark进行大数据处理之机器学习篇

在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。
0推荐
38K 浏览

使用Spark Streaming + Kudu + Impala构建一个预测引擎

随着用户使用天数的增加,不管你的业务是扩大还是缩减了,为什么你的大数据中心架构保持线性增长的趋势?很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期,或者你的业务处在淡季,你增加...
0推荐
14K 浏览

星星之火渐呈燎原之势:Spark 2.0预览版重磅来袭

目前Databricks订阅用户已经能够获取Spark 2.0的技术预览版。性能提升、SparkSessions以及数据流处理能力将成为新版本的主要发展方向。
0推荐
24K 浏览

数读OpenStack:谁在使用开源云,用来做什么?

OpenStack Foundation每年会对OpenStack用户进行两次调查,最新一次调查是在2016年4月完成的, 调查报告 现已出炉。本次调查涉及来自全球1111家组织的1603名成员...
0推荐
23K 浏览

Flink 原理与实现:Window 机制

Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Ba...
0推荐
19K 浏览

使用Spark Streaming进行情感分析

此列子虽然简单,但是其可以使用Spark解决实际问题。我们可以计算Twitter上主题趋势。
0推荐
49K 浏览

9个最佳的大数据处理编程语言

大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如 Excel 看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档