0推荐
44K 浏览

R、Python、Scala 和 Java,到底该使用哪一种大数据编程语言?

摘要: 说到处理大规模数据,R、Python、Scala和Java基本上都能满足你的要求。
0推荐
39K 浏览

构建大数据生态需要哪些核心技术?

2016年QCon全球软件开发大会北京站 于4.21-4.23在北京国际会议中心举办,参会者对整体内容设置及安排反馈良好。这里我们梳理出了22号“大数据生态构建”厂商共建专场的重点演讲内容,为没...
0推荐
14K 浏览

OpenStack 中如何应用 Host Aggregates 来更有效地分配硬件资源

本文将要介绍如何应用 OpenStack 中 Host Aggregates 的机制来更为有效地分配 nova computes 节点上的硬件资源,从而达到 OpenStack 的用户能够合理地...
0推荐
52K 浏览

单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

杨尚刚,美图公司数据库高级DBA,负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师,负责新浪微博核心数据库架构改造优化,以及数据库相关的服务器存储选型设计。
0推荐
14K 浏览

Hadoop运维经验杂谈

分为Administrator和Development两门课程 运维事故
0推荐
27K 浏览

大数据-数据采集和集成

最近在对已有的大数据采集和数据集成工具进行梳理,并考虑进行相关的产品整合工作,经过对已有的产品的测试和验证,已经实际需要的业务场景,初步考虑清楚后续需要进行新增和完善部分的内容。
0推荐
24K 浏览

大数据应用?你先搞定数据获取再说

大数据不再像过去几年一样,受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家,还会被R和Hadoop之类的开源工具搞得心烦意乱。现在许多公司在大数据分析中最头疼的问题,其实是如何获取数据。
0推荐
9K 浏览

10步搞定系统的云迁移

云计算也许并不是尽善尽美,但不可否认的是总有一种方式适合你。首先我想要说,未来大多数企业都会从具体的机房迁移出来。虽然你企业中并不是所有负载系统都适合云计算,但是大多数公司可以而且应该采用云计算。
0推荐
48K 浏览

大数据的明天将驶向何方?

编者注: 原文是 FirstMark Capital 的 Matt Turck 的 文章 。本文全面总结了大数据领域的发展态势,分析认为尽管大数据作为一个术语似乎已经过气,但是大数据分析与应用才...
0推荐
35K 浏览

数据分析/数据挖掘/机器学习---- 必读书目

总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门--->进阶分块写。下面列的书基本上我写的都是读完过的,...
0推荐
21K 浏览

自定义Spark Partitioner提升es-hadoop Bulk效率

之前写过一篇文章, 如何提高ElasticSearch 索引速度 。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这...
0推荐
18K 浏览

niubi-job一个分布式的任务调度框架

niubi-job是一款专门针对定时任务所设计的分布式任务调度框架,它可以进行动态发布任务,并且有超高的可用性保证。
0推荐
24K 浏览

谷歌的海量数据排序实验史

自从相关工具创建以来,我们一直通过对海量的随机数据执行排序来测试MapReduce。这种方式很受欢迎,因为生成任意数量的数据非常简单,想要验证输出结果是否正确也很简单。
0推荐
23K 浏览

OpenStack 通用技术有哪些

OpenStack遵循这样的设计原则,“不要重复发明轮子”,即对已实现的功能,开发者直接拿来用即可。这一设计原则最终形成了一个由专门团队维护的Oslo——OpenStack公共库,实现硬件、操作...
0推荐
55K 浏览

Spark在美团的实践

美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。...
0推荐
22K 浏览

大型网站架构系列:分布式消息队列(一)

消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能,高可用,可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。
0推荐
26K 浏览

openstack multi-region管理

由于有些物理集群处于不同的地点,或者某一些物理集群规模太大,就需要创建多个openstack集群对其进行管理。而每个openstack集群是单独管理的,这就导致管理入口太多,不方便统一管理。那么...
0推荐
55K 浏览

基于Docker的CaaS容器云平台架构设计

前言 在移动互联网时代,企业需要寻找新的软件交付流程和IT架构,从而实现架构平台化,交付持续化,业务服务化。容器将成为新一代应用的标准交付件,容器云将帮助企业用户构建研发流程和云平台基础设施,缩...
0推荐
92K 浏览

一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统

因为在Spark的MLlib模块中只有MF算法,文章之后会讲述如何使用Matrix Factorization来做相关的推荐。
0推荐
48K 浏览

MapReduce工作原理图文详解

1.MapReduce作业运行流程 下面贴出我用visio2010画出的流程示意图:
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档