0推荐
49K 浏览

9个最佳的大数据处理编程语言

大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如 Excel 看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需...
0推荐
52K 浏览

解密Airbnb数据流编程神器:Caravel 颠覆许多大数据分析平台的开源工具

数据分析的统计计数和多维分析,我们通常称之为数据探索式分析,这个步骤旨在了解数据的特性,有助于我们进一步挖掘数据的价值。而基于我们对数据的理解,再引入机器学习的算法对数据做出预测就变得水到渠成了。
0推荐
39K 浏览

构建大数据生态需要哪些核心技术?

2016年QCon全球软件开发大会北京站 于4.21-4.23在北京国际会议中心举办,参会者对整体内容设置及安排反馈良好。这里我们梳理出了22号“大数据生态构建”厂商共建专场的重点演讲内容,为没...
0推荐
52K 浏览

单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

杨尚刚,美图公司数据库高级DBA,负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师,负责新浪微博核心数据库架构改造优化,以及数据库相关的服务器存储选型设计。
0推荐
27K 浏览

大数据-数据采集和集成

最近在对已有的大数据采集和数据集成工具进行梳理,并考虑进行相关的产品整合工作,经过对已有的产品的测试和验证,已经实际需要的业务场景,初步考虑清楚后续需要进行新增和完善部分的内容。
0推荐
25K 浏览

大数据应用?你先搞定数据获取再说

大数据不再像过去几年一样,受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家,还会被R和Hadoop之类的开源工具搞得心烦意乱。现在许多公司在大数据分析中最头疼的问题,其实是如何获取数据。
0推荐
48K 浏览

大数据的明天将驶向何方?

编者注: 原文是 FirstMark Capital 的 Matt Turck 的 文章 。本文全面总结了大数据领域的发展态势,分析认为尽管大数据作为一个术语似乎已经过气,但是大数据分析与应用才...
0推荐
24K 浏览

谷歌的海量数据排序实验史

自从相关工具创建以来,我们一直通过对海量的随机数据执行排序来测试MapReduce。这种方式很受欢迎,因为生成任意数量的数据非常简单,想要验证输出结果是否正确也很简单。
0推荐
15K 浏览

PostgreSQL 用CPU "硬解码" 提升1倍 数值运算能力 助力金融大数据量计算

PostgreSQL 支持的数字类型包括整型,浮点,以及PG自己实现的numeric数据类型。
0推荐
75K 浏览

用Apache Spark进行大数据处理——第三部分:Spark流

在“用Apache Spark进行大数据处理”系列的前两篇文章中,我们看到了Apache Spark框架是什么(第一部分)还有如何使用Spark SQL库访问数据的SQL接口(第二部分)。
0推荐
19K 浏览

BABY夜谈大数据 : 计算文本相似度

上一章有提到过[基于关键词的空间向量模型]的算法,将用户的喜好以文档描述并转换成向量模型,对商品也是这么处理,然后再通过计算商品文档和用户偏好文档的余弦相似度。
0推荐
34K 浏览

大数据不只是数据大 全面解析大数据

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原...
0推荐
26K 浏览

浅谈大数据应用研究的3个V

To knowledge 是目标,手段还是 mining ,俗称数据民工。每当大家讲到大数据,都会不约而同的提到大数据几个 V 的定义: Volume , Variety , Velocity ...
0推荐
44K 浏览

大数据架构概览

Big Data非常复杂,涉及到的技术繁多。我们常“耳闻”的技术,如果MapReduce, Hadoop等处于哪一层次,下图会给你一个整体印象。
0推荐
15K 浏览

Gearpump:基于 Akka 的大数据实时处理引擎

Gearpump:基于 Akka 的大数据实时处理引擎
0推荐
17K 浏览

基于MapReduce开发的数据挖掘/机器学习库 - Mahout

传统数据挖掘/机器学习库存在的问题
0推荐
26K 浏览

大数据平台CDH集群离线搭建

标签: Cloudera-Manager CDH Hadoop 部署 集群 摘要:管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文先是简要对比了当前的类似工具...
0推荐
16K 浏览

大数据技术hadoop入门理论系列之二—HDFS架构简介

HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是:
0推荐
16K 浏览

通过MS SQL列存储索引实现大数据解决方案

现如今的大数据处理方案需要在比以往更短的时间内应对越来越大的数据量。MS SQL 2012版本首次引入了列存储(CS)索引技术,这也是SQL Server首次尝试从传统的行存储结构转变为面向列的...
0推荐
69K 浏览

大数据系列之(一) Streaming模式基础知识

现在大数据,云计算已经成为互联网的标配,但是现在主流的大数据处理依旧是使用batch模式,batch模式就是将数据按某种规则分成块,然后对整个块跑计算逻辑,缺点是延迟太高(至少是分钟),常用的工...
1 2 3 4 5

经验分享,提升职场影响力

投稿

热门问答

    热门文档