十种程序语言帮你读懂大数据的“秘密” 资讯

如果就单纯的 Excel 来进行数据处理是远远不能满足的。但如果只用一些操作软件来分析,而不怎么如何用逻辑数据来分析的话,那也只是简单的数据处理。 替代性很高的工作,而无法深入规划策略的核心。

jopen 2014-07-31   21663   0

HDFS Federation在美团点评的应用与改进 经验

1,使用了Kerberos作为认证支持;相关技术栈中,Spark应用版本包含1.1、1.3、1.4、1.5,同时使用了Zeppelin作为Spark notebook的开发工具;在查询引擎方面Hive有0

juce7588 2017-04-11   36681   0

查询处理和优化系统:Apache MRQL 经验

MRQL (发音 miracle) 是一个查询处理和优化系统,适用于大规模分布式的数据分析。MRQL (MapReduce Query Language) 是一个在计算机集群中对大规模数据的类 SQL

jopen 2013-11-01   15661   0

[从0到1]关于深度学习,这里比你想的还要全 经验

开发架构CUDA类库也是需要C++的技术。 此外R语言和matlab是更容易学习上手的专业数学分析的工具语言。 R语言是开源项目,较适合个人研究者;matlab则是功能强大的商业应用系统,部署成本较高。

youhaofy 2017-03-07   22202   0

新版 OpenStack 首度支持 NFV 网络功能虚拟化 资讯

Functions Virtualization,NFV)平台功能初级版、Sahara套件也支持Hadoop和Spark来快速建置与管理大资料丛集。 每 隔半年就推出新版本的OpenStack云端作业平台,如

jopen 2014-10-26   11784   0

通过腾讯shuffle部署对shuffle过程进行详解 经验

腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较。

jopen 2014-05-21   56177   0

英语流利说基础数据平台 经验

计算资源 – EMR Amazon EMR 在于我们可以很方便并快速的构建一个基于 Hadoop,Spark,Hive等大数据产品的计算集群,如果不是需要长久服役,我们可以在其所有 Job 完成之后,销毁

hh306311 2016-08-09   22195   0

Dpark源码剖析一(概述) 经验

Dpark/Spark中最重要的核心就是RDD(弹性分布式数据集,Resilient Distributed Datasets),为了给今后的分析打下基础,这篇文章首先会解释RDD相关的重要概念。接着

听 StitchFix 数据科学家和 Google 工程师聊聊机器学习的机会 资讯

StitchFix 数据科学家,创业前是 Twitter 的 Data Scientist,在目标广告投放和预测分析等领域有着丰富的经验。 Evan Chen: Google 软件工程师,对 Machine Learning

jopen 2015-09-27   32649   0

构建大数据生态需要哪些核心技术? 经验

云、百度开放云、易观和链家网。演讲话题点包含机器学习、数据存储、用户画像、数据查询、数据迁移和数据分析等关键技术点,完整的诠释了构建大数据生态必备的技能和构建生态最终的目的。具体内容往下看! 机器学习

ozhc1633 2016-04-23   39175   0

值得mark的11个开源机器学习项目 经验

垃圾邮件过滤、人脸识别、推荐引擎——当你有一个大数据集并且希望利用它们执行预测分析和模式识别,机器学习是必经之路。这门科学,计算机可以在没有事先规划的前提下自主学习、分析和操作数据,现在越来越多的开发人员关注机器学习。

jopen 2014-12-05   46666   0

京东商城招聘了~~ 问答

程、集合等基础框架,熟悉分布式、缓存、消息、搜索等机制; 3、 具有良好的系统分析、架构设计能力,熟悉软件系统分析/设计的方法论,并有丰富的实践经验;(高级及以上) 4、 熟悉单元测试技术和TDD,熟悉Linux、UML;

王小舆 2014-02-18   13562   0

大数据领域一些实用工具 经验

大数据指的是海量数据的分析处理,可能是EB级的数量处理,我们之前也提到过大数据拥有4V特性,Volume(大量)、Velocity(高 速)、Variety(多样)、Value(价值),对于大数据的分析处理,需要

y37f 2015-03-15   37847   0

汤子楠:飞天、ODPS经历了许多血淋淋教训 资讯

ODPS,它是一个离线的结构化数据存储和计算服务,主要是做海量的结构化数据的分析和挖掘。常见的使用场景,包括云端的数仓,云端的 BI 分析、日志分析等。除了 ODPS,阿里云还有其他基于飞天的产品,OTS 是半结构化数据的实时随机读写服务;OSPS

jopen 2014-03-19   30451   0

机器学习语言:SystemML 经验

与众不同的是: (1) 可定制算法 (2) 多个执行模式,包括单个,Hadoop 批量和 Spark 批量, (3) 自动优化 SystemML 先进的机器学习主要基于两方面: SystemML

jopen 2015-11-05   10110   0

旅游推荐系统的演进 经验

其中有3个鞍点,对应将一天分为早、中、晚3个时间段,分时间段统计POI热销。从召回层面看POI排序对比之前变化比较大,但由于下文中Rerank的作用,对推荐整体的影响并不大。 用户历史行为强相关策略

MMCLin 2017-03-28   12206   0

我的后端开发书架2015 2.0版 资讯

算法的书 《数据结构与算法分析-Java语言描述 第2版》 够薄,数据结构与算法分析的点基本都涵盖了,而且示例代码还是Java写的。 《算法 第4版》 可与上一本对比着读,厚一些,也多些图,但知识点没上面的全,也是Java的。

jopen 2015-10-28   35552   0
开发  

Kafka设计解析(五):Kafka Benchmark 经验

输出到标准输出外,该脚本还提供CSV Reporter,即将结果以CSV文件的形式存储,便于在其它分析工具中使用该测试结果 $KAFKA_HOME/bin/kafka-consumer-perf-test

jopen 2016-01-06   13470   0

IBM LinuxONE 在手,开源开放易如反掌 资讯

特性之一号称是“由你做主的Linux”,它全面支持主流开源软件,任由开发者选择自己所熟悉和偏爱的开源工具,支持包括 Apache Spark 、Node.js、MongoDB、MariaDB、PostgreSQL、Chef和Docker

jopen 2015-11-19   22774   0

指点迷津的现代数据数据架构之道 资讯

鉴于许多企业组织在竭力采用易于使用的数据分析技术让大数据广泛可用,它们应考虑将部分功能外包到云端。如果选择一种大数据即服务解决方案,可以处理像Hadoop、Spark和Hive等这些大数据技术很耗费资源、

jopen 2016-03-09   4973   0
1 2 3 4 5 6 7 8 9 10