P14

  Mapred 程序开发常见问题及解决方法 文档

如何在map或reduce获得taskid? 2 3 Streaming程序自定义计数器和进行状态汇报? 3 4 Streaming程序当map或reduce返回值非0时,整个任务会失败? 3 5 Streaming任务如何指定key,value的分隔符?

zjjhit 2014-10-30   3139   0

LinkedIn工程经理眼中的数据世界格局 资讯

求的推动下,又促生了诸如Hortonworks这样的公司。 2010年,AMPlab推出的Spark又带来了重大的改变。其有三个特点最令人兴奋,一是速度(内存计算),二是通用性(是一个支持各种数据

jopen 2015-07-18   11777   0
数据  

深度学习将走向更加开放的未来 资讯

4年投入10亿美元进行沃森开放平台 的建设,当年年底沃森智能分析平台向公众开放,功能包括语音转文字、文字转语音、视觉识别、概念解读多维分析。支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架Apache

jopen 2015-05-27   21749   0

支付系统的对账处理 经验

比较合适。数据库操作相对比较慢,也浪费资源。 基于文件系统的标准化涉及如下内容: 文件格式标准化统一使用csv或者json或者xml格式。如果是使用hadoop或者spark来对账,使用csv是个不错的选择。

dev_888 2016-10-12   44549   0

Dryad 微软的分布式运算框架 经验

也不了解微软的整套软件体系,所有也就无从谈起了,不过有空可以结合 Tez 这个开源版本的实现来具体分析一下。 == 思考 == Dryad 的编程模型相对于 MapReduce 来说固

jopen 2014-07-08   32609   0

2016年年度十大Python库盘点 经验

库,这个库收集了一些可被用于测试强化学习算法的测试问题(环境)。它还包含一个站点与 API,能让你对比训练出的算法(代理,agent)的表现。因为它不在乎代理的实现方式,你可以选择使用自己的计算库建立

zhao.db 2016-12-26   18284   0

hadoop 里执行 MapReduce 任务的几种方式 经验

最后在shell下执行: hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.203.0.jar -file map.py -file reduce

jopen 2012-10-15   39572   0

美团推荐算法实践:机器学习重排序模型成亮点 经验

但当用户的意图不明确或者很难用清晰的语义表达,搜索引擎就无能为力。此时,借助推荐系统通过用户行为的分析理解其意图,为其推送个性化的结果,便成为一种更好的选择。 美团作为国内发展较快的O2O网站,有着大

jopen 2015-01-31   22327   0

黑客正利用Java 0day漏洞发动攻击 资讯

趋势科技研究人员发现,被称为 Operation Pawn Storm 的网络间谍行动正利用一个 Java 0day 漏洞 发动攻击 。Pawn Storm 针对的是西方政府、军方、国防企业和媒体记者,被认为

jopen 2015-07-13   9410   0
黑客  

毫无技术Sense的互联网产品经理是可笑的!!! 资讯

怎么写吧,会从数据库调数据吧,知道 SQL 语句还有个优化的概念吧。 3. 基础的数据分析知识,各种 excel 功能得会玩吧,不然你还运营个蛋呢,数据分析都不会的。 4. 基础的网络知识概念要有吧,基本的网络协议和网

jopen 2015-01-29   5685   0

IBM携手Canonical推动Ubuntu Linux在大型机上的应用 资讯

IBM 广泛战略的一部分,该公司除了推动云计算、分析和安全之外,还会支持 Ubuntu Linux、以及多种热门开源企业软件,如 Apache Spark、Node.js、MongoDB、MariaDB、PostgreSQL、以及

jopen 2015-08-17   6248   0

MapR CEO对2016大数据的5个预测 资讯

MapR Converged Data Platform 将 Hadoop 和 Spark 的强大功能与全局事件流、实时数据库能力与企业存储集成到了一起,用于开发与运行创新性的数据应用。MapR Platform

jopen 2016-02-15   10712   0

MapR CEO对2016大数据的5个预测 资讯

MapR Converged Data Platform 将Hadoop和Spark的强大功能与全局事件流、实时数据库能力与企业存储集成到了一起,用于开发与运行创新性的数据应用。MapR Platfo

jopen 2016-02-15   9954   0
大数据   MapR  

云栖techday第6期活动小结:数据化运营 资讯

Web 界面系统会对数据分析人员更友好,交互式的分析工具能大幅的提升效率。 向磊分别从 Hadoop、Spark 等常见的开源系统上去介绍如何设计一个交互式的数据分析平台,对过程中会面临的一些困

jopen 2016-01-18   5883   0

iOS 仿YY直播心形动画 & 烟花动画 经验

CAEmitterCell *spark = [CAEmitterCell emitterCell]; // 粒子产生系数,默认为1.0 spark.birthRate = 400; // 速度 spark.velocity

winter0927 2016-07-15   12634   0

谈谈2018年技术趋势和架构规划 经验

•     京东如何基于容器打造高性能及效率的大数据平台 • 阿里巴巴大规模结构化存储七年实践背后的思考与进化 • Flink SQL:使用标准的ANSI SQL驱动大数据流计算 上述资料来源于 QCon , ArchSummit

mkrs4401 2018-02-04   30990   0

Pivotal开源基于PostgreSQL的数据库Greenplum 资讯

近日,Pivotal 宣布 开源大规模并行处理(MPP)数据库Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的。借助MPP这种高性能的系统架构,Greenplum可以将T

jopen 2015-11-03   11634   0

分布式日志收集收集系统:Flume 经验

间隔保 存数据。在日志数据较多时,可以将相应的日志数据存储到Hadoop中,便于日后进行相应的数据分析。更多sink的内容可以参考 官方手册 。 从整体上讲,NG 在核心组件上进行了大规模的调整,

jopen 2014-12-04   67408   0
Flume  

Citus v6.0.0 发布 ,PostgreSQL的扩展 资讯

Citus为PostgreSQL加入了横向扩展和并行查询处理功能,它被云服务公司如CloudFlare用于扩展PostgreSQL,快速分析实时数据。 更新日志 Adds compatibility with PostgreSQL

jopen 2016-11-08   7330   0

RHadoop环境搭建 经验

接下安装rhdfs库,在环境变量中增加 HADOOP_CMD 和 HADOOP_STREAMING 两个变量,可以用export在当前命令窗口中增加。但为下次方便使用,最好把变量增加到系统环

jopen 2014-10-31   21736   0
1 2 3 4 5 6 7 8 9 10