使用 Apache Pig 处理数据 经验

是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言,并在一个简单的

openkk 2012-03-30   25820   0

8个让程序员追悔莫及的职业建议 资讯

展潜力很大,能让我们挣很多钱。 不管基于什么样的考虑,我们选择了这一行业,这就是事实。并且,有分析指出,这个市场未来几十年还将膨胀数倍,需要大量的从业人员。有大量的公司将 如雨后春笋一个个冒出来,

jopen 2014-10-10   4548   0
P21

  《C++程序设计》课程实习课程设计说明书之超市商品信息管理系统 文档

3、除此之外,还需要记录商品的其他相关信息,如生产厂家、供货处代码、厂家网址、厂家电话等。 4、超市商品的相关信息需要存储到文件系统中,同时需要提供对信息的添加、编辑、删除等操作。 5、超市管理员每天会记录购进的商品信息,核销过期的商品等。

dsad1213 2012-07-08   635   0

大数据计算平台Spark内核全面解读 经验

利的数据分析软件栈BDAS(Berkeley Data Analytics Stack)中的位置。可见Spark专注于数据的计算,而数据的存储在生产环境中往往还是由Hadoop分布式文件系统HDFS承担。

jopen 2015-02-03   29051   0

Spark 内核研究 经验

的数据分析软件栈 BDAS (Berkeley Data Analytics Stack)中的位置。可见Spark专注于数据的计算,而数据的存储在生产环境中往往还是由Hadoop分布式文件系统HDFS承担。

jopen 2015-01-29   28746   0
P27

  Hadoop 分享 文档

com CCINDEX TEAMHADOOP 分享北京蓝汛通信技术有限责任公司 2. 目录 HDFS 文件系统 与 HDFS 窥探内部结构 运行 正常流程 / 非正常流程 / 发现异常 MapReduce 参与

gppxm 2012-10-19   2076   0

Storm企业级应用:实战、运维和调优——1.1 什么是实时流计算 经验

典型特征。另外,现在人们都认识到,“近似性”和“自适应性”是对数据流进行快速查询和其他处理(如数据分析和数据采集)的关键要素,而传统DBMS的主要目标恰恰与之相反:通过稳定的查询设计,得到精确的答案。

Java NoSQL数据库, OrientDB 2.0 正式发布 资讯

schema-full, 和schema-mixed 模式,具有一个基于用户和角色,很强的安全性分析系统。支持SQL查询语言。 OrientDB 2.0 正式发布,可用于生产环境! OrientDB

jopen 2015-01-20   10556   0

Black Duck 发布2014年度最佳开源新秀 资讯

characteristics of running containers. cAdvisor 谷歌公司用来分析运行中的 Docker 容器的资源占用以及性能特性的工具。 CockroachDB – a

jopen 2015-01-28   7450   0
开源  
P25

  双11-淘宝下一代架构的成人礼 文档

过去的演变 2.0->3.x(2007-2009) 单个应用->大型分布式java应用服务化 分库分表 分布式cache 分布式文件系统 稳定性的关注双11-淘宝下一代架构的成人礼 8. 双11-淘宝下一代架构的成人礼CDNWeb

my5g 2015-01-08   626   0

官方正式发布 Apache Hadoop 2.5.0 版本 资讯

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop

jopen 2014-08-15   6456   0

漫谈Neutron的那些技术 资讯

计算通过虚拟化CPU、Disk、Memory等硬件来获得高效的应用;存储通过诸如Glusterfs、Ceph等分布式文件系统,提供了众多特性的功能。而相对于,计算和存储两方面的成熟与稳定,网络一直以其在稳定、效率、设计等方面,而备受人们爱之、痛之。

jopen 2015-09-14   25199   0
Neutron  
P25

  NoSQL 研究及选型报告 文档

经成为了企业的一种资产。而作为数据密集型行业的代表金融业,如何更好的利用已掌握的数据进行深度挖掘和分析整合,能否凭借数据来掌握客户行为,提升客户体验,创新金融产品,会对未来的金融市场竞争产生深远影响。

xfei365 2014-01-03   623   0

解读2015之大数据篇:大数据的黄金时代 资讯

介质和异构集群的方向迈进了一大步。 HDFS HDFS 之前是一个以磁盘单存储介质为主的分布式文件系统。但随着近几年新存储介质的兴起,支持多存储介质早就提上了日程。如今,HDFS 已经对多存储介质

jopen 2016-01-08   53926   0

Hadoop YARN的发展史与详细解析 经验

负载的分布式处理。7年后的今天,Hadoop正在经历着一次彻底检查,不仅支持MapReduce,还支持其他分布式处理模型。 带有 MapReduce 的 Apache Hadoop 是分布式数据处

jopen 2014-10-09   24967   0

深度学习框架大战正在进行,谁将夺取“深度学习工业标准”的荣耀? 资讯

和其他深度学习框架的对比。 在分布式计算方面,TensorFlow 最终还是赶上了。2016年2月27日,Google 终于公布了 TensorFlow的 分布式运行方案 。对于大规模深度学习来说,巨大的数据规模使得单机很难

jopen 2016-03-06   39760   0

SpatialHadoop实例:面向空间数据的高效MapReduce框架 经验

于此的应用程序,如机器学习[3]、兆字节排序[9]、图像 处理[1]等,多年来也被证实了对于大数据分析来说是一个有效的框架。与此同时,对于空间数据也进入了一个爆炸的时代,如智能手机、医疗设备、太空望远镜

jopen 2016-01-05   24189   0

网易云对象存储系统架构实践 经验

10年存储老兵,对分布式文件系统、同意存储等存储产品有深入研究,曾任中科院、中科曙光等企事业机构。 一、对象存储应用场景 IT时代产生的大部分数据都是没有固定大小限制、没有固定格式的非结构化数据(图片、视频、

t945in03 2016-10-16   10094   0

NoSQL数据库的35个应用场景 资讯

假如你的应用有以下需求: 需要不同的访问方式和数据类型的话可以看看文档数据库,它们在这方面很灵活。 大数据量的离线分析首先应该考虑 Hadoop,其次是其他支持 MapReduce 的产品。当然,支持 MapReduce

jopen 2013-02-25   16146   0
NOSQL  
P16

  EMC推荐黄浦教育局的虚拟数据中心方案 文档

1. EMC推荐黄浦教育局的虚拟数据中心方案 2. 分布式磁盘卷黄浦教育局VPLEX Metro HA方案示意图VPLEX clusterSAN物理服务器LAN Virtual Servers running

chjish 2013-10-28   1929   0
方案   Intel  
1 2 3 4 5 6 7 8 9 10