P16

  3、CDH4.1 介绍与环境搭建 文档

介绍与环境搭建 2. 技术基础Linux 中等 Java 最好有些基础,一般水平 关系数据库 sql 3. Hadoop介绍核心组件: HDFS :分布式存储系统 Mapreduce :分布式计算模块 分布式:廉价小型机

lxj2008 2014-01-17   1737   0
P7

  Sqoop 环境搭建和使用手册 文档

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

z_vv 2013-11-19   3969   0
手册  
P16

  4、cdh4.1 环境搭建二 文档

环境搭建二 2. 技术基础Linux 中等 Java 最好有些基础,一般水平 关系数据库 sql 3. Hadoop介绍核心组件: HDFS :分布式存储系统 Mapreduce :分布式计算模块 分布式:廉价小型机

lxj2008 2014-01-17   584   0
P2

  Spark 部署与实践 文档

k2,IP地址分别为1**.1*.**.******。JDK版本为1.7。集群上已经成功部署了Hadoop2.2,详细的部署过程可以参见另一篇文档Yarn的安装与部署。 2. 安装Scala2.9.3

yxwpx 2015-07-21   506   0

算法与算法工程师,技术与技术人员 资讯

事实:只有人能够理解数据,机器不能。 不管我们用什么机器学习算法——无论是LR,SVM,k-means,EM——对于它们来说,输入数据都是一堆浮点数组成的矩阵而以(如果说的更本质一点,只是一堆01

jopen 2015-12-04   27631   0
算法  

算法、技术及其他 资讯

事实:只有人能够理解数据,机器不能。 不管我们用什么机器学习算法——无论是LR,SVM,k-means,EM——对于它们来说,输入数据都是一堆浮点数组成的矩阵而以(如果说的更本质一点,只是一堆01

jopen 2015-08-18   27691   0
算法  
P10

  大数据平台技术框架选型分析 文档

全机制等 五、 选型需要考虑 简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop安装,集成你的不同接口(文件、数据库、B2B等等),并最终建模、部署、执行一些大数据作业。自己

guet_lee 2017-01-12   675   0
P9

  MapRedue 作业过程 文档

 MapRedue作业过程 1. Hadoop 作业构成 1.1 Hadoop作业执行流程 用户配置并将一个Hadoop作业提到Hadoop框架中,Hadoop框架会把这个作业分解成一系列map tasks

grid2012 2012-08-28   1979   0

Spark 伪分布式 & 全分布式 安装指南 经验

one Deploy Mode;二、Amazon EC2 ;三、Apache Mesos;四、Hadoop YARN。第一种方式是单机部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。

jopen 2015-04-02   84283   0
P13

  搜索相关笔记(Nutch) 文档

擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了骨干代码,

q985962490 2012-02-29   724   0
P9

  Hbase分布式多结点安装运行手册 文档

6,其他版本的Linux应该也可以。       jdk:sun jdk 1.6 32bit       hadoop:apache hadoop 1.0.4       hbase:apache hbase 0.94 实验环

lison4open 2015-01-01   340   0

Java实现的网络爬虫,Apache Nutch v2.3 发布 资讯

Nutch的创始人是 Doug Cutting ,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch 诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1

m4ed 2015-01-31   18141   0
P2

  Hive安装配置 文档

Hive安装配置 1 前期准备 1.1 Hadoop-0.20.2安装完成 1.2 下载Hive:http://www.apache.org/dyn/closer.cgi/hive/。目前版本为0.6

bbs_jack 2011-03-22   3712   0

6个用于大数据分析的最好工具 经验

出更明智的决策。 一、Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计

jopen 2015-02-09   54075   0

6个用于大数据处理分析的最好工具 资讯

更明智的决策。 Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计

jopen 2014-04-16   33991   0

6个用于大数据分析的最好工具 资讯

更明智的决策。 一、Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算

jopen 2013-04-06   304691   1
P14

  Pig 介绍 文档

了。我们要编写mapper和reducer,然后对代码进行编译打出 jar 包,提交到本地的 JVM 或者是 hadoop的集群 上,最后获取结果,这个周期是非常 耗时 的。 3. Pig的强大之处 就是他只要 几行Pig

706394187 2015-05-23   2379   0

大数据(八) - Sqoop 经验

Sqoop:SQL-to-Hadoop 连接 传统关系型数据库 和 Hadoop 的桥梁 把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS HBase 和 Hive) 中; 把数据从 Hadoop 系统里抽取并导出到关系型数据库里。

jopen 2016-01-20   13746   0
P40

  spark--高效的分布式计算架构 文档

到! 8. Hadoop Vs. Spark适用范围大比拼1. Hadoop Vs. Spark Hadoop/MapReduce和Spark最适合的都是做离线型的数据分析,但Hadoop特别适合是单

cador 2017-03-13   721   0
P5

  MapR 初体验 文档

Inc的一个产品,号称下一代Hadoop,使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台,同时性能也不断提高。它将极大的扩大了Hadoop的使用范围和方式。它包

sweetbaybe 2012-12-24   2387   0
1 2 3 4 5 6 7 8 9 10