开源项目,开源代码,开源文档,开源新闻,开源社区

P19

Server前台查看： 1.1.4 CDH检查日志 CDH有强大的系统事件和日志搜索功能，每一个服务(如：hadoop,hbase)的主页都提供了事件和告警的查询，日常运维除了CDH主页的告警外，需要查看这些事件以发现潜在的问题：

beauty2003 2016-05-10 1321 0

报告手册

理方式。Hadoop 在本质上是一个批处理系统，数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时，结果数据返回到 HDFS 供始发者使用。Hadoop的高吞吐，

jopen 2014-12-03 27828 0

Storm 分布式/云计算/大数据

chip，它是一个逻辑概念，一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小，因而slot是 Hadoop的资源单位。详见这里。在这篇博文里，我将详细讲解每个步骤，帮助大家更好地理解并正确管理实例（task

jopen 2014-12-13 12255 0

Java Java开发

qm），我们需要预测结果，也就是对应房价（$）。为了做到这一点，我们：我们找到一条「最拟合」所有数据点的直线（线性回归）。「最拟合」是当线性回归线确保实际数据点（灰色点）和预测值（内插在直线上的

ChristyCurt 2017-02-22 86782 0

线性回归向量 TensorFlow

P44

Cloud云平台中国移动通信研究院业务支撑研究所 2. 提纲云计算技术发展及应用概述 Google/Hadoop云计算架构 “大云”计划及进展状况 3. 解决相同问题的性价比（PC vs Unix服务器）服务器价格1/3来源：Google

ljp123456 2014-03-22 2311 0

分布式/云计算/大数据方案培训 CSS C/C++

REEF 是微软开发的一个大数据框架。 REEF运行在YARN的上层。YARN是新一代Hadoop资源管理器，通过YARN，用户可以运行和管理同一个物理集群机上的多种作业，例如MapReduce批处理和图形处理作业。这样不仅

jopen 2013-08-15 31415 0

REEF

安装 Spark ，下载 spark-1.3.1-bin-hadoop2.6.tgz ，解压到 /opt/spark-hadoop 下载地址： http://spark.apache.org/downloads

dgy7 2015-05-21 254373 0

Spark 分布式/云计算/大数据

开发商近日开源了部分数据集成软件，并将整个 Kettle 数据集成平台移植到 Apache 2.0 许可证下，以便从目前蓬勃发展的 Hadoop 和 NoSQL 业务中得到更多的份额，从而奠定其在大数据市场的地位。 Pentaho

fmms 2012-02-10 17226 0

Pentaho

apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path;

ff6m 2015-08-04 7579 0

Java

Keynotes 演讲，我们在下午还有12个围绕不同技术主题的 Session，涵盖了 OSGi、Web、Hadoop 和开源软件法律保护等主题。 OSGi: OSGi & Apache Felix OSGi

fmms 2011-10-10 7540 0

Apache

complex queries; - Enhanced Hadoop integration, including support for Hadoop 2.2.0 up to Hadoop 2.5.1, and expan

jopen 2014-10-21 7434 0

Apache Tajo

游房屋短租网站Airbnb近日开源了一款SQL工具—— Airpal ，使普通员工也能够用Hadoop系统分析大数据。 Airpal是Airbnb一年前就已经开发并使用的Presto数据查询工具，

jopen 2015-03-10 19193 0

Airbnb

成一个「白箱子」，就像预测变量可以由一组拥有不同特征自变量的来解释。我对此有不少需求，但不幸的是，大多数随机森林算法包（包括 scikit-learn)并没有给出树的预测路径。因此sklearn

yxli 2016-02-21 29146 0

算法 scikit-learn

Hadapt 是个自适应分析平台，为 Apache Hadoop 开源项目带来了 SQL 实现。Hadoop 非常健壮，并且可伸缩。所以通过其合并了关联数据存储的混合存储层，Hadapt 允许进行基于

jopen 2014-03-10 12247 0

Hadapt 分布式/云计算/大数据

是一个大规模并行处理计算平台，用于解决大数据问题。类似 Hadoop 平台。 The most obvious and direct competitor to Hadoop is HPCC Systems, an

openkk 2012-06-09 17586 0

并行处理分布式/云计算/大数据

Bigtop 是一个 Apache Hadoop 生态系统的开发、打包和测试系统。其主要目的是建立社区驱动的 Hadoop 相关项目的交互性测试。 Hadoop并不仅仅是一个用于存储的分布式文件系

码头工人 2019-01-17 962 0

其它开源项目

虽然 Hadoop 在分布式数据分析方面备受关注，但是仍有一些替代产品提供了优于典型 Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台，它整合了内存计算的基元，因此，相对于 Hadoop

fmms 2012-01-05 77287 0

Spark 分布式/云计算/大数据

P18

unt是Hadoop自带的一个例子，目标是统计文本文件中单词的个数。假设有如下的两个文本文件来运行WorkCount程序： Hello World Bye World Hello Hadoop GoodBye

wanghaoms 2013-03-05 3360 0

分布式/云计算/大数据

oogle在处理大数据方面，果真有得天独厚的优势。下面的内容，很大部分来自这篇论文。随着Hadoop的流行，大规模的数据分析系统已经越来越普及。数据分析师需要一个能将数据“玩转”的交互式系统。如

jopen 2012-10-24 66522 0

Google 分布式/云计算/大数据

Reduce ： > -> 下面通过一个的例子来详细说明这个过程。 WordCount是Hadoop自带的一个例子，目标是统计文本文件中单词的个数。假设有如下的两个文本文件来运行WorkCount程序：

jopen 2013-10-10 26724 0

MapReduce

hbase运维参考手册(项目实战) 文档

分布式流式处理框架：Storm 经验

避免Java堆空间错误的5个步骤经验

入门级解读：小白也能看懂的TensorFlow介绍经验

中国移动Big Cloud平台(经分培训)v1.0 文档

微软大数据框架：REEF 经验

Ubuntu下Spark开发环境搭建经验

Pentaho开源部分大数据产品，移植Kettle项目到Apache 2.0许可资讯

实现HDFS数据上传和下载代码代码段

Apache基金会亚洲巡演，10月23日，上海大学，品开源、论技术资讯

分布式数据仓库系统，Apache Tajo v0.9 发布资讯

菜鸟也能玩转大数据：Airbnb开源Presto数据库SQL工具资讯

用scikit-learn 来演绎随机森林方法经验

自适应分析平台：Hadapt 经验

大规模并行处理计算平台 HPCC Systems 经验

Apache Bigtop 开源项目

Spark，一种快速数据分析替代方案经验

MapReduce 源码分析完整版文档

Google Dremel 原理 - 如何能3秒分析1PB 经验

mapreduce源码分析总结经验

hadoop 电影票房预测的相关搜索

关键词

hbase运维参考手册(项目实战) 文档

分布式流式处理框架：Storm 经验

避免Java堆空间错误的5个步骤 经验

入门级解读：小白也能看懂的TensorFlow介绍 经验

中国移动Big Cloud平台(经分培训)v1.0 文档

微软大数据框架：REEF 经验

Ubuntu下Spark开发环境搭建 经验

Pentaho开源部分大数据产品，移植Kettle项目到Apache 2.0许可 资讯

实现HDFS数据上传和下载代码 代码段

Apache基金会亚洲巡演，10月23日，上海大学，品开源、论技术 资讯

分布式数据仓库系统，Apache Tajo v0.9 发布 资讯

菜鸟也能玩转大数据：Airbnb开源Presto数据库SQL工具 资讯

用scikit-learn 来演绎随机森林方法 经验