开源项目,开源代码,开源文档,开源新闻,开源社区

一个叫katta的开源项目进入我的视线，它是一个分布式索引建立和管理工具，底层是hadoop的hdfs分布式文件系统，hadoop是当今云计算的热门使用项目，由apatch开源是一个海量数据的处理和存储方

fmms 2012-03-15 74648 0

分布式搜索引擎

储所有的数据。对于任何记录，索引都可以快速地获取列上的数据。 Map-reduce的实现 Hadoop 的流数据处理效率非常高，列式存储的优点体现的淋漓极致。因此， HBase 和 Hypertable

jopen 2014-08-31 59438 0

数据库

dataguru.cn/article-8868-1.html 监督学习的主要任务就是用模型实现精准的预测。我们希望自己的机器学习模型在新数据（未被标注过的）上取得尽可能高的准确率。换句话说，也就是我们希

jingsu 2016-02-04 46944 0

数据挖掘交叉验证机器学习

为数众多的机器学习方案，其方法不外乎这样：收集资料用这些数据来训练一个模型使用模型做预测假设我们要做一个“名人配对”的应用程序，这个应用可以匹配出与用户最像的名人。首先，你要

bvbp7388 2017-05-11 61634 0

数据挖掘 iOS开发

去统计和描绘多维度的数据常用算法的大致介绍分类 Classification 适用范围：用作训练预测已经标记的数据集的类别. 监督学习的代表。常用算法对比：文章测试了179种分类模

gr0328 2017-03-21 28119 0

Python 机器学习 scikit-learn

P11

intelligence），海量数据的搜集和分析发展尤为迅速，意味着使用传统的数据仓库解决方案会变得极其昂贵。Hadoop是一个流行的开源框架，实现了map-reduce，使用普通硬件就能对海量数据进行存储和处理。然

xnbw 2016-01-12 526 0

分布式/云计算/大数据方案

，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase在列上实现了Bigtable 论文提到的压缩算法、内存操作和布隆过滤器。Base是Apache Hadoop的数据库，能够对

jopen 2014-12-03 22768 0

HBase NoSQL数据库

ODPS是分布式的海量数据处理平台，提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、应用实践注意点等方面带领我们初步了解了ODPS的现状与前景。初识ODPS

jopen 2014-10-30 45061 0

ODPS 分布式/云计算/大数据

P13

linux-server host_name server-80 contact_groups hadoop_group#使用自己定义的联系人组 alias slave-80 address 10.2.1

小牛牛 2015-03-24 535 0

系统监控

关。了解 Twitter Storm、它的架构，以及批处理和流式处理解决方案的发展形势。 Hadoop（大数据分析领域无可争辩的王者）专注于批处理。这种模型对许多情形（比如为网页建立索引）已经足够，但还存在其他一些使用模型，它们

jopen 2012-12-05 35880 0

分布式/云计算/大数据 Twitter Storm

前言在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑

jopen 2016-01-04 34807 0

分布式/云计算/大数据

Zookeeper监控 5. 图表展示 6. Master属性监控（HBase版本、作者、Hadoop版本...） 7. Master的RPC的统计软件环境：只支持Linux 使用框架

jopen 2013-08-01 52761 0

HBase 系统监控

http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-hadoop1.tgz 如果你是奋发图强的好码农，你可以自己下载源码：http://github.com/apache/spark

jopen 2014-11-25 17404 0

Spark 分布式/云计算/大数据

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。 kafka的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2014-04-30 13444 0

消息系统 Apache Kafka

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2012-06-28 13178 0

Kafka

Photo / Tom Jester Hadoop创业公司Hortonworks最近在大数据产品Data Platform中增加了对Apache Kafka的支持，不过目前还处于技术预览模式。

jopen 2014-08-30 12640 0

Kafka

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

fmms 2012-05-12 32054 0

消息消息系统

Spark是一个开源的集群计算系统，用于快速数据分析，包括快速运行和快速写操作。Spark 是一种与 Hadoop 相似的开源云计算系统，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某

jopen 2014-01-21 54232 0

分布式/云计算/大数据 Apache Spark

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。 Apache Kafka 0.8.2.1 发布，该版本修复了 4 个关键 bug：

jopen 2015-03-11 12804 0

Apache Kafka

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

openkk 2012-01-04 11935 0

消息系统

分布式搜索方案选型经验

五大主流数据库模型经验

机器学习实战：模型评估和优化经验

iOS开发者的机器学习经验

Python机器学习工具：Scikit-Learn介绍与实践经验

Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案文档

非关系性分布式数据库：HBase 经验

ODPS技术架构及应用实践经验

Nagios介绍以及安装文档

使用 Twitter Storm 处理实时的大数据经验

YARN批处理方式kill Applications解决方案经验

HBase集群监控工具：Ella 经验

Spark实战：单节点本地模式搭建Spark运行环境经验

分布式消息订阅：Apache Kafka 经验

分布式发布订阅消息系统，Apache Kafka 0.7.1-incubating 发布资讯

Hortonworks 集成 Kafka，领跑快数据资讯

分布式发布订阅消息系统 Kafka 经验

Apache Spark 的R语言前端：SparkR 经验

分布式消息系统，Apache Kafka 0.8.2.1 发布资讯

分布式发布订阅消息系统，Apache Kafka 0.7.0-incubating 发布资讯

hadoop 电影票房预测的相关搜索

关键词

分布式搜索方案选型 经验

五大主流数据库模型 经验

机器学习实战：模型评估和优化 经验

iOS开发者的机器学习 经验

Python机器学习工具：Scikit-Learn介绍与实践 经验

Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案 文档

非关系性分布式数据库：HBase 经验

ODPS技术架构及应用实践 经验

Nagios介绍以及安装 文档

使用 Twitter Storm 处理实时的大数据 经验

YARN批处理方式kill Applications解决方案 经验

HBase集群监控工具：Ella 经验

Spark实战：单节点本地模式搭建Spark运行环境 经验

分布式消息订阅：Apache Kafka 经验

分布式发布订阅消息系统，Apache Kafka 0.7.1-incubating 发布 资讯

Hortonworks 集成 Kafka，领跑快数据 资讯

分布式发布订阅消息系统 Kafka 经验

Apache Spark 的R语言前端：SparkR 经验

分布式消息系统，Apache Kafka 0.8.2.1 发布 资讯

分布式发布订阅消息系统，Apache Kafka 0.7.0-incubating 发布 资讯

hadoop 电影票房预测 的相关搜索

关键词

分布式搜索方案选型经验

五大主流数据库模型经验

机器学习实战：模型评估和优化经验

iOS开发者的机器学习经验

Python机器学习工具：Scikit-Learn介绍与实践经验

Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案文档

ODPS技术架构及应用实践经验

Nagios介绍以及安装文档

使用 Twitter Storm 处理实时的大数据经验

YARN批处理方式kill Applications解决方案经验

Spark实战：单节点本地模式搭建Spark运行环境经验

分布式发布订阅消息系统，Apache Kafka 0.7.1-incubating 发布资讯

Hortonworks 集成 Kafka，领跑快数据资讯

分布式消息系统，Apache Kafka 0.8.2.1 发布资讯

分布式发布订阅消息系统，Apache Kafka 0.7.0-incubating 发布资讯

hadoop 电影票房预测的相关搜索