分布式搜索方案选型 经验

一个叫katta的开源项目进入我的视线,它是一个分布式索引建立和管理工具,底层是hadoop的hdfs分布式文件系统,hadoop是当今云计算的热门使 用项目,由apatch开源是一个海量数据的处理和存储方

fmms 2012-03-15   74648   0

五大主流数据库模型 经验

储所有的数据。对于任何记录,索引都可以快速地获取列上的数据。 Map-reduce的实现 Hadoop 的流数据处理效率非常高,列式存储的优点体现的淋漓极致。因此, HBase 和 Hypertable

jopen 2014-08-31   59438   0

机器学习实战:模型评估和优化 经验

dataguru.cn/article-8868-1.html 监督学习的主要任务就是用模型实现精准的预测。我们希望自己的机器学习模型在新数据(未被标注过的)上取得尽可能高的准确率。换句话说,也就是我们希

jingsu 2016-02-04   46944   0

iOS开发者的机器学习 经验

为数众多的机器学习方案,其方法不外乎这样: 收集资料 用这些数据来训练一个模型 使用模型做预测 假设我们要做一个“名人配对”的应用程序,这个应用可以匹配出与用户最像的名人。 首先,你要

bvbp7388 2017-05-11   61634   0

Python机器学习工具:Scikit-Learn介绍与实践 经验

去统计和描绘多维度的数据 常用算法的大致介绍 分类 Classification 适用范围: 用作训练预测已经标记的数据集的类别. 监督学习的代表。 常用算法对比 : 文章测试了179种分类模

gr0328 2017-03-21   28119   0
P11

  Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案 文档

intelligence),海量数据的搜集和分析发展尤为迅速,意味着使用传统的数据仓库解决方案会变得极其昂贵。Hadoop是一个流行的开源框架,实现了map-reduce,使用普通硬件就能对海量数据进行存储和处理。然

xnbw 2016-01-12   526   0

非关系性分布式数据库:HBase 经验

,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase在列上实现了Bigtable 论文提到的压缩算法、内存操作和布隆过滤器。Base是Apache Hadoop的数据库,能够对

jopen 2014-12-03   22768   0

ODPS技术架构及应用实践 经验

ODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、应用实践注意点等方面带领我们初步了解了ODPS的现状与前景。 初识ODPS

jopen 2014-10-30   45061   0
P13

  Nagios介绍以及安装 文档

linux-server host_name server-80 contact_groups hadoop_group#使用自己定义的联系人组 alias slave-80 address 10.2.1

小牛牛 2015-03-24   535   0

使用 Twitter Storm 处理实时的大数据 经验

关。了解 Twitter Storm、它的架构,以及批处理和流式处理解决方案的发展形势。 Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们

jopen 2012-12-05   35880   0

YARN批处理方式kill Applications解决方案 经验

前言 在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑

jopen 2016-01-04   34807   0

HBase集群监控工具:Ella 经验

Zookeeper监控 5. 图表展示 6. Master属性监控(HBase版本、作者、Hadoop版本...) 7. Master的RPC的统计 软件环境: 只支持Linux 使用框架

jopen 2013-08-01   52761   0

Spark实战:单节点本地模式搭建Spark运行环境 经验

http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-hadoop1.tgz 如果你是奋发图强的好码农,你可以自己下载源码:http://github.com/apache/spark

jopen 2014-11-25   17404   0

分布式消息订阅:Apache Kafka 经验

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 kafka的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2014-04-30   13444   0

分布式发布订阅消息系统,Apache Kafka 0.7.1-incubating 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2012-06-28   13178   0
Kafka  

Hortonworks 集成 Kafka,领跑快数据 资讯

Photo / Tom Jester Hadoop创业公司Hortonworks最近在大数据产品Data Platform中增加了对Apache Kafka的支持,不过目前还处于技术预览模式。

jopen 2014-08-30   12640   0
Kafka  

分布式发布订阅消息系统 Kafka 经验

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

fmms 2012-05-12   32054   0

Apache Spark 的R语言前端:SparkR 经验

Spark是一个开源的集群计算系统,用于快速数据分析,包括快速运行和快速写操作。Spark 是一种与 Hadoop 相似的开源云计算系统,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某

jopen 2014-01-21   54232   0

分布式消息系统,Apache Kafka 0.8.2.1 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 Apache Kafka 0.8.2.1 发布,该版本修复了 4 个关键 bug:

jopen 2015-03-11   12804   0

分布式发布订阅消息系统,Apache Kafka 0.7.0-incubating 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

openkk 2012-01-04   11935   0
1 2 3 4 5 6 7 8 9 10