Netflix的开源文化与技术 资讯

ix不仅使用 Hadoop、Hive、Pig、Parquet、Presto以及Spark等被广泛采用的开源技术,同时还开发并贡献了一些其他的工具和服务。 Genie :专为Hadoop生态系统定制的一

jopen 2015-11-24   31689   0
Netflix  

百度运维专家:我在大数据项目中踩过的那些坑 资讯

三、问题集锦 1.MongoDB在百度的使用场景及规模? 2.假设现在让你完全主导一个类似Hadoop的项目,你会选择哪种语言? 3.分享你在百度各种大数据项目中踩过的坑? 4.你所在团队在自研和使用开源方案的主要考虑因素

bwnx 2015-12-14   10649   0
百度  

impala笔记 经验

net/2015/07/26/impala-introduction/ Impala是hadoop上交互式MPP SQL引擎, 也是目前性能最好的开源SQL-on-hadoop方案。 如下图所示, impala性能超过SparkSQL、

er74 2015-07-26   61584   0

2011年最具影响力的16个开源项目 资讯

HBase是一款开源的非关系数据库,主要基于Google BigTable分布式数据库并使用Java语言编写,并运行在HDFS(Hadoop Distributed Filesystem)之上。HBase作为Apache软件基金会的一部分得到了众多开发者的支持。

jopen 2012-01-28   34341   1
开源  
P15

  Hive 文档 文档

1. Hive 2. hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点

vito2 2013-11-07   539   0

数据可挖掘的知识类型 经验

识间对应的知识。从这个意义上说,数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类,进而也可以预测未来数据的分类。 (十一城注:这里的分类和日常生活中的分类含义有些不一样,它是将数据映射到预先定好

jopen 2015-01-10   25357   0

Google发布MobileNets,一种预训练的高效视觉模型 资讯

中,发布了多个用在移动电话上的高效预训练计算机视觉模型。 这几个模型间的差别在于模型的参数、单图像处理的计算能力以及预测的准确性,开发人员可从中做出选取。从计算量上看,最小的模型具有 14 个百万次 MAC(乘加运算,

jopen 2017-06-26   12164   0

TensorFlow深度学习笔记 文本与序列的深度模型 经验

开始随机,用这个Embedding进行预测 Context即Vector列表里的邻居 目标是让Window里相近的词放在相邻的位置,即预测一个词的邻居 用来预测这些相邻位置单词的模型只是一个Logistics

wmhf6883 2017-03-06   32780   0
P48

  数据统计分析应用软件系统(硕士学位论文) 文档

体系架构 4 2.2 MVC架构设计 5 2.3 Fusioncharts技术 5 2.4 线性回归预测分析算法 5 2.5 系统管理模块架构 9 2.6 文章小结 9 3 数据统计分析应用软件系统需求分析

he12345 2013-01-14   10131   0

数据挖掘的10种分析方法 资讯

记忆基础推理法(Memory-Based Reasoning:MBR) 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 记忆基础推理法中有两

jopen 2014-03-10   31551   0

数据挖掘的十种分析方法让你任性挑选 经验

Mining)的十种分析方法: 1、记忆基础推理法 记忆基础推理法最主要的概念是用已知的案例来预测未来案例的一些属性,通常找寻最相似的案例来做比较。 记 忆基础推理法中有两个主要的要素,分别为

cmb2 2015-03-18   20778   0

机器学习评价指标大汇总 资讯

铰链损失最开始出现在二分类问题中,假设正样本被标记为1,负样本被标记为-1, (y) 是真实值, (w) 是预测值,则铰链损失定义为: (L_{text{Hinge}}(w, y)=max{1-wy,0}=|1-wy|_+)

jopen 2016-03-02   63832   0

HDFS Federation在美团点评的应用与改进 经验

meNode负载过高的应用,会影响到整个集群的服务能力; HDFS Federation是Hadoop-0.23.0中为解决HDFS单点故障而提出的namenode水平扩展方案。该方案允许HDFS

juce7588 2017-04-11   36681   0

互联网金融时代下机器学习与大数据风控系统 资讯

险控制的真正核心在于可以依靠互联网获取的大数据,如 BAT 等公司拥有大量的用户信息,这些数据可以用来更加全面的预测小额贷款的风险。而机器学习将是大数据时代互联网金融企业构建自动化风控系统的利器。 1. 什么是机器学习?

jopen 2015-10-04   41736   0
P25

  NoSQL 研究及选型报告 文档

MapReduce 由Google提出的一种编程模式,用于大规模数据的并行运算。 l HDFS hadoop的分布式文件系统,源自Google的Google File System。 l Column Family/CF(列族、列簇)

xfei365 2014-01-03   623   0

亚马逊开发新技术:未购买 先发货 资讯

北京时间 1 月 18 日上午消息,亚马逊去年 12 月获得了一项名为“预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。 这项技术可以缩短发货时间,从而降低消

jopen 2014-01-17   4053   0
P2

  MapReduce 编程模型 文档

的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。   在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是Tas

hadooper 2013-05-30   1983   0

分布式发布订阅消息系统,Apache Kafka 0.8.2.0 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2015-02-04   12531   0

Apache Kafka 0.8.2-beta 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2014-10-28   12625   0

机器学习库,Mahout 0.10.0 发布 资讯

。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。 Mahout 项目是由 Apache Luce

xg48 2015-04-10   7214   0
Mahout  
1 2 3 4 5 6 7 8 9 10