Apache 基金会宣布 Apache Kylin 成为顶级项目 资讯

程和原则顺利运作。 Apache Kylin是一个开源的分布式分析引擎,提供Apache Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据集。 “Apache Ky

jopen 2015-12-08   23929   0

谷歌技术"三宝"之MapReduce 博客

因为没找到谷歌的示意图,所以我想借用一张Hadoop项目的结构图来说明下MapReduce所处的位置,如下图。 Hadoop实际上就是谷歌三宝的开源实 现,Hadoop MapReduce对应Google

openkk 2012-05-04   5497   0

机器学习算法 Python 实现 经验

i]-mu[i])/sigma[i] # 归一化 return X_norm,mu,sigma 注意预测的时候也需要均值归一化数据 4、最终运行结果 代价随迭代次数的变化 5、 使用scikit-learn库中的线性模型实现

nengdu1 2018-01-04   40685   0

数据序列化系统 Apache Avro 经验

Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的 创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)牵头开发。Avro是一个数据序列化系统,设计用于支持大

openkk 2012-04-11   25237   0

数据仓库平台,Apache Hive 0.9.0 发布 资讯

发布,该版本包含大量新特性、改进和 bug 修复,详情请看 改进记录 。 Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能

fmms 2012-04-30   13948   0

NoSQL 的 ORM 框架,Apache Gora 0.6.1 发布 资讯

Apache Avro 1.7.6 Apache Hadoop 1.2.1 and 2.5.2 Apache HBase 0.98.8-hadoop2 (although also tested with

jopen 2015-09-16   9092   0

Facebook测试屏幕跟踪软件 资讯

,Facebook 将利用一个定制版本的 Hadoop。Facebook 不是第一家这么做的公司,营销公司 Shutterstock 也是利用 Hadoop 分布式文件系统分析用户在网站上的光标移动数据。

jopen 2013-10-31   7942   0

JSON查询语言 Jaql 经验

理。使用 Hadoop 的 Map-Reduce 作为并行计算平台。 Jaql最终设计目标包括: 半结构化分析:实现易于操作和分析JSON数据 并行处理:Jaql查询能够利用Hadoop的Map-

openkk 2011-12-18   25975   0

NoSQL的ORM框架 Apache Gora 经验

MySQL, HSQLDB, flat files in local file system of Hadoop HDFS. Data Access : An easy to use Java-friendly

jopen 2012-02-03   33934   0

OpenAI的人工智能能通过文字判断情绪,自学的! 资讯

某种意义上来说,机器学习算法利用预设值去预测结果。然而,OpenAI 的研究人员发现了不同寻常的状况。 OpenAI 此前开发了一种机器学习系统,用于预测亚马逊网站评论文字中的下一字符。研究人员发

jopen 2017-04-12   6031   0
OpenAI  

轻量级大规模机器学习算法库Fregata开源:快速,无需调参 经验

图 1 目前的主流大数据处理技术都是以Map Reduce计算模式为核心的(包括Hadoop和Spark)。而 Map Reduce 计算模式下对第一个问题只能通过增加内存,SSD存储来

tianyuak47 2016-12-14   16216   0

陈皓谈云计算:拼的就是运维 资讯

Unix/Linux/Windows。曾于 Amazon 中国任研发经理,负责电子商务全球化业务(全球开店)和全球库存预测系统的研发。曾在阿里巴巴北京研发中心、商家业务部曾任资深专家一职,负责电商云平 台、开放平台,云监

jopen 2014-04-15   27584   0

数据算法告诉你 公司谁要离职了 资讯

据,这些数据往往能够揭示员工去留的动机,从而分析判断员工的离职倾向性。 没有一种单一的数据可以预测员工去留。离职背后的动机通常很复杂,收入多寡、同事关系、公司前景、职业规划等等,在不同公司,这些变量的影响力又有很大的差异。

mxf8 2015-03-16   3622   0
算法  

Google招聘优秀人才的秘诀 资讯

Bernieri协作,在2000名学生中做了一个调查:通过面试的前10秒钟来判断面试的结果。 不过问题在于对前10秒钟的预测是无用的。 倾向于用某种方式通过搜索、解释或优先信息来证实一个人的信念或臆测;基于最轻微的交互

cm54 2015-04-08   4372   0
Google  

Kindle Fire 单季出货量 550 万台?卖疯了 资讯

年底跟随 iPad 之后,“销售疲软”成为见诸媒体最多的字眼。就拿刚刚过去的 2011 年来说,分析师预测三星 Galaxy Tab 平板电脑全年出货量才 750 万 ;黑莓则在 12 月公布全年 Playbook

fmms 2012-01-09   10874   0
P9

  数据挖掘最常见的十种方法 文档

d Reasoning;MBR) 基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 记忆基础推理法中有两个主

maoying 2017-04-26   1114   0
P33

  MLlib 在淘宝的使用和改进 文档

Boosting) AdaBoost Spark 1.2版本 25. 多分类 26. 多分类应用场景对战预测(胜(0)、负(2)、平(1))球队属性1球队属性2球队属性3结果0.000.280.55610.00-0

pd3n 2014-12-02   2613   0

Collective的Spark ML经验分享:读者模型 资讯

成立于2005年,其总部位于纽约,是一家从事 数字广告业务的公司。 该公司的数字广告业务非常依赖于机器学习和预测模型,对于特定的用户在特定的时间应该投放什么样的广告完全是由实时或者离线的机器学习模型决定的。本文来

jopen 2015-11-20   9798   0
P74

  统计学 - 时间序列分析 文档

来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分布。 6. 时间序列和回归而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。

hugo99 2012-01-14   3454   0

那些年,追过的开源软件和技术 问答

图(views)的结构。 搜索 Nutch :是一个开源Java 实现的搜索引擎,当时Hadoop的前身就是为了做这个项目。 Lucene :基于Java的全文检索引擎,很有名也非常强大,

jopen 2015-03-09   47481   5
1 2 3 4 5 6 7 8 9 10