开源项目,开源代码,开源文档,开源新闻,开源社区

程和原则顺利运作。 Apache Kylin是一个开源的分布式分析引擎，提供Apache Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据集。 “Apache Ky

jopen 2015-12-08 23929 0

Apache Kylin

因为没找到谷歌的示意图，所以我想借用一张Hadoop项目的结构图来说明下MapReduce所处的位置，如下图。 Hadoop实际上就是谷歌三宝的开源实现，Hadoop MapReduce对应Google

openkk 2012-05-04 5497 0

Windows 95 GlassFish

i]-mu[i])/sigma[i] # 归一化 return X_norm,mu,sigma 注意预测的时候也需要均值归一化数据 4、最终运行结果代价随迭代次数的变化 5、使用scikit-learn库中的线性模型实现

nengdu1 2018-01-04 40685 0

数据挖掘 Python 算法机器学习

Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）牵头开发。Avro是一个数据序列化系统，设计用于支持大

openkk 2012-04-11 25237 0

分布式/云计算/大数据 Apache Avro

发布，该版本包含大量新特性、改进和 bug 修复，详情请看改进记录。 Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能

fmms 2012-04-30 13948 0

Apache Hive

Apache Avro 1.7.6 Apache Hadoop 1.2.1 and 2.5.2 Apache HBase 0.98.8-hadoop2 (although also tested with

jopen 2015-09-16 9092 0

Apache Gora

，Facebook 将利用一个定制版本的 Hadoop。Facebook 不是第一家这么做的公司，营销公司 Shutterstock 也是利用 Hadoop 分布式文件系统分析用户在网站上的光标移动数据。

jopen 2013-10-31 7942 0

Facebook

理。使用 Hadoop 的 Map-Reduce 作为并行计算平台。 Jaql最终设计目标包括：半结构化分析：实现易于操作和分析JSON数据并行处理：Jaql查询能够利用Hadoop的Map-

openkk 2011-12-18 25975 0

Java JSON开发包

MySQL, HSQLDB, flat files in local file system of Hadoop HDFS. Data Access : An easy to use Java-friendly

jopen 2012-02-03 33934 0

持久层框架 NOSQL

某种意义上来说，机器学习算法利用预设值去预测结果。然而，OpenAI 的研究人员发现了不同寻常的状况。 OpenAI 此前开发了一种机器学习系统，用于预测亚马逊网站评论文字中的下一字符。研究人员发

jopen 2017-04-12 6031 0

OpenAI

图 1 目前的主流大数据处理技术都是以Map Reduce计算模式为核心的（包括Hadoop和Spark）。而 Map Reduce 计算模式下对第一个问题只能通过增加内存，SSD存储来

tianyuak47 2016-12-14 16216 0

数据挖掘算法开源机器学习

Unix/Linux/Windows。曾于 Amazon 中国任研发经理，负责电子商务全球化业务（全球开店）和全球库存预测系统的研发。曾在阿里巴巴北京研发中心、商家业务部曾任资深专家一职，负责电商云平台、开放平台，云监

jopen 2014-04-15 27584 0

云计算

据，这些数据往往能够揭示员工去留的动机，从而分析判断员工的离职倾向性。没有一种单一的数据可以预测员工去留。离职背后的动机通常很复杂，收入多寡、同事关系、公司前景、职业规划等等，在不同公司，这些变量的影响力又有很大的差异。

mxf8 2015-03-16 3622 0

算法

Bernieri协作，在2000名学生中做了一个调查：通过面试的前10秒钟来判断面试的结果。不过问题在于对前10秒钟的预测是无用的。倾向于用某种方式通过搜索、解释或优先信息来证实一个人的信念或臆测；基于最轻微的交互

cm54 2015-04-08 4372 0

Google

年底跟随 iPad 之后，“销售疲软”成为见诸媒体最多的字眼。就拿刚刚过去的 2011 年来说，分析师预测三星 Galaxy Tab 平板电脑全年出货量才 750 万；黑莓则在 12 月公布全年 Playbook

fmms 2012-01-09 10874 0

Kindle Fire

d Reasoning；MBR）基于历史的MBR分析方法最主要的概念是用已知的案例（case）来预测未来案例的一些属性（attribute），通常找寻最相似的案例来做比较。记忆基础推理法中有两个主

maoying 2017-04-26 1114 0

数据挖掘

P33

Boosting） AdaBoost Spark 1.2版本 25. 多分类 26. 多分类应用场景对战预测（胜(0)、负(2)、平(1)）球队属性1球队属性2球队属性3结果0.000.280.55610.00-0

pd3n 2014-12-02 2613 0

数据挖掘

成立于2005年，其总部位于纽约，是一家从事数字广告业务的公司。该公司的数字广告业务非常依赖于机器学习和预测模型，对于特定的用户在特定的时间应该投放什么样的广告完全是由实时或者离线的机器学习模型决定的。本文来

jopen 2015-11-20 9798 0

Spark ML

P74

来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分布。 6. 时间序列和回归而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。

hugo99 2012-01-14 3454 0

图(views)的结构。搜索 Nutch ：是一个开源Java 实现的搜索引擎，当时Hadoop的前身就是为了做这个项目。 Lucene ：基于Java的全文检索引擎，很有名也非常强大，

jopen 2015-03-09 47481 5

开源机器学习 JavaScript C/C++ Go

hadoop 电影票房预测的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

Java JavaScript 云计算 NOSQL Python C/C++ 数据挖掘 Apache Hive 机器学习 Apache Gora Windows 95 Apache Kylin Spark ML Apache Avro OpenAI JSON开发包 Google 分布式/云计算/大数据 GlassFish Facebook 持久层框架 Kindle Fire

Apache 基金会宣布 Apache Kylin 成为顶级项目资讯

谷歌技术"三宝"之MapReduce 博客

机器学习算法 Python 实现经验

数据序列化系统 Apache Avro 经验

数据仓库平台，Apache Hive 0.9.0 发布资讯

NoSQL 的 ORM 框架，Apache Gora 0.6.1 发布资讯

Facebook测试屏幕跟踪软件资讯

JSON查询语言 Jaql 经验

NoSQL的ORM框架 Apache Gora 经验

OpenAI的人工智能能通过文字判断情绪，自学的！资讯

轻量级大规模机器学习算法库Fregata开源：快速，无需调参经验

陈皓谈云计算：拼的就是运维资讯

数据算法告诉你公司谁要离职了资讯

Google招聘优秀人才的秘诀资讯

Kindle Fire 单季出货量 550 万台？卖疯了资讯

数据挖掘最常见的十种方法文档

MLlib 在淘宝的使用和改进文档

Collective的Spark ML经验分享：读者模型资讯

统计学 - 时间序列分析文档

那些年，追过的开源软件和技术问答

hadoop 电影票房预测的相关搜索

关键词

Apache 基金会宣布 Apache Kylin 成为顶级项目 资讯

谷歌技术"三宝"之MapReduce 博客

机器学习算法 Python 实现 经验

数据序列化系统 Apache Avro 经验

数据仓库平台，Apache Hive 0.9.0 发布 资讯

NoSQL 的 ORM 框架，Apache Gora 0.6.1 发布 资讯

Facebook测试屏幕跟踪软件 资讯

JSON查询语言 Jaql 经验

NoSQL的ORM框架 Apache Gora 经验

OpenAI的人工智能能通过文字判断情绪，自学的！ 资讯

轻量级大规模机器学习算法库Fregata开源：快速，无需调参 经验

陈皓谈云计算：拼的就是运维 资讯

数据算法告诉你 公司谁要离职了 资讯

Google招聘优秀人才的秘诀 资讯

Kindle Fire 单季出货量 550 万台？卖疯了 资讯

数据挖掘最常见的十种方法 文档

MLlib 在淘宝的使用和改进 文档

Collective的Spark ML经验分享：读者模型 资讯

统计学 - 时间序列分析 文档

那些年，追过的开源软件和技术 问答

hadoop 电影票房预测 的相关搜索

关键词

Apache 基金会宣布 Apache Kylin 成为顶级项目资讯

机器学习算法 Python 实现经验

数据仓库平台，Apache Hive 0.9.0 发布资讯

NoSQL 的 ORM 框架，Apache Gora 0.6.1 发布资讯

Facebook测试屏幕跟踪软件资讯

OpenAI的人工智能能通过文字判断情绪，自学的！资讯

轻量级大规模机器学习算法库Fregata开源：快速，无需调参经验

陈皓谈云计算：拼的就是运维资讯

数据算法告诉你公司谁要离职了资讯

Google招聘优秀人才的秘诀资讯

Kindle Fire 单季出货量 550 万台？卖疯了资讯

数据挖掘最常见的十种方法文档

MLlib 在淘宝的使用和改进文档

Collective的Spark ML经验分享：读者模型资讯

统计学 - 时间序列分析文档

那些年，追过的开源软件和技术问答

hadoop 电影票房预测的相关搜索