开源项目,开源代码,开源文档,开源新闻,开源社区

Oracle 的 MySQL 管理工作“好评”，极少数给了“中评”。事实上 451 Research 预测 MySQL 市场价值将在 2015 年达到6.64亿美元，年复合增长率是“健康的”40%。

jopen 2012-05-30 14850 0

MySQL

类、分类、推荐等很多经典算法，并且提供了很方便的云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库，它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。MLli

jopen 2014-12-18 52979 0

机器学习

支撑支付宝交易的分布式数据库系统 .pdf 30、Hadoop 在广告监测技术的实践下载： Hadoop 在广告监测技术的实践 .pdf 31、Apache Kylin－Hadoop 上的大规模联机分析平台下载

b4c2 2015-01-29 51827 0

大数据

Mahout来快速创建高效扩展性又好的机器学习应用。Mahout结合了诸如H2O算法、Scala、Spark和Hadoop MapReduce等模块，为开发人员提供了一个构建可扩展算法的环境。现在最新的版本是去年11月6日发布的0

jopen 2016-01-18 31229 0

数据挖掘大数据 Github

Algorithm – 输入数据300+G，运行20分钟 – 模型提供给Hadoop，Storm进行批处理和实时数据预测 – Spark on YARN 用户行为分析 – 用户画像、分类

jopen 2014-12-12 32735 0

Spark 分布式/云计算/大数据

P69

大数据的目标是创造更多的财富和利润 3) 大数据的手段是海量数据处理技术大数据是支持一系列技术(如各种 Hadoop 项目、NoSQL 产品，甚至 MPP 数据库系统)的术语，它通过驱动更好的分析和从数据中获

dszhao 2017-03-22 3018 0

分布式/云计算/大数据报告

分析，对模型进行更新，但是定期对模型进行更新，无法保证推荐的实时性，一段时间后，由于模型训练也要相当时间，可能传统的批处理的Hadoop的方法，无法再缩短更新频率，最终推荐效果会因为实时性问题达到一个瓶颈。推荐算法主要有基

jopen 2015-06-18 132273 0

推荐系统推荐引擎

技术型的高科技创业公司都是喜欢闪闪发光的新东西，而 “大数据” 跟 3年前火热程度相比反而有些凄惨。虽然 Hadoop 创建于 2006年，在 “大数据” 的概念兴起到达白热化是在 2011年至 2014年期间，当时在媒体和行业面前，大数据就是

jopen 2016-02-24 39098 0

大数据

P39

法处理情况下的机器学习工具。在目前阶段，这种可伸缩性由java实现，有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口，预装好的服务器。以及安装

Mon 2013-12-01 5643 0

数据，建立模型，预测业务成果。数据科学家必须有良好的统计学和机器学习背景，才能构建出科学、精确的模型，避免毫无意义的相关性及一些模型的陷阱。这些模型依赖于现有的数据，但对于未来的预测是无用的。但只有统

勿忘初心321 2015-12-24 14091 1

数据分析商业智能 BI 大数据

但这会浪费他们时间，结果的覆盖率也有局限性。为了避免上述情况，我们基于自然语言构建了回归模型，来预测用户对每个问题回答“是”或者“不是”的概率。这样我们只有在给出所有数据仍不能确定用户答案的时候才去询问他们。

d2dn 2015-09-11 16802 0

分布式/云计算/大数据 Apache Spark

，这通常取决于数据保留策略。由于处理和存储的限制，超出此时间段的数据通常会被归档或清除。基于 Hadoop 的系统和其他等效的系统可以克服这些限制，因为它们具有丰富的存储以及分布式大规模并行处理能力。

jopen 2015-02-01 27853 0

大数据分布式/云计算/大数据

Enterprise 拥有许多种数据可视化、统计分析、预测性建模以及机器学习的能力，它还能够突破R语言的内存瓶颈，并且支持多核、多进程，尤其能够和 Hadoop、Teradata 等数据平台整合。目前微软

jopen 2016-12-01 17076 0

微软

据量大小和内存使用情况；计算直接发生在二进制格式上，省去了序列化和反序列化时间。像传统的Hadoop/Hive系统，磁盘IO是一个很大的瓶颈。而对于像Spark这样的计算框架，主要的瓶颈在于CP

jopen 2016-01-07 38554 0

Spark 数据挖掘

。 H Hadoop – 一个开源的分布式系统基础框架，可用于开发分布式程序，进行大数据的运算与存储。 Hadoop数据库(HBase) – 一个开源的、非关系型、分布式数据库，与Hadoop框架共同使用

jopen 2015-02-22 47724 0

大数据

这样的云端服务平台，企业不仅仅可以用它来储存数据，做一些经典的“后视”商务智能分析，更能使用云端的强大力量做出具有“前瞻性”的预测分析。使用 Azure 机器学习这样的现代化工具，企业可以获得关于其业务未来发展的切实见解——这将成为它们的竞争优势。

jopen 2015-06-03 14644 0

机器学习

存储系统负责存储抓取系统和离线处理系统的产出，同时向这两个“厂”提供高性能、大容量的存取服务。目前我们采用的是Hadoop+HBase的体系结构，将网页、链接、图片进行了分类存放。存储系统是一淘存放原料、半成品的“核心仓库”。

jopen 2014-01-15 25496 0

架构软件架构

P31

年，个人用户才刚刚迈进TB时代，全球一共新产生了约180EB的数据；在2011 年，这个数字达到了1.8ZB。有市场研究机构预测（2009年）：到2020 年，整个世界的数据总量将会增长44 倍，达到35.2ZB（1ZB=10

nd7b 2015-12-09 6303 0

分布式/云计算/大数据报告 Apache Go

类、分类、推荐等很多经典算法，并且提供了很方便的云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库，它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。 MLli

jopen 2016-01-05 30614 0

机器学习

大数据是否“过气”？在喜新厌旧的技术初创企业界，已有 3年历史 “大数据” 听起来似乎已经过气了。虽然 Hadoop 在 2006年已经出来，但 “大数据” 这个概念大概是在 2011 到 2014年左右才

XZSIsa 2016-04-12 47818 0

大数据分布式/云计算/大数据

MySQL在Web应用领域面临NoSQL的挑战资讯

机器学习的11个开源项目经验

108个大数据文档PDF开放下载资讯

优秀大数据GitHub项目一览资讯

视频类网站大数据生态 Spark在爱奇艺的应用实践经验

大数据技术平台调研报告文档

实时推荐系统的3种方式经验

2016年，大数据还是回事么？资讯

Mahout in Action 中文版文档

数据分析的 7 个关键步骤资讯

Apache Spark在大规模分布式自然语言处理的应用经验

大数据架构和模式（四） - 了解用于大数据解决方案的原子模式和复合模式经验

微软大数据分析语言R Open升至3.3.2版本资讯

解读2015之Spark篇：新生态系统的形成资讯

大数据常见术语表资讯

分布式云端机器学习资讯

一淘网的系统架构经验

Storm对于交通数据的处理文档

机器学习的11个开源项目经验

大数据的明天将驶向何方？经验

hadoop 电影票房预测的相关搜索

关键词

MySQL在Web应用领域面临NoSQL的挑战 资讯

机器学习的11个开源项目 经验

108个大数据文档PDF开放下载 资讯

优秀大数据GitHub项目一览 资讯

视频类网站大数据生态 Spark在爱奇艺的应用实践 经验

大数据技术平台调研报告 文档

实时推荐系统的3种方式 经验

2016年，大数据还是回事么？ 资讯

Mahout in Action 中文版 文档

数据分析的 7 个关键步骤 资讯

Apache Spark在大规模分布式自然语言处理的应用 经验

大数据架构和模式（四） - 了解用于大数据解决方案的原子模式和复合模式 经验

微软大数据分析语言R Open升至3.3.2版本 资讯

解读2015之Spark篇：新生态系统的形成 资讯

大数据常见术语表 资讯

分布式云端机器学习 资讯

一淘网的系统架构 经验

Storm对于交通数据的处理 文档

机器学习的11个开源项目 经验

大数据的明天将驶向何方？ 经验

hadoop 电影票房预测 的相关搜索

关键词

MySQL在Web应用领域面临NoSQL的挑战资讯

机器学习的11个开源项目经验

108个大数据文档PDF开放下载资讯

优秀大数据GitHub项目一览资讯

视频类网站大数据生态 Spark在爱奇艺的应用实践经验

大数据技术平台调研报告文档

实时推荐系统的3种方式经验

2016年，大数据还是回事么？资讯

Mahout in Action 中文版文档

数据分析的 7 个关键步骤资讯

Apache Spark在大规模分布式自然语言处理的应用经验

大数据架构和模式（四） - 了解用于大数据解决方案的原子模式和复合模式经验

微软大数据分析语言R Open升至3.3.2版本资讯

解读2015之Spark篇：新生态系统的形成资讯

大数据常见术语表资讯

分布式云端机器学习资讯

一淘网的系统架构经验

Storm对于交通数据的处理文档

机器学习的11个开源项目经验

大数据的明天将驶向何方？经验

hadoop 电影票房预测的相关搜索