MySQL在Web应用领域面临NoSQL的挑战 资讯

Oracle 的 MySQL 管理工作“好评”,极少数给了“中评”。 事实上 451 Research 预测 MySQL 市场价值将在 2015 年达到6.64亿美元,年复合增长率是“健康的”40%。

jopen 2012-05-30   14850   0
MySQL  

机器学习的11个开源项目 经验

类、分类、推荐等很多经典算法,并且提供了很方便的云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库,它被设计用于大规模高速度地执行MLlib所包含的大部分常见机 器学习算法。MLli

jopen 2014-12-18   52979   0

108个大数据文档PDF开放下载 资讯

支撑支付宝交易的分布式数据库系统 .pdf 30、Hadoop 在广告监测技术的实践 下载: Hadoop 在广告监测技术的实践 .pdf 31、Apache Kylin-Hadoop 上的大规模联机分析平台 下载

b4c2 2015-01-29   51827   0

优秀大数据GitHub项目一览 资讯

Mahout来快速创建高效扩展性又好的机器学习应用。Mahout结合了诸如H2O算法、Scala、Spark和Hadoop MapReduce等模块,为开发人员提供了一个构建可扩展算法的环境。现在最新的版本是去年11月6日发布的0

jopen 2016-01-18   31229   0

视频类网站大数据生态 Spark在爱奇艺的应用实践 经验

Algorithm – 输入数据300+G,运行20分钟 – 模型提供给Hadoop,Storm进行批处理和实时数据预测 – Spark on YARN 用户行为分析 – 用户画像、分类

jopen 2014-12-12   32735   0
P69

  大数据技术平台调研报告 文档

大数据的目标是创造更多的财富和利润 3) 大数据的手段是海量数据处理技术 大数据是支持一系列技术(如各种 Hadoop 项目、NoSQL 产品,甚至 MPP 数据库系统)的术语, 它通过驱动更好的分析和从数据中获

dszhao 2017-03-22   3018   0

实时推荐系统的3种方式 经验

分析,对模型进行更新,但是定期对模型进行更新,无法保证推荐的实时性,一段时间后,由于模型训练也要相当时间,可能传统的批处理的Hadoop的方法, 无法再缩短更新频率,最终推荐效果会因为实时性问题达到一个瓶颈。 推荐算法主要有基

jopen 2015-06-18   132273   0

2016年,大数据还是回事么? 资讯

技术型的高科技创业公司都是喜欢闪闪发光的新东西,而 “大数据” 跟 3年 前火热程度相比反而有些凄惨。虽然 Hadoop 创建于 2006年,在 “大数据” 的概念兴起到达白热化是在 2011年 至 2014年 期间,当时在媒体和行业面前,大数据就是

jopen 2016-02-24   39098   0
P39

  Mahout in Action 中文版 文档

法处理情况下的机器学习工具。在目前阶段,这种可伸缩性由java实现,有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口,预装好的服务器。以及安装

Mon 2013-12-01   5643   0

数据分析的 7 个关键步骤 资讯

数据,建立模型,预测业务成果。数据科学家必须有良好的统计学和机器学习背景,才能构建出科学、精确的模型,避免毫无意义的相关性及一些模型的陷阱。这些模型依赖于现有的数据,但对于未来的预测是无用的。但只有统

勿忘初心321 2015-12-24   14091   1

Apache Spark在大规模分布式自然语言处理的应用 经验

但这会浪费他们时间,结果的覆盖率也有局限性。为了避免上述情况,我们基于自然语言构建了回归模型,来预测用户对每个问题回答“是”或者“不是”的概率。 这样我们只有在给出所有数据仍不能确定用户答案的时候才去询问他们。

d2dn 2015-09-11   16802   0

大数据架构和模式(四) - 了解用于大数据解决方案的原子模式和复合模式 经验

,这通常取决于数据保留策略。由于处理和存储的限制,超出此时间段的数据通常会被归档或清除。基于 Hadoop 的系统和其他等效的系统可以克服这些限制,因为它们具有丰富的存储以及分布式大规模并行处理能力。

jopen 2015-02-01   27853   0

微软大数据分析语言R Open升至3.3.2版本 资讯

Enterprise 拥有许多种数据可视化、统计分析、预测性建模以及机器学习的能力,它还能够突破R语言的内存瓶颈,并且支持多核、多进程,尤其能够和 Hadoop、Teradata 等数据平台整合。 目前微软

jopen 2016-12-01   17076   0
微软  

解读2015之Spark篇:新生态系统的形成 资讯

据量大小和内存使用情况;计算直接发生在二进制格式上,省去了序列化和反序列化时间。 像传统的Hadoop/Hive系统,磁盘IO是一个很大的瓶颈。而对于像Spark这样的计算框架,主要的瓶颈在于CP

jopen 2016-01-07   38554   0

大数据常见术语表 资讯

。 H Hadoop – 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。 Hadoop数据库(HBase) – 一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用

jopen 2015-02-22   47724   0

分布式云端机器学习 资讯

这样的云端服务平台,企业不仅仅可以用它来储存数据,做一些经典的“后视”商务智能分析,更能使用云端的强大力量做出具有“前瞻性”的预测分析。使用 Azure 机器学习 这样的现代化工具,企业可以获得关于其业务未来发展的切实见解——这将成为它们的竞争优势。

jopen 2015-06-03   14644   0

一淘网的系统架构 经验

存储系统负责存储抓取系统和离线处理系统的产出,同时向这两个“厂”提供高性能、大容量的存取服务。目前我们采用的是Hadoop+HBase的体系结构,将网页、链接、图片进行了分类存放。存储系统是一淘存放原料、半成品的“核心仓库”。

jopen 2014-01-15   25496   0
P31

  Storm对于交通数据的处理 文档

年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 有市场研究机构预测(2009年): 到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10

nd7b 2015-12-09   6303   0

机器学习的11个开源项目 经验

类、分类、推荐等很多经典算法,并且提供了很方便的云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库,它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。 MLli

jopen 2016-01-05   30614   0

大数据的明天将驶向何方? 经验

大数据是否“过气”? 在喜新厌旧的技术初创企业界,已有 3年 历史 “大数据” 听起来似乎已经过气了。虽然 Hadoop 在 2006年 已经出来,但 “大数据” 这个概念大概是在 2011 到 2014年 左右才

XZSIsa 2016-04-12   47818   0
1 2 3 4 5 6 7 8 9 10