开源项目,开源代码,开源文档,开源新闻,开源社区

的流行得益于大数据浪潮的兴起。这是一种免费的开源工具，可以帮助你将数据从流行的大数据存储系统 Hadoop 转移到经典的关系数据库中（例如甲骨文、IBM 和微软的数据库）。这是一种命令行界面工具，因此

dy223 2015-03-26 12296 0

IT技

就像操作系统上的各个应用，这些应用分别满足阿里云的客户对于不同的使用场景的需求。 InfoQ：你刚才提到飞天用 C++ 来写的。Hadoop 这套生态系统，更多是用 Java 实现的，为什么飞天选择C++？汤子楠：我们可以讨论很多

jopen 2014-03-19 30451 0

阿里云飞天系统

是会用到一些通用技术，如 Hadoop、Mahout、HBase、Cassandra 等等；在分析领域，Cloudera、Hortonworks、MapR 是 Hadoop 的三剑客；在运维领域，MongoDB、CouchBase

jopen 2015-01-27 53601 0

大数据

智能报告。使用大数据和人工智能领域的新工具，我们可以分析海量的数据和组，或者做出高精度和细微差别的预测。 Bottom Line (成本代价):在我们的操作过程中，效率低下的地方有哪些，如何优化才能降低成本？这也是一个扩展的传统报表技术。

jopen 2015-11-02 15439 0

机器学习

公司开发了一个颇受欢迎的商用版 Hadoop。尽管 Hadoop 是为低价电脑服务器设计的一个免费开源数据存储项目，但免费版本并不好用。有多家公司开发了更友好的 Hadoop 版本，Cloudera

jopen 2016-02-13 21225 0

M.html R语言视频 http://pan.baidu.com/s/1koSpZ Hadoop视频 http://pan.baidu.com/s/1b1xYd 42区 . 技术 . 创业

jopen 2015-12-31 38829 0

推荐系统大数据机器学习

通常来说开销很大的操作，像计算变量不同的值在流中出现的次数，而且消耗的时间少，占用的内存小，误差可预测。正如他们在技术博客上所作的说明，雅虎内部已经使用DataSketches来提升多个产品的性能，包括

jopen 2016-01-24 11137 0

开源

广告投放效果分析；互联网信用评价；图像识别、理解。数据挖掘类商业智能，如统计报表；用户体验分析，预测流失用户。以上是根据本人求职季有限的接触所做的总结。有的应用方向比较成熟，业界有足够的技术积

jopen 2015-01-14 39311 0

机器学习

Graphlab是基于C++开发的一个高性能分布式graph处理挖掘系统，特点是对迭代的并行计算处理能力强（这方面是hadoop的弱项），由于功能独到，GraphLab在业界名声很响。用GraphLab来进行大数据量的random

yg3n 2015-06-03 73310 0

推荐系统推荐引擎

Modeler 的统计功能相对有限, 主要是提供面向商业挖掘的机器学习算法（决策树、神经元网络、分类、聚类和预测等）的实现。同时，其数据预处理和结果辅助分析方面也相当方便，这一点尤其适合商业环境下的快速挖掘。

jopen 2015-10-06 44468 0

大数据分布式/云计算/大数据

时主要遵循的原则：保持核心轻量和简单能够更快地带来价值有限考虑多租户、服务质量（QoS）和自助服务专注于可预测性存储作为服务，而不仅仅是技术下面来看看 Manhattan 的主要特性。Manhattan

jopen 2014-04-03 6863 0

Manhattan

P111

HBase的官方文档, Hbase是一个分布式,版本化(versioned)，构建在 Apache Hadoop和 Apache ZooKeeper上的列数据库. 我(译者)熟悉Hbase的源代码，从事Hb

lanbocui 2012-08-21 631 0

分布式/云计算/大数据

P83

HBase的官方文档, Hbase是一个分布式,版本化(versioned)，构建在 Apache Hadoop和 Apache ZooKeeper上的列数据库. 我(译者)熟悉Hbase的源代码，从事Hb

wangwenjun0 2012-07-15 5986 0

NoSQL数据库

在商务智能分析方面，尽管底层技术算法变化不大，但从便利用户商业使用看确实做了不少“实惠”的功能，购物篮分析、网站分析、预测、无监督学习、非结构化数据探索性分析，这些功能提供得恰逢其时。毕竟面临市场环境中众多的不确定性，

jopen 2011-12-20 13330 0

数据库 ci C/C++ Go

Partners就颠覆了公众对于大数据中的“大”的实际含义的认识。尽管媒体大肆报道PB级数据问题，幕后推手基本上是Hadoop及其生态系统的厂商，但事实上，大多数公司并不存在所谓的PB级数据问题。正如这项调查所发现

jopen 2016-02-28 8148 0

大数据

如果你说大数据就是数据大，或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值，又或者拿Google和Amazon举例，技术流可能会聊起Hadoop和Cloud Computing,不管对错，只是无法勾勒对大

sisimv 2016-02-16 34395 0

大数据分布式/云计算/大数据

类：数据描述了什么，内在组成是什么样？数据所反映的现象，是否存在某些内在规律？通过数据反馈的现象，能否学习规律并进行预测？在我们已知的结果方案之外，是否能借助数据去分析和进一步改进方案？绝大部分时候我们停留在 Information

xxxway 2016-02-03 26162 0

大数据数据挖掘分布式/云计算/大数据

据挖掘，做到精准的个性化推荐，流弊的数据预测！偶滴娘亲啊，寥寥数人，不止要搭起一整套完整的数据收集、数据传输、数据离线实时处理，不止要维护 hadoop 集群、spark 集群、storm 集群

jopen 2015-12-22 27073 0

大数据

最小化中断是一个重要的目标，Iannuzzi说到，因此“ 我们不能只是切换到Hadoop。 ” 相反，却选择了拼接机器，基本上把完整的SQL数据库放到目前流行的Hadoop大数据平台之上，并允许现有的应用程序能够与它连接，他认为。

jopen 2015-11-23 14514 0

大数据

大数据，需要应对海量化和快增长的存储，这要求底层硬件架构和文件系统在性价比上要大大高于传统技术，能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。另外，大数据对存储技术提出的另一个挑战是多种数据格式的适

avalon6884 2017-03-08 40607 0

大数据区块链

30种IT技能让你年薪过10万美元！资讯

汤子楠：飞天、ODPS经历了许多血淋淋教训资讯

Coursera数据工程师董飞：硅谷大数据的过去与未来资讯

你应该知道的机器学习方法资讯

这40项IT技能都能帮你年薪超过12万美元资讯

大数据/数据挖掘/推荐系统/机器学习相关资源经验

雅虎开源可以提升流操作速度的DataSketches 资讯

面试经验分享之机器学习、大数据问题经验

TOP 10开源的推荐系统简介经验

大数据研究常用软件工具与应用场景经验

Manhattan：Twitter的下一代分布式数据库资讯

HBase 官方文档文档

HBase 官方文档-中文翻译文档

一个更大的筐 - SQL Server 2012 问答

吃惊吗？原来这才是大数据的大问题！资讯

大数据不只是数据大全面解析大数据经验

浅谈大数据应用研究的3个V 经验

你们是不是很缺大数据工程师？资讯

大数据正在如何改变数据库格局？资讯

大数据和区块链之间的比较分析经验

hadoop 电影票房预测的相关搜索

关键词

30种IT技能让你年薪过10万美元！ 资讯

汤子楠：飞天、ODPS经历了许多血淋淋教训 资讯

Coursera数据工程师董飞：硅谷大数据的过去与未来 资讯

你应该知道的机器学习方法 资讯

这40项IT技能都能帮你年薪超过12万美元 资讯

大数据/数据挖掘/推荐系统/机器学习相关资源 经验

雅虎开源可以提升流操作速度的DataSketches 资讯

面试经验分享之机器学习、大数据问题 经验

TOP 10开源的推荐系统简介 经验

大数据研究常用软件工具与应用场景 经验

Manhattan：Twitter的下一代分布式数据库 资讯

HBase 官方文档 文档

HBase 官方文档-中文翻译 文档