大数据工具比较:R语言和Spark谁更胜一筹? 资讯

选择这个数据集的论据是,从数据量上来看,实质上这算不上是一个大数据的问题。 对比情况 针对这个问题,机器学习的步骤如下,以得出预测模型结束: 在数据集上进行 主成分分析 和 线性判别式分析 ,得到主要的特征。(特征工程的步骤) [译者注

jopen 2015-12-06   87108   0
R语言  

这九大技术将在2015年或未来大行其道 资讯

2015 and beyond 预测未来本来就是一件非常疯狂的事情,而且现在企业科技的发展速度永远超越我们的想象。infoworld 主编 Eric Knorr 为我们预测了在 2015 年或是未来一段时间内

jopen 2014-12-03   15447   0
技术  

一淘网的系统架构 经验

负责存储抓取系统和离线处理系统的产出,同时向这两个“厂”提供高性能、大容量的存取服务。目前我们采用的是Hadoop+HBase的体系结构,将网页、链接、图片进行了分类存放。 存储系统是一淘存放原料、半成品的“核心仓库”。

jopen 2015-03-24   30725   0

Apache kafka 工作原理介绍 经验

为了让开发组的数据工程 师能够测试新的算法,我们要允许这些玩家数据进入到 Hadoop 集群,即加载这些数据到 Hadoop 集群里面。 对于一个实时游戏,我们必须要做到对存储在服务器内存中的数据

jopen 2015-08-11   22359   0
P35

  pivotal-bigdata-suite-overview 文档

管理不同类型企业数据资源的典型技术半/非结构化数据以批量结构化处理为主 主要用于与结构化数据整合的大数据分析场景 Hadoop的分布式计算架构非常适合处理社交媒体、移动互联等典型的半/非结构化数据,被广泛应用于大数据领域

gavin_xzw 2017-04-09   10339   0
方案   报告   Apache   Intel   Go  

我所理解的大数据个性化推荐 经验

观点会有用的! (1) 首先谈一谈关于推荐系统评测 我先列一下作者列举的评测指标:用户满意度、预测准确度、覆盖率、多样性、新颖度、惊喜度、信任度、实时性、健壮性、商业目标。然后作者说,在设计推荐系

jopen 2015-11-15   26121   0

大数据教父Micheal Stonebraker告诉你大数据的秘密 资讯

倍。但是在我看来,这已经是明日黄花了,就像 PeterLee 所说的,人们现在感兴趣的是机器学习,机器翻译,数据聚类,预测模型,这些才是接下来要做的重要事情。 借用华尔街的说法,我们已经进入了“股市分析员”的时代。这

jopen 2016-01-04   35285   0
大数据   SQL  

如何使用Spark ALS实现协同过滤 经验

--driver-java-options '-Xms2g -Xmx2g -XX:+UseCompressedOops' 预测评分 这个例子主要演示如何训练数据、评分并计算根均方差。 准备工作 首先,启动spark-

jopen 2015-07-29   72900   0
P17

  一张图看懂美国大数据 文档

灵活查询使谷歌获得了巨大的竞争优势,因此雅虎和其他公司以巨额投资来开发这种技术的开源版本,名叫Hadoop。 此外,非结构化数据库通常所需的储存空间通常更小。在过去数据存储十分昂贵,因此几年前,一些主

guet_lee 2017-01-12   1235   0

PayPal高级工程总监:读完这100篇论文 就能成大数据高手 资讯

在这一层里,主要包括数据分析 (消费)工具和一些数据处理函数库。这些工具和函数库,可提供描述性的、预测性的或统计性的数据分析功能及机器学习模块。 数据集成层: 在这一层里,不仅包括管理数据分析工作流中

jopen 2015-07-07   40256   0

【译】使用Apache Kafka构建流式数据平台(1) 经验

,有下面两个原因: 数据整合:数据如何在各个系统之间流转和传输; 流式处理:通常在数据仓库或者Hadoop集群中需要做丰富的数据分析,同时实现低延时。 接下来介绍下上述两个理论的提出过程。起初我们

jopen 2016-01-08   33342   0

图数据库中的高科技和高安全性 资讯

改造成本会非常高。新的技术和应用会使系统的安全和隐私面临新的挑战,而且采纳新技术 的结果通常很难去预测。图数据库就是这样的情形,它是一个比较新的、关注度持续上升的数据库技术。这篇文章探讨了图数据库的价值,并对影响安全和隐私的地

jopen 2015-07-18   16354   0

从业务驱动和技术实现角度谈腾讯大数据 资讯

有更多的大数据应用,从而改变目前传统行业粗放、低效的现状。大数据的核心在于海量信息处理带来的精准和预测,因此我们未来的产品一定也会紧紧围绕这两方面的能力去展开。 InfoQ:技术和业务是如何驱动腾讯大数据平台发展的?

jopen 2014-11-25   33331   0

IBM LinuxONE 在手,开源开放易如反掌 资讯

力,以及在更大范围内集成网络和云计算的能 力。 尤其值得一提的是,LinuxONE 提供的IT预测分析(IT predictive analytics)技术,可以持续监测异常系统行为,防止问题转变

jopen 2015-11-19   22774   0

讲给硅谷创业者的大数据精华集合 经验

技术,如 Hadoop,Mahout,HBase,Cassandra,我在下面也会涵盖。我可以举几个例子,在分析这一 块,cloudera,hortonworks,mapr作为Hadoop的三剑客,一

jopen 2015-01-25   84829   0

5个开源的商业智能工具 经验

社区扩展功能的平台的社区版的业务分析套件。 公司把它作为一个入门级的工具,用于测试和评估之前像可视化分析,预测模型,仪表盘等,这些升级到完整的商业产品。 下载 Pentaho 社区版 。 3. BIRT

jopen 2014-12-05   77532   0

10 款人工智能和机器学习领域方面的开源项目 经验

通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测 应用程序。( 详情 ) 项目主页: http://graphlab.org/ Vowpal

jopen 2014-12-02   54728   0

不谈工作,程序员一定要尝试的8种编程语言 资讯

C#。然而,随着软件需求的发展,新的和尚未被普遍接受的编程语言越来越突出,为程序员提供了针对某些工作的正确工具。 预测哪些语言最终会上升到编程语言排行榜的顶部是困难的,很多语言的受欢迎指数都呈上升趋势,以下是八种目前

jopen 2017-08-12   19656   0
程序员   Swift   Rust   Kotlin   Clojure  

人工智能和机器学习领域开源项目 经验

通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序。 项目主页: http://graphlab.org/ Vowpal Wabbit

jopen 2016-01-19   40048   0

Web-Scale-IT 到底是啥? 资讯

Gartner 对 2015 年 10 大 IT 趋势的预测中有一个词条为:Web Scale IT。我们跟随 Matthias Ankli 来了解一下究竟什么是 Web Scale IT。本文译自 Web

jopen 2016-01-08   6690   0
1 2 3 4 5 6 7 8 9 10