技术人必读:19本免费指南性编程书籍 资讯

oop征 程》一书确实从极为细致的角度讲解了Hadoop生态系统中陆续涌现的多种新元素——例如Spark等——但YARN等要素却没能得到应有的关注与介绍篇 幅。不过作为一套自上而下的整体概述资料,其实用性仍然毋庸置疑。

jopen 2015-03-12   26664   0
编程  

宜信正式开源其AIOps落地三大利器 资讯

机器学习和统计模型处理 Wormhole是任务机器人的计算模型生产者。Wormhole基于Spark,既可接入Kafka在线实效数据进行流式处理,也可接入HDFS离线历史数据进行批量处理。Worm

jopen 2017-09-11   21822   0
开源  

Pinterest 开源工作流管理 —— Pinball 经验

制的工作流管理器,这种管理器可以用来从执行基本的shell命令到在Hadoop, Hive 和Spark之上实现ETL-风格的计算在内的广泛的数据处理用户需求。 我们所有的工程团队都在用Pinba

g4mm 2015-04-24   39953   0

构建机器学习系统的20个经验教训 经验

资者的期望,能够向他们介绍模型为产品带来了什么价值。 不需要分发机器学习算法Hadoop/Spark这些“容易的”分布式计算平台也有一些陷阱,例如成本和网络延迟,实际上有些情况不使用它们也能很好的

jopen 2015-12-21   23717   0

Java 8 Lambda限制:闭包 经验

为。 在功能语言中,它通常是有限的,而当它不是,则不鼓励。 考虑你正在使用并行范例,例如在Spark中: int counter = 0; JavaRDDrdd = sc.parallelize(data);

leoleo 2017-03-23   15640   0

利用大数据技术进行图处理 资讯

项目推广开的。而生态系统中最新的项目便是 GraphX 和 Faunus 。GraphX项目运行于2013年才问世的 Spark 之上,而Faunnus则通过用 Hadoop 运行 MapReduce 作业的方式来处理Tit

jopen 2014-04-15   8946   0

破解迷雾:关于大数据与Hadoop的九大误区 资讯

2运行所需要的线程更多,这意味着我们需要为其提供更多节点与更大内存容量。 由于可以将数据集驻留在内存当中,Spark能够将HDFS载入时间控制在最低水平。 误区七:数据节点的解决方案在于虚拟化 来自供应商的答

jopen 2015-06-23   11979   0
Hadoop  

远程办公员工十年翻番 数字游民会成主流吗? 资讯

年。“有一个新的观点认为,分散式团队是一个聪明的战略,它有利于初创公司以更低的成本招聘真正伟大的人才。”风险投资公司星火资本(Spark Capital)合伙人梅根·奎因(Megan Quinn)说。在梅根·奎因打交道的公司中,有许

jopen 2016-12-25   5041   0
Github  

禁不了的开源——驳“开源‘闭源’论” 资讯

大,一种悲观论调也在悄悄蔓延,有个别人担心,像 MySQL、OpenStack、Hadoop、Spark、TensorFlow 这样的开源基础架构和产品也会被“闭”。更有甚者表示,如果 OpenStack

jopen 2018-04-23   12234   0
P11

  Storm 应用场景 文档

方便异常数据明细查询。 DataAdapte bolt: 负责数据存储适配,分发到不同存储介质(spark,HDFS,storm) Real bolt:实时计算bolt HDFS bolt: 数据存储到HDFS;

redey 2015-07-10   4591   0

编辑精选:2016 年 Web 专区优秀文章 经验

如何在 Bluemix 上开发和部署 Python 应用。最后,介绍了如何使用 Apache Spark 服务和 Python 来进行科学计算和数据分析。 将 TWITTER 列表转换为 RSS 入选原因:将来自

stoneryan 2017-01-05   7710   0

Java Stream API入门篇 经验

的方式执行,这样可以减少迭代次数。计算完成之后 stream 就会失效。 如果你熟悉Apache Spark RDD,对 stream 的这个特点应该不陌生。 下表汇总了 Stream 接口的部分常见方法:

yuyaojin 2017-03-14   15559   0
Java   API   Java开发  

点评10款Github上最火爆的国产开源项目 资讯

。 劣势:你可能需要重新学习Kissy API。 9.DPark DPark 是 Spark 的 Python 克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。

jopen 2015-01-19   25841   0
Github  

如今仍在工作的12名最“屌”的程序员 资讯

Stallman,才促成了开源运动的兴起,让我们能够享用很多热门的技术,比如Docker,Linux,Hadoop,Spark,等等。 9、Bram Cohen在2001年发明了BitTorrent比特流协议,他开创了

jopen 2015-07-14   8902   0

将Hadoop作为云托管服务的优劣势分析 资讯

庞大的数据集。 Apache还提供了另外的开源软件,可以在Hadoop上运行,比如分析引擎Spark(它也能独立运行)和编程语言Pig。 Hadoop 之所以广受欢迎,就是因为它为使用大众化硬

jopen 2015-07-08   17533   0
Hadoop  

10款Github上最火爆的国产开源项目 资讯

劣势:你可能需要重新学习Kissy API。 9.DPark DPark 是 Spark 的 Python 克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。

jopen 2016-04-20   30535   0

甲骨文预测:2017年大数据的变化趋势 资讯

数据虚拟化成为现实 根据企业管理者的观点,数据孤岛扩散难题成为普遍困扰。无论是面向 NoSQL、Spark 还是 Hadoop,现有数据库方案都将在新的一年中迎来更多协作对象。可以肯定的是,只要企业未有

jopen 2017-02-16   17529   0

13个 ASP.NET MVC 的扩展 经验

engine,但您也许可以考虑使用其他引擎来替代默认的WebForm view engine。在我看来,最有趣的引擎就是Spark。 如果您确实希望编写自己的view engine,可以看一下Brad Wilson的文章:

jopen 2012-02-29   61520   0
MVC   .NET开发  

MapReduce的组合式,迭代式,链式 经验

hadoop本身就不适合做迭代运算,所以在实际运用中,应适当优化程序,减少MR迭代次数。如需进行大量迭代性工作,建议使用spark

jopen 2014-11-12   16014   0

【基础】常用的机器学习&数据挖掘知识点 经验

Listwise:AdaRank,SoftRank,LamdaMART; Tool(工具): MPI,Hadoop生态圈,Spark,BSP,Weka,Mahout,Scikit-learn,PyBrain… 作者:尾巴子

jopen 2015-01-08   29762   0
1 2 3 4 5 6 7 8 9 10