【译】大数据分析平台搭建教程:基于Apache Zeppelin Notebook和R的交互式数据科学 经验

可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

solari 2016-02-12   78611   0

Hadoop - Zeppelin 使用心得 经验

1.概述 在编写 Flink,Spark,Hive 等相关作业时,要是能快速的将我们所编写的作业能可视化在我们面前,是件让人兴奋的时,如果能带上趋势功能就更好了。今天,给大家介绍这么一款工具。它就

ti826184 2016-01-21   32642   0

分布式计算框架:Google Cloud Dataflow 经验

以读取BigQuery以进行表连接等操作。如果想在Dataflow上使用一些开源资源(比如说 Spark中的机器学习库),也是很方便的 为了配合Dataflow, Google Cloud Platform

Paracel:豆瓣开发的大型分布式计算框架,用于机器学习、图算法 经验

Paracel和Spark/GraphLab的主要区别是什么? Spark 和GraphLab都是非常成功的分布式计算框架,它们各自有着很多吸引用户的优点,但也存在一些局限性。Spark提出了RDD的概念并赋予其一系列的

yne7 2015-03-30   17278   0

Mesos 架构与去哪儿的统一框架实践 经验

内核相同的设计原则,只是设计在不同的抽象层级上。它运行在一个机房的所有服务器上并且通过 API 的形式给应用(比如 Hadoop,Spark,Kafka,Elastic Search)提供资源管理、计划任务等功能。 Mesos 是一个在

shenxidd 2016-12-30   9432   0

新一代大数据处理引擎 Apache Flink 经验

Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像

jopen 2015-12-28   33401   0

基于Mesos/Docker构建数据处理平台 经验

Spark on Mesos记录子,即使是基于Spark的Marathon调度,也需要用户开发一个Frameworks。上生产需要很多代码,团队之前代码加到将近一千,用来专门解决Spark运行在

JeaWagstaff 2017-09-11   33759   0
Mesos   Docker  

7 个你应该知道的Java工具 资讯

retrieve her favorite recipes. 6. Spark – 微型Web框架 Back to pure Java, Spark is a Sinatra inspired micro web

jopen 2014-10-18   14303   0

Apache Drill 1.0发布 资讯

虽然大数据往往将关系型数据库当作靶子,但事实上真正生产环境的Hadoop和Spark等大数据平台,每天大部分工作仍然是为SQL查询提供服务,所以,SQL on Hadoop就成了竞争最激烈的技术领域。

jopen 2015-05-20   10665   0

简单的实时大规模机器学习基础架构:Oryx 经验

目前Owen还在花费大量时间担当Apache Spark目 的贡献者,他想重写Oryx,将Spark而不是MapReduce作为主要的处理框架,因为Spark已经成为下一代大数据应用的热门技术。由于性能

jopen 2014-03-01   24541   0

数据仓库系统,Shark 0.2 发布 资讯

Shark 是一个大型的数据仓库系统为 Spark 的设计与 Apache Hive 兼容。它处理 Hive QL 的性能比 Apache Hive 快 30 倍。支持 Hive 查询语言、元存储、序列化格式和用户自定义函数。

jopen 2012-10-22   12686   0
Shark  

雅虎如何在Hadoop集群上实现大规模分布式深度学习 资讯

集群上执行,可以避免数据在 Hadoop 集群和单独的深度学习集群之间移动; 同 Hadoop 数据处理和 Spark 机器学习管道一样,深度学习也可以定义为 Apache Oozie 工作流中的一个步骤; YARN

vgtr 2015-10-27   15225   0
Hadoop  
P9

  openfire应用和开发指南 文档

Windows Exodus, Pandion, Psi, Spark Linux Gajim, Gossip, Kopete, Pidgin, Psi, Spark, Tkabber Macintosh Adium

tumeimey 2016-05-10   650   0

Tachyon:一个高性能、高容错、基于内存的开源分布式存储系统 资讯

底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集群文件共享服务。Tachy

dy223 2015-03-26   11635   0
Tachyon  

Apache SystemM v0.10.0-incubating 发布,一个机器学习语言 资讯

语言,使用Java编写。可实现三大功能:(1) 可定制算法;(2) 多个执行模式,包括单个,Hadoop 批量和 Spark 批量;(3) 自动优化。 SystemML的机器学习主要基于两方面: SystemML 语言,声明式机器学习

jopen 2016-06-18   9116   0

2014-2015年排名前10位的基于Java的Web框架 资讯

Spring MVC/Spring Boot Grails Dropwizard Vert.x Play Spark Vaadin Ninja Jodd jHipster In order to infer the

jopen 2014-11-17   279294   0
Java  

通过腾讯shuffle部署对shuffle过程进行详解 经验

腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较。

jopen 2014-05-21   56177   0

Apache Ignite(二):核心特性一览(V1.4.0版本) 经验

其他节点上部署以保证更好的负载平衡。 7.Spark共享RDD Apache Ignite提供了一个Spark RDD抽象的实现,他允许跨越多个Spark作业时方便地在内存内共享状态,不管是在同一

jopen 2016-01-12   22857   0
P22

  大数据应用 - 数据安全和数据分析 文档

可信虚机(VM2)通过普通管道或网络访问原有虚机(VM1)中的HDFS API,进而读写HDFS文件 12. 案例二:Spark改造使用单独的可信虚机(VM2/3)将用户的计算与其他组件隔离 使用剪裁过的JAR包以减小TCB

cpp45 2015-01-18   627   0

Transformer架构解析 经验

Pipeline形成的过程(Pipeline的概念在后续会有定义)。典型的例子比如你开发的一个Spark Streaming程序,一个Storm程序,一个Tomcat Web服务,都是一个Transformer。

JanaColechi 2016-01-31   8059   0
1 2 3 4 5 6 7 8 9 10