从运营一个开源公司所学到的三大教训 资讯

者。我们主要基于 Apache Lucene 和 Solr,当然也有其他项目如 Apache Spark,Hadoop和Tika。我有两个商业模式: 基于开源项目(开源内核)创建商业产品,提升开发和布署效率。

w427 2015-05-31   5471   0
开源  
P34

  基于随机游走和标签传播 文档

来的工作对于基于随机游走的标签传播社区发现算法的并行实现需要时间开销更小的分布式并行运行平台如spark等等。24/25 27. 正在更新标签的节点集合S1更新过标签的节点集合S2123下一次更新标签的节点集合

yuyue3295 2017-11-19   951   0
P24

  Openfire 开发文档 文档

类主要起到的作用是初始化和释放资源,在初始化的过程中,最重要的的注册一批IQHandler,IQHander 的作用有点类似于Spark 中的IQProvider,其实就是解析XML 文件之后,生成一些有用的实例,以供处理。下面分别给出一个Plugin

zbnm0611 2013-03-29   11513   0
P16

  hive1.2.1安装部署说明书 文档

解决方法:重启hadoop或等待 16.问题:节点worker进程缺失 解决方法:进入该节点的spark的sbin目录下启动worker进程 sh start-slave.sh master的ip:7077(默认端口)

shenxxPH 2016-12-26   680   0
数据挖掘   x86   SQL  

AS3的通用工具类库 GhostCat 经验

GhostCatTools已经发布,使用Flex Spark框架以及AIR和部分 GhostCat 功能制作。 包含大量开发常用的功能。 下载地址: http://ghostcat.googlecode

jopen 2012-01-16   104535   0

Android 服务器向客户端推送方案 经验

因为目前国内无法使用Google服务,所以了解一下就好。 2.使用XMPP协议(Openfire + Spark + Smack) 简介:基于XML协议的通讯协议,前身是Jabber,目前已由IETF国际标准化组织完成了标准化工作。

jopen 2014-07-09   52406   0

在Docker上运行Apache Kafka 经验

项目。可以想下我当时的表情。 我编译了Apache Kafka的源代码 ,将其连接到了Spark Streaming并尝试回答StackOverflow上的一些问题( 在使用Scala的Flink中怎样使用Kafka

jopen 2015-08-06   82443   0
Docker  

Storm概念讲解和工作原理介绍 经验

关系型数据库重视事务,并发控制,相对来说Storm比较简陋 Storm不Hadoop,Spark等是流行的大数据方案 与Storm关系密切的语言:核心代码用clojure书写,实用程序

cxx3 2015-04-27   251845   0

Hadoop中新型大数据查询引擎:Apache Calcite 经验

同时,Calcite也不涉及物理规划层,它通过扩展适配器来连接多种后端的数据源和处理引擎,如Spark、Splunk、HBase、Cassandra或者MangoDB。简单的说,这种架构就是“一种查询引擎,

jopen 2015-09-17   48869   0

深入浅出时序数据库之分布式计算 经验

时序数据分布式计算除了计算分片和数据合并问题以外,同样需要处理任务调度和SQL查询优化的问题,现有的很多开源框架Spark、Presto、 Mongodb 、 Hive 都有相应的解决方案,这里就不做深入讨论了。 4.

五分钟了解你不得不知道的人工智能热门词汇 经验

云计算平台本身为大数据的存储和分析提供了很好的基础设施(如storage和Hadoop、Spark和Storm等分布式计算环境),但默认的云平台上并没有自带强大的机器学习和人工智能能力,也缺乏高

Gleasy首席架构师薛珂:以开源为基础实现分布式框架及中间件 资讯

leasy平台底层架构相关设计工作。 由“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会” 所组成的 OpenCloud 2015大会于

jopen 2015-03-18   28838   0
框架  

我的后端开发书架2015 2.0版 资讯

了。 《从Paxos到Zookeeper》 Zookeeper的书,淘宝出品。 《Spark技术内幕》 深度与厚度之间,选了这本200页的薄书,一样有很多的原理与代码解释,但不会像有的书那样贴20行代码只写一行字。

jopen 2015-10-28   35552   0
开发  

Apache Kylin的快速数据立方体算法 - 概述 资讯

Mapper内的Cube计算逻辑可以被其它Cube引擎重用,例如流数据(Streaming)和Spark; 实际上Kylin已经在这么做了。 算法缺点 新算法略复杂,学习曲线更陡; 虽然新算法会在内存

jopen 2015-09-10   25064   0

是什么使得容器扩容那么难? 资讯

考虑到做两种类型的任务(长时期跑的和批量的)和任务优先级划分。你当然不想因为一个以周为单位的 Spark批量任务以为它需要你集群中的一大块儿,然后把你企业的应用给耗尽从而丧失每小时10万美金的利润。

jopen 2015-11-16   8003   0
容器  

为了减少3个鸡蛋的能耗 阿里巴巴工程师做了10年 资讯

sara)用不到 7 分钟(377 秒)完成了 100TB 的数据排序,打破了 Apache Spark 的纪录 23.4 分钟,更早之前 Hadoop 的纪录是 72 分钟。 用公共服务的方式提供计算资源

jopen 2015-12-07   9939   0

常用的几种大数据架构剖析 经验

分布式计算: 分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。 分布式存储:

赶集网三年 DBA 总结 经验

不全。报表系统没有经过设计,完全由一个新人RD去搞,也就大学毕设水平,回头再看,hadoop spark 完全搞定。最后 DBA 没有及时对大表进行跟踪,没有提前发现。 5. 50G的Redis

KarPokorny 2017-02-15   25331   0
DBA   SQL   运维  

52 个有用的机器学习与预测接口盘点 经验

能够通过预测分析与大数据技术提供市场营销的效用与收益。 PredictionIO : 基于 Apache Spark、HBase 以及 Spray 这些著名的开源项目搭建的开源机器学习服务。典型的 API 包括了

Chr8016 2017-03-09   17732   0

为什么Python发展得如此之快? 资讯

JQuery 等相连。图中还有两个小簇,一个是系统管理和 DevOps,另一个是右边的数据工程(Spark、Hadoop 和 Scala)。 按主题的增长 现在我们已经看到与 Python 有关的

jopen 2017-10-19   29546   0
Python  
1 2 3 4 5 6 7 8 9 10