的相关文章我已经做了索引,在我的博客中置顶了,大家可以方便的找到。从这一篇开始分布式消息系统的入门。 在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题: l 我想分析一下用户行为(
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low- cos
环境,我们会从单机版开始,然后逐渐往分布式扩展。单机版的搭建官网上就有,比较容易实现,这里我就简单介绍下即可,而分布式的搭建官网却没有描述,我们最终的目的还是用分布式来解决问题,所以这部分会是重点。
Zipkin 是 Twitter 的一个开源项目,允许开发者收集 Twitter 各个服务上的监控数据,并提供查询接口。
机制。能够将计算压力分布到多核CPU或集群的多台计算机上,能够非常方便的在内网中搭建一个自组织的分布式计算平台。先从多核计算开始,普通的Python应用程序只能够使用一个CPU进程,而通过Parallel
Apache Giraph 是一个可伸缩的分布式迭代图处理系统,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel. Giraph 区别于其他项目的是开源、基于
Kochiku 是一个自动化测试系统的分布式平台,包含3个组件: Web 服务器:你可以检视构建和管理资料库 后台作业:将构建切分成多个部分 Workers 用来独立允许某个构建的部分 一般一个单击可运行
Mahout知名度很高,是Apache基金资助的重要项目,Mahout是一个分布式机器学习算法的集合,协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现(Hadoop-based,另有pure Ja
ModeShape是一个分布式,层次化,事务性的,一致的数据存储。支持查询、全文搜索、事件,版本控制,引用和灵活的动态架构。它非常快的,高度可用,高度可扩展,100%开源和采用Java编写。 客户端使用
分布式锁是一个在很多环境中非常有用的原语, 它是不同进程互斥操作共享资源的唯一方法。有很多的开发库和博客描述如何使用Redis实现DLM(Distributed Lock Manager ),但是每个
Dynamo whitepaper ,是一个轻量级、分布式的 Dynamo 层,用于不同的 K/V 存储和协议。 Dynamo 是 Amazon 公司的一个分布式 存储 引擎。 Dynomite 拓扑结构:
Katta是一个可扩展的、故障容错的、分布式实施访问的数据存储。 Katta可用于大量、重复、索引的碎片,以满足高负荷和巨大的数据集。这些索引可以是不同的类型。当前该实现在 Lucene 和 Hadoop
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。
EasySchedule 是基于quartz的集群、分布式任务调度平台。广告技术部前端原有定时任务功能 相对比较简单,交互性差,任务部署效率低, 开发和维护成本高,不能很好满足各系统定时任务 的管理和控制;
Baratine 是新的分布式,基于内存的 Java 服务平台,可以构建高性能的 Web 服务,在同一个 JVM 中结合数据和逻辑。在 Baratine 中,数据和服务是一体的,服务拥有它自己的数据:
e。我的实现方法是把标签库存储成HDFS上的文件,用分布式缓存存储,这样让每个slave都能读取到这个文件。 main方法中的配置: //分布式缓存要存储的文件路径 String cachePath[]
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供 对数据进行简单处理,并写到各种数据接受方(可定制)的能力。F
Zookeeper是一个高性能,分布式的,开源分布式应用协调服务。它提供了简单原始的功能,分布式应用可以基于它实现更高级的服务,比如同步, 配置管理,集群管理,名空间。它被设计为易于编程,使用文件系统
够从各种日志源上收集日志,存储到一个中央存 储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。当中 央存储系统
也有可以构建复杂的pipeline做一代码优化和任务调度的好处,但目前还需要程序员来配置资源分配。 Spark在设计分布式数据集API时,模拟了Scala集合的操作API,使得额外的语法学习成本比Dataflow要低。