Hadoop 是 Apache 软件基金会所研发的开源并行运算编程工具和分布式文件系统,与 MapReduce 和 Google 档案系统的概念类似。 另一方面, HadoopDB 的数据处理部分是利用
Mercurial 是一种轻量级分布式版本控制系统,采用 Python 语言实现,易于学习和使用,扩展性强。相对于传统的版本控制,具有如下优点: 更轻松的管理。 传统的版本控制系统使用集中式的 repository,一些和
当节点、硬件、磁盘、网络发生故障时,系统会自动处理这些故障,管理员不需介入。 无 扩展性 增加存储服务器,可以提高容量和文件操作性能。但是由于不能增加MDS,因此元数据操作性能不能提高,是整个系统的瓶颈。
SolrCloud是Solr4.0版本开发出的具有开创意义的基于Solr和Zookeeper的分布式搜索方案,或者可以 说,SolrCloud是Solr的一种部署方式。Solr可以以多种方式部署,例
LFS是一个轻量级分布式文件系统。 LFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large
Hystrix是一个针对分布式系统的延迟和容错库。 Netflix 称,在分布式环境中,不可避免会造成一些服务的失败。Hystrix 库旨在控制分布式服务中提供更大容限和服务失败之间的相互关系。
Hadoop 实现的分布式数据仓库系统,特点是低延迟、高可伸缩,提供专用查询和针对存储在HDFS上的大数据集和其他数据源的ETL 工具。 特点: 可伸缩性和低延迟 完全分布式的 SQL 查询处理,基于存储雨
Zopkio是专为支持大规模的性能和功能测试的一个测试框架。
当一个Web系统从日访问量10万逐步增长到1000万,甚至超过1亿的过程中,Web系统承受的压力会越来越大,在这个过程中,我 们会遇到很多的问题。为了解决这些性能压力带来问题,我们需要在Web系统架构层面
计大型网站时需要考虑的关键问题和一些为达到这些目标所使用的组件。本文主要关注于Web系统,然而其中的一些内容同样适用于其他分布式系统。 1、Web分布式系统设计准则 构建和运行一个可伸缩的网站或应用来说究竟意味着什么
GeoGit是一个开源工具,它的设计灵感来自Git,但适用其核心概念来处理地理空间数据的分布式版本控制。 ~$ geogit help List geogit commands ~/new-folder
GlusterFS是一个开源的分布式文件系统,具有强大的Scale-Out横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。 GlusterFS借助TCP/IP或InfiniBand RD
Spark 是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core
1 Web分布式系统设计的原则 构建并运营一个可伸缩的Web站点或应用程序到底是指什么?在最初,仅是通过互联网连接用户和访问远程资源。 和大多数事情一样,当构建一个Web服务时,需要提前抽出时
PaaSTA是一个高度可用的,分布式的系统用于构建,部署和运行服务使用容器和Apache Mesos。 组件 Note : PaaSTA is an opinionated platform that
Summoner 是国玺部门推出的基于 MySQL+Redis+Zookeeper 的分布式并行计算调度和管理系统,李红红主设。 0x00,为什么要做“数据”并行计算调度? 大家都可能做过 基于 MySQL
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的 机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的
读博士的时候开发了这套牛逼的分布式存储系统,最初是奔着高性能分布式文件系统去的,结果云计算风口一来,Ceph 重心转向了分布式块存储(Block Storage)和分布式对象存储(Object Storage),现在分布式文件系统
健壮性、可维护性。这么多网站同时抓取,报错的概率更大,例如断网、中途被防爬、爬到“脏数据”等等。所以必须要做好日志监控,能实时监控爬虫系统的状态,能准确、详细地定位报错信息;另外要做好各种异常处理,如果你放假回来发现爬虫因为一个小问题已
dCache是一个分布式的存储解决方案。它组织多台电脑的存储,合并后可用于存储数据;最终用户只是看到了大量的存储空间。由于最终用户不必知道 哪台计算机上的数据存储,其数据可从一台计算机迁移到另一台没有