一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都

flylong 2016-09-01   15746   0

如何设计一个复杂的分布式爬虫系统? 经验

一个复杂的分布式爬虫系统由很多的模块组成,每个模块是一个独立的服务(SOA架构),所有的服务都注册到Zookeeper来统一管理和便于线上扩展。模块之间通过thrift(或是protobuf,或是so

BlaSidney 2016-09-29   37085   0

分布式追踪系统架构与设计 经验

先前的博客公告 中讨论过为什么Knewton需要一个分布式追踪系统,并且数值可以被添加到一个公司中。这个章节将会更加深入探讨技术细节,我们如何实施分布式追踪系统的。 总体结构与追踪数据管理 我们的方

JLiteSpider:轻量级的分布式 Java 爬虫框架 经验

spider framework. 这是一个轻量级的分布式java爬虫框架 特点 这是一个强大,但又轻量级的分布式爬虫框架。jlitespider天生具有分布式的特点,各个worker之间需要通过一个或者多个消息队列来连接。消息队列我的选择是

StephaineRF 2016-10-11   9812   0

ngx-fastdfs:nginx + lua + fastdfs 实现分布式图片实时动态压缩 经验

install 进入docker目录 docker build -t fastdfs:dev . 使用 docker -idt -p 80:80 fastdfs:dev /bin/bash 进入容器执行 /etc/rc.local 测试 进入容器执行test目录下的./test.sh或者直接执行下面脚本 fdfs_test /etc/fdfs/client.conf upload /home/st

lahu9554 2017-01-11   36355   0
FastDFS   Nginx   Lua   Lua开发  

分布式缓存服务器 memcachedb 经验

一个由新浪网的开发人员开放出来的开源项目,给memcached分布式缓存服务器添加了Berkeley DB的持久化存储机制和异步主辅复制机制,让memcached具备了事务恢复能力、持久化能力和分布式复制能力,非常适合于需要超高性能读写速度,但是

fmms 2012-05-12   14366   0

实时分布式搜索引擎 Solandra 介绍 经验

Solandra 是一个实时分布式搜索引擎,基于 Apache Solr 和 Apache Cassandra 构建。其核心,Solandra是Solr与Cassandra的一个紧密集成。这意味着So

openkk 2011-12-30   29843   0

分布式日志收集系统: Facebook Scribe之配置文件 经验

其实我们研究一个开源的系统,第一步通常是先把它用起来,因为一个开源的系统能够出现在大家的面前肯定是比较出名和流行的,所有功能是比较出色的。所以我们必须很清楚的这些功能,而scribe最大的特点就是配置文件,它强大的功能全部通过配置文件来配置实现的,今天就简单介绍scribe的配置文件。

jopen 2012-01-11   23489   0

分布式文件系统测试方法与测试工具 经验

非结构化数据、大数据、云存储已经毫无争议地成为了信息技术发展趋势和热点,分布式文件系统作为核心基础被推到了浪潮之巅,广泛被工业界和学术界热推。现代分布式文件系统普遍具有高性能、高扩展、高可用、高效能、易使用、易管

fmms 2012-02-07   67744   0

分布式 key-value 存储系统 Scalaris 经验

Scalaris 是一个采用Erlang开发的分布式 key-value 存储系统。 Business Logic fault-tolerant startup: start Scalaris when

openkk 2011-12-01   13551   0

分布式数据存储服务器 MckoiDDB 经验

MckoiDDB 是一个支持低延迟的随机存取(读,写)的数据库,涵盖了网络上的机器集群分布式数据库查询系统。该软件提供了管理数据在网络上集群和用于访问和查询数据的 客户端API存储系统。该系统可通过在

openkk 2011-12-01   14067   0

lucene + hadoop 分布式搜索运行框架 Nut 介绍 经验

的原则,以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计算为核心的架构设计是Nut区别于Solr、Katta的地方。 Nut是一个Lucene+Hadoop分布式并行计算搜索框架,能对

fmms 2012-01-01   43838   0

分布式key/value存储系统 BeansDB 经验

是一个主要针对大数据量、高可用性的分布式KeyValue存储系统,采用HashTree和简化的版本号来快速同步保证最终一致性(弱),一个简化版的 Dynamo (Dynamo 是 Amazon 公司的一个分布式 存储 引擎。)。

openkk 2012-03-07   15953   0

分布式搜索引擎 Elastic Search 经验

ElasticSearch是一个基于 Lucene 构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。

fmms 2012-01-01   21586   0

为什么Hadoop将一定会是分布式计算的未来? 经验

多,也就 越相信Hadoop的未来,这里写一篇文章与大家分享分享,为什么我相信Hadoop一定是分布式计算的未来。 写在前面的话: 今天听同事分享了一篇很有意思的讲座,叫做"Why Map-Reduce

fmms 2012-02-19   111837   0

php与memcached服务器交互的分布式实现源码分析 经验

的关系,研究了php通过调用 memcache 和 memcached PECL扩展库的接口存储到分布式缓存 服务器 的机制,在此做我根据他们各自的 源码 进行分析,希望能对这方面感兴趣的人有些帮助。

fmms 2012-03-14   38915   0

高性能分布式框架 Shuttler.Net 经验

Shuttler.Net是一个高性能分布式框架,如果你在使用老去的remoting,webservices分布式架构,或在使用新生的wcf,那么你也可以尝试下Shuttler.Net。 如果你想开

openkk 2012-06-09   36022   0

分布式多线程检查点工具:DMTCP 经验

高性能计算/分布式计算等大量计算需要程序运行几天、几周甚至几个月,如果期间因为电力或者不可避免的问题导致程序中断会浪费大量的时间和人力,还 有超级计算机在这段时间里运行的电力成本。我们没有遇到过电力问

jopen 2013-12-16   11313   0

基于solr和zookeeper的分布式搜索方案 经验

SolrCloud 是基于Solr和Zookeeper的分布式搜索方案,是正在开发中的Solr4.0的核心组件之一,它的主要思想是使用Zookeeper作为集群的配置信息中心。 它有几个特色功能:

jopen 2014-03-22   23511   0
1 2 3 4 5 6 7 8 9 10