从毕业加入Google开始做分布式机器学习,到后来转战腾讯广告业务,至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是:虽然在验证一个新的并行算法的正确性的时候,我们可以利用现有框架,尽量快速实现,但是
分布式存储技术及应用 根据did you know(http://didyouknow.org/)的数据,目前互联网上可访问的信息数量接近1秭= 1百万亿亿 (1024)。毫无疑问,各个大型网站也都
Web高级应用论文 2006-6-21 XML在分布式系统中的作用 梁 砾 来源:www.javathinker.org 摘要:本文首先简单介绍了XML的基本知识,然后,通过列举、比较,详细地介绍X
Memcached 是一个高性能的分布式内存 对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象 来减少读取数据库的次数,从而提供动态、数据库驱动网站的速度。 相信很多人都用过缓存,在
Distributed Checksum Clearinghouse (DCC) 是一个包含客户端和服务器的平台,用来收集跟邮件信息相关的 checksum 数据,计算器可为 SMTP 服务器提供数据,mail user agent 可用来监测和处理垃圾邮件。同时 DCC 服务器间可交换公用的 checksum 数据。
1.分布式日志收集系统:背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1)
时也带来了系统的复杂性——各子系统不是孤立存在的,它们彼此 之间需要协作和交互,这就是我们常说的分布式系统。各个子系统就好比动物园里的动物,为了使各个子系统能正常为用户提供统一的服务,必须需要一种机制来进
Katta是一个可扩展的、故障容错的、分布式实施访问的数据存储。 Katta可用于大量、重复、索引的碎片,以满足高负荷和巨大的数据集。这些索引可以是不同的类型。当前该实现在Lucene和Hadoop
AtomizeJS 是一个 JavaScript 库用来编写运行在浏览器之上的分布式应用,无需在服务器编写任何特定的逻辑。 项目主页: http://www.open-open.com/l
dCache是一个分布式的存储解决方案。它组织多台电脑的存储,合并后可用于存储数据;最终用户只是看到了大量的存储空间。由于最终用户不必知道 哪台计算机上的数据存储,其数据可从一台计算机迁移到另一台没有
PaaS(平台即服务)提供商dotCloud发布了一个开源产品Hipache,这是一个支持WebSocket的HTTP代理系统。
LGPL许可证,用Scala 2.8语言实现。目前还处于早期发展阶段,Ian制作了一则36分钟长的视频,介绍这种“云的透明化分布式计算(Vimeo)”。 项目主页: http://www.open-open.com/li
基于zeromq、gevent和 msgpack开发的分布式RPC框架zerorpc-python。这个框架简单、易用。 项目主页: http://www.open-open.com/li
FastDFS是一个开源的分布式文件系统,她对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。
牧羊犬(Sheepdog) 是一个新的第三方的KVM开源项目,提供分布式存储管理功能。牧羊犬提供高可用性的KVM提供块级存储卷类似亚马逊电子交易系统(弹性块存储虚拟 机)的客户机。事实上,对牧羊犬项目
Katta是一个可扩展的、故障容错的、分布式实施访问的数据存储。 Katta可用于大量、重复、索引的碎片,以满足高负荷和巨大的数据集。这些索引可以是不同的类型。当前该实现在Lucene和Hadoop
Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。
Apache River 是一个分布式计算的架构,基于原 Sun 的 JSK Starter Kit 源码,主要使用 Jini 规范。 项目主页: http://www.open-open
ICE(Internet Communications Engine)是ZeroC提 供的一款高性能的分布式计算平台,支持 C++ , .NET , Java , Python , Objective-C
hadoop分布式集群搭建