阅读更多

4顶
0踩

开源软件



Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚,以防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍,其他的文章在来介绍Snapshot 本身的实现机制。

HDFS Snapshot有以下几个特性:

  • Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间
  • 只有当修改SnapShot时,才会有额外的内存占用,内存使用量为O(M),M 为修改的文件或者目录数
  • 在datanode 上面的blocks 不会复制,做Snapshot 的文件是纪录了block的信息
  • Snapshot 并不会影响HDFS 的正常操作
产生了以下新的概念:

  • Snapshot table:Snapshots 会存储在snapshottable的目录下。snapshottable下存储的snapshots 最多为65535个
  • Snapshot 路径:举例,假设/foo  是snapshottable,/foo/bar 是文件目录,/foo 拥有一个s0的snapshot,那么路径会是 /foo/.snapshot/s0/bar,我们可以通过
  •       hdfs dfs -ls /foo/.snapshot
          hdfs dfs -ls /foo/.snapshot/s0
          hdfs dfs -cp /foo/.snapshot/s0/bar /tmp

    来操作与查看副本文件。

Snapshot 基本操作:

  • 对一个路径开启Snapshot: hdfs dfsadmin -allowSnapshot <path>
  • 关闭 Snapsshots: hdfs dfsadmin -disallowSnapshot <path>
  • 创建Snapshosts:hdfs dfs -createSnapsshot <path> [snapshot names]
  • 删除Snapshots:hdfs dfs -deleteSnaphost <path> <snapshotName>
  • 修改Snapshots的名字:hdfs dfs -renameSnapshot <path>  <oldname> <newname>
  • 获取Snapshot 列表:hdfs lsSnapshottableDir
  • 获取两个Snapshot的不同:hdfs snapsshotDiff <path> <fromSnapshot> <toSnapshot>
资料来源:hadoop.apache.org
  • 大小: 9.2 KB
4
0
评论 共 9 条 请登录后发表评论
9 楼 niko7 2013-09-04 14:49
有机会要好好看看啊。这个东西在家里也搞不出名堂吧,得大数据,得多台机器才行。
8 楼 yj8714 2013-08-29 15:53
yj8714 写道
yj8714 写道
385104182 写道
hadoop太活跃了,厉害

确实很活跃啊。。。

希望有空了。。好好研究研究

希望好好看看
7 楼 yj8714 2013-08-29 15:53
yj8714 写道
385104182 写道
hadoop太活跃了,厉害

确实很活跃啊。。。

希望有空了。。好好研究研究
6 楼 yj8714 2013-08-29 15:52
385104182 写道
hadoop太活跃了,厉害

确实很活跃啊。。。
5 楼 sgq0085 2013-08-29 13:05
翻译的真搞笑 快照Snapshot是一个单词 又不是两个单词的集合
4 楼 liuwei0376 2013-08-29 10:31
新版本意味着不太稳定啊,可以在家尝尝鲜,公司里不敢用。
3 楼 freezingsky 2013-08-28 20:53
没机会接触,很遗憾啊。。。
2 楼 385104182 2013-08-28 13:19
hadoop太活跃了,厉害
1 楼 yunzhu 2013-08-28 11:45
这个好


发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Global site tag (gtag.js) - Google Analytics