网络存储连载

dan_lionly 贡献于2012-08-20

作者 Sigma  创建于2006-07-13 05:53:00   修改者User  修改于2007-07-23 04:08:00字数203387

文档摘要:网络存储导论第一章:RAID与大容量存储  1.1RAID概念   RAID的英文全称为Redundant Arrayof Inexpensive(或Independent)Disks,而不是某些词典中所说的“Redundant Access IndependentDisks”。中文名称是廉价(独立)磁盘冗余阵列。RAID的初衷主要是为了大型服务器提供高端的存储功能和冗余的数据安全。在系统中,RAID被看作是一个逻辑分区,但是它是由多个硬盘组成的(最少两块)。
关键词:

网络存储导论第一章:RAID与大容量存储    1.1 RAID 概念     RAID 的英文全称为Redundant Array of Inexpensive (或Independent) Disks,而不是某些词典中所说的“ Redundant Access Independent Disks” 。中文名称是廉价(独立)磁盘冗余阵列。     RAID 的初衷主要是为了大型服务器提供高端的存储功能和冗余的数据安全。在系统中,RAID 被看作是一个逻辑分区,但是它是由多个硬盘组成的(最少两块)。它通过在多个硬盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量(Throughput ),而且在很多RAID 模式中都有较为完备的相互校验/恢复的措施,甚至是直接相互的镜像备份,从而大大提高了RAID 系统的容错度,提高了系统的稳定冗余性,这也是Redundant 一词的由来。     RAID 以前一直是SCSI 领域的独有产品,因为它当时的技术与成本也限制了其在低端市场的发展。今天,随着RAID 技术的日益成熟与厂商的不断努力,存储工程师已经能够享受到相对成本低廉得多的IDE-RAID 系统,虽然稳定与可靠性还不可能与SCSI-RAID 相比,但它相对于单个硬盘的性能优势对广大玩家是一个不小的诱惑。事实上,对于日常的低强度操作,IDE-RAID 已足能胜任了。     与Modem 一样,RAID 也有全软、半软半硬与全硬之分,全软RAID 就是指RAID 的所有功能都是操作系统(OS)与CPU 来完成,没有第三方的控制/处理(业界称其为RAID 协处理器――RAID Co-Processor )与I/O 芯片。这样,有关RAID 的所有任务的处理都由CPU 来完成,可想而知这是效率最低的一种RAID 。半软半硬RAID 则主要缺乏自己的I/O 处理芯片,所以这方面的工作仍要由CPU 与驱动程序来完成。而且,半软半硬RAID 所采用的RAID 控制/处理芯片的能力一般都比较弱,不能支持高的RAID 等级。全硬的RAID 则全面具备了自己的RAID 控制/处理与I/O 处理芯片,甚至还有阵列缓冲(Array Buffer ),对CPU 的占用率以及整体性能是这三种类型中最优势的,但设备成本也是三种类型中最高的。早期市场上所出现的使用HighPoint HPT 368 、370 以及PROMISE 芯片的IDE RAID 卡与集成它们的主板都是半软半硬的RAID,并不是真正的硬RAID,因为它们没有自己专用的I/O 处理器。而且,这两个公司的RAID控制/处理芯片的能力较弱,不能完成复杂的处理任务,因此还不支持RAID 5 等级。著名的 Adpatec 公司所出品的AAA-UDMA RAID 卡则是全硬RAID 的代表之作,其上有专用的高级RAID Co-Processor 和Intel 960 专用I/O 处理器,完全支持RAID 5 等级,是目前最高级的IDE-RAID 产品。表1 就是典型的软件RAID 与硬RAID 在行业应用中的比较。 网络存储导论第一章:RAID-0 与RAID-1 RAID 发展至今共有10 个主要的等级,下面就将依次介绍     1.2 RAID-0 等级     RAID0 全称叫做Striped Disk Array without Fault Tolerance( 没有容错设计的条带磁盘阵列)。图中一个圆柱就是一块磁盘(以下均是),它们并联在一起。从图中可以看出,RAID 0 在存储数据时由RAID 控制器(硬件或软件)分割成大小相同的数据条,同时写入阵列中的磁盘。如果发挥一下想象力,你会觉得数据象一条带子横跨过所有的阵列磁盘,每个磁盘上的条带深度则是一样的。至于每个条带的深度则要看所采用的RAID 类型,在NT 系统的软RAID 0 等级中,每个条带深度只有64KB 一种选项,而在硬RAID 0 等级,可以提供8、16、32、64 以及128KB 等多种深度参数。Striped 是RAID 的一种典型方式,在很多RAID 术语解释中,都把Striped 指向RAID 0。在读取时,也是顺序从阵列磁盘中读取后再由RAID 控制器进行组合 图1-1 RAID-0 结构图解再传送给系统,这也是RAID 的一个最重要的特点。     这样,数据就等于并行的写入和读取,从而非常有助于提高存储系统的性能。对于两个硬盘的RAID 0 系统,提高一倍的读写性能可能有些夸张,毕竟要考虑到也同时缯加的数据分割与组合等与RAID 相关的操作处理时间,但比单个硬盘提高50% 的性能是完全可以的。     不过,RAID 0 还不能算是真正的RAID,因为它没有数据冗余能力。由于没有备份或校验恢复设计,在RAID 0 阵列中任何一个硬盘损坏就可导致整个阵列数据的损坏,因为数据都是分布存储的。下面总结下RAID 0的特点: 1.3 RAID-1 等级 图1-3 RAID-1 结构图解  Mirroring and Duplexing (相互镜像)     对比RAID 0 等级,存储工程师能发现硬盘的内容是两两相同的。这就是镜像――两个硬盘的内容完全一样,这等于内容彼此备份。比如阵列中有两个硬盘,在写入时,RAID 控制器并不是将数据分成条带而是将数据同时写入两个硬盘。这样,其中任何一个硬盘的数据出现问题,可以马上从另一个硬盘中进行恢复。注意,这两个硬盘并不是主从关系,也就是说是相互镜像/恢复的。     RAID 1 已经可以算是一种真正的RAID 系统,它提供了强有力的数据容错能力,但这是由一个硬盘的代价所带来的效果,而这个硬盘并不能增加整个阵列的有效容量。下面总结下RAID 1的特点: 网络存储导论第一章:RAID-2 与汉明码 1.4 RAID-2 等级     Hamming Code ECC (汉明码错误检测与修正)     现在存储工程师要接触到RAID 系统中最为复杂的等级之一。RAID 2 之所以复杂就是因为它采用了早期的错误检测与修正技术----汉明码(Hamming Code )校验技术。因此在介绍RAID 2 之前有必要讲讲汉明码的原理。     汉明码的原理: 图 1-5 针对4 位数据的汉明码编码示意图     汉明码是一个在原有数据中插入若干校验码来进行错误检查和纠正的编码技术。以典型的4 位数据编码为例,汉明码将加入3 个校验码,从而使实际传输的数据位达到7 个(位),它们的位置如果把上图中的位置横过来就是: 图 1-6 汉明码原理     注:Dx中的x是2的整数幂(下面的幂都是指整数幂)结果,多少幂取决于码位,D1是0次幂,D8是3次幂,想想二进制编码就知道了     现以数据码1101 为例讲讲汉明码的编码原理,此时D8=1、D4=1、D2=0、D1=1,在P1 编码时,先将D8、D4、D1 的二进制码相加,结果为奇数3,汉明码对奇数结果编码为1,偶数结果为0,因此P1 值为1,D8+D2+D1=2 ,为偶数,那么P2 值为0,D4+D2+D1=2 ,为偶数,P3 值为0。这样,参照上文的位置表,汉明码处理的结果就是1010101 。在这个4 位数据码的例子中,存储工程师可以发现每个汉明码都是以三个数据码为基准进行编码的。图示就是它们的对应表(图1-6 ):     从编码形式上,存储工程师可以发现汉明码是一个校验很严谨的编码方式。在这个例子中,通过对4 个数据位的3 个位的3 次组合检测来达到具体码位的校验与修正目的(不过只允许一个位出错,两个出错就无法检查出来了,这从下面的纠错例子中就能体现出来)。在校验时则把每个汉明码与各自对应的数据位值相加,如果结果为偶数(纠错代码为0)就是正确,如果为奇数(纠错代码为1)则说明当前汉明码所对应的三个数据位中有错误,此时再通过其他两个汉明码各自的运算来确定具体是哪个位出了问题。     还是刚才的1101 的例子,正确的编码应该是1010101 ,如果第三个数据位在传输途中因干扰而变成了1,就成了1010111 。检测时,P1+D8+D4+D1 的结果是偶数4,第一位纠错代码为0,正确。P1+D8+D2+D1 的结果是奇数3,第二位纠错代码为1,有错误。P3+D4+D2+D1 的结果是奇数3,第三但纠错代码代码为1,有错误。那么具体是哪个位有错误呢?三个纠错代码从高到低排列为二进制编码110 ,换算成十进制就是6,也就是说第6 位数据错了,而数据第三位在汉明码编码后的位置正好是第6 位。     那么汉明码的数量与数据位的数量之间有何比例呢?上面的例子中数据位是4 位,加上3 位汉明码是7 位,而2 的3 次幂是8。这其中就存在一个规律,即2P≥P+D+1 ,其中P 代表汉明码的个数,D 代表数据位的个数,比如4 位数据,加上1 就是5,而能大于5 的2 的幂数就是3 (23=8,22=4)。这样,存储工程师就能算出任何数据位时所需要的汉明码位数:7 位数据时需要4 位汉明码(24>4+7+1),64 位数据时就需要7 位汉明码(27>64+7+1 ),大家可以依此推算。此时,它们的编码规也与4 位时不一样了。     另外,汉明码加插的位置也是有规律的。以四位数据为例,第一个是汉明码是第一位,第二个是第二位,第三个是第四位,1、2、4 都是2 的整数幂结果,而这个幂次数是从0 开始的整数。这样存储工程师可以推断出来,汉明码的插入位置为1(20)、2(21)、4(22)、8(23)、16(24)、32(25)…… 说完汉明码,下面就开始介绍RAID 2 等级。 图 1-7 RAID-2 结构图解     RAID 2 等级介绍:     由于汉明码是位为基础进行校验的,那么在RAID2 中,一个硬盘在一个时间只存取一位的信息。没错,就是这么恐怖。如图中所示,左边的为数据阵列,阵列中的每个硬盘一次只存储一个位的数据。同理,右边的阵列(存储工程师称之为校验阵列)则是存储相应的汉明码,也是一位一个硬盘。所以RAID 2 中的硬盘数量取决于所设定的数据存储宽度。如果是4 位的数据宽度(这由用户决定),那么就需要4 个数据硬盘和3 个汉明码校验硬盘,如果是64 位的位宽呢?从上文介绍的计算方法中,就可以算出来,数据阵列需要64 块硬盘,校验阵列需要7 块硬盘。     在写入时,RAID 2 在写入数据位同时还要计算出它们的汉明码并写入校验阵列,读取时也要对数据即时地进行校验,最后再发向系统。通过上文的介绍,存储工程师知道汉明码只能纠正一个位的错误,所以RAID 2 也只能允许一个硬盘出问题,如果两个或以上的硬盘出问题,RAID 2 的数据就将受到破坏。但由于数据是以位为单位并行传输,所以传输率也相当快。     RAID 2 是早期为了能进行即时的数据校验而研制的一种技术(这在当时的RAID 0、1 等级中是无法做到的),从它的设计上看也是主要为了即时校验以保证数据安全,针对了当时对数据即时安全性非常敏感的领域,如服务器、金融服务等。但由于花费太大(其实,从上面的分析中可以看出如果数据位宽越大,用于校验阵列的相对投资就会越小,就如上面的4:3 与64:7), 成本昂贵,目前已基本不再使用,转而以更高级的即时检验RAID 所代替,如RAID 3、5 等。 图 1-8 RAID 2 特点 网络存储导论第一章:RAID-3/-4/-5简介 1.5 RAID-3 等级 Parallel transfer with parity (并行传输及校验)     RAID 2 等级的缺点相信大家已经很明白了,虽然能进行即时的ECC,但成本极为昂贵。为此,一种更为先进的即时ECC 的RAID 等级诞生,这就是RAID 3。     RAID 3 是在RAID 2 基础上发展而来的,主要的变化是用相对简单的异或逻辑运算(XOR, eXclusive OR )校验代替了相对复杂的汉明码校验,从而也大幅降低了成本。XOR 的校验原理如下图1-9: 图 1-9 XOR 的校验原理     这里的A 与B 值就代表了两个位,从中可以发现,A 与B 一样时,XOR 结果为0,A 与B 不一样时,XOR 结果就是1,而且知道XOR 结果和A 与B 中的任何一个数值,就可以反推出另一个数值。比如A 为1,XOR 结果为1,那么B 肯定为0,如果XOR 结果为0,那么B 肯定为1。这就是XOR 编码与校验的基本原理。     RAID 3 的结构图如下: 图 1-10 RAID-3 结构图解     从图中可以发现,校验盘只有一个,而数据与RAID 0 一样是分成条带(Stripe )存入数据阵列中,这个条带的深度的单位为字节而不再是bit 了。在数据存入时,数据阵列中处于同一等级的条带的XOR 校验编码被即时写在校验盘相应的位置,所以彼此不会干扰混乱。读取时,则在调出条带的同时检查校验盘中相应的XOR 编码,进行即时的ECC。由于在读写时与RAID 0 很相似,所以RAID 3 具有很高的数据传输效率。     RAID 3 在RAID 2 基础上成功地进行结构与运算的简化,曾受到广泛的欢迎,并大量应用。直到更为先进高效的RAID 5 出现后,RAID 3 才开始慢慢退出市场。下面让存储工程师总结一下RAID 3 的特点: 注:主轴同步是指阵列中所有硬盘的主轴马达同步 图1-11 RAID 3 的特点     1.6 RAID-4 等级     Independent Data disks with shared Parity disk (独立的数据硬盘与共享的校验硬盘)     RAID 3 英文定义是Parallel transfer with parity ,即并行传输及校验。与之相比,RAID 4 则是一种相对独立的形式,这也是它与RAID 3 的最大不同。 图 1-12  RAID-4 图解     与RAID 3 相比,存储工程师发现关键之处是把条带改成了“块”。即RAID 4 是按数据块为单位存储的,那么数据块应该怎么理解呢?简单的话,一个数据块是一个完整的数据集合,比如一个文件就是一个典型的数据块。RAID 4 这样按块存储可以保证块的完整,不受因分条带存储在其他硬盘上而可能产生的不利影响(比如当其他多个硬盘损坏时,数据就完了)。     不过,在不同硬盘上的同级数据块也都通过XOR 进行校验,结果保存在单独的校验盘。所谓同级的概念就是指在每个硬盘中同一柱面同一扇区位置的数据算是同级。在写入时,RAID 就是按这个方法把各硬盘上同级数据的校验统一写入校验盘,等读取时再即时进行校验。因此即使是当前硬盘上的数据块损坏,也可以通过XOR 校验值和其他硬盘上的同级数据进行恢复。由于RAID 4 在写入时要等一个硬盘写完后才能写一下个,并且还要写入校验数据所以写入效率比较差,读取时也是一个硬盘一个硬盘的读,但校验迅速,所以相对速度更快。总之,RAID 并不为速度而设计。下面存储工程师总结一下RAID 4 的特点: 图 1-13 RAID-4 特点4     1.7 RAID5 等级     RAID5 和RAID4 相似但避免了RAID4 的瓶颈,方法是不用校验磁盘而将校验数据以循环的方式放在每一个磁盘中,RAID5 的控制比较复杂,尤其是利用硬件对磁盘阵列的控制,因为这种方式的应用比其他的RAID level 要掌握更多的事情,有更多的输出/入需求,既要速度快,又要处理数据,计算校验值,做错误校正等,所以价格较高,其应用最好是OLTP ,至于用于大型文件,不见得有最佳的性能。     RAID5 在不停机及容错的表现都很好,但如有磁盘故障,对性能的影响较大,大容量的快取内存有助于维持性能,但在OLTP 的应用上,因为每一笔数据或记录(record )都很小,对磁盘的存取频繁,故有一定程度的影响。某一磁盘故障时,读取该磁盘的数据需把共用同一校验值分段的所有数据及校验值读出来,再把故障磁盘的数据计算出来;写入时,除了要重覆读取的程序外,还要再做校验值的计算,然后写入更新的数据及校验值;等换上新的磁盘,系统要计算整个磁盘阵列的数据以回复故障磁盘的数据,时间要很长,如系统的工作负载很重的话,有很多输出/入的需求在排队等候时,会把系统的性能拉下来。但如使用硬件磁盘阵列的话,其性能就可以得到大幅度的改进,因为硬件磁盘阵列如Arena 系列本身有内置的CPU 与主机系统并行运作,所有存取磁盘的输出入工作都在磁盘阵列本身完成,不花费主机的时间,配合磁盘阵列的快取内存的使用,可以提高系统的整体性能,而优越的SCSI 控制更能增加数据的传输速率,即使在磁盘故障的情况下,主机系统的性能也不会有明显的降低。RAID5 要做的事情太多,所以价格较贵,不适于小系统,但如果是大系统使用大的磁盘阵列的话,RAID5 却是最便宜的方案。这一点后续章节将详尽介绍。 网络存储导论第二章:磁盘存储阵列详介 如何增加磁盘的存取(access)速度,如何防止数据因磁盘的故障而失落及如何有效的利用磁盘空间,一直是电脑专业人员和用户的困忧;而大容量磁盘的价格非常昂贵,对用户形成很大的负担。磁盘阵列技术的产生一举解决了这些问题。     过去十年来,CPU 的处理速度几乎是几何级数的跃升,内存(memory )的存取速度亦大幅增加,而数据储存装置主要是磁盘(hard disk) 的存取速度相较之下,较为缓慢。整个I/O 吞吐量不能和系统匹配,形成电脑系统的瓶颈,拉低了电脑系统的整体性能(throughout )若不能有效的提升磁盘的存取速度,CPU 、内存及磁盘间的不平衡将使CPU 及内存的改进形成浪费。     目前改进磁盘存取速度的方式主要有两种。一是磁盘快取控制(disk cache controller ),它将从磁盘读取的数据存在快取内存(cache memory )中以减少磁盘存取的次数,数据的读写都在快取内存中进行,大幅增加存取的速度,如要读取的数据不在快取内存中,或要写数据到磁盘时,才做磁盘的存取动作。这种方式在单工期环境(single-tasking envioronment )如DOS 之下,对大量数据的存取有很好的性能(量小且频繁的存取则不然),但在多工(multi-tasking) 环境之下(因为要不停的作数据交换(swapping )的动作)或数据库(database )的存取(因每一记录都很小)就不能显示其性能。这种方式没有任何安全保障。     其一是使用磁盘阵列的技术。磁盘阵列是把多个磁盘组成一个阵列,当作单一磁盘使用,它将数据以分段(striping )的方式储存在不同的磁盘中,存取数据时,阵列中的相关磁盘一起动作,大幅减低数据的存取时间,同时有更佳的空间利用率。磁盘阵列所利用的不同的技术,称为RAID level ,不同的level 针对不同的系统及应用,以解决数据安全的问题。     一般高性能的磁盘阵列都是以硬件的形式来达成,进一步的把磁盘快取控制及磁盘阵列结合在一个控制器(RAID controler )或控制卡上,针对不同的用户解决人们对磁盘输出/入系统的四大要求: · 增加存取速度。 · 容错(fault tolerance ),即安全性。 · 有效的利用磁盘空间。 · 尽量的平衡CPU,内存及磁盘的性能差异,提高电脑的整体工作性能。     2.1 磁盘阵列原理     1987 年,加州伯克利大学的一位人员发表了名为\"磁盘阵列研究\"的论文,正式提到了RAID 也就是磁盘阵列,论文提出廉价的5.25″及3.5″的硬盘也能如大机器上的8″盘能提供大容量、高性能和数据的一致性,并详述了RAID1 至5 的技术。     磁盘阵列针对不同的应用使用的不同技术,称为RAID level,RAID 是Redundant Array of Inexpensive Disks 的缩写,而每一level 代表一种技术,目前业界公认的标准是RAID0~RAID5。这个level 并不代表技术的高低,level5 并不高于level3,level1 也不低于level4,至于要选择哪一种RAID level 的产品,纯视用户的操作环境(operating environment )及应用(application) 而定,与level 的高低没有必然的关系。RAID0 没有安全的保障,但其快速,所以适合高速I/O 的系统;RAID1 适用于需安全性又要兼顾速度的系统,RAID2 及RAID3 适用于大型电脑及影像、CAD/CAM 等处理;RAID5 多用于OLTP,因有金融机构及大型数据处理中心的迫切需要,故使用较多而较有名气,但也因此形成很多人对磁盘阵列的误解,以为磁盘阵列非要RAID5 不可;RAID4 较少使用,和RAID5 有其共同之处,但RAID4 适合大量数据的存取。其他如RAID6, RAID7,乃至RAID10、50、100 等,都是厂商各做各的,并无一致的标准,在此不作说明。     总而言之,RAID0 及RAID1 最适合PC 服务器及图形工作站的用户,提供最佳的性能及最便宜的价格,以低成本符合市场的需求。RAID2 及RAID3 适用于大档案且输入输出需求不频繁的应用如影像处理及CAD/CAM 等;而RAID5 则适用于银行、金融、股市、数据库等大型数据处理中心的OLTP 应用;RAID4 与RAID5 有相同的特性及用方式,但其较适用于大型文件的读取。     2.2  磁盘阵列的额外容错功能     事实上容错功能已成为磁盘阵列最受青睐的特性,为了加强容错的功能以及使系统在磁盘故障的情况下能迅速的重建数据,以维持系统的性能,一般的磁盘阵列系统都可使用热备份(hot spare or hot standby drive )的功能,所谓热备份是在建立(configure )磁盘阵列系统的时候,将其中一磁盘指定为后备磁盘,此一磁盘在平常并不操作,但若阵列中某一磁盘发生故障时,磁盘阵列即以后备磁盘取代故障磁盘,并自动将故障磁盘的数据重建(rebuild )在后备磁盘之上,因为反应快速,加上快取内存减少了磁盘的存取,所以数据重建很快即可完成,对系统的性能影响不大。对于要求不停机的大型数据处理中心或控制中心而言,热备份更是一项重要的功能,因为可避免晚间或无人守护时发生磁盘故障所引起的种种不便。     备份盘又有热备份与温备份之分,热备份盘和温备份盘的不同在于热备份盘和阵列一起运转,一有故障时马上备援,而温备份盘虽然带电但并不运转,需要备援时才启动。两者分别在是否运转及启动的时间,但温备份盘因不运转,理论上有较长的寿命。另一个额外的容错功能是坏扇区转移(bad sector reassignment) 。坏扇区是磁盘故障的主要原因,通常磁盘在读写时发生坏扇区的情况即表示此磁盘故障,不能再作读写,甚至有很多系统会因为不能完成读写的动作而死机,但若因为某一扇区的损坏而使工作不能完成或要更换磁盘,则使得系统性能大打折扣,而系统的维护成本也未免太高了,坏扇区转移是当磁盘阵列系统发现磁盘有坏扇区时,以另一空白且无故障的扇区取代该扇区,以延长磁盘的使用寿命,减少坏磁盘的发生率以及系统的维护成本。所以坏扇区转移功能使磁盘阵列具有更好的容错性,同时使整个系统有最好的成本效益比。其他如可外接电池备援磁盘阵列的快取内存,以避免突然断电时数据尚未写回磁盘而丢失;或在RAID1 时作写入一致性的检查等,虽是小技术,但亦不可忽视。 网络存储导论第二章:磁盘阵列性能参考 2.3  多数据流对磁盘阵列系统性能的影响     2.3.1 单主机连接情况下的磁盘阵列存储系统性能     一般在单主机连接的情况下,磁盘或磁盘阵列拥有最好的性能。由于目前几乎所有的操作系统都是基于本身独自占有的文件系统,即文件系统只能被一个单一的操作系统所独有,所以操作系统或基于操作系统的应用软件可以在对存储系统进行数据读写的时候,针对磁盘存储系统的读写特点,无论操作系统还是应用软件都会对读写方式做最优化处理,以减少磁盘的物理寻道次数,降低磁盘的机械反应时间。每个程序进程的数据请求对其它的数据请求来说是不确定的,但由于操作系统本身的对数据访问的管理和控制,所有出自该操作系统的数据请求都被操作系统做了有序化处理,因此对于磁盘或磁盘阵列来说,数据读写请求是被优化过的,或者说在经过优化以后没有任何变化,这个时候存储系统拥有最佳的性能。     作为磁盘阵列,虽然在操作系统和各个磁盘驱动器之间增加了一层RAID 控制器,但目前所有的RAID 控制器本身只作为对磁盘容错的管理和校验的计算等一些必要的操作,并不对数据请求做合并、重新排序和优化处理,因为它的设计出发点是建立在单个主机连接的已经经过操作系统优化的和排序的数据请求的基础之上,它所拥有的缓存也只有直接缓存和计算缓存的功能,不对数据做排队处理,只是将主机端口过来的数据按着先进先计算先出的方式通过CPU 计算校验以后写入磁盘。缓存的性能虽然非常快,但其容量相对于多媒体数据来说并不足够大,在很快写满缓存以后,速度立即衰减到实际操作磁盘的速度。     所以RAID 控制器的功能只是将许多磁盘组成一个或多个大的容错的磁盘,并且利用每个磁盘上的缓存的缓冲存储功能提高整体的数据读写速度,RAID 控制器的读缓存可以在短时间内再次读取同一数据的情况下明显提高磁盘阵列的读性能。整个磁盘阵列的实际的最高读写速度受到主机通道带宽、控制器CPU 的校验计算和系统控制能力(RAID 引擎)、磁盘通道带宽和磁盘性能(每个磁盘有自己的最高性能,这里指多个磁盘总的实际性能)中的最低值的限制。另外,操作系统的数据请求的优化基础与RAID 格式不匹配,也会对磁盘阵列的性能造成很大的影响,如I/O 请求的数据块大小与RAID 的数据段大小不匹配等。     2.3.2  多主机同时访问下,传统磁盘阵列存储系统的性能变化     首先,分析在视音频应用环境中来自不同主机的多个媒体流对小规模磁盘阵列存储系统性能的影响。 小规模磁盘阵列存储系统一般拥有单个或一对冗余的磁盘阵列控制器,所能连接的磁盘的数量较少,具有基本的容错和管理功能,结构相对简单。     在存储区域网络的多主机共享存储环境中,虽然每台主机对自己所发出的数据请求做了排序和优化,但各个主机之间的数据流对共享的存储系统来说是无序的,导致了更多的磁盘重新寻道次数、更多的数据段头尾信息和更多的数据碎片读出、合并、校验计算和再写入过程。这样导致存储的性能比单主机连接时下降许多,主机连接得越多,磁盘系统的性能下降的幅度就越大。     图2-1 显示了一个磁盘阵列在多主机同时访问的环境中的测试结果,多主机的同时访问造成磁盘阵列总性能的衰减。一般情况下,不同磁盘阵列、不同的磁盘阵列设置和使用不同种类的磁盘驱动器,测试结果会稍有不同,但都不可避免地出现性能明显衰减的状况。 图2-1 在多主机的数据流同时访问时小规模磁盘阵列总性能的衰减     其次,分析在视音频应用环境中来自不同主机的多个媒体流对大规模磁盘阵列存储系统性能的影响。 所谓大规模磁盘阵列存储系统,一般是指在一个存储系统中使用总线结构或交叉点交换结构将多个存储子系统(磁盘阵列)连接起来,并在总线中或交换结构中使用大容量的缓存和用于更多主机连接的类似于通道集线器或交换机的主机连接模块,最后通过复杂的存储管理软件组合成的大型的存储系统。这种存储系统可以提供比单个小的磁盘阵列更大的容量和更高的性能。象采用总线结构的EMC 的Symmetrix 系统在单个磁盘阵列的性能只能达到25 至50M 字节/秒时,它的最高性能就可以到100M 字节/秒,甚至在使用RAID10 (磁盘镜像)时最高可到200 至300M 字节/秒。象采用总线结构和交叉点交换结构(最新的系统)日立的两种存储系统,也可以到类似于Symmetrix RAID10 的实际性能。     一般在这类存储系统中缓存对性能都有巨大的贡献,但只有在事务处理应用和类似于邮电计费的应用中才起作用。几十G 字节的缓存可以存储数小时的事务处理数据,系统可以从容地在空闲时将数据写入磁盘,物理卷的非常小的数据段设置也足以说明这类存储系统只适合于事务处理类应用。对于多媒体数据来说几十G 字节的缓存相当于几十秒或几分钟的数据量,缓存写满以后将考验系统直接从磁盘上访问数据的能力。而一般的这类系统虽然拥有几十个100M 字节/秒带宽的光纤通道主机连接端口,但内部集成的多个磁盘阵列子系统与一般的用于事务处理的磁盘阵列并没有什么不同,磁盘阵列子系统的一个控制器的一个逻辑单元的性能在只有一个主机访问这个逻辑单元的情况下可以有25 至50M 字节左右的实际性能。在多主机访问同一个逻辑单元的情况下,由于在所有的这些系统中没有数据重新排序和优化功能(总线结构和交叉点交换结构决定了这一点),所以同样会产生较大的性能影响。     但这种性能衰减与小规模的磁盘阵列的性能衰减有所不同。由于在这种大规模磁盘阵列存储系统内部包括了相对独立的多个磁盘阵列子系统(例如四个或八个),每个磁盘阵列子系统由一对磁盘控制器组成,在不同的主机访问不同的磁盘阵列子系统时各自的性能不受影响,只受到系统总线带宽的限制。所以在多主机的数据流访问平均分布在不同的存储子系统中时,它的多主机的支持能力可以是小规模磁盘阵列系统的几倍。     在这种大规模磁盘阵列存储系统中,一个逻辑单元只能建立在单个磁盘子系统中,由于单个磁盘阵列子系统的内部串行结构,决定了一个逻辑单元只能通过一个串行路径来提供给用户,所以大规模磁盘阵列存储系统并不能提高单个逻辑单元的性能。单个逻辑单元的性能很低,一般只有25 至50M 字节/秒的实际性能。但在事务处理类应用中这种结构大大提高了性能,因为在这类应用中可以根据事务处理的特点,每个事务处理数据都非常小,但数量庞大有一定的统计规律性,可以利用数据库将同时到来的事务处理数据分类,将它们尽量平均分布在不同的磁盘子系统中,同时利用磁盘子系统外部的大容量缓存,可以大大地提高整个存储系统的性能。而对于视音频数据流的应用,用户数据访问的单个数据流一般都很大,但访问次数相对较小,即使有一定的规律性也有可能发生对不同逻辑单元的需求不均衡的现象,这样极易造成某个逻辑单元阻塞或性能明显下降。所以这种大规模磁盘阵列存储系统并不适合使用于视音频和多媒体的应用领域。     第三,在视音频应用环境中来自不同主机的多个媒体流对NAS 存储系统性能的影响。     NAS 存储系统是建立在传统RAID 技术的基础上,发挥单个主机连接时磁盘阵列系统拥有最好的性能的特点,使用NFS 和CIFS 协议将瘦服务器连接的存储系统通过以太网共享给外部的用户。由于瘦服务器削减了与存储管理和数据通讯无关的各种功能,优化了TCP/IP 协议的数据传输能力,同时使用多个(目前最多十个)并行的TCP/IP 数据传输,使单个NAS 存储系统的最大共享速度可以达到60M 字节/秒左右。     在多主机连接的环境中,由于使用的是以太网的连接,来自不同主机的数据进入瘦服务器以后通过瘦服务器的操作系统或数据管理应用软件的管理和重新排序后以最优的方式写入磁盘系统,这样一来磁盘系统本身没有明显的性能衰减。这也是NAS 存储能在目前得到相当的发展的一个主要的原因之一,它的特点使它适合应用于需要数据共享的应用环境当中。 网络存储导论第二章:NAS实例介绍(一) 但是,NAS 有很多特点限制了它在视音频和多媒体应用领域的应用。一个独立的数据流只能使用一个TCP/IP 传输流,不能使用两个或两个以上的TCP/IP 流来将一个媒体流分成几部分同时传输。这样一来,由于单个TCP/IP 流由其协议的限制最多可以到6M 字节/秒左右,造成对媒体流大小的限制。同时大多数媒体流具有实时性,而TCP/IP 的打包传输特点不能提供一个持续稳定的传输,会导致媒体流的掉帧的或质量的下降。NAS 的共享能力只有60M 字节/秒,而对于实时性很强的媒体流类型应用来说,有效的共享能力可能只有30 至40M 字节/秒,这种有限的共享能力对存储工程师目前的需求来说是远远不够的。在媒体流应用中,如果用户的需求超过NAS 存储所能提供的共享能力时,将导致对每一个用户的服务质量下降。在使用多个NAS 系统时,由于视音频数据流的应用的特点,用户数据访问的数据流一般都很大,但访问次数相对较小,即使有一定的规律性也有可能发生对不同NAS 系统的需求不均衡的现象,这样极易造成某个NAS 系统阻塞。所以NAS 存储系统也同样不适合使用于视音频和多媒体的共享应用领域。     以下举例分析。     产品1:DataDirect Networks 公司的SAN DataDirector      DataDirect Networks 公司的SAN DataDirector 存储区域网络设备是一个全新的存储系统概念。它无论对单台主机有序的数据访问还是来自多台主机的不确定的数据访问,它都拥有同样的高性能:单台SDD 实际的写性能可以到760M 字节/秒,实际的读性能可以到800M 字节/秒,单个逻辑单元的性能可以到650 至700M 字节/秒。这样高的性能来自于它的独特的对存储区域网络的多主机环境进行专门设计的并行体系结构,它不只是一个高性能的存储系统,它还是一个存储区域网络的基础结构设备。     多CPU 的并行处理技术,尤其是其中的软件技术一直当今世界计算机应用领域的一大难题。不同种类的CPU 对于不同种类用途的并行处理能力是不同的,DataDirect Networks 公司采用独特的软硬件技术率先将适用于IO 处理的RISC CPU 的并行处理技术应用于存储和存储区域网络管理系统当中,彻底改变了总线结构和交叉点交换结构在这一领域的跟不上发展需求的现状。     DataDirect Networks 公司的SAN DataDirector 存储区域网络设备拥有八个用于连接主机或连接存储区域网络连接设备的主机接口和二十个用于可以连接高达1250 块磁盘驱动器的磁盘接口。在每一个端口上都有一个用于与其它端口进行并行处理的GALEFORCe 特定用途集成电路。在这二十八个GALEFORCe 特定用途集成电路中,每个包含一个RISC 处理器,用于控制和区分命令路径和数据路径,向主机以及存储器提供高速的数据传输路径。巨大的并行处理缓存池与DMA 之间的高速数据信息包传送机制和这些特定用途集成电路的结合,为所有的主机提供了通过缓存池对所有的存储进行直接的和并行的访问能力。     由于所有的数据访问都要经过缓存,SDD 的并行处理机制将无论是来自单台主机的有序数据访问请求还是来自多台主机的不确定的数据访问请求都进行重新排队和有序化,SDD 的并行处理机制为来自所有端口的数据进行统一排序提供了基础。同时SDD 的GALEFORCe 特定用途集成电路不只在互相之间做功能强大的并行处理,而且还利用磁盘驱动器提供的软件接口,跟所有的与SDD 磁盘端口相连接的磁盘驱动器的内置处理器进行并行处理,通过磁盘驱动器内置处理器对数据请求命令再次排序并且充分有效地利用磁盘的自带缓存。这种独特的SDD 与所有磁盘驱动器的一体化并行处理,最大限度地、充分地最小化了驱动器的寻道次数,将磁盘驱动器的机械反应时间降到最低。SDD 不但没有在多主机访问时产生性能衰减,而且还利用多台主机的并发数据访问发挥出它的单台主机无法用到的极高的性能。     SDD 独有的另外一个突破性的技术是directRAID 技术,它对系统性能的贡献与SDD 的并行处理技术同样重要。directRAID 技术结合并行处理技术征服了传统RAID 技术的单数据流限制,使多个校验组数据流可以在一个directRAID 中并行存在,多个校验磁盘同时运行,在提供无缝的数据保护的同时不引起丝毫的性能衰减。它的重建操作只需要传统RAID 技术的三分之一的时间,消除了传统RAID 技术在重建时停止工作或性能明显下降的现象。     这种将冗余组和逻辑单元之间关系虚拟化的directRAID 技术在首先提供了比传统RAID 技术的更高的数据保护功能以外,它为存储工程师带来了比传统的RAID 系统高数十倍的单逻辑单元并发数据访问性能,使单逻辑单元的数据访问能力可以达到650 至700M 字节/秒,并且这个性能在多主机的情况下没有衰减。这种非常高的单逻辑单元性能解决了在视音频和多媒体的共享应用环境中的对某一个逻辑单元数据的需求不均衡的现象造成的阻塞问题,消除了人工负载均衡的难题。     DataDirect Networks 公司的SAN DataDirector 存储区域网络设备是目前世界上拥有最高性能价格比的存储系统,是适用于大规模视音频媒体流共享应用领域的存储系统中的最佳选择。 网络存储导论第二章:NAS实例介绍(二) 举例2:HDS 公司的Lightning9960 存储系统分析:     Lightning9960 的体系结构如图一所示,主机接口最大可以使用四个CHIP 对,每个CHIP 对由两个可以互相备份(每个主机必须通过两个光纤通道适配器同时与两个CHIP 的一个口连接)的CHIP 组成,每个CHIP 拥有四个光纤通道(ESCON 接口在本文中将不涉及,但并不影响存储工程师对性能的讨论)主机接口和两个用于与内部两个交换机连接的光纤通道接口,四个CHIP 对共有32 个光纤通道主机接口和16 个光纤通道的与内部交换机相连接的接口。在Lightning9960 的中间采用两个Crossbar 交换机,每个交换机都与每个CHIP、每个缓存块和每个磁盘阵列控制器的光纤通道相连接。Lightning9960 最多有四块8GB 的缓存,缓存是CHIP 与控制器之间数据的必经缓冲区,它与交换机之间共有16 个光纤通道连接(图中只画出了8 个)。在体系结构的最下面是四对磁盘阵列控制器,每对控制器有四个连接交换机的通道和8 个用于连接磁盘驱动器的磁盘通道。控制器对中的不同控制器的两个磁盘通道同时连接到双端口磁盘的两个端口上提供备份连接,所以每对控制器实际有4 个独立的磁盘通道。     z Lightning9960 的数据通道带宽:     从Lightning9960 的结构图中可以计算出每部分的带宽是:32 个光纤通道主机端口总带宽为3200MB/ 秒;CHIP 与交换机之间的总带宽为1600MB/ 秒;在交换机到缓存之间的总带宽为1600MB/ 秒;在缓存到交换机之间的总带宽为1600MB/ 秒(缓存和交换机之间是双向传输所以此项带宽与上一项带宽互相不影响);交换机到磁盘阵列控制器的总带宽为1600MB/ 秒;内部磁盘通道的总带宽为1200MB/ 秒(因为每对磁盘阵列控制器的四个磁盘通道中在做RAID5 时有一个通道的带宽被用来做校验)。由于所有以上的带宽都是串行结构,所以Lightning9960 的数据通道实际总带宽受到链路中最小值1200MB/ 秒的限制。但数据通道带宽并不等于整个系统的实际性能,实际的性能将受到每个磁盘阵列控制器(ACP)的RAID 引擎、系统整个体系结构和应用环境的影响,下面将讨论在应用中的实际性能。      z Lightning9960 的体系结构: 图2-2  Lightning9960 磁盘阵列系统的体系结构(图中只给出数据通路的结构图)     z Lightning9960 的实际性能:     Lightning9960 存储系统中每个磁盘阵列的性能由于受到每个磁盘阵列控制器(ACP )的RAID 引擎的限制,单个控制器的性能只有60MB/ 秒左右,而且无论使用控制器的一个通道还是两个通道结果都是同样的,这个结果是在单主机有序的数据请求下的实际结果。所有的Lightning9960 中的8 个控制器,在每个控制器都在单主机访问的情况下,总的最大的实际性能为480MB/ 秒左右。而在存储区域网络的实际应用环境中,数据访问来自多个主机,在这种情况下,Lightning9960 的实际性能将迅速衰减,如果不确定的数据请求来自8 台主机以上,总性能将衰减到100 到200MB/ 秒左右。但在Lightning9960 存储系统中,有8 个用于主机连接的CHIP, 它为系统在多主机连接情况下的实际性能的提高做了巨大的贡献。由于每个CHIP 可以将与它连接的所有的不同主机来的I/O 请求重新排队,这样一来,从每个CHIP 进入系统中的数据请求变成有序的I/O 请求,使整个系统的在无论连接多少个主机时,不确定的数据流只有8 个来自不同CHIP 的数据流,优化了系统的性能。     在只有8 个不确定的数据流的情况下,存储工程师来讨论一下Lightning9960 存储系统的实际性能。对单一控制器的逻辑单元来说,对它的数据访问有可能只来自一个CHIP 也有可能来自多个CHIP(最多8 个),外部连接的主机越多来自多个CHIP 的可能性越大。而对于存储工程师目前视音频媒体流应用中,共享的主机数量一般在几十个到几百个左右,在这种情况下,对单一控制器的逻辑单元的数据访问来自多个CHIP 的可能性较大,假如对某一控制器的逻辑单元的数据访问来自6 个左右的CHIP,那么总的实际系统性能将在200MB/ 秒左右。     在Lightning9960 存储系统中单个CHIP 对数据请求的排序,在一定程度上优化了系统的实际性能,但多个CHIP 之间没有进行统一排序使本系统的实际性能并没有得到很大提高。     在多媒体共享应用中,Lightning9960 存储系统中的单个逻辑单元的性能限制是一个非常严重的缺陷,单个逻辑单元的最大性能只有60MB/ 秒,而在处理同时来自不同CHIP 的数据请求时,性能将急剧下降,有可能只有20MB/ 秒左右。     综上所述,从实际性能和单逻辑单元两方面来看,Lightning9960 存储系统适合用于对并发流实际带宽要求不是很高的视音频流共享应用领域。但在事务处理类应用领域,因为大容量的缓存可以存储数小时的数据,以及在这里没有讨论的比其他系统更强大的用于传输配置信息和控制信息的具有64 个入口的共享存储器(shared memory ),使Lightning9960 存储系统在该领域有非常好的I/O 处理性能表现,实际的I/O 处理能力可以到60000 个I/Os 左右。 网络存储导论第二章:磁盘阵列存储术语 2.4 相关磁盘阵列存储术语     为了便于读者阅读本书的后续章节,这里给出了一部分必要的磁盘阵列存储术语。为了保持章节的紧凑性,其具体技术细节不再进行介绍     SCSI     就是Small Computer System Interface (小型计算机系统接口),它最早研制于1979 ,是为小型机研制出的一种接口技术,但随着电脑技术的发展,现在它被完全移植到了普通PC 上。     ATA(AT 嵌入式接口)     即俗称的IDE,设计该接口的目的就是为了将1984 年制造的 AT 计算机中的总线直接与结合在一起的驱动器和控制器相连。ATA 中的“AT” 就来源于首次使用ISA 总线的 AT 计算机。     ATA 从最早的ATA-1 开始,已经经历了从ATA-1 、ATA-2、ATA-3 、Ultra ATA 、Ultra ATA/33 、Ultra ATA/66、Ultra ATA/100 、Ultra ATA/133 的发展历程。     Serial ATA (串行ATA)     采用的是串行数据传输方式,每一个时钟周期只传输一位数据。ATA 硬盘一直都采用并行传输模式,线路间的信号会互相干扰,在高速数据传输过程中,影响系统的稳定性。由于串行传输方式不会遇到信号串扰问题,所以要提高传输速度只需要提高工作频率即可。Serial ATA 只需4 线电缆。     SATA 采用的是点对点的传输方式,使得用户在使用SATA 硬盘时不再需要设置硬盘的主从盘,而直接每个硬盘对应一个数据通道直接连接系统。SATA1.0 的标准规定,硬盘的接口传输速率为150MB/s,SATA 可扩展到2X 和4X 的规格,相应的传输速率则分别提升至了300MB/s 和600MB/s 。SATA 硬盘还可以实现热插拔功能,不过目前为止还没有操作系统支持这项功能,人们还要等到微软的下一代操作系统Windows Longhorn 面世后才能享受到这项功能带来的便利。     NAS(Network Attached Storage-网络附加存储)     即将存储设备通过标准的网络拓扑结构(例如以太网),连接到一群计算机上。NAS 是部件级的存储方法,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求。     DAS(Direct Attached Storage-直接附加存储)     是指将存储设备通过SCSI 接口或光纤通道直接连接到一台计算机上。DAS 产品包括存储器件和集成在一起的简易服务器,可用于实现涉及文件存取及管理的所有功能。     SAN(Storage Area Network-存储局域网络)     通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接,但并非通过标准的网络拓扑。SAN 专注于企业级存储的特有问题,主要用于存储量大的工作环境。     Array:阵列     磁盘阵列模式是把几个磁盘的存储空间整合起来,形成一个大的单一连续的存储空间。RAID 控制器利用它的SCSI 通道可以把多个磁盘组合成一个磁盘阵列。简单的说,阵列就是由多个磁盘组成,并行工作的磁盘系统。需要注意的是作为热备用的磁盘是不能添加到阵列中的。     Array Spanning:阵列跨越     阵列跨越是把2 个,3 个或4 个磁盘阵列中的存储空间进行再次整合,形成一个具有单一连续存储空间的逻辑驱动器的过程。RAID 控制器可以跨越连续的几个阵列,但每个阵列必需由相同数量的磁盘组成,并且这几个阵列必需具有相同的RAID 级别。就是说,跨越阵列是对已经形成了的几个阵列进行再一次的组合,RAID 1,RAID 3 和RAID 5 跨越阵列后分别形成了RAID 10,RAID 30 和RAID 50 。     Cache Policy :高速缓存策略     RAID 控制器具有两种高速缓存策略,分别为Cached I/O (缓存I/O )和Direct I/O (直接I/O)。缓存I/O 总是采用读取和写入策略,读取的时候常常是随意的进行缓存。直接I/O 在读取新的数据时总是采用直接从磁盘读出的方法,如果一个数据单元被反复地读取,那么将选择一种适中的读取策略,并且读取的数据将被缓存起来。只有当读取的数据重复地被访问时,数据才会进入缓存,而在完全随机读取状态下,是不会有数据进入缓存的。     Capacity Expansion :容量扩展     在RAID 控制器的快速配置工具中,设置虚拟容量选项为可用时,控制器将建立虚拟磁盘空间,然后卷能通过重构把增加的物理磁盘扩展到虚拟空间中去。重构操作只能在单一阵列中的唯一逻辑驱动器上才可以运行,你不能在跨越阵列中使用在线扩容。     Channel:通道     在两个磁盘控制器之间传送数据和控制信息的电通路。     Format :格式化     在物理驱动器(硬盘)的所有数据区上写零的操作过程,格式化是一种纯物理操作,同时对硬盘介质做一致性检测,并且标记出不可读和坏的扇区。由于大部分硬盘在出厂时已经格式化过,所以只有在硬盘介质产生错误时才需要进行格式化。     Hot Spare:热备用     当一个正在使用的磁盘发生故障后,一个空闲、加电并待机的磁盘将马上代替此故障盘,此方法就是热备用。热备用磁盘上不存储任何的用户数据,最多可以有8 个磁盘作为热备用磁盘。一个热备用磁盘可以专属于一个单一的冗余阵列或者它也可以是整个阵列热备用磁盘池中的一部分。而在某个特定的阵列中,只能有一个热备用磁盘。     当磁盘发生故障时,控制器的固件能自动的用热备用磁盘代替故障磁盘,并通过算法把原来储存在故障磁盘上的数据重建到热备用磁盘上。数据只能从带有冗余的逻辑驱动器上进行重建(除了RAID 0 以外),并且热备用磁盘必须有足够多的容量。系统管理员可以更换发生故障的磁盘,并把更换后的磁盘指定为新的热备用磁盘。     Hot swap Disk Module :热交换磁盘模式     热交换模式允许系统管理员在服务器不断电和不中止网络服务的情况下更换发生故障的磁盘驱动器。由于所有的供电和电缆连线都集成在服务器的底板上,所以热交换模式可以直接把磁盘从驱动器笼子的插槽中拔除,操作非常简单。然后把替换的热交换磁盘插入到插槽中即可。热交换技术仅仅在RAID 1,3,5,10,30 和50 的配置情况下才可以工作。     I2O(Intelligent Input/Output ):智能输入输出     智能输入输出是一种工业标准,输入输出子系统的体系结构完全独立于网络操作系统,并不需要外部设备的支持。I2O 使用的驱动程序可以分为操作系统服务模块(operating system services module,OSMs )和硬件驱动模块(hardware device modules,HDMs)。     Initialization :初始化     在逻辑驱动器的数据区上写零的操作过程,并且生成相应的奇偶位,使逻辑驱动器处于就绪状态。初始化将删除以前的数据并产生奇偶校验,所以逻辑驱动器在此过程中将一并进行一致性检测。没有经过初始化的阵列是不能使用的,因为还没有生成奇偶区,阵列会产生一致性检测错误。     IOP(I/O Processor ):输入输出处理器     输入输出处理器是RAID 控制器的指令中心,实现包括命令处理,PCI 和SCSI 总线的数据传输,RAID 的处理,磁盘驱动器重建,高速缓存的管理和错误恢复等功能。     Logical Drive :逻辑驱动器     阵列中的虚拟驱动器,它可以占用一个以上的物理磁盘。逻辑驱动器把阵列或跨越阵列中的磁盘分割成了连续的存储空间,而这些存储空间分布在阵列中的所有磁盘上。RAID 控制器能设置最多8 个不同容量大小的逻辑驱动器,而每个阵列中至少要设置一个逻辑驱动器。输入输出操作只能在逻辑驱动器处于在线的状态下才运行。     Logical Volume :逻辑卷     由逻辑磁盘形成的虚拟盘,也可称为磁盘分区。     Mirroring :镜像     冗余的一种类型,一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像。RAID 1 和RAID 10 使用的就是镜像。Parity :奇偶校验位     在数据存储和传输中,字节中额外增加一个比特位,用来检验错误。它常常是从两个或更多的原始数据中产生一个冗余数据,冗余数据可以从一个原始数据中进行重建。不过,奇偶校验数据并不是对原始数据的完全复制。     在RAID 中,这种方法可以应用到阵列中的所有磁盘驱动器上。奇偶校验位还可以组成专用的奇偶校验方式,在专用奇偶校验中,奇偶校验数据可分布在系统中所有的磁盘上。如果一个磁盘发生故障,可以通过其它磁盘上的数据和奇偶校验数据重建出这个故障磁盘上的数据。     Snapshot:快照     快照(Snapshot) 是静态映像(Frozen Image) 的备份技术,是一种保留某一时刻文件系统映像的技术,其核心是对备份和恢复过程采取“即时”(point-in-time) 数据拷贝的方式。Snapshot 可以很快的产生多个当前数据的快照,这些快照可用于数据备份,数据分析,数据恢复,以及提供给其它程序数据等。与备份软件系统、镜像软件系统相比,它具有自己的特色:如可以避免大数据量备份时长时间无法提供服务的问题,可以实现数据的即时恢复,实时数据分析等特有功能。     Power Fail Safeguard :掉电保护     当此项设置为可用时,在重构过程中(非重建),所有的数据将一直保存在磁盘上,直到重构完成后才删除。这样如果在重构过程中发生掉电,将不会发生数据丢失的危险情况。 网络存储导论第三章:FC 交换机和 SAN 3.1 存储与网络     由于计算机技术不断向更便宜,更有效的方向发展,早期的主机式计算机也从大型的中心式系统演化为便捷的,企业级的服务器。同时,网络技术也对计算机平台的演化产生了相应的影响。随着这两项技术的逐渐成熟,以及对计算机处理能力和相关数据需求的不断增长,更快,可达性更好的存储技术将得到更多的市场驱动,存储网络也因此而到来。     在过去的10 至15 年中,商业的模式发生了重大的改变。这其中,基于因特网的商业模式的爆炸性增长给信息的获取和存储技术带来了新的挑战。不断增长的对存储能力的需求使许多IT 组织不堪重负,因此,发展一种具有成本效益的和可管理的先进存储方式就成为必然。     3.2 存储网络基础     3.2.1 SCSI     SCSI 是连接存储设备与服务器的最通用的方法。SCSI 产生于1979 年,是支持一到两个磁盘的8-bit 的并行总线接口。这一协议不断发展,直至成为其他存储相关技术的基础。今天,串行SCSI 成为了存储设备领域里,具有层结构和良好体系结构的协议族。     美国国家信息技术委员会所制定的T10 标准,也就是SAM-2 ,为SCSI 的实现提供了一个层次化的模型。这一框架包括SCSI 驱动器软件,物理互联,命令实现以及存储管理。这些内容在一起为SCSI 的互操作性和可扩展性提供了可能。它支持多驱动器类型,排队,多任务,缓存,自动驱动器ID 识别,双向接口操作等内容。SCSI-3 命令集将逻辑层转化为基于包的格式,从而为网络传输提供了可能。目前对串行SCSI 有多种实现,包括Fibre Channel, Apple's Firewire, SSA 等。最近又有iSCSI。     SCSI 标准共提供了三种可能的电气配置: · 低成本的单端可选配置,适用于临近设备的连接,距离最大为6 米; · 较昂贵的HVD,可支持25 米距离,具有较好的抗噪声性能; · 最近提出的LVD ,支持SCSI-3 ,作用距离可达12 米。     随着基于因特网的应用的不断增长,不断加速的信息需求使得存储容量的增长速度超过了服务器处理能力的增长速度。一方面是服务器有限的内部存储极限,另一方面是不断增长的存储内容,这就要求服务器的存储"外部化",以适应新的应用的要求。然而随着存储容量的不断增长和服务器的不断发展,在单一的服务器上实现同时对应用环境和存储环境管理就成为了一项新的挑战。将服务器和存储器分开虽然有助于提高这方面的管理能力,但是SCSI 的25 米极限,以及它的速度和共享能力,还是一个重要问题。     3.2.2 TCP/IP     TCP 协议和IP 协议共同构成了通信协议族。这组协议是因特网获得成功的主要因素。一方面它们的扩展性很强,可以实现巨大的网络,另一方面TCP/IP 也在因特网不同的使用者之间实现了安全和可靠的信息共享。由于这些特性的存在,使得因特网成为了一个真正的开放性网络,它可以支持数以百万计的家庭,学校,政府,公司直至世界的遥远角落。由于TCP/IP 能够支持大量的网络技术,所以它完全有能力成为全球存储网络的基础。     3.2.3 Ethernet     Ethernet 是今天局域网领域得到最广泛使用的技术。它是IEEE802.3 标准。最早是Xerox 公司所开发。因为它是桌面电脑互联的最佳技术,所以得到Intel 公司和Digital 公司的进一步开发。它的发展经历了10Mbps 到100Mbps 再到1000Mbps 的过程。现在,10Gbps 的Ethernet 也即将问世。     10Gbps 的Ethernet 和TCP/IP 的组合为存储网络应用的实现提供了引人注目的解决方案。     3.2.4 Fibre Channel     大多数的存储域网络(Storage-Area Networks) 都是基于一个叫Fibre Channel(FC) 的体系结构。FC 的发展是为了解决服务器和存储设备之间通信的诸多要求的。这些要求包括速度,容量,可靠性等等。目前它能够实现1Gbps 及2Gbps 的速率。它可以实现100MB/sec 半工和200MB/sec 全工的持续吞吐量。 网络存储导论第三章:存储体系结构基础 3.3 体系结构基础     3.3.1 直连式存储(Direct Attached Storage)     由于早期的网路十分简单,所以直连式存储得到发展。到了二十世纪八十年代,计算由大型的集中式系统发展到灵活的客户端服务器分布式模型。正是尚处在初级阶段的局域网推动了这一转变。连接服务器的存储(Server-Attached Storage) 和直连存储类似,但使用的却是分布式的方法,并仰赖与局域网的连接得以实现。随着计算能力,内存,存储密度和网络带宽的进一步增长,越来越多的数据被存储在个人计算机和工作站中。分布式的计算和存储的增长对存储技术提出了更高的要求。     今天,所有的存储操作都要通过CPU 的I/O 操作来完成。由于使用DAS,存储设备与主机的操作系统紧密相连,其典型的管理结构是基于SCSI 的并行总线式结构。存储共享是受限的,原因是存储是直接依附在服务器上的。从另一方面看,系统也因此背上了沉重的负担。因为CPU 必须同时完成磁盘存取和应用运行的双重任务,所以不利于CPU 的指令周期的优化。     3.3.2 网络存储设备(Network Attached Storage)     局域网在技术上得以广泛实施,在多个文件服务器之间实现了互联,为实现文件共享而建立一个统一的框架。随着计算机的激增,大量的不兼容性导致数据的获取日趋复杂。因此采用广泛使用的局域网加工作站族的方法就对文件共享,互操作性和节约成本有很大的意义。NAS 包括一个特殊的文件服务器和存储。     NAS 服务器上采用优化的文件系统,并且安装有预配置的存储设备。由于NAS 是连接在局域网上的,所以客户端可以通过NAS 系统,与存储设备交互数据。     另外,NAS 直接运行文件系统协议,诸如NFS,CIFS 等。客户端系统可以通过磁盘映射和数据源建立虚拟连接。     3.3.3 存储网络(Storage Area Networks)     一个存储网络是一个用在服务器和存储资源之间的,专用的,高性能的网络体系。它为了实现大量原始数据的传输而进行了专门的优化。因此,可以把SAN 看成是对SCSI 协议在长距离应用上的扩展。     SAN 使用的典型协议组是SCSI 和Fibre Channel(SCSI-FCP)。Fibre Channel 特别适合这项应用,原因在于一方面它可以传输大块数据(这点类似于SCSI),另一方面它能够实现远距离传输(这点又与SCSI 不同)。     在2000-2003 年的发展时期,SAN 的市场主要集中在高端的,企业级的存储应用上。 图3-1 网络存储的附加影响     这些应用对于系统的性能,系统构建的冗余度以及数据整合的便捷都有很高的要求。这里,FC SAN 可以说是一个主要的潮流。随着技术的进步和市场的竞争,2004 年开始, IP SAN 异军突起,作者认为,对于10G 以太网的迅速商业化,IP SAN 将有一个特别的发展。     3.3.4 SAN 与NAS 区别和联系     当对SAN 和NAS 进行比较时,这两种相互竞争的技术实际上是互补的。SAN 和NAS 是在不同用户需求的驱动下的独立事件。SAN 是以数据为中心的,而NAS 是以网络为中心的。概括来说,SANs 具有高带宽块状数据传输的优势,而 NAS 则更加适合文件系统级别上的数据访问。用户可以部署 SAN 运行关键应用,比如数据库、备份等,以进行数据的集中存取与管理;而NAS 支持若干客户端之间或者服务器与客户端之间的文件共享,所以用户可使用NAS 作为日常办公中需要经常交换小文件的地方,比如文件服务器、存储网页等。越来越多的设计是使用SAN 的存储系统作为所有数据的集中管理和备份,而需要文件级的共享即File system I/O 则使用NAS 的前端(所谓前端,即只有CPU 及OS,OS 可以是windows 或Unix 的内核或简化版,不包含盘体装载数据),后端还是会集中到SAN 的磁盘阵列中采取数据,提供高性能、大容量的存储设备。     NAS 和SAN 在以下方面提供互补: · NAS 产品可以放置在特定的SAN 网络中,为文件传输提供优化的性能 · SAN 可以扩展为包括IP 和其他非存储关联的网络协议     从总体拥有成本(TCO)方面来分析,DAS 由于单独部署的原因造成了总体拥有成本居高不下,部署SAN 可以显著地节用户的投资成本,而Cisco 的多层SAN 更可帮助客户再降低30%的总体拥有成本,同时还提升了高可用性、存储虚拟化和复制能力等功能。 存储网络的演化就是基于DAS,NAS 和SAN 中最佳要素的融合,从而来满足以因特网为中心的商业对存储提出的越来越高的要求。 图3 -2  多种存储技术图示 网络存储导论第三章:多层复合存储环境 3.4 TCP/IP,Ethernet 和存储网络相结合的多层环境     3.4.1 iSCSI     iSCSI 正是集合了Ethernet 和IP 的开放性,NAS 的文件级存取,基于SAN 的块级存取这四方面优点的混合产物。随着当今IP 和Ethernet 的激增,用户可以采用与构建因特网相同的基础来支持他们对存储网络的需求。服务器可以在运行TCP/IP 的以太网卡上安装开放的iSCSI 驱动,从而能够存取位于Fibre-channel 上的SAN 中的数据块。当今的用户可以利用基于TCP/IP 的Ethernet 来无限制的扩大他们的存储容量和带宽。iSCSI 正是网络条件下的SCSI-3 协议。     iSCSI 为满足IT 专业人员的特殊需求提供多种可能的拓扑。它可以部署为私有的,存储中心网。通过使用Ethernet ,它还可以增加IPSec 和防火墙以提高信息的安全。它也可以被设计成聚合的存储网络,既可以作为私人企业的解决方案也可以在公众网上以VPN 的形式出现。理论上说,用户可以构建任何大小的网络以适应各种各样不同的需求,以降低用户在存储网络上的总体拥有成本(TCO) 。     3.4.2 FCIP     FCIP(Fibre Channel over IP) 是在TCP/IP 上用管道技术来实现Fibre Channel 的受推荐标准。它采用封装技术将Fibre Channel 协议封装在IP 包中,以使它能够通过IP 网。已经拥有Fibre Channel 网的用户可以通过调节他们已经存在的SAN 以使它们能够扩展到城域网和广域网。FCIP 正是这样一种将多个Fibre Channel 孤岛连接起来的手段。     举个例子,FCIP 可以用来连接地理上分开的Fibre Channel 存储阵列,并实现数据的同步更新。这样一旦有数据遭到破坏,系统立即可以通过FCIP 链路获得远端的热备份数据。这样做的好处是使数据具有灾难恢复功能,而这一点对于有些商业数据又是必不可少的。     3.4.3 SAN 的应用     存储网络发展的主要推动力来自于它所产生的应用。这些应用在性能上,存储管理上和在可扩展性上都有一定的能力。下面是其中的一些应用: · 数据共享--由于存储设备的中心化,大量的文件服务器可以低成本的存取和共享信息,而同时也不会使系统性能有明显的下降。 · 存储共享--两个或多个服务器可以共享一个存储单元,这个存储单元在物理上可以被分成多个部分,而每个部分又连接在特定的服务器上。 · 数据备份--通常的数据备份都要依赖于共同的局域网或广域网设备。通过使用SAN,这些操作可以独立于原来的网络,从而能够提高操作的性能。 · 灾难恢复--传统上,当灾难发生时,使用的是磁带实现数据恢复。通过使用SAN,可以采用多种手段实现数据的自动备份。而且这种备份是热备份形式,也就是说,一旦数据出错,立即可以获得该数据的镜像内容。     3.4.4 将存储网络拓展到MAN     这里以Cisco 完整光多服务边缘和传输(COMET) 计划为例。COMET 可以提供一整套全面的光网解决方案,它们可以利用各种可以支持语音、视频、数据和存储应用的创新技术,将用户的网络基础设施拓展到LAN 、MAN 和WAN。     COMET 可以通过一个高速的、低延时的光学基础设施,支持各种存储网络应用,例如灾难恢复、数据复制、存储整合、存储外包和SAN 互联。思科的密集波分复用(DWDM) 技术可以在一对光纤上支持32 个波长,从而可以满足SAN 和MAN 的迅速增长的需求。Cisco DWDM 多服务平台可以在一个智能化的光传输基础设施上,集成网络、存储和传统应用。经过认证,思科的DWDM 产品可以在主要的存储和管理网络服务环境中进行互操作,并且能够兼容多个厂商的技术,其中包括EMC、IBM 、HPQ 和MFN 。此外,新一代SONET 平台可以在城市运营商网络中为存储应用提供传输服务。 网络存储导论第三章:多层智能存储网络 3.5 新一代多层智能化存储网络     多层智能化存储网络可以降低目前要求最严格的存储环境的总体运营成本(TCO) 。通过将业界最强大、最灵活的硬件架构与多层的网络和存储管理智能结合在一起,可以帮助客户建设高可用的、可扩展的存储网络,并为其提供先进的安全性和统一的管理。多层智能化存储网络可以提供各种智能化网络功能,例如多协议/多传输集成,虚拟SAN(VSAN) ,全面的安全性,先进的流量管理,完善的诊断功能,以及统一的SAN 管理。多层智能化存储网络完全是为了实现高可用性而设计的。除了满足用户对于无中断软件升级和所有关键性硬件组件的冗余的基本需求以外,多层智能化存储网络的软件架构还可以提供前所未有的高可用性。多层智能化存储网络要求 Supervisor 模块具有自动重启发生故障的进程的独特功能,这使得它变得非常强大。在某个Supervisor 模块重启时(尽管这种情况很少发生), 在主Supervisor 模块和备份Supervisor 模块之间的完全同步可以确保在不中断数据传输的情况下进行全状态故障恢复。多层智能化存储网络将高可用性提高到了一个新的水平,确保了可以超过目前要求最严格的99.999% 正常运行时间的超高可用性环境。图3-3 给出了Cisco 公司的端到端网络方案。 图3-3 Cisoco 的端到端存储网络方案     3.5.1 单一交换架构存储网络的扩展性     用户可以利用业界最强大、性能最高的ISL 链路在交换层部署高可用性。端口通道功能让用户最多可以将16 条物理链路集成到一个逻辑链路中。这个逻辑链路可以包括设备中的任何端口,从而确保了在某个端口、ASIC 或者模块发生故障时,该逻辑链路仍然可以继续使用。在任何一条物理链路发生故障时,该逻辑链路能够继续运行,而不会导致重置。此外,交换结构最短路径优先(FSPF) 的多路径功能可以为在16 个等长的路径上进行负载均衡提供智能,并能在某个交换机发生故障时动态地重新设置数据传输的路由。     3.5.2 采用VSAN 技术     多层智能化存储网络在业界首次采用了虚拟SAN(VSAN) 技术。这种技术可以在一个单一的SAN 结构中创建多个基于硬件的独立环境,从而提高SAN 的使用效率。每个VSAN 都可以作为一个常规的SAN 进行单独分区,并拥有它自己的交换服务,从而提高可扩展性和恢复能力。     VSAN 不仅可以将SAN 基础设施的成本分摊得更低,还可以确保数据传输的绝对隔离和安全,保持对各个VSAN 的配置的独立控制。     3.5.3 有助于加强投资保护的多协议智能     多层智能化存储网络所特有的交换架构让它可以无缝地集成新的传输协议,以获得最大限度的灵活性。从光纤通道、iSCSI 和FCIP 开始,多层智能化存储网络是一个强大的多协议平台,可以用于部署成本最优化的存储网络。现在,用户可以通过部署2Gbps 光纤通道使用高性能的应用,利用基于以太网的iSCSI 以低廉的成本连接到共享的存储空间,以及用FCIP 在数据中心之间建立连接。多层智能化存储网络采用了独特的设计,可以支持未来的存储协议,因而用户可以无缝地移植到新的技术,同时保留一套统一的功能、服务和管理工具。     3.5.4 全面的安全性     为了满足人们对于在存储网络中实现无懈可击的安全性的需求,多层智能化存储网络针对所有可能的被攻击点采用了广泛的安全措施。为了防范未经授权的管理访问,多层智能化存储网络采用了SSH、RADIUS 、SNMPv3 和角色访问控制(Role-based Access Control) 等技术。为了防止攻击威胁到控制流量的安全,多层智能化存储网络还采用了光纤通道安全(FC-SP) 协议。FC-SP 可以在整个交换结构中提供保密性、数据源认证和面向无连接的完整性。多层智能化存储网络用VSAN 技术确保了数据传输的安全,以隔离同一交换结构中的不同数据传输,并利用硬分区和软分区技术来满足VSAN 中的传输隔离要求。基于硬件的ACL 可以提供更加精确的高级安全选项。多层智能化存储网络可以利用思科在保障全球数据网络中最敏感数据的安全方面所积累的经验,提供业界最安全的存储网络平台。     3.5.5 先进的诊断和故障修复工具     多层智能化存储网络的多层智能包括多种先进的网络分析和调试工具。为了在大规模的存储网络中进行故障管理,多层智能化存储网络利用"FC Traceroute" 等命令来获取数据流的详细路径和时限,并利用交换端口分析工具(SPAN) 有效地捕获网络流量。在捕获到流量之后,就可以利用Cisco Fabric Analyzer( 一种内嵌的光纤通道分析工具)管理流量。此外,多层智能化存储网络还集成了"Call Home"( 自动通报)功能,以提高可靠性,加快解决问题的速度并降低服务成本。多层智能化存储网络可以为诊断和分析企业的存储网络提供最全面的工具集。     3.5.6 便于管理     要实现存储网络的潜在能力就意味着要提供相应的管理功能。为了满足所有用户的需求,多层智能化存储网络可以提供三种主要的管理模式:命令行界面(CLI),图形界面Cisco Fabric Manager ,以及与第三方存储管理工具集成。     多层智能化存储网络为用户提供了一个统一的、接近的命令行界面CLI。CLI 的语法与广为人知的Cisco IOS CLI 的语法相同,因而非常便于学习,并可以提供广泛的管理功能。CLI 是一个非常有效和直接的界面,可以为企业内部的管理员提供优化的功能。     Cisco Fabric Manager 是一个反应迅速的并便于使用的Java 应用,可以简化对多个交换机和交换结构的管理。Cisco Fabric Manager 可以帮助管理员执行关键性的任务,例如拓扑发现,结构配置和验证,设置,监控,以及解决故障等。所有功能都可以通过一个安全的界面获得,从而让用户可以从任何地点进行远程管理。     Cisco Fabric Manager 可以独立使用,也可以结合第三方管理应用使用。为了集成第三方管理工具和用户自行开发的管理工具,思科提供了一个范围广泛的API。 网络存储导论第三章:存储网络未来之路 3.6 存储网络的未来发展     在DAS,SAS(Server Attached Storage),SAN 和NAS 之间的区别正在变得模糊。所有的技术在用户的存储需求下接受挑战。传统的客户端服务器的计算模式将会演化成具有任意连接性的全球存储网络。在那种情况下,数据的利用率会得到提高。分布式数据也会得到更加优化的存储。     和其他领先技术一样,存储网络市场也会得益于Cisco 所热切推动的现有技术和创新技术的发展与融合。另一方面,提高了的物理上的连通性,并没有本质上改变在多个服务器之间共享数据的困难。所以多层智能化存储网络为嵌入各种智能化存储服务(例如基于网络的虚拟化和复制)提供一个开放的平台。多层智能化存储网络用一种层次化的方式来实现网络和存储智能,为存储网络的发展开辟了一个新的纪元(图3-4)。     只有采用了存储虚拟化的技术,才能真正屏蔽具体存储设备的物理细节,为用户提供统一集中的存储管理。采用存储虚拟化技术,用户可以实现存储网络的共用设施目标:   图3-4 网络存储设施演化     3.6.1 存储管理的自动化与智能化     在虚拟存储环境下,所有的存储资源在逻辑上被映射为一个整体,对用户来说是单一视图的透明存储,而单个存储设备的容量、速度等物理特性却被屏蔽掉了。无论后台的物理存储是什么设备,服务器及其应用系统看到的都是客户非常熟悉的存储设备的逻辑映像。系统管理员不必关心自己的后台存储,只须专注于管理存储空间本身,所有的存储管理操作,如系统升级、改变RAID 级别、初始化逻辑卷、建立和分配虚拟磁盘、存储空间扩容等比从前的任何存储技术都更容易,存储管理变得轻松无比。与现有的SAN 相比,存储管理的复杂性大大降低了。     3.6.2 提高存储效率     主要表现在消除被束缚的容量、整体使用率达到更高的水平。虚拟化存储技术解决了这种存储空间使用上的浪费,它把系统中各个分散的存储空间整合起来,形成一个连续编址的逻辑存储空间,突破了单个物理磁盘的容量限制,客户几乎可以100%地使用磁盘容量,而且由于存储池扩展时能自动重新分配数据和利用高效的快照技术降低容量需求,从而极大地提高了存储资源的利用率。     3.6.3 减少总体拥有成本(TCO) ,增加投资回报(ROI)     由于历史的原因,许多企业不得不面对各种各样的异构环境,包括不同操作平台的服务器和不同厂商不同型号的存储设备。采用存储虚拟化技术,可以支持物理磁盘空间动态扩展,这样用户现有的设备不必抛弃,可以融入到系统中来,保障了用户的已有投资;从而降低了用户TCO ,实现了存储容量的动态扩展,增加了用户的ROI。 网络存储导论第三章:建造企业SAN系统-1 3.7 如何建造企业SAN 系统     寻求从SAN 中获益的IT 经理面临多种选择:市场上的光纤信道交换产品种类繁多,作为一个用户,怎样才能找到建设存储环境的最佳构件呢?最佳构件即是:由它最终建成的基础设施能给予应用系统充分支持,并能随业务需要灵活扩展。     企业认识到SAN 的益处后,会要求把越来越多的服务器和存储设备纳入SAN。同时,对数据存储和使用需求的惊人增长,也将导致通过SAN 传递的数量大大增加。企业只有谨慎地选择SAN 基础设施,才能确保他们的网络日后方便、经济且灵活地扩展,同时保证性能和数据的可用性。     3.7.1 SAN 应用系统评估     为了能设计出最合适的SAN 拓扑布局,企业必须准确定义SAN 将要支持的应用环境。这是最重要、可能也是最困难的一步,因为全面的评估不仅要考虑到应用系统目前的性质,而且需要对未来作出预测。     只有基础设施能依照应用系统的动态情况定制,网络才能发挥最大的效益。每个企业的数据环境都有其特性,以不变应万变的方式不适用于存储网络。通过全面评估操作环境,一个企业可以找到其挑选交换产品的最佳标准,并依照当前和未来需要定制SAN 拓扑结构。     如果想从一开始就设计出理想的SAN 拓扑结构,需要分析所支持的应用系统在数据整合和灾难恢复等多个方面如何影响整个数据环境。必须要评估的主要属性包括: · 应用要求 · 数据存储要求 · 备份和灾难恢复战略 · 网络连接要求 · 服务器连接要求     应用要求     宕机冗余--必须确定应用系统现在和未来的宕机冗余,这样就可以根据应用系统的可用性要求设计相关网络。需要充分估计应用系统的宕机成本和对业务连续性的影响,以便清楚了解是否需要高可用性解决方案。     性能--必须从数据吞吐量和最大可容许延时方面定义应用系统的性能要求。许多应用系统对网络延时十分敏感,促进了低延时网络的设计。     增长--由于应用扩展导致的网络增长必须予以充分的估计。需要从几方面估计增长需要,如用户数量、服务器数量和每应用系统的存储连接数量等。每个因素都要考虑到额外的网络连接和这些连接的必需性能,并对之进行评估。为新用户(如在线存取供应商和用户)提供应用系统接入的计划也应列入考虑。新用户的增长会影响要存储的数据量、网络连接的数量和传输额外数据所需的带宽。     数据存储要求     数据位置--了解数据量和数据的位置很关键。数据是放在统一的存储库中,还是分布在存储小区内?存储据点之间的电缆距离和和服务器连接必需要纳入考虑。长途连接(大于10 公里)会有些特别的连接要求,如支持长途连接的Switch 、光纤信号转发器和桥接等。     数据量--需要存取的数据量是决定网络带宽和存储网络连接数量的关键因素。存储阵列的规模和性能特点将决定支持阵列的必要网络连接数量。此外,每个存储端口支持(扇出比例) 的服务器数量由存储制造商确定,以避免网络堵塞和瓶颈。     数据和存取共享--另一项必须完成的评估是:数据在多长时间内、如何被存取和共享?在大多数SAN 应用中,数据通常是在服务器和存储器之间共享,而不是在服务器之间或存储器之间共享。增加备份、镜像和其它应用系统,会导致任意网络连接增多。     备份和灾难恢复战略     集中式、离网、少服务器备份是促使企业实施SAN 的主要因素。关于备份如何生成的评估也是必要的,因为它将决定连接范围和吞吐量大小。集中式备份战略要求设计完备的SAN。为了使战略成功,从备份设备到每一个存储设备之间都应该有一条高速、高可用性的数据路径。     网络连接要求     端口计数要求--评估支持现有和未来增长所需网络连接数是十分重要的。如果在部署初期没有考虑增长因素,事后不断追加网络规模和重新配置会浪费大量资源,并增加宕机时间。在最初设计中如果没有包括完备的扩展战略,在实际应用中不断扩展的网络会出现传输量不平衡的现象,并最终影响整个网络的性能和可用性。     网络传输模式--为统一存储而实施的SAN 与为少服务器备份应用而实施的SAN 的传输模式很不同。服务器和存储设备之间的新连接需要考虑额外的端口计量。如果忽略了这一点,SAN 没有为传输量的增长做好准备,当数据在全网范围内传输时,很有可能产生“瓶颈”。     带宽要求--当初步的网络拓扑设计成熟后,网络中应有特定区域支持高带宽功能。例如,几个只需低带宽的服务器组成的工作组环境可以被集合到一个网络交换连接中。相比之下,存储和高端服务器需要特别配备的(而且可能是多个)网络连接,以确保所需带宽的可用性。     服务器连接要求     每个服务器的SAN 连接要求需要从带宽、性能和可用性等方面确定,目的是了解每一种连接在正常和高峰传输环境中的不同要求,这样,不论网络活动有多繁忙,网络连接都能够支持运行需要。此外,服务器如何摆放(单独还是成组)将决定每个站点的交换端口数量需要。 网络存储导论第三章:建造企业SAN系统-2 在网络的主要属性被确定之后,就要评估和选择建造SAN 的构件了。只需要较小型SAN 的应用系统,通常用一种Switch 构成即可,这样实施较为简便。要连接的存储器和服务器较少(少于50)时,一到数个Switch 足以支持环境需要。     如果是支持大型企业应用,就需要多类型Switch 。每种Switch 在基础设施中承担不同的任务。有些Switch 承担到存储库的主要连接,因此需要非常高的可用性。其它Switch 用于支持服务器集群的整合,只需要高性能和较少端口数量。     另外,我们设计存储网络系统时,还需要考虑如下几个因素: Switch 类型     广义来说,有三种光纤信道Switch:Director 、网络Switch 和判优环路Switch( 或称环路Switch) 。企业不能想当然,以为所有厂商的产品都相同。某个厂商的Director 完全有可能是另一厂商的网络Switch 。     Director----Director 是一个多端口、高带宽网络Switch ,用于提供最高的可用性。Director 中某个部件的失灵不会影响正常应用,对SAN 性能和可用性都无影响。Director 有全冗余、热插拔部件(电源、冷却、处理器和交换部件),能将宕机时间最小化。此外,Director 支持在线错误探查、隔离、修理和恢复。     Director 提供99.999% 的可用性,或每年少于5 分钟的宕机时间。Director 的高端口数和无堵塞结构使它能提供高性能带宽,允许所有端口同时交流,并能保持性能不变,没有额外延时。     Director 主要用于下列应用系统中: · 不允许宕机的关键任务系统 · 企业SAN 骨干网,是自身的关键任务资源,提供永远畅通的数据传输路径 · 应用密集型系统,必须保证任意端口间的高带宽通信 · 一个Director 结构包括内置冗余,即使部件失灵,也能确保数据流的连续性。     网络Switch :网络Switch 用于在Switch 所有端口间高速传输数据,不受任何干扰和阻碍。与Director 类似,网络Switch 定义一条通过其它Switch 的数据传输路径,“编织”Switch 构成的网路,这些网路对连接设备来说是透明的。这种Switch 是一大类,各个厂商的产品及其属性(冗余、端口数目等)有很大不同。McDATA 提供的16 和32 端口网络Switch 包含冗余电源和冷却功能。单个网络Switch 提供99.9% 的可用性----年平均宕机时间8.8 小时。网络Switch 通常担任小型SAN 中的骨干“承重墙”,在较大的企业SAN 中,它可作为整合点。     网络Switch 主要用于下列应用系统中: · 部门级连接 · 分布式存储占主导地位的应用 · 小型SAN 的标准构件     环路Switch :判优环路(FC-AL)Switch 的连接成本最低,适用于低带宽设备,并支持磁带等传统判优环路设备。环路Switch 自身不能构成完整网络,它们是用于扩展原有网络的连接设备。McDATA 的ES-1000 环路Switch 的独特之处在于它包含一个内置的网络端口。这样,它只需一个专用连接设备与网络Switch 相连,就能很方便地被纳入较大的SAN。大多数环路Switch 支持环路内端口之间的同步全速数据传输。但是,如果出现多个连接争抢一个端口的情况,环路内就会出现竞争。由于这个问题,大多数环路Switch 都保持较少的端口数量(8),将带宽竞争控制在最小程度。     环路Switch 主要用于下列应用系统中: · 适用于低带宽设备的低成本网络连接 · NT 服务器整合 · 磁带整合 · 交换网络和传统环路的连接     不同类型Switch 对比     不同类型Switch 在可用性、性能、可扩展性和成本等方面均有不同。下面就这些方面做一些对比。对比证明没有一种Switch 可以在所有应用中都有最佳表现。每种Switch 都有独特的功能特性。因此,它们分别适用不同的应用。     可用性----可用性用于衡量Switch 正常运行时间,也用于衡量满足应用系统和基础网络需要的能力。由于SAN 提供用户(或应用系统)和信息间的唯一存取路径,因此每条路径的可用性至关重要。     Switch 的可用性是以正常运行时间所占百分比来表示的,数值通常在每年99%( 宕机时间3.6 天)到99.999%( 宕机时间少于5 分钟)之间。高可用性网络由Director 和冗余网络Switch 支持――购买哪种Switch 可以很容易地通过计算宕机成本和随之导致的业务损失来衡量。     Director----单一Director 提供的可用性最高,达99.999% 。如果有全冗余部件,一次故障不会造成任何连接损失。所有部件均可热插拔,因此替换起来非常方便、迅速。不同Director 端口插板通常采用双路径服务器和存储连接,以便将连接可用性最大化。     网络Switch----单一网络Switch 的可用性最高可达99.9%(年平均宕机时间8.8 小时),取决于不同厂商的功能设置。有些部件故障是可以在线排除的,例如替换风扇或电源。     其它部件故障可能导致Switch 下线、中断连接或需要替换。替换一台Switch 至少需要1 小时。所有主机和存储设备均通过双路径连接到冗余网络Switch 后,网络Switch 组成的网络可用性可以高达99.99%( 年宕机时间少于53 分钟)。不过要求各主机都安装路径恢复软件。由于配置不同,一台Switch 出现故障,仍然可能造成性能问题,如网络瓶颈增多和延时。为保持99.99% 的可用性,现场需要一台备用Switch,这样如果主Switch 出现故障,宕机时间可以缩短到最短。     环路Switch----如果附带冗余电源和冷却装置,单一环路Switch 的可用性最高可达99.9%( 年平均宕机时间8.8 小时)。这些产品主要用于工作组区域连接。如果将所有设备双路径连接到冗余环路Switch ,环路Switch 的可用性可达到99.99% 。 网络存储导论第三章:建造企业SAN系统-3 确定业务所需最低可用性是正确选择产品的重要基础。在有些环境中,可用性是最重要的目标,因此选用高可用性Director 物有所值。其它环境对可用性的要求没有这么高。对于工作组和部门级办公应用来说,一定时间的宕机是可以容忍的,所以网络Switch 和环路Switch 已能够满足需要。     性能----无论是只安装一台Switch ,还是要建立完整网络,这个问题都不能回避。Switch 的性能特性取决于Switch 的结构。结构性能实际上取决于整体网络设计和网络内的传输模式。     Director 和网络Switch----单一Director 或Switch 的性能取决于其结构。大多数Director 和网络Switch( 如McDATA 的产品)都提供高性能、所有端口上任意设备的连接----不论Switch 上别处的传输情况如何,都能保证每个端口的完美性能表现。但是,市场上也有一些产品提供高端口数量,但不提供高性能的任意连接。这类产品实际上是一些小Switch 的集合,它们相互连接起来,象一个大Switch 的样子。     环路Switch----Switch 上的各个端口分享带宽,而所有端口都通过一个通用连接反向连入整体网络。这种Switch 提供低成本、低带宽的连接。对于不需要高性能的应用,或者没有I/O 功能,因而不能高速运行的主机,这是一个不错的选择。     当多个Switch 连接起来构成一个大网络后,性能评估变得更加复杂,因为Switch 间的链接(ISL) 很容易成为网络瓶颈,即堵塞。当一个链接上用户过多,就会导致性能下降和延时(从源点往目的地发送信息所需时间)加长。由于许多需要存取数据的应用系统对延时非常敏感,堵塞就成为一个需要解决的重要问题。     必须采取措施确保所有设备在所有潜在数据传输路径上反向通讯时不受带宽限制,甚至在部件发生故障时也不会受到影响。必须审慎确定ISL 数量,确保它们不会成为瓶颈。还需进一步考虑,某一部件发生故障后,正常运行的连接势必承担更多的传输量,在这种情况下,SAN 会受到什么影响。     为了充分发挥网络作用,尽量减少ISL 数量非常重要。减少ISL 的最好办法是在SAN 中采用端口数量多的Director 和Switch ,由于所有端口都可进行任意设备无障碍通信,因此可以减少Switch 的数目。在设计阶段,企业必须将预计的SAN 规模(用户端口数)与Switch 规模相匹配。     例如,一个预计有64 个用户端口的SAN 可以采用16/24/32 或64 端口的Switch 作为构件。但是如果采用16 端口Switch 建设SAN,其性能和未来的扩展能力都不理想。可用性最高、性能最好的解决方案是单一64 端口Director 。     扩展性----扩展性指的是SAN 能以对业务损害最小的方式增大规模。Director 和网络Switch 都支持网络连接,并可通过增加Switch 扩展网络。在原有SAN 设计中就考虑进增长因素,并将需增加的Switch 数量控制在最少是提高可扩展性的关键。这之所以成其问题是因为当Switch 一台台被加进网络时,新Switch 上的端口以及原有Switch 上的端口必须重新分配到Switch 的多个链路上。如果加进网络的是端口数量少的Switch ,就意味着要不断添加新的Switch ,势必降低网络中可用端口的数量。     Director----由于采用的是底盘式设计,因此Director 比较独特。企业可以购买只带有部分端口插板的Director,然后随业务增长逐渐加大容量,同时不影响正常运作。此外,由于Director 的端口较多,不需要频繁增加新的Switch 。     网络Switch----在网络Switch 中,所有端口都被固定在一块母板上,所以不能分开购买,尽管企业一开始可能用不了那么多端口。与Director 一样,端口数越多,为系统扩展而增加Switch 的频率就越低。     环路Switch----在单一环路Switch 中,增加端口会降低其它所有端口的性能,因为环路Switch 中所有端口共享带宽。尽管光纤信道环路最多可容纳126 个环路连接,能保证正常性能的实际连接数要小得多。通常,每个端口只负责一个节点。因此要扩展系统就需增加新的环路Switch 。每台新的环路Switch 都需要额外占用一个Director 或网络Switch 端口。     成本----所有网络基础设施的采购,成本都是最重要的考虑因素。不同Switch 具有不同功能和不同成本。必须在网络层就进行初步成本估算,因为SAN 的整体拥有成本(TCO) 是最重要的衡量尺度,相比之下,特定Switch 的费用是微不足道的。SAN 的管理成本也必须考虑到。由端口少的Switch 组成的大型网络的管理成本要高于由多端口Director 和Switch 组成的小型网络的管理成本。     不同型号Switch 的区别就在于每端口的价格。其实,只要运行环境合适,每种Switch 都能提供低成本连接。例如,比起网络型Switch 结构,Director 在大型高可用性网络中的运行成本更低廉。相反,在较小的部门环境,16 端口或32 端口的网络Switch 就已足够。     Director----由于Director 支持99.999% 可用性,所以其端口成本较其他Switch 高。另外,Director 的端口比网络和环路Switch 多,其总成本也高于其他Switch 。     网络Switch----网络Switch 的成本根据产品性能设置和端口数量不同而有很大的区别。拥有冗余电源和冷却性能的网络Switch ,每端口价格比没有这些性能的Switch 要高得多。     环路Switch----此类Switch 连接成本最低,是网络Switch 的一半。如上所述,每端口成本降低,其连接性能更低。     不同性能和规模的SAN,交换总成本差别很大。由于每多出一个ISL 就需要两个端口,所以ISL 使用得越多,用于节点连接的端口就越少。网络扩展的同时,可用端口比例也降低,这种情况常常发生在Switch 端口较少的网络里,因为ISL 占去了较大比例的端口容量。 网络存储导论第三章:存储网络系统管理 3.7.2 企业存储网络系统管理     评估不同SAN 交换机都要考虑管理问题。需要对管理能力进行SAN 交换机和网络级两级评估。在多种SAN 设备环境中,仅对SAN 交换机作个别评估,而忽略它们在网络中的互连,以及它们是否支持强大的网络管理模式,这种评估是毫无意义的。随着网络的不断扩展,管理重点从Switch 转移到网络,管理问题变得重要起来。     SAN 交换机管理侧重Switch 配置和流量监控。该功能有助于用户评估端口的应用情况和Switch 的总容量。     网络管理则侧重于全网运行,而非某个Switch 。为此,网络管理需要从每个Switch 中获取详尽信息,以评估整个网络运行状况。     网络故障隔离和恢复也是网络管理的重点。网络管理员在发现和确定网络问题基本成因上花费的时间,往往比恢复和修补的时间更多。使用McDATA 公司网络连接管理(EFCM )软件,各种类型的McDATA Switch 可以集中管理,单点控制,大大简化了监控和故障排除。     因为利用单个网络管理应用程序管理不同供应商Switch 是相当复杂的,所以必须考虑到供应商产品的特点,结果是:多供应商网络中,用户要管理异构SAN,要使用多种管理工具,导致管理变得更加复杂,成本也更高。     3.8 小结:全面集成     企业SAN 的建设首先需要全面评估SAN 即将支持的应用系统。定义网络主要属性后,根据应用,度身制作SAN 。当一个基本网络拓扑结构形成后,其中的每个区域的可用性、性能、可扩展性和成本需求都可以被检测到。     企业根据上述信息,选择适当的Switch 构件,每种类型Switch 都将在网络中发挥特定作用。     Director 在关键任务环境中运行,以保证可用信息的连续性。作为SAN 的关键构件,Director 提供性能优异的任意设备连接,同时作为企业存储库的中心存取点。     网络Switch 不仅为部门和作为SAN 一部分的工作组提供灵活的构件,还是Director 主干上的汇聚点。由于各种网络Switch 端口数目各不相同(McDATA 提供8 端口、16 端口24 端口和32 端口模式),因此可以选择最适合自身连接环境的网络构件。     对于不能使用网络Switch 端口所有带宽的网络设备,环路Switch 提供低成本网络构件,或支持唯一判优环路连接。     网络初始设计选用最合适的Switch 网络构件,以支持设计性能和可用性目标。另外,网络必须能够随着业务的需要而扩容,并且无需升级现有基础设施,也不必遭受宕机之苦。     在设计阶段,企业必须创建一个网络拓扑,将“信息孤岛”带来的负面影响最小化。“信息孤岛”给网络增添了延时和阻塞点,增加了网络的复杂性,降低了网络的性能和可用性。     企业还需考虑每种产品管理工具的选择标准。Switch 和网络管理的有效性对管理更大构件具有关键作用。所选管理工具应该允许用户通过一个中心点监控整个网络。此外,它还应帮助客户从整体上优化网络的可用性和性能,而不是只能管理网络内部的单个Switch 。 网络存储导论第四章:备份带库基础概览  4.1 磁带库基础     一个简单的问题: 用户的数据最终存在哪里?     有人认为是磁盘,有人认为是光盘,当然更多人则认为是磁带。的确如此,世界上所有数据最终会有超过90%存储在磁带上。而产生这些数据磁带并管理它们的正是磁带库。     尽管有人认为磁带库在进行数据存储时有过多的机械操作,因而带来了故障隐患,磁带性能上也存在劣势,在最近一段时期更是受到了磁盘备份的巨大冲击,但是,磁带存储还是由于其本身固有的特质确保青春不老。     早期的磁带库主要用于离线存储,但随着市场应用环境的变化及新数据存储的需求,磁带库逐渐成为存储领域最重要的设备之一。磁带库凭借可靠的数据存储能力及海量的备份能力,从早期独立的备份设备成长为存储备份的主力。磁带库自动、高速备份和恢复SAN 和NAS 磁盘阵列中数据的作用已不可替代。对于海量多媒体数据的应用环境,现代磁带技术在多媒体数据归档、长期保存应用环境中的可靠性、成熟度和性价比已经得到公认。     1.磁带库的机械手     机械手是磁带库中的核心部件,是决定磁带库性能、稳定性的关键,也是磁带库中最昂贵的部件之一。各厂商在机械手的设计上各有千秋,其中StorageTek 公司采用获得专利的圆柱设计,极具特色,在减少机械手移动距离、提高磁带库总体性能的同时提高了整个磁带库系统的可靠性。其他大多数厂商采用的则是X 轴-Y 轴的方式。     2.磁带库分区     所谓磁带库分区就是将磁带库中的磁带驱动器和插槽分配给不同的平台,这些驱动器及插槽只能被分配的主机使用。但机械臂可以控制所有的驱动器及插槽,并被所有的主机控制。控制顺序遵循先来先控制的原则。磁带库分区的前提条件是此磁带机是多通道结构。     3.磁带库连接     当一个磁带库的容量、性能达不到用户的需求时,可以将数个甚至数十个磁带库连接起来,从而可以形成一个超大规模的磁带库系统。一个磁带库中的磁带可以自动地传送给其他的磁带库,在磁带库之间进行磁带交换时需要使用机械装置来完成。     4.广泛兼容的连接性     广泛的连接方式可以使得磁带库能够灵活地应用于各类存储环境,磁带库一般支持SCSI、FC 交换网络和FC 环路网络,今后还将支持以千兆以太网为基础的iSCSI 等存储网络协议,以及类似InfiniBand 等新兴存储总线技术。     5.多类型磁带机支持     毫无疑问,磁带机是磁带库中最核心、最关键的部件,经过数十年的发展,如今的磁带机技术各具特点,为用户的不同存储需求提供了不同的选择。     大型机自动磁带库一般采用专有磁带技术(STK9840 、9940 、IBM3590 、3592 等),然而,在大型机磁带库中有时也会出现混装多厂商磁带机的情况。目前,开放系统磁带库大都能够同时支持主流磁带机技术(DLT?D 数字线性磁带、LTO?D 线性磁带开放协议、DAT?D 数字影像磁带及AIT?D 先进智能磁带等),并且可以在同一个磁带库中进行混装。     6.海纳百川的容量     一个磁带库的总容量大小是由最大槽数和每盘磁带容量共同决定的(非压缩总容量=每盘磁带非压缩容量×最大槽数)。通常,磁带库按照容量大小分成三个级别:初级、中级和高级。其中,初级磁带库的容量在几百GB 至几TB,中级磁带库的容量在几TB 至几十TB,而高级磁带库的容量在几十TB 至几百TB 甚至更高。当然这只是较为粗略的划分,随着磁带技术的发展,尤其是每盘磁带存储容量的逐渐攀升,磁带库容量也会相应发生变化。     7.稳步提高的性能     由磁带机与磁带库共同决定,包括机械手的磁带装载时间以及磁带机性能。随着磁带机技术的不断发展,磁带传输速率得到很大提升,磁带库厂商对机械手的不断改进缩小了磁带的平均装载时间,再加上与存储软件的更好配合,所有这些都使得磁带库性能稳步提高。     8.逐渐进步的可靠性 图 4-1 磁带库备份原理     硬件冗余技术充分应用到了磁带库中,包括冗余电源、冗余风扇等,从去年开始,有些厂商为了获得更高的可靠性而采用了冗余的机械手设计。     另外,多磁带机之间可以做冗余,RAIT(Redundant Array of Inexpensive Tape) 是相对硬盘的RAID 而来,它主要是将多个相同的磁带机做成一个阵列,一方面可以提高备份的性能,另一方面又可以提高磁带的容错性。 图 4-2 各种磁带库技术特点     9.磁带库的分类     从应用的角度,磁带库大体上可以分为两类:大型机自动磁带库和开放系统磁带库。前者使用专有技术的磁带机,后者大多使用开放式磁带机,也有为了提高整体磁带库性能而采用专有技术磁带机和开放式磁带机混装的情况。     大型机磁带库之间与其服务的大型机直接连接,而开放系统磁带库既可以直接与服务器连接,也可以连接到存储区域网(SAN)之中。在一个典型的SAN 中,磁带库是必不可少的设备,如下图(图4-3 )所示。 网络存储导论第四章:磁带库的发展简述 4.2 磁带库的发展     磁带库之所以能够长盛不衰,不断的发展与进步是其中的关键。     曾经很长一段时间,磁带库就是多个磁带机的物理集合,许多工作都需要人工的干预,因此当时磁带库只能作为离线设备,它的发展也受到了极大的限制。在上个世纪80 年代,磁带库的发展获得了巨大进步,各种管理功能的集成使得磁带库真正发展成为能够完成关键任务的近线存储,磁带库也受到了前所未有的重视。     又经过近二十年的发展,如今,磁带库在存储领域的地位已经举足轻重。仅在去年一年,磁带库领域就产生了许多令人欣喜的变化,相信这些变化会给磁带库带来一个充满希望的明天。 图 4-3 一个典型存储网络     1.虚拟磁带库     近期出现了一种改变磁带存储系统的技术?D 虚拟带库。虚拟带库将磁盘空间模拟成磁带,在传统的磁带备份系统中,数据直接从应用系统传输到磁带中,使用虚拟带库以后,数据首先备份到虚拟带库即磁盘中,然后由虚拟带库再备份到磁带上。对于应用系统来说,就像直接备份到磁带一样。     将虚拟磁带库集成到现有的磁带库系统中具有很多优势。首先,由于它利用了基于硬盘的技术,因此每一位担心不能在维护窗口时间内完成备份的人都有喜欢它的理由。其次,任何一位拥有备份和恢复软件巨额投资的经理,无需改变已有的处理过程就可以使用这种速度更快的技术。此外,由于备份数据可以在任何时间从虚拟磁带传送到物理磁带媒介,因此,空出了虚拟硬盘供下一轮备份。     2.磁带库的智能化     在关于未来磁带库产品的发展趋势时,许多分析人士都认为,磁带库将变得更智能。所谓磁带库的智能化就是充分发挥软件的功能,加强磁带库的管理以及连接性能,使得数据备份更安全更可靠。智能化是分层次的,并不是硬件设备的完全自动化。比如,ADIC 所倡导的智能化是基于存储硬件设备的,将以前用软件实现的某些功能转移到硬件上来,从而减轻用户应用系统管理数据的负担。智能化的磁带库具有按需提供容量的功能,用户根据业务增长的需要可随时扩充容量,而只要使用软件密钥激活即可。而智能存储对于用户意味着更低的总体拥有成本、更高的性能、更高的可靠性、更加简便的管理和无缝的互操作性。     3.WORM :将来的必选件     现在,不仅磁盘阵列厂商开始将WORM(Write Once Read Many )技术作为新产品的卖点,磁带厂商也开始将目光投向WORM 。Sony 公司在2003 年12 月发布的SAIT 磁带机中,已经提供了WORM 功能,IBM 发布3592 磁带机时也声称将在2004 年提供WORM 功能。     所有这些都使得磁带库在广阔的固定内容存储领域占有了一席之地。未来,WORM 功能也许会成为磁带库设备的必备功能。     4.iSCSI     分析机构Linley 近期对网络存储市场进行调查研究后指出,光纤通道在2007 年将被基于其主要竞争技术iSCSI 的IP SAN 超过。iSCSI 旺盛的生命力可见一斑。     对于具有如此美好前途的新技术,磁带库当然不会拒绝。早在2003 年四月份Spectra Logic 就推出了支持iSCSI 的磁带库,如今有越来越多的磁带库厂商都支持iSCSI。 网络存储导论第四章:磁带库的价值评估  4.3 磁带库评估     如前文所述,磁带库主要分为大型机磁带库和开放系统磁带库。对于大型机磁带库系统而言,一方面可供用户选择的方案并不是很多,另一方面需要针对用户大型机系统的实际情况进行考虑。由于大型机磁带库定位于关键业务,用户对价格方面并不是特别敏感,而性能则成为重要的考虑因素。     下面主要讨论的开放系统磁带库系统。     对于开放系统磁带库而言,用户要进行比较全面的考虑,包括大负载备份、最大的不停顿运行时间、最小的人工干预、可升级性、可恢复性以及可扩展性、服务能力等诸多方面。     升级及兼容性问题用户在选购磁带库时应考虑未来几年数据量大幅增长的趋势。据有关专家预测,在未来的三年中,数据量将可能增加五倍。因此,用户在选购时应特别注意选择技术有发展前途的产品,即容量增大,速度更快,而且最重要的是要与过去和未来的产品兼容。随着备份需要的增长轻松地调整磁带槽和驱动器的数量。     部件产品寿命寿命越长的产品客户的使用成本越低。就磁带库产品而言,其重要部件----驱动器及磁带的寿命都很关键。磁带机的寿命以磁头为主,现有磁头的寿命在1 万-3 万小时之间。而磁带的寿命以磁带经过磁头的次数计算,目前磁带的寿命在5000~1000000 次之间。     磁带机性能能否充分发挥这种特性应具有数据缓冲功能,可以预先向FC 主机后存储设备发送数据传输请求,保证稳定的数据流输入到磁带机中,使磁带机保持连续、不停顿的读写操作。这个特点不仅可以提高数据备份性能,而且由于减少磁带启动、停止次数、减轻了磁头和磁带的磨损,从而提高磁带机磁头和磁带本身的寿命。     数据链路调节功能该特性可以主动发送SAN 网络探测信号,了解在进行大规模数据备份前,在主机、磁盘和磁带库之间的SAN 网络路径是否畅通。如果有任何意外(如SAN 网络重新配置、网线中断等),则可以及时通知管理员解决问题,保证数据备份的正常进行。     4.4 磁带库是存储的基础     高楼大厦是否坚固是由埋入地下的基础决定的,而在存储领域里,磁带库就起着类似“地基” 的作用。     许多负责存储的IT 经理讲,经过多年的发展,如今的磁带库可以满足用户许多基本的存储需求:首先可以对大量数据进行备份和归档,在灾难发生时还可以进行恢复;对于性能要求不是特别严格的大多数用户来说,磁带库的近线存储能力基本能够满足业务上的需求。     因此,每个用户都应该注重磁带存储,比如,如何使磁带库系统更好地与业务系统配合,如何确定更为科学的备份策略等,都需要在长时间的实践工作中摸索,以达到更好的存储效果。良好的存储管理不是仅仅通过应用先进的技术与产品就能够轻易获得的。     磁带库的更新换代时间较长,而且一旦使用一种技术的磁带,经过长时期的积累会得到数量巨大的数据磁带,万一这种技术被淘汰,处理这些数据或者向新型技术的数据迁移是一项非常复杂的任务。所以,用户在购买磁带库时要目光长远一些。而在市场上,技术的更新换代、持续发展能力都对磁带存储厂商至关重要。备份是存储的基础,把这个基础工作做好就能够为业务发展提供坚实的保障,在此基础之上才能够做好构建更多与用户新业务联系密切的高端存储,才能够为用户带来更大价值。希望用户把磁带存储这个基础打好,打牢。 网络存储导论第五章:数据分级存储综述 第五章 数据分级存储     数据分级存储,是指数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储管理软件实现数据客体在存储设备之间的自动迁移。数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。     数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。     5.1 分级存储的必要性     IT 企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件。用户也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。因此,目前的潮流是购买更多的软件。然而,这种解决方案产生了非常复杂和笨拙的存储环境,不仅需要更多的维护和管理,而且需要更多的金钱来维持。     事实上,数据具有生命周期,不同的时期有其存在的不同意义。在数据刚生成的数日内,访问频率最高,为企业产生效益和收入,带来的价值也最高;随着时间的推移,访问频率降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量,如果全部用企业级存储产品来存储所有数据,费用非常高,也没有必要。不同生命周期的数据,由于提供给企业不同的服务目的,企业应考虑如何以最低的成本获得最高的价值,而不是采用以往单纯的" 购买更多磁盘"的解决方式和态度,徒增存储费用和管理复杂程度。     总之,企业业务数据从产生到存储、利用、归档,最后超过存储期限被删除,数据被读取的频率会逐渐下降,数据存储的位置也应该随之变化,以提高存储设备的使用率,降低存储成本。因此有必要进行分级存储,企业在存储其关键业务数据时,采用昂贵的存储技术和方式,如RAID 磁盘、复制、定时拷贝、多级备份等,确保数据高可用;当数据已经不再为企业带来效益时,将这类数据迁移到较便宜的存储介质上;最后,当数据"老化"到不再被访问时,应考虑将其删除或者迁移,如果是法律要求或政府规定等要保留多年的数据,应将其迁移到近线磁带库或者离线存储介质上进行归档,既安全又节省费用。     同时,信息量的急剧增长,也使存储管理复杂性增加,数据的分级存储也是简化存储管理的需要。通过设定优化的数据迁移规则,能使重要数据和常用数据在最短的时间内访问到,使极少使用的数据备份在廉价的海量存储器中。     5.2 分级存储的优点     数据分级存储之所以重要,是因为它既能最大限度地满足用户需求,又可使存储成本最小化。数据分级存储的优点具体表现在:     1.减少总体存储成本     不经常访问的数据驻留在较低成本的存储器中,可综合发挥磁盘驱动器的性能优势与磁带的成本优势。     2.性能优化     分级存储可使不同性价比的存储设备发挥最大的综合效益。     3.改善数据可用性     分级存储把很少使用的历史数据迁移到辅助存储器中,或归档到离线存储池中,这样就无需反复保存,减少了存储的时间;同时提高了在线数据的可用性,使磁盘的可用空间维持在系统要求的水平上。     4.数据迁移对应用透明     进行分级存储后,数据移动到另外的存储器时,应用程序不需要改变,使数据迁移对应用透明。     分级存储的存储方式     传统的数据存储一般分为在线(On-line)存储及离线(Off-line) 存储两级存储方式。所谓在线存储就是指将数据存放在磁盘系统上,而离线则是指将数据备份到磁带上。但随着数据量的猛增,这种只使用在线和离线两级存储的策略已经不能适应企业的需求。近线存储市场近来成为热点,出现了一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备,作为近线存储设备。 网络存储导论第五章:数据分级存储简介 5.3.1 在线存储      总体上讲,在线存储多采用高速磁盘阵列等存储设备,存取速度快,当然价格昂贵。在线存储一般采用高端存储系统和技术如:SAN、点对点直连技术、S2A 等。高端存储系统具有一些“高端”属性,比如,高容量、高性能、高可用性、冗余性等,现在存储工程师看到,这些特点已经不再是高端特有的了,许多中端产品也大都采取了这些设计。      SAN 技术的高性能依赖于三个重要领域的性能支持:存储容量、计算能力和传输能力。在传统SAN 存储系统中,存储容量这一环节由于存储介质技术的快速发展已经得到了很好的解决。存储容量通过多磁盘容量的叠加已经能够达到数千TB 的水平。而在计算能力与传输能力两个环节上,传统SAN 却存在很多先天的弱点。最近在高端存储领域出现了两种新技术--点对点直连技术与并行存储技术。具体如下:      点对点直连技术是EMC 近期推出的一种全新的点到点互联架构,在性能方面,由于它采用了点对点对接,消除了总线或交换机方式造成的延迟,专用的数据通道意味着不会出现交换机竞争的情况,减少数据从存储位置传输到目标位置的延迟。它还具有32 个独立高速缓存区,而且每个高速缓存区都具有独立的逻辑访问,可以为用户提供更强大的处理和访问能力。      S2A 是DataDirect Networks 公司推出的并行存储技术。S2A 没有采用传统的光纤通道交换机的交叉矩阵交换机制,它所采用的高度并行端口技术消除了交换机制所带来的不可避免的时间延迟,能够持续不变地提供充满端口带宽的数据吞吐量。S2A 控制器内部的四个主机通道之间采用虚拟的并行体系结构,通过提供并行处理和并行数据读写的途径,使得在多主机的存储区域网络环境中具有非常高的不受多主机环境影响的使用性能。      5.3.2 离线存储      离线存储采用磁带作为存储介质,其访问速度低,但能实现海量存储,同时价格低廉。      以前用户有这样的想法:反正数据存放在磁带上面,性能都不高,只要在灾难发生时能够使用它们将需要的数据恢复回来就可以了。其实,这是很不正确的。要知道,用户的数据越来越多,原有的数据也不能丢弃,当这些数据逐年累积以后管理它们就成了一件十分困难的事情,而且还要进行磁带定期维护的工作。      因此,许多磁带库厂商在这方面进行了加强,提供了完整的数据生命周期管理,专为数据密集型SAN 环境而设计,尤其适用于高强度、大容量的数据访问和数据存储,减少了管理 SAN 数据的时间和成本,从数据生成到其生命周期结束,其中的每一步骤都提供了相应的功能。这也说明磁带库管理更注重“智能”。      5.3.3 近线存储      随着用户需求的日益细分,人们越来越发现原有的两级模式(在线与离线)已经不能很好地满足用户的存储需求,在这两个“极端”之间有大量的空白,于是就产生了近线存储的概念。近线存储的概念一产生就得到了厂商与用户的赞同,定位于此领域的产品很快就纷纷出现,形成了近一时期最为活跃的中间层。      NetApp 推出的R100 近线存储设备,获得巨大成功,仅1 年时间在全球就拥有了100 多个用户,总部署容量超过3PB。      Quantum 推出的基于磁盘的产品DX30,能够模拟各类磁带库,保留了与存储管理软件的兼容性,而又具有比磁带库更高的速度,用户可以先将数据备份到DX30 中,然后再转移到磁带上。      以磁带产品知名的StorageTek 公司在业界较早提出了数据生命周期管理的概念,并拥有针对数据的不同生命周期提供的相应的解决方案,包括磁带设备和磁盘系统及软件产品,以帮助用户“将适当的数据,在适当的时间,存储到适当的设备上”。      Legato 公司备份软件的最新版NetWorker7.0,引入了磁盘备份与磁带备份相结合的新方式,通过磁盘备份可以为用户提供更多性能优势。采用磁盘进行备份避免了一些磁带备份的弊端:磁带只能进行顺序读写,而且每盘磁带都需要完全倒回才可取出,加载卸载时间很长。磁盘备份解决方案还完全包括了“虚拟带库”的功能,而且可以在读一部分内容的同时进行写另一部分内容,因而可以实现了在设备进行备份时的恢复、搬移/克隆操作。 网络存储导论第五章:信息生命周期管理 5.4 分级存储的管理     存储实现分级以后,在线、近线与离线存储存放的数据价值不同,在同一级别存储内部(比如在线和离线存储),存放的数据也应该不同,实现每一级别内的"分级存储"。如何将各个级别存储中数据统一管理起来便成了最为关键的问题。     分级存储管理(Hierarchical Storage Management,HSM) 起源于1978 年,首先使用于大型机系统。近10 年来,HSM 被广泛应用于开放系统的Unix 和Windows 平台。     分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在磁带库、光盘库等离线介质上,只在磁盘阵列上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁到磁盘阵列中;同样,磁盘阵列中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和管理成本。     HSM 应用也具备监测磁盘容量并在关键容量情况下作出反应的能力。这种软件经过配置后可以为某个卷设定一个最小的剩余空间,如20% 。     如果软件发现该卷的剩余容量已经不足20% ,数据就会被从该卷移动至备用存储介质。这样便可以立即释放空间,管理员也可以在今后有空闲时再来解决空间的问题。     由此可见,分级存储管理更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为IT 厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。     5.5 信息生命周期管理     现在着重介绍与分级存储管理密切相关信息生命周期管理。     目前,许多厂商和用户都认为,数据是具有生命周期的。Legato 公司将信息生命周期划分为7 个阶段,包括了数据从产生直至灭亡的全部过程。具体为:业务需求、采集/组织、保护/ 恢复、复制/镜像、共享、迁移/归档、删除。     由于是一个"周期"的管理,因此,在这个周期的每个环节都要有相应的产品来满足需求,包括系统咨询、信息采集、数据保护、迁移、归档等等产品。在一定的时期,用户可能只会应用到其中的某个或某几个环节,但是,把整个信息系统作为一个整体来管理是一个必然的趋势。     信息生命周期管理(Information Lifecycle Management,ILM )是StorageTek 公司针对不断变化的存储环境推出的先进存储管理理念。     ILM 不是某个硬件或软件产品,而是评估和管理信息的存储方式。它教育客户平衡信息价值和管理费用,根据数据对企业生存的关键性以及企业发展带来的价值决定存储费用。信息从产生到使用直到灭亡,其全部过程都需要进行管理,因此,信息生命周期管理是用户发展到一定阶段的存储需求,只不过它是一种很复杂的需求,具体来说,就是如何建立一个更完整、更具有价值的信息系统,能够完全满足用户对于数据的以下五种需求:随时访问、按时间恢复、方便的共享、所有数据受到适当的保护以及按照一定的时间规定(比如法律规定)管理数据。     ILM 的核心是理解信息在其不同生命阶段中对企业的不同价值,帮助企业从战略高度来管理信息。那么,管理信息和管理存储设备有何不同?从管理设备的角度出发,CIO 会不切实际地期望不断降低存储费用,同时要求高性能。随着数据量的不断增加,可用的磁盘容量不断减少,企业不得不无计划、被动地增加存储,导致系统环境越来越复杂,难以管理。从管理信息的角度出发,企业会根据信息生命周期的特点,将其存储在与自身价值相符、并与拥有者所需要的交流方式和服务方式相符的不同层次的架构里,通过有计划、主动地增加存储,不断降低复杂性并增加整个存储系统的可用容量。     ILM 通过存储、保护、管理、集成四个组成部分实现信息管理费用与业务需求之间的平衡,从而达到降低企业的风险和费用的目的。因此, ILM 使企业实现了"适当的信息,在适当的时间,以适当的费用,存储在适当的设备上"。它从以下三个方面提升企业业务运营: · 帮助企业管理不断发展产生的变化和遇到的困难,为企业降低风险; · 提高企业的运行效率,降低运营费用,提高经济收益; · 帮助企业更好地管理资源,在市场上具有更好的竞争优势。 网络存储导论第五章:分级存储应用案例 5.6 分级存储案例:电视台的具体应用     凡是拥有巨大数据量的用户都可以从应用分级存储中获得更大利益,尤其是电信、气象、地震以及图像处理(电视台)等领域。以电信行业为例,在线业务系统需要在线存储;有些业务需要查询客户3 个月或6 个月以前的信息记录,近线存储就很适合;更久的信息同样不能删除,这就需要离线存储。同时,随着业务的不断进行又会产生新的数据,如何将在线、近线以及离线的数据统一管理好需要利用分级存储管理和信息生命周期管理技术。     随着电视技术的发展,存储技术在电视领域得到了广泛应用。存储技术贯穿了电视节目的拍摄、制作、播出及存储等整个流程。特别,随着电视事业的飞速发展,大量的专题片、系列片等自办节目越来越多,节目的制作成本也越来越高,但节目经费非常有限,拍摄制作周期越来越短,因此,素材资源的再利用就显得尤其重要。同一个素材很可能会被循环再用,重复使用多次。媒体资产在信息咨询时代,对于电视台,最重要的媒体实体就是历年来存储的视音频资料即电视节目,它已成为极具增值效益的一种无形资产。实现电视节目的良性管理将为资产持有者节约成本的同时,带来可观的经济效益。     在物理层次上,电视台视音频素材的存储也有三种模式即:在线存储、近线存储和离线存储。     电视台的在线存储设备永久连接在非线性编辑系统、硬盘播出系统等计算机系统中,并随时保持可实时快速访问的状态。在线存储设备通常具有很高的访问速度和良好的反应能力,适合访问要求频繁,并且对反应和数据传输都要求较高的应用。在电视台实际应用中在线存储设备一般采用SCSI 磁盘阵列、光纤磁盘阵列等,用于存储即将用于制作、编辑、播出的视音频素材。     电视台的离线存储设备或存储介质平时没有装在线性编辑系统、硬盘播出系统等计算机系统中,在存取数据时需要将存储设备或存储介质临时性地装载或连接到线性编辑系统、硬盘播出系统等计算机系统中,当数据访问完成时可以脱开连接。一旦断开之后,就可以更换存储介质。离线存储通常价格比较低廉,如磁带、磁带库、或光盘库等,可以将总的存储做得很大。但是由于离线到在线的存储介质的装载过程很长,所以离线存储一般用来存储不常用的冷数据包括制作年代较远的新闻片、专题片、纪录片、资料片等。     近线存储介于在线存储和离线存储之间,既可以做到较大的存储容量,又可以获得较快的存取速度。近线存储设备一般采用自动化的数据流磁带或者光盘塔。近线存储设备用于存储和在线设备发生频繁读写交换的数据包括近段时间采集的视音频素材或近段时间制作的新闻片、专题片、纪录片、资料片等。     在线、近线、离线三种存储体相互配合,在电视台媒体资产管理系统的管理软件定义的迁移策略控制下,既可保证资料的访问速度,又可扩充系统的存储容量。 网络存储导论第六章:数据迁移概念/特点 第六章 数据迁移     数据迁移是数据系统整合中保证系统平滑升级和更新的关键部分。在信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代。从两层结构到三层结构,从Client/Server 到Browser/Server。在新旧系统的切换过程中,必然要面临一个数据迁移的问题。     6.1 数据迁移的概念     原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数据也是进行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载到新系统中的过程。数据迁移主要适用于一套旧系统切换到另一套新系统,或多套旧系统切换到同一套新系统时,需要将旧系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发生系统切换时,一般都需要进行数据迁移。对于多对一的情况,例如由于信息化建设的先后,造成有多个不同的系统同时运行,但相互间不能做到有效信息共享,所以就需要一套新系统包容几套旧系统的问题。     数据迁移对系统切换乃至新系统的运行有着十分重要的意义。数据迁移的质量不光是新系统成功上线的重要前提,同时也是新系统今后稳定运行的有力保障。如果数据迁移失败,新系统将不能正常启用;如果数据迁移的质量较差,没能屏蔽全部的垃圾数据,对新系统将会造成很大的隐患,新系统一旦访问这些垃圾数据,可能会由这些垃圾数据产生新的错误数据,严重时还会导致系统异常。     相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的历史数据。因为无论对于一个公司还是一个部门,历史数据无疑都是十分珍贵的一种资源。例如公司的客户信息、银行的存款记录、税务部门的纳税资料等。     6.2 数据迁移的特点     系统切换时的数据迁移不同于从生产系统OLTP (On-line Transaction Processing),到数据仓库DW(Data Warehouse)的数据抽取。后者主要将生产系统在上次抽取后所发生的数据变化同步到数据仓库,这种同步在每个抽取周期都进行,一般以天为单位。而数据迁移是将需要的历史数据一次或几次转换到新的生产系统,其最主要的特点是需要在短时间内完成大批量数据的抽取、清洗和装载。     数据迁移的内容是整个数据迁移的基础,需要从信息系统规划的角度统一考虑。划分内容时,可以从横向的时间和纵向的模块两个角度去考虑。     横向划分     以产生数据的时间为划分依据,需要考虑比较久远的历史数据如何迁移的问题。由于信息技术的发展,以及存储工程师对计算机依赖性的增强,新系统每天往往需要比旧系统存储更多的信息,同时为了解决数据量高增长带来的性能瓶颈,新系统一般只保留一定时期的数据,比如1 年,而把超过保存周期的数据,即1 年以前的数据转移到数据仓库中,以便用于决策分析。对于这种新系统的数据迁移,主要迁移1 年以内的数据,1 年以前的历史数据需要另外考虑。     纵向划分     以处理数据的功能模块为划分依据,需要考虑在新系统中没有被包含的功能模块,其所涉及数据的处理问题。这类数据由于无法建立映射关系,一般不需要迁移到新系统中。但对于模块间偶合度比较紧密的旧系统,在纵向划分时需要注意数据的完整性。 网络存储导论第六章:数据迁移三种方法 6.3 数据迁移的三种方法     数据迁移可以采取不同的方法进行,归纳起来主要有三种方法,即系统切换前通过工具迁移、系统切换前采用手工录入、系统切换后通过新系统生成。     􀂄 系统切换前通过工具迁移     在系统切换前,利用ETL(Extract Transform Load)工具把旧系统中的历史数据抽取、转换,并装载到新系统中去。其中ETL 工具可以购买成熟的产品,也可以是自主开发的程序。这种方法是数据迁移最主要,也是最快捷的方法。其实施的前提是,历史数据可用并且能够映射到新系统中。     􀂄 系统切换前采用手工录入     在系统切换前,组织相关人员把需要的数据手工录入到新系统中。这种方法消耗的人力、物力比较大,同时出错率也比较高。主要是一些无法转换到新系统中的数据,和新系统启用时必需要而旧系统无法提供的数据采用这种方法,可作为第一种方法的有益补充。     􀂄 系统切换后通过新系统生成     在系统切换后,通过新系统的相关功能,或为此专门开发的配套程序生成所需要的数据。通常根据已经迁移到新系统中的数据来生成所需的信息。其实施的前提是,这些数据能够通过其它数据产生。     数据迁移的策略     数据迁移的策略是指采用什么方式进行数据的迁移。结合不同的迁移方法,主要有一次迁移、分次迁移、先录后迁、先迁后补等几种方式可供选择。     􀂄 一次迁移     一次迁移是通过数据迁移工具或迁移程序,将需要的历史数据一次性全部迁移到新系统中。一次迁移的优点是迁移实施的过程短,相对分次迁移,迁移时涉及的问题少,风险相对比较低。其缺点工作强度比较大,由于实施迁移的人员需要一直监控迁移的过程,如果迁移所需的时间比较长,工作人员会很疲劳。一次迁移的前提是新旧系统数据库差异不大,允许的宕机时间内可以完成所有数据量的迁移。     􀂄 分次迁移     分次迁移是通过数据迁移工具或迁移程序,将需要的历史数据分几次迁移到新系统中。分次迁移可以将任务分开,有效地解决了数据量大和宕机时间短之间的矛盾。但是分次切换导致数据多次合并,增加了出错的概率,同时为了保持整体数据的一致性,分次迁移时需要对先切换的数据进行同步,增加了迁移的复杂度。分次迁移一般在系统切换前先迁移将静态数据和变化不频繁的数据,例如代码、用户信息等,然后在系统切换时迁移动态数据,例如交易信息,对于静态数据迁移之后发生的数据变更,可以每天同步到新系统中,也可以在系统切换时通过增量的方式一次同步到新系统中。     􀂄 先录后迁     先录后迁是在系统切换前,先通过手工把一些数据录入到新系统中,系统切换时再迁移其它的历史数据。先录后迁主要针对新旧系统数据结构存在特定差异的情况,即对于新系统启用时必需的期初数据,无法从现有的历史数据中得到。对于这部分期初数据,就可以在系统切换前通过手工录入。     􀂄 先迁后补     先迁后补是指在系统切换前通过数据迁移工具或迁移程序,将原始数据迁移到新系统中,然后通过新系统的相关功能,或为此专门编写的配套程序,根据已经迁移到新系统中的原始数据,生成所需要的结果数据。先迁后补可以减少迁移的数据量。 网络存储导论第六章:实现数据迁移(1) 6.4 数据迁移的实现     数据迁移的实现可以分为三个阶段:数据迁移前的准备、数据迁移的实施和数据迁移后的校验。     由于数据迁移的特点,大量的工作都需要在准备阶段完成,充分而周到的准备工作是完成数据迁移的主要基础。具体而言,要进行待迁移数据源的详细说明,包括数据的存放方式、数据量、数据的时间跨度,建立新旧系统数据库的数据字典,对旧系统的历史数据进行质量分析,新旧系统数据结构的差异分析;新旧系统代码数据的差异分析;建立新老系统数据库表的映射关系,对无法映射字段的处理方法,开发、部属ETL 工具,编写数据转换的测试计划和校验程序,制定数据转换的应急措施。     其中,数据迁移的实施是实现数据迁移的三个阶段中最重要的环节。它要求制定数据转换的详细实施步骤流程;准备数据迁移环境;业务上的准备,结束未处理完的业务事项,或将其告一段落;对数据迁移涉及的技术都得到测试;最后实施数据迁移。     数据迁移后的校验是对迁移工作的检查,数据校验的结果是判断新系统能否正式启用的重要依据。可以通过质量检查工具或编写检查程序进行数据校验,通过试运行新系统的功能模块,特别是查询、报表功能,检查数据的准确性。     6.3.1 数据迁移的技术准备     数据转换与迁移通常包括多项工作:旧系统数据字典整理、旧系统数据质量分析、新系统数据字典整理、新旧系统数据差异分析、建立新旧系统数据之间的影射关系、开发部署数据转换与迁移程序、制定数据转换与迁移过程中的应急方案、实施旧系统数据到新系统的转换与迁移工作、检查转换与迁移后数据的完整性与正确性。     数据转换与迁移程序,即ETL 的过程大致可以分为抽取、转换、装载三个步骤。数据抽取、转换是根据新旧系统数据库的映射关系进行的,而数据差异分析是建立映射关系的前提,这其中还包括对代码数据的差异分析。转换步骤一般还要包含数据清洗的过程,数据清洗主要是针对源数据库中,对出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行相应的清洗操作,在清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从谈起。数据装载是通过装载工具或自行编写的SQL 程序将抽取、转换后的结果数据加载到目标数据库中。     对数据的检查     数据格式检查:检查数据的格式是否一致和可用,目标数据要求为number 型。     数据长度检查:检查数据的有效长度。对于char 类型的字段转换到varchar 类型中,需要特别关注。     区间范围检查:检查数据是否包含在定义的最大值和最小值的区间中;例如年龄为300,或录入日期在4000-1-1。     空值、默认值检查:检查新旧系统定义的空值、默认值是否相同,不同数据库系统对空值的定义可能不同,需要特别关注。     完整性检查:检查数据的关联完整性。如记录引用的代码值是否存在,特别需要注意的是有些系统在使用一段时间后,为了提高效率而去掉了外键约束。     一致性检查:检查逻辑上是否存在违反一致性的数据,特别是存在分别提交操作的系统。     6.4.2 数据迁移工具的选择     数据迁移程序的开发、部署主要有两种选择,即自主开发程序或购买成熟的产品。这两种选择都有各自不同的特点,选择时还要根据具体情况进行分析。纵观目前国内一些大型项目,在数据迁移时多是采用相对成熟的ETL 产品。可以看到这些项目有一些共同特点,主要包括:迁移时有大量的历史数据、允许的宕机时间很短、面对大量的客户或用户、存在第三方系统接入、一旦失败所产生的影响面将很广。同时也应该看到,自主开发程序也被广泛地采用。     相关的ETL 产品     目前,许多数据库厂商都提供数据抽取工具,如Informix 的InfoMover、Microsoft SQL Server7 的DTS 和Oracle 的Oracle Warehouse Builder 等,这些工具在一定范围内解决了数据的提取和转换。但这些工具基本都不能自动完成数据的抽取,用户还需利用这些工具编写适当的转换程序。     例如Oracle 的Oracle Warehouse Builder 数据抽取工具,简称OWB,提供的功能包括:模型构造和设计;数据提取、移动和装载;元数据管理等。但OWB 提供的流程繁琐,维护很困难,不易于使用。     在第三方产品中,Ascential Software 公司的DataStage 是一套相对比较完善的产品。DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大地提高开发和调试抽取、转换程序的效率。 网络存储导论第六章:实现数据迁移(2) 6.4.3 数据抽取和转换的准备     数据抽取前,需要作大量的准备工作。具体如下:     1、 针对目标数据库中的每张数据表,根据映射关系中记录的转换加工描述,建立抽取函数。该映射关系为前期数据差异分析的结果。抽取函数的命名规则为:F_目标数据表名_E。     2、 根据抽取函数的SQL 语句进行优化。可以采用的优化方式为:调整SORT_AREA_SIZE和HASH_AREA_SIZE 等参数设置、启动并行查询、采用提示指定优化器、创建临时表、对源数据表作ANALYZES、增加索引。     3、 建立调度控制表,包括ETL 函数定义表(记录抽取函数、转换函数、清洗函数和装载函数的名称和参数)、抽取调度表(记录待调度的抽取函数)、装载调度表(记录待调度的装载信息)、抽取日志表(记录各个抽取函数调度的起始时间和结束时间以及抽取的正确或错误信息)、装载日志表(记录各个装载过程调度的起始时间和结束时间以及装载过程执行的正确或错误信息)。     4、建立调度控制程序,该调度控制程序根据抽取调度表动态调度抽取函数,并将抽取的数据保存入平面文件。平面文件的命名规则为:目标数据表名.txt。     数据转换的工作在ETL 过程中主要体现为对源数据的清洗和代码数据的转换。数据清洗主要用于清洗源数据中的垃圾数据,可以分为抽取前清洗、抽取中清洗、抽取后清洗。ETL 对源数据主要采用抽取前清洗。对代码表的转换可以考虑在抽取前转换和在抽取过程中进行转换。     具体如下:     1、针对ETL 涉及的源数据库中数据表,根据数据质量分析的结果,建立数据抽取前的清洗函数。该清洗函数可由调度控制程序在数据抽取前进行统一调度,也可分散到各个抽取函数中调度。清洗函数的命名规则为:F_源数据表名_T_C。     2、针对ETL 涉及的源数据库中数据表,根据代码数据差异分析的结果,对需要转换的代码数据值,如果数据长度无变化或变化不大,考虑对源数据表中引用的代码在抽取前进行转换。抽取前转换需要建立代码转换函数。代码转换函数由调度控制程序在数据抽取前进行统一调度。     代码转换函数的命名规则为:F_源数据表名_T_DM。     3、对新旧代码编码规则差异较大的代码,考虑在抽取过程中进行转换。根据代码数据差异分析的结果,调整所有涉及该代码数据的抽取函数。     6.4.4 数据迁移后的校验     在数据迁移完成后,需要对迁移后的数据进行校验。数据迁移后的校验是对迁移质量的检查,同时数据校验的结果也是判断新系统能否正式启用的重要依据。可以通过两种方式对迁移后的数据进行校验。     对迁移后的数据进行质量分析,可以通过数据质量检查工具,或编写有针对性的检查程序进行。对迁移后数据的校验有别于迁移前历史数据的质量分析,主要是检查指标的不同。迁移后数据校验的指标主要包括五方面:完整性检查,引用的外键是否存在;一致性检查,相同含义的数据在不同位置的值是否一致;总分平衡检查,例如欠税指标的总和与分部门、分户不同粒度的合计对比;记录条数检查,检查新旧数据库对应的记录条数是否一致;特殊样本数据的检查,检查同一样本在新旧数据库中是否一致。     新旧系统查询数据对比检查,通过新旧系统各自的查询工具,对相同指标的数据进行查询,并比较最终的查询结果;先将新系统的数据恢复到旧系统迁移前一天的状态,然后将最后一天发生在旧系统上的业务全部补录到新系统,检查有无异常,并和旧系统比较最终产生的结果。 网络存储导论第七章:系统灾难备份意义 第七章 系统灾难备份     7.1 容灾技术的意义     当应用系统的一个完整环境因灾难性事件(如火灾、地震等)遭到破坏时,为了迅速恢复应用系统的数据、环境,立即恢复应用系统的运行,保证系统的可用性,这就需要异地灾难备份系统(也称容灾系统)。可以说,对于关键事物的处理系统,如联通的各项业务系统(客户服务、计费、IDC 等),建立最高级别的安全体系,也是提高服务质量、在竞争中立于不败之地的重要举措。     长期以来,对企业而言,建立一套可行的容灾系统相当困难,主要是高昂的成本和技术实现的复杂度。鉴于此,从可行性而言,必须具有良好的性能价格比。     建立异地容灾系统,即指建立远程的数据中心,通过配置远程容灾系统将本地数据实时进行远程复制,同时实现本地系统故障时应用系统的远程启动,确保系统的不中断运行。     建立异地容灾中心的优势在于: · 强大的一级灾难抗御能力。 · 有效防止物理设备损伤产生的灾难后果。 · 提供99.9999%的安全机制。 · 实时数据复制提供强大的数据交换能力。     随着数据安全技术的发展,Cluster(HA)的技术越来越成熟,Cluster 的部署越来越普及,Cluster 技术确实解决了用户系统的高可用性问题,为业务的良性发展提供了稳定的基石。随着业务的发展,商业环境对服务供应商提出的要求也越来越苛刻,这必将使应用系统及其数据对高可用性的要求走上一个新的台阶。     一个本地Cluster 系统理论上可以提供99.99%以上的系统高可用性,但一旦发生火灾、自然灾害、人为破坏等意外事件,服务商将如何应对呢?如果没有必要的准备和应对手段,这样的一次意外对服务上来说将是灾难性的。对于IT 部门来讲,要提高自己的抗灾能力,其必要的技术就是建立起一个容灾系统。     7.2 容灾技术的分类     一个容灾系统的实现可以采用不同的技术,一种技术是:采用硬件进行远程数据复制,存储工程师称为硬件复制技术。这种技术的提供者是一些存储设备厂商。数据的复制完全通过专用线路实现物理存储设备之间的交换。另一种技术是:采用软件系统实现远程的实时数据复制,并且实现远程的全程高可用体系(远程监控和切换)。这种技术的代表如VERITAS 等一些著名存储软件厂商。存储工程师在下面的章节会对以上两种技术进行详细的论述。     容灾系统的归类在另一个方面要由其最终达到的效果来决定。从其对系统的保护程度来分,存储工程师可以将容灾系统分为:数据容灾和应用容灾。     所谓数据容灾,就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。     所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份)。建立这样一个系统相对比较复杂,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP 等资源,以及各资源之间的良好协调。应用容灾应该说是真正意义上的容灾系统。     存储工程师先讨论一下数据容灾。     数据容灾(硬件容灾方案和软件容灾方案均包括),又称为异地数据复制技术,按照其实现的技术方式来说,主要可以分为同步传输方式和异步传输方式(各厂商在技术用语上可能有所不同。而根据容灾的距离,数据容灾又可以分成远程数据容灾和近程数据容灾方式。下面,存储工程师将主要按同步传输方式和异步传输方式对数据容灾展开讨论,其中也会涉及到远程容灾和近程容灾的概念,并作相应的分析。 网络存储导论第七章:同步传输数据复制 7.2.1 同步传输的数据复制     有关同步数据容灾,在传统意义上讲,就是通过容灾软件(可以含在硬件系统内),将本地生产数据通过某种机制复制到异地。从广义上讲,同步数据容灾是指在异地建立起一套与本地数据实时同步的异地数据。       从图7-1可以看出,采用同步传输方式进行异地数据容灾的过程包括:     1. 本地主机系统发出第一个I/O 请求A;     2. 主机会对本地磁盘系统发出I/O 请求;     3. 本地磁盘系统完成I/O 操作,并通知本地主机“I/O 完成”;     4. 在往本地I/O 的同时,本地系统(主机或磁盘系统)会向异地系统发出I/O 请求A;     5. 异地系统完全I/O 操作,并通知本地系统“I/O 完成”     6. 本地主机系统得到“I/O 完成”的确认,然后,发出第二个I/O 请求B。 图 7-1 同步数据的一个实例     不同的异地数据复制技术的实现方式是不同的,包括:       基于主机逻辑卷层的同步数据复制方式(软件复制方式);       基于磁盘系统I/O 控制器的同步数据复制方式(硬件复制方式);     首先,描述基于主机逻辑卷的同步数据复制方式。     基于主机逻辑卷的同步数据复制方式以VERITAS Volume Replicator(VVR)为代表,VVR是集成于VERITAS Volume Manager(逻辑卷管理)的远程数据复制软件,它可以运行于同步模式和异步模式。在同步模式下,其实现原理如下图: 图7-2 基于逻辑卷的数据复制实例     当主机发起一个I/O 请求A 之后,必然通过逻辑卷层,逻辑卷管理层在向本地硬盘发出I/O请求的同时,将同时通过TCP/IP 网络向异地系统发出I/O 请求。其实现过程如下:     1. 本地主机系统发出第一个I/O 请求A;     2. 主机逻辑卷层会对本地磁盘系统发出I/O 请求;     3. 本地磁盘系统完成I/O 操作,并通知本地逻辑卷“I/O 完成”;     4. 在往本地磁盘系统I/O 的同时,本地主机系统逻辑卷会向异地系统发出I/O 请求A;     5. 异地系统完成I/O 操作,并通知本地主机系统“I/O 完成”     6. 本地主机系统得到“I/O 完成”的确认,然后,发出第二个I/O 请求B。     其次,考察基于磁盘系统的同步数据复制功能     基于磁盘系统的同步数据复制功能实现异地数据容灾,如SRDF 和PPRC。这两个软件运行的平台是磁盘系统,部署这样的系统必须要求在两端采用相同种类的磁盘系统。     其同步数据复制的实现原理如下图:     当主机发出一个I/O 请求A 之后,I/O 进入磁盘控制器。该控制器在接到I/O 请求后,一方面会写入本地磁盘,同时利用另一个控制器(或称通道),通过专用通道(如:ESCON)、FC光纤通道(IP over FC)或者租用线路,将数据从本地磁盘系统同步的复制到异地磁盘系统。其实现过程如下:     1. 本地主机系统发出第一个I/O 请求A;     2. 主机对本地磁盘系统发出I/O 请求;     3. 在往本地磁盘系统I/O 的同时,本地磁盘系统会向异地磁盘系统发出I/O 请求A;     4. 本地磁盘系统完成I/O 操作;     5. 异地系统完成I/O 操作,并通知本地磁盘系统“I/O 完成”     6. 本地次盘系统向主机确认“I/O 完成”,然后,主机系统发出第二个I/O 请求B。 网络存储导论第七章:同步容灾性能分析 7.2.2 同步数据容灾的性能分析     利用同步传输方式建立异地数据容灾,可以保证在本地系统出现灾难时,异地存在一份与本地数据完全一致的数据备份(具有完整的一致性)。但利用同步传输方式建立这样一个系统,必须考虑“性能”这个因素。     采用同步数据传输方式时,从前面的描述来看,本地系统必须等到数据成功的写到异地系统,才能进行下一个I/O 操作。一个I/O 通过远程链路写到异地系统,涉及到3 个技术参数:带宽、距离和中间设备及协议转换的时延。       带宽     本地I/O 的带宽是100MB/秒(SAN 网络中),在I/O 流量很大的情况下,如果与远程的I/O带宽相对“100MB/秒 == 800Mbit/秒”窄得多的话,如E1:2Mbit/秒;E3:45Mbit/秒,将会明显拖慢生产系统的I/O,从而影响系统性能。        距离     光和电波在线路上传输的速度是30 万公里/秒,当距离很长时,这种线路上的延时将会变得很明显。例如:一个异地容灾系统的距离是1000KM,其数据库写盘的数据块大小是10KB(一次I/O 的数据量),那么:     本地I/O 时(100 米距离内):     此数字远远超过光纤通道带宽本身,也就是说,光电在100 米距离的线路上的延时对性能的影响可以忽略不计。     异地I/O 的(1000 公里):     此数据表明,在1000 公里距离上,允许的最大I/O 量在不存在带宽限制时,已经远远低于本地I/O 的能力。(注:上面分析还未考虑中间设备及协议转换的延时)。       中间链路设备和协议转换的时延     中间链路设备和协议转换的方式的不同,时延不同,对性能的影响也不同。在对性能影响的分析中,这个因数也应计算在内。目前不同异地数据复制技术所依赖的介质和协议不同,存储工程师将介质、协议和大概时延例表如下,这里提供的数据只精确到数量级,仅供参考,实际数据应该向设备供应商索取。 表 7-1 数据线路处理时延估计     下面是一个线路时延分析对照表,供参考。 表 7-2 数据传输距离时延     在1000 公里和100 公里距离上,采用租用线路和ATM,允许的最大I/O 能力(假定带宽足够,数据块大小以10KB 为例): 表 7-3 线路系统考察     在10 公里距离上,采用各种传输协议允许的最大I/O 能力,数据块大小以10KB 为例(假定带宽足够): 表7-4 等距离条件下的时间延时 网络存储导论第七章:异步数据复制方式 7.2.3 异步数据复制方式     从前面的分析来看,同步数据容灾一般只能在较短距离内部署(10KM-100KM),大于这个距离,就没有实际应用价值了。因为即使在1000KM 距离上,4.5MB 的速率即使将数据复制到异地,每个I/O 的响应时间也会超过10ms,这种响应速度太慢。     异步数据容灾是在“线路带宽和距离能保证完成数据复制过程,同时,异地数据复制不影响生产系统的性能”这样的要求下提出来的。考虑异步数据容灾,应该注意到以下几个技术条件和事实。 · 带宽必须能保证将本地生产数据基本上完全复制到异地容灾端,还要考虑距离对传输能力的影响。 · 按照前面的估算:在1000 公里范围内,一条带宽足够的线路能支持的I/O 流量最大为(数据块大小10KM ):1.4MB×3600 秒×24 小时=120GB/天 · 异地容灾远端数据会比本地生产端数据落后一定时间,这个时间随采用的技术,带宽、距离、数据流特点的不同而不同。一般而言,软件方式的数据复制技术具有完整的数据包的排队和断点重发机制,在灾难情况下可以保证灾难时间点的数据一致性。 · 异步容灾基本不影响本地系统性能。     与同步传输方式相比,异步传输方式对带宽和距离的要求低很多,它只要求在某个时间段内能将数据全部复制到异地即可,同时异步传输方式也不会明显影响应用系统的性能。其缺点是在本地生产数据发生灾难时,异地系统上的数据可能会短暂损失(如果广域网速率较低,交易未完整发送的话),但不影响一致性(类似本地数据库主机的异常关机)。     通过异步传输模式进行异地数据复制的技术,包括: · 基于主机逻辑卷的数据复制方式 · 基于磁盘系统I/O 控制器的数据复制方式     基于主机逻辑卷(Volume)的数据复制方式     首先申明:针对这种方式,这以VERITAS VVR 为例,但并不表示所有基于主机进行复制的其它软件采用同样方式,也不保证其它软件是有应用价值的。     VERITAS VVR (Volume Replicator)通过基于Volume 和Log 的复制技术,保证在任何时刻本地系统发生自然灾难时,在异地的数据仍是可用的。     VERITAS VVR 在异步模式下采用了Log 技术来跟踪未及时复制的数据块,这个Log 是一个先到先服务的堆栈,每一笔I/O 处理都会首先被放进这个Log,并按到达先后顺序被复制到异地服务器系统。     下图是其工作的结构原理。 图7-4 基于逻辑卷的异步数据复制     从上图,存储工程师可以看到整个I/O 和复制的过程如下: · 本地主机系统发出第一个I/O 请求A 到逻辑卷; · 逻辑卷对本地磁盘系统发出I/O 请求; · 在往本地磁盘系统I/O 的同时,逻辑卷向本地磁盘系统上的VVR Log 发出相同的写请求; · 本地磁盘系统完成I/O 操作;并通知逻辑卷“I/O 完成”; · VVR 完成针对这个I/O 的远程操作,并通知逻辑卷; · 逻辑卷向主机确认“I/O 完成”。     服务器的另一个进程:VVR 的进程,负责将Log 队列中的I/O 复制到异地服务器。这个过程和上面的I/O 过程在时间上无关。如上图中的标记:“I”和“II”。     I: 本地VVR 进程从Log 队列中取出最先到达的I/O,复制到异地服务器     II: 异地服务器接收到本地服务器VVR 发出的I/O 请求,将相应数据写到异地磁盘系统,然后,通知本地系统VVR 进程,要求下一个I/O。     这里,跟踪未及时复制的数据块的Log 技术是保证异地数据可用的必要条件。一个数据库的I/O 是有严格顺序的,这个顺序是保证数据库完整性的必要条件,一个完整性被破坏的数据库一般是不可用的,比如根本无法启动、打开该数据库,且是无法修复的。本地数据库的完整性是由数据库本身来维护的。当一个数据库被实时复制到异地时,要保证异地数据库的完整性,必然保证在异地磁盘I/O 上的I/O 顺序和本地I/O 顺序完全相同,否则,异地数据库的完整性就无法保证。     VERITAS VVR 采用的I/O 控制机制是支持先到先服务的Log 技术,因此,不管异地数据比本地数据落后多少时间,都能保证异地数据库数据的一致性。比如:本地系统在12:00 时发生自然灾难,由于部分数据未被及时复制到异地,如有10 分钟的数据未完成复制,那么在异地系统上存在11:50 分钟以前的所有数据,且这个数据库是可用的。     目前的基于磁盘系统的异地数据复制技术采用Bitmap 技术和Timestamp 技术,这两种技术都不能保证本地向异地复制数据的顺序严格和本地I/O 的顺序相同,所以,这两种方式都不能保证异地数据库的完整性。     Bitmap(位图)技术记录未被及时复制的数据块的方法是:对于每个数据块(如32KB)用一个Bit 来对应,某一个Bit 被置为“1”时,表示其对应的数据块已被修改过,正在等待处理(这里是等待被复制)。由此可以看出,当有一块以上的数据块未被及时复制时,系统并无法确认哪一块数据块应该先复制到异地,所以,系统将任选一块,即不按到达的时间先后进行复制。     可以看出,这种方式不能根本保证异地数据库数据的完整性、一致性。     Timestamp 方式是对每个未及时传送的数据块盖上一个时间戳。从表面上看,由于时间戳的关系,好像能确定一个数据块被修改的时间顺序了。其实不然:当一个未被及时复制的数据块被第2 次修改,并盖上新的时间戳时,数据复制的顺序就被破坏了。例如:     现在有10 块数据块未被复制,编号“1、2、3、4、5、6、7、8、9、10”;这时,第3 块数据被再次修改,并被盖上一个新的时间戳“11”;这时,系统会按这样的次序进行复制:“1、2、(没有3)、4、5、6、7、8、9、10、11”。存储工程师可以看到,在复制进行到“4~10”之间时,异地数据的完整性被破坏。     事实上,在一个运行繁忙的系统中,出现这种情况机率极高,甚至每时每刻都处在这种状态之下。所以,本着严格的,对系统可用性负责任的态度,可以认为“Timestamp”的技术虽然比Bitmap 技术有一定优势,但实际上也无法保证异地数据的完整性和可用性。     Bitmap 和Timestamp 方式的技术弱点:没有log;     作为磁盘系统内置的数据复制功能,传统的磁盘管理模式没有考虑在磁盘系统内部开辟出一个磁盘块给磁盘系统控制器本身使用,所以,磁盘系统无法采用log 模式进行异步数据复制。     磁盘系统保留异步传输模式的目的:复制,但不是容灾复制;     数据复制的目的不仅仅是容灾。数据容灾要求两地时时保持连接,数据复制过程在任一时间都在进行(除非有线路或设备故障)。而非容灾性复制只要求在某一个时间段里将数据复制到异地,复制告一段落后(在某一时刻完全同步),复制工作会暂停。这种复制可能是为一个特殊目的只做一次,如在线业务迁移;也可能每天或每月追加一次。这样,在异地就会存在一份最大损失数据量为1 天或1 个月的生产数据复制品,其对数据的保障能力,如同磁盘备份。这种方式复制数据的目的包括:1)在异地保存一份备份数据(如同磁带备份异地保存)。2)在线业务迁移,当信息中心或其中的一个服务要迁移到另一个地方,又希望少停机(实际上也可用磁带备份和恢复来实现)。3)利用与磁盘快照技术结合,为异地开发中心提供一个与生产数据尽量相同的测试数据源。当然,也可用于其它可能的目的。     综上所述,可以看出,虽然基于磁盘系统的异地数据复制功能有异步传输模式,但实际上并不支持异步数据容灾,只有像VERITAS Volume Replicator 这样基于先进先出的Log 技术的解决方案才真正支持异步数据容灾 网络存储导论第七章:容灾方法具体分析 7.3.1 灾难备份需求的衡量指标   对于大多数企业而言,提到灾难备份,最直接的反映就是增加预算,购买更多的主机,存储设备以及相应软件。虽然这是实施灾难备份项目的一个必要步骤,但是,从“灾备方案应是风险和成本相应平衡”的出发点来综合考虑,实施灾难备份项目的第一步应该从“分析评估以确定灾难灾难备份需求目标”开始。   􀁺 RTO (Recovery Time Objective)   RTO,Recovery Time Objective,是指灾难发生后,从I/T 系统当机导致业务停顿之刻开始,到IT 系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。   一般而言,RTO 时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管理的角度而言,RTO 时间越短越好,但是,这同时也意味着更多成本的投入,即可能需要购买更快的存储设备或高可用性软件。   对于不同行业的企业来说,其RTO 目标一般是不相同的。即使是在同一行业,各企业因业务发展规模的不同,其RTO 目标也会不尽相同。   RTO 目标的确定可以用下图来说明:   7-5 投入/收益示意图      如上所说,RTO 目标越短,成本投入也越大。另一方面,各企业都有其在该发展阶段的单位时间赢利指数,该指数是通过业务冲击分析(BIA-Business Impact Analysis)咨询服务,以交谈、问答和咨询的方式得到确定的。在确定了企业的单位时间赢利指数后,就可以计算出业务停顿随时间而造成的损失大小。如上图,结合这两条曲线关系,存储工程师将可以找到对该企业而言比较适合的RTO 目标,即在该目标定义下,用于灾难备份的投入应不大与对应的业务损失。    􀁺 RPO (Recovery Point Objective)   RPO,Recovery Point Objective,是指从系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。   与RTO 目标不同,RPO 目标的确定不是依赖于企业业务规模,而是决定于企业业务的性质和业务操作依赖于数据的程度。因此,RPO 目标对相同行业的企业而言会有些接近,而对于不同行业的企业来说仍可能会有较大差距。   RPO 目标仍是以咨询的方式,通过与各业务部门主管的交流,了解业务流程和IT 应用的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的RPO 目标。 网络存储导论第七章:重要系统灾备方法 7.3.2 重要系统灾难备份主要的实现方法 在目前的技术条件下,重要系统灾难备份主要的实现方法主要有一下几种: 1. 基于应用本身的容灾----应用直接指向2 个同时运作的数据中心,在任意一个中心活动情况下继续工作 2. 基于文件/数据库日志----通过复制数据库日志和数据文件方式,从生产中心向容灾中心进行数据容灾 3. 基于复制磁盘容灾----通过复制磁盘IO 的方式,从生产中心向容灾中心进行数据容灾,根据复制设备的不同,有可以分为: o 基于主机 o 基于磁盘阵列 o 基于智能SAN 虚拟存储设备     下面对各种方式进行一个简单比较: 表7-5 容灾方式比较     7.3.3 灾难备份方式比较的分析     各种容灾方式下,只有基于应用本身的方式可以做到RTO为0;其它方式一般需要进行网络切换、存储切换和数据库重启等工作,RTO一般从几十分钟到数小时不等。各种容灾方式下,一般都要求主机和数据库同步,虽然存在理论上的异构可能,但是在具体实施时会给开发/测试带来巨大的难度,并大大降低容灾系统的稳定程度,一般不会采用基于应用本身的方式虽然可以做到RTO为0,但是对应用要求极高,并且需要极其复杂的机制处理双中心的数据同步问题;目前浙江系统众多,应用复杂,如果采用这种方案,需要对所有应用进行更改,实施难度极大,顾不予推荐。基于基于文件/数据库日志的方式,只能以文件方式传输数据,数据丢失单位至少一个文件,无法做到RTO=0,在不允许丢失数据的关键应用上也不适合,顾不予推荐。     基于复制磁盘容灾主要有同步和异步2种方式,异步方式无法做到RTO=0,在不允许丢失数据的关键应用上也不适合,顾不予推荐;同步方式的情况下,以复制主题不同进行分类。     基于主机复制磁盘数据:磁盘阵列可以异构是最大的优点;但是,这种方式容灾时对主机性能有一定影响,针对不同的主机需要采用不同的实现方式,目前浙江系统众多,应用复杂,如果采用这种方案,需要对所有主机进行论证和实施,实施难度较大,顾不予推荐基于磁盘阵列复制磁盘数据:实施简单是最大的优点,不影响主机,只镜像数据,是目前较主流的一种容灾方案;但是,这种方式容灾时,需要磁盘阵列高度同构,不但要求磁盘阵列是一个厂商的,还必须是同一厂商同一系列的阵列,否则无法实现数据复制,所以,这种方案多用于已经进行存储整合的大型系统;目前浙江的现实情况是系统非常多,不同系统采用不同磁盘阵列,很多目前的系统还不支持磁盘阵列的远程镜像功能;如果实施这种方案,首先需要升级/替换很多磁盘阵列,然后为每一种阵列在容灾中心配置相应的同构磁盘阵列,投资巨大,每一种不同的阵列采用不同的软件,维护不便,而且,中心的各个存储各自工作,没有一个统一存储池能够灵活调配资源,资源使用也狠浪费     基于智能SAN虚拟存储设备复制磁盘数据:这种方式拥有所有基于磁盘阵列复制磁盘数据的优点,而且通过这种方式可以解决许多基于磁盘阵列无法解决的问题: · 磁盘阵列可以完全异构,不同厂商不同系列的阵列可以混合使用,大大节约客户方案复杂程度和实施难度 · 智能SAN 虚拟存储设备实现远程容灾不在乎客户现有的SAN 阵列是否支持远程数据容灾,大大保护客户投资 · 智能SAN 虚拟存储设备可以将中心的多个存储设备(如果有多个的话)作为一个统一的存储池进行管理,存储效率大大提高 · 智能SAN 虚拟存储设备针对不同的主机存储设备采用统一的软件实施远程容灾,管理维护大大简化     所以,在目前情况下,基于智能SAN虚拟存储设备进行磁盘复制的方式是最适合目前项目需要的,也是存储工程师主要推荐的方案。 网络存储导论第七章:用SAN实现远程容灾 7.3.4 采用SAN 进行远程容灾的实现     目前,基于智能SAN 虚拟存储设备进行磁盘复制比较成熟的方案这里给出的是IBM 的 SVC(SAN Volume Controller,SAN 卷控制器),该设备发布于2 年前发布,已经在全球20 多个国家安装了超过1000 套系统。     采用IBM SVC 实现远程容灾的方案简图如下:     在所有需要容灾的系统SAN 网络种加入SVC,然后就可以利用SVC 的远程复制功能进行数据容灾了。 图7-6    IBM SVC 远程容灾     7.3 容灾技术性能总结和对照     以下对于各种容灾技术的工作方式进行总结。 表 7-5 容灾比较列表     根据以上的分析,可以看出,硬件系统的容灾技术(指磁盘阵列)在对主机系统的内部开销上较小,但是十分影响本地IO 的性能,同时要求本地和异地均采用专用的磁盘阵列,成本和造价极高。比较重要的是,这种方式的传输距离有限,仅限于同城传输。     采用软件的数据复制方式(如VVR),一般采用异步方式。这种方式具有对本地系统IO 影响很小,传输距离长的优势,并且可以支持任意磁盘阵列,使得造价相对较小。不足是如果线路速率较慢,会造成故障时轻微数据损失。     7.4 广域网络的高可用技术(软件容灾方式)     软件容灾方式中,支持应用容灾,即应用系统的完全高可用和远程切换系统,这里指一整套完整的本地高可用系统和异地高可用系统的完整结合体系。本地的高可用系统指在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。     而远程的容灾系统中,除了本地系统的安全机制外,还应具有广域网范围的远程故障切换能力和故障诊断能力。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。     广域网体系的远程故障切换机制的流程(软件方式): · 本地系统的故障分级,常规级别在本地系统进行高可用切换,如网卡故障、应用系统故障、文件系统故障(本地cluster)。 · 高级别故障(如火灾、地震),通过远程监控体系和报警体系实现远程切换(异地cluster)。切换包括IP、域名、应用等。恢复体系: · 一旦故障解除,应用系统实现主备站点的恢复传输。 · 异地复制中断传输的恢复流程(软件方式复制): · 断点序号重传;或增量异地同步实现增量块复制。 网络存储导论第八章:灾后系统恢复规划 第八章 系统恢复     8.1 灾难后信息安全的恢复规划     在发生任何一种灾难时,都需要考虑各种形式的损失: · 物理设施(受损的建筑物、工作场所、计算机、库存) · 对设施的访问(报废的建筑物) · 信息(受损的磁盘和计算机) · 对信息的访问(没有远程数据库访问) · 人员(生产人员、支持人员、管理人员)     8.1.1 要素分析     一个全面的灾难恢复规划必须采取所有必要的措施来确保业务的长期顺利运行。这意味着必须研究和分析每个物理组件、每个软件组件、每个人力资源组件和每个业务流程,以及每个元素可以接受的风险程度。必须考虑财务和管理问题。有效的规划应当考虑到所有潜在的灾难,这其中包括自然灾害、恐怖袭击、网络灾难等。(请参阅附录A 中的关于如何准备和管理网络灾难的信息)此外,必须考虑到向规划的"备份"模式的转变。 "供应链"分析是一种有用的技术,可以用于恢复企业的物理资产。规划的这个部分应当阐明怎样处理不可用的生产或者存储设施、订单输入系统、发货、应收账款和支付系统、备用部件和客户服务。时间也是一个非常重要的因素。Gartner Group 最近建议企业将关键流程和应用的恢复时间缩短到24 小时以内,并将非关键性应用的恢复时间缩短到四天以内。     应当将三种解决方案视为规划流程的组成部分。一个企业可以(1)构建它自己的冗余系统(例如,拥有两个独立的工厂,每个负责部分工作);(2)提前为需要在紧急情况下使用的设施签约(例如由某个灾难恢复服务公司拥有和管理的热点数据中心);或者(3)购买可以抵消由于灾难会导致的损失的保险(例如抵消为了满足紧急需要而租用设施或者购买产品、部件的成本)。对于大多数企业来说,没有哪一种单一的方式是最好的;最有效的方法就是综合使用上面这三种广泛的战略。     主要设备的供应商是所有规划的重要组成部分。确保供应商拥有足够的部件、人员和资金资源,以便在发生大规模灾难的情况下迅速地帮助数据系统用户摆脱困境。     灾难恢复规划的关键是如何有效地传达和执行这些计划。在灾难发生之间与员工进行有效的交流非常重要,这可以让他们知道如何采取紧急措施。Citigroup 的一位领导人在《Information Week》于2001 年晚些时候发表的一篇文章中指出:"如果数据系统用户不能正确地做到这一点,在灾难降临时数据系统用户的公司将会陷入一片混乱。如果不为灾难做好充分的准备,数据系统用户的公司可能会破产。"     如果数据系统用户觉得制定一项有效的灾难恢复/业务连续性规划似乎超出了数据系统用户的能力范围,尤其是在内部专业经验十分有限的情况下,就需要专业人员的帮助了。     8.1.2 信息技术构架     从IT 的角度来说,一项全面的灾难恢复规划应当包含网络弹性、通信弹性和业务应用弹性。     一个富有弹性的网络首先应当具有有效的设计和架构,可以提供移动性和安全性,并以专门针对高可用性而设计的平台为基础。在设计中,冗余有助于消除单点故障,而快速、自动的故障切换可以确保迅速的恢复。对于流量设计、负载均衡和服务质量(QoS)的关注将能够处理性能低下或者不符合预期的流量负载,这些负载可能会在没有故障时阻塞用户对于业务应用的访问。     通信方面需要考虑的是语音和PBX 流量,以及数据流量。IP 电话可以作为语音通信的主要或者备用方式,而IP 联络中心则可以提高企业与主要客户和供应商保持联络的能力。最近的一些媒体报道介绍了一些将IP 语音连接作为通信的唯一方式,而放弃采用PBX 系统和电话交换机的例子。基于IP 的语音通信网络有助于提高移动性,实现员工的迅速调配--无论是到预先规划的备份地点还是到会议中心和宾馆房间中的"临时办公室",都能迅速开展工作。     在应用方面,重要的业务应用必须保持可用性,而关键的企业和客户信息必须能够迅速恢复。因此必须使用备用数据中心和异地数据备份和存储功能。(本文稍后将介绍如何通过WAN连接中心和终端用户)     要获得成功,灾难恢复规划在IT 方面需要阐述的内容并不仅限于企业的数据中心。一个有效的计划至少应当涉及到: · 数据中心环境,包括服务器、存储、供电和HVAC · 用户环境(PC、LAN、应用和客户端软件) · 企业内部通信设施(建筑物内部、园区内部) · 外部通信设施(电信运营商服务和线路) · 管理(管理中心、帮助台、专业技能)     灾难恢复公司Comdisco 在纽约市发生911 事件之后发表了一篇关于灾难恢复的报告,中指出:"恢复工作的效果绝大部分体现在业务终端用户身上--即计算的终端。通常这些业务终端用户环境并不享有像数据中心那样的连续性规划。"     除了上面介绍的IT 因素以外,规划还应当考虑到,在灾难发生后的很短时间内,电子邮件、网站、电话、专用线路的使用率可能会大大超过平时。此外,由于网络中可能需要加入新的地点,网络流量的使用模式也会发生变化。     规划还应当阐明,除了更换所损失的物理资产以外,企业在一次灾难之后很可能立即需要的多种不同类型服务的来源。这些服务可能包括: · 保护和安全服务 · 残骸清理服务 · 抽水和相关的清洁服务 · 清理HVAC 系统、管道等 · 从受损的介质中恢复数据 · 为员工提供后勤服务     网络的复杂性使得企业很难实现业务的弹性。在制定针对业务连续性、保护和灵活性的计划的过程中,复杂程度越低越好。最大限度地减少提供设备的供应商的数量和去除无用的旧设备是实现这种网络简便性的关键步骤。 网络存储导论第八章:WAN 考虑因素(一) 8. 2 WAN 考虑因素     现代企业需要依靠网络通信来开展重要的业务,而LAN 和WAN 环境都必须准备就绪,以便员工履行他们的职责。灾难恢复规划在工作场所方面的组成部分一定要纳入LAN 和WAN 访问所需要的设备。     要保持WAN 的可用性,以支持业务的发展,就意味着利用目前最可靠、最富有弹性的软件,利用谨慎的网络设计,遵循从设计到日常操作的最佳实践,建立高度可用、容错的系统和平台。     成功的WAN 设计并不仅仅关注于连接性。确保业务弹性的原则之一就是尽量分散人员和信息资产,以降低风险的理念。呼叫中心并不需要集中,数据也可以复制,同时需要为所有员工提供对关键性业务应用(例如订单输入和客户服务)的访问。一个富有弹性的WAN 设计需要集成冗余,以消除单点故障;需要采用流量负载均衡技术,以确保连续的服务和可以接受的响应;需要具有快速的故障切换能力,以实现快速的恢复,此外还应当为每种情况制定相应的安全措施。这些都构成了很多挑战。LAN 或者园区环境中实际可用的带宽和电信运营商所提供的带宽之间存在着明显的差异。尽管T1 线路的价格比较合理,而且应用非常广泛,但是需要大幅度增加预算,例如对于T3 和OC3 服务而言。目前在城区提供的一些基于光纤传输技术的新型服务可以在很大程度上解决这个问题,最近的一些产品的价格非常低--100Mbps 快速以太网服务的价格只有每月1000 美元。当然利用QoS 技术将WAN 设计为一个可以同时传输语音/数据/视频流量的网络也是降低成本的重要手段。     WAN 需求规划应当包括怎样连接现有的数据中心和现有的员工工作地点,怎样连接现有的数据中心和备用的员工工作地点,以及怎样连接备份数据中心和现有的员工数据中心。如果在不同的地点提供了异地数据存储,例如在某个电信运营商的设施中,那么WAN 需求规划中还必须加入这种连接。所有情况都应当包括对互联网连接的配置,这可以用于一般性应用,以及帮助主要供应商和重要客户管理外联网。 图 8-1 WAN 建设方案     无论采用怎样的网络设计和技术,都必须为设施和线路提供不同的物理路由。大多数被认为是冗余网络的系统发生故障的原因都是光纤或者电路都需要经过同一个管道、出入孔或者中央机构。     创建WAN 的方法通常分为三类。每种方法都有一定的优点和缺点,需要企业用户投入的工作量(和设备)也各不相同。这些方法(如图8-1 所示)分别是: · 自行建设,即利用由电信运营商或者其他网络服务供应商提供的租用线路(或者"通道"),例如T1、T3、SONET 或者光纤波长,建立点对点的通道 · 采用帧中继(FR)或者ATM 服务,它们可以在两点之间建立面向电路的"虚拟通道" · 采用高级的无连接光传输网络服务,例如城域以太网或者城域IP     在第一种方法中,最常见的方式是购买SONET/SDH(同步光网/同步数字结构)通道。常用的SONET 传输等级是OC-3(每秒155Mb/s)、OC-12(622Mb/s)和OC-48(2488Mb/s,但是通常被称为2.4Gb/s)。下面的表8-1 列出了SONET/SDH 的构成。     这种方法的另外一种做法是租用"暗"光纤,或者在电信运营商的光纤网络上购买一个或者两个波长,并在每个地点安装下一代SONET/SDH 设备(例如Cisco ONS 15454)。暗光纤有时又被称为未点亮光纤,它指的是两端没有连接电子设备的光纤。如果在某些城区,光纤的价格非常具有吸引力,而企业的IT 人员又拥有必要的专业能力,那么这种做法就能发挥作用。波长服务也是基于光纤的,但是包括了电信运营商对于波分复用(WDM)设备的设置。     在一个灾难恢复系统中,多个数据中心可以方便地连接到一起。所使用的设备和服务将取决于特定的应用需求(例如同步镜像、远程磁带镜像等)。 表 8-1 SONET/SDH 构成 注:51.84Mbps 的STS-1(即OC-1)只能在设备(例如多路复用器)内部使用。     思科的15530/15540 非常适用于这些类型的应用,因为它们可以支持领先的存储系统供应商(例如IBM 和EMC)提供的解决方案中所需要的协议,例如企业系统连接(ESCON)、系统复用外部时钟基准、光纤通道、光纤连接(FICON)、光纤分布式数据接口(FDDI)和千兆位以太网。     图8-2显示了这个应用,其中包括了一个部署由思科解决方案合作伙伴提供的存储阵列的例子。在这些情况下,最大限度地降低延时和复杂性是主要的目标,而这个解决方案可以提供足够的支持。 图8-2 数据中心备份部署     作为面向电路的方式的替代方案,通过在每个地点使用像Cisco 10720 系列互联网路由器这样的产品,企业可以在多个地点之间的暗光纤上建设一个城域IP 网络。这种部署通常需要用两条光纤环路连接所有地点,但是也可以采用电信运营商提供的、基于SONET 的租用线路和波长服务。这种方式针对IP 组播等应用进行了优化,适用于内部员工培训应用等场合。 网络存储导论第八章:WAN 考虑因素(二) 尽管SONET 一直以它的故障检测和流量重新路由功能而闻名,但是Cisco 10720 系列的动态分组传输(DPT)技术也可以提供类似的功能,且效率要高得多。(注意:DPT 是思科针对新兴的IEEE 弹性分组环路(RPR)标准开发的一项技术。)例如,SONET 和RPR 都可以提供不到50 毫秒的故障检测时间,而RPR 在每个环路上最多可以支持254 个节点,而SONET 最多只能支持16 个节点。RPR 可以提供自动的拓扑发现功能,而SONET 需要手动操作。带宽设置在RPR 中是自动完成的,但是在SONET 需要手动完成。RPR 可以提供最多8 种不同级别的服务,而SONET 不支持任何服务级别,因而只能提供一种等级的服务(如图8-3所示)。 图8-3 使用DPT/RPR 的城域以太网     最佳的WAN 设计可以在所有地点之间提供一种逻辑网格,可通过物理环路或通过点对点通路实现。在很多城区,光纤可以通过一个物理环网连接很多地点,但是WAN 仍然可以设计为一个逻辑网格式网络。基于SONET 的物理环路的保护通常是通过一种名为双向线路交换环(BLSR)的技术提供的。这可以通过两条环绕物理环路的光纤实现,但是使用四根光纤可以通且对应用完全透明。     过逻辑网格式设计,提供最高的耐久性。如需了解关于这种设计如何工作的细节信息,请参阅     本文的“资源”部分提供的思科应用说明。     虚拟“通道”     有时被称为第二层VPN 服务的传统WAN 服务(例如帧中继和ATM)都是分组交换的、面向连接的服务,可以通过一个永久虚拟电路(PVC)在两个终端之间提供“逻辑的”、类似于专线的服务。它们适用于集中星型两点间架构。     帧中继服务(FR)采用了能够传输可变长度的帧(每帧最多4096 个字节)的PVC。FR 可以为建筑物专用网络提供多协议LAN 互联。它可以设置性能(例如带宽)的等级,而PVC 的安全性也被普遍视为具有足够的强度。 ATM 只传输固定长度(53 字节)的信元,可以支持多种流量,包括固有ATM、FR、交换式兆位数据服务(SMDS)和电路模拟。它可以经济地按照需要提供大量的带宽。ATM 的异步性和多媒体特性使得它可以传输电路和分组类型的流量,并且对应用完全透明。 图8-4 传统的WAN 服务     FR 和ATM 都是面向连接的服务,具有简单的分界点,相对比较容易诊断。     帧中继ATM 对于企业来说,这是一个功能透明的多地点连接。目前市场上出现了越多越多的MAN 服务,其中包括由思科在“思科支持网络”计划中推荐的很多电信运营商提供的城域以太网或者城域IP 服务。     IP VPN,也被称为第三层VPN,可以在一个共享的基础设施上部署企业级的连接。IP VPN让终端用户可以实现共享网络的成本优势,同时获得与他们自己的专用网络相同的安全性、QoS、可靠性和可管理性。IP VPN 可以利用互联网和IP 安全(IPSec)技术构建,或者利用多协议标签交换(MPLS)技术在电信运营商的IP 基础设施上构建。 图8-5 点对点城域以太网设计     在决定购买某种城域以太网或者城域IP 服务之后,还需要考虑很多其他的选择。网络可以配置为一种集中星型设计,由不同的虚拟LAN(VLAN)将各个远程分支机构或者工作地点连接到某个中央地点。(如图8-5 所示)企业可以使用一种基于以太网的透明LAN 服务,从而让城域中的整个企业位于一个单一共享以太网网段上。(如图8-6所示)因为可扩展性是选择这些方案的一个重要因素,所以必须了解数据系统用户对企业的发展规划。 图8-6 城域透明LAN 服务 网络存储导论第九章:iSCSI 技术与应用 第九章 IP SAN 系统设计     9.1 iSCSI 技术与应用     九十年代以前,存储产品大多作为服务器的组成部分之一,这种形式的存储被称为SAS(Server Attached Storage,服务器附属存储)或DAS(Direct Attached Storage,直接附属存储)。随着技术发展,进入九十年代以后,人们逐渐意识到IT 系统的数据集中和共享成为一个亟待解决的问题。于是,网络化存储的概念被提出并得到了迅速发展。从架构上来分,今天的网络化存储系统主要包括SAN(Storage Area Network,存储区域网)和NAS(Network Attached Storage,网络附加存储)两大类。     目前,许多网络存储提供商致力于将SAN 中使用的光纤通道(FC)设定为一种实用标准,但是其架构需要高昂的建设成本,远非一般企业所能够承受。与之相比,NAS 技术虽然成本低廉,但是却受到带宽消耗的限制,无法完成大容量存储的应用,而且系统难以满足开放性的要求。iSCSI 在避开了传统NAS/SAN 差别之后的以网络为中心的新存储方案(开放存储网络)中同时享受到NAS 和SAN 拓扑结构的优势。“iSCSI”(互联网小型计算机接口)标准把存储设备和服务器与应用普通互联网协议建立起来的网络结合在了一起,而不是使用速度更快但是价格更昂贵、更复杂的光纤通道技术,为众多中小企业对经济合理和便于管理的存储设备提供了直接访问的能力。     9.1.1 iSCSI 的概念     iSCSI(互联网小型计算机系统接口)是一种在Internet 协议网络上,特别是以太网上进行数据块传输的标准。它是由Cisco 和IBM 两家发起的,并且得到了IP 存储技术拥护者的大力支持。是一个供硬件设备使用的可以在IP 协议上层运行的SCSI 指令集。简单地说,iSCSI 可以实现在IP 网络上运行SCSI 协议,使其能够在诸如高速千兆以太网上进行路由选择。     SCSI(小型计算机系统接口)是以一种广泛使用的连接硬盘和计算机的技术标准,iSCSI 这种技术则是将该技术应用到网络连接上,对于中小企业的存储网络而言,iSCSI 技术的性价比要高于基于光纤的产品。iSCSI 是基于IP 协议的技术标准,是允许网络在TCP/IP 协议上传输SCSI 命令的新协议,实现了SCSI 和TCP/IP 协议的连接,该技术允许用户通过TCP/IP 网络来构建存储区域网(SAN)。而在iSCSI 技术出现之前,构建存储区域网的唯一技术是利用光纤通道(Fiber Channel),该标准制定于20 世纪90 年代初期,但是其架构需要高昂的建设成本,远非一般企业所能够承受。iSCSI 技术的出现对于以局域网为网络环境的用户来说,它只需要不多的投资,就可以方便、快捷地对信息和数据进行交互式传输和管理。相对于以往的网络接入存储,iSCSI 的出现解决了开放性、容量、传输速度、兼容性、安全性等问题,其优越的性能使其自发布之日始便受到市场的关注与青睐。     9.1.2 iSCSI 的工作流程     iSCSI 协议就是一个在网络上封包和解包的过程,在网络的一端,数据包被封装成包括TCP/IP 头、iSCSI 识别包和SCSI 数据三部分内容,传输到网络另一端时,这三部分内容分别被顺序地解开。     iSCSI 系统由一块SCSI 卡发出一个SCSI 命令,命令被封装到第四层的信息包中并发送。接收方从信息包中抽取SCSI 命令并执行,然后把返回的SCSI 命令和数据封装到IP 信息包中,并将它们发回到发送方。系统抽取数据或命令,并把它们传回SCSI 子系统。所有这一切的完成都无需用户干预,而且对终端用户是完全透明的。     为了保证安全,iSCSI 有自己的上网登录操作顺序。在它们首次运行的时候,启动器(initiator)设备将登录到目标设备中。任何一个接收到没有执行登录过程的启动器的iSCSI PDU (iSCSI Protocol Data Units,iSCSI 协议数据单元)目标设备都将生成一个协议错误,而且目标设备也会关闭连接。在关闭会话之前,目标设备可能发送回一个被驳回的iSCSI PDU。这种安全性是基本的,因为它只保护了通信的启动,却没有在每个信息包的基础上提供安全性。还有其他的安全方法,包括利用IPsec。在控制和数据两种信息包中,IPsec 可以提供整体性,实施再次(replay)保护和确认证明,它也为各个信息包提供加密。     9.1.3 iSCSI 标准的制定情况     建立符合行业标准的通过IP 网络传输存储信息的需求和机会同时存在,但问题是如何建立这个标准并且使之成为行业的统一标准。     Bechtolsheim 及其小组和IBM 建立了合作伙伴关系,共同为新协议起草了一个标准,称为iSCSI(互联网SCSI),该标准允许在TCP/IP 协议上传输SCSI 命令。2000 年2 月,该小组将此草案作为互联网标准草案提交给互联网工程任务组(IETF)。同年3 月,IETF 会议对该草案进行了讨论,并决定成立一个IETF 工作组,负责制订通过IP 传输存储信息的技术。截至2000 年8 月,IETF 小组的成员已增加到500 人,代表着200 家公司或组织,几乎包括了所有的存储器、网络部件及系统供应商。     目前,关于iSCSI 的标准制订已经进入最后阶段,估计明年初正式标准就将推出。IETF 日前宣布,它已完成了iSCSI 协议的工作,现在将为它分配征求意见编号。这项规范规定了软件在内联网上传送SCSI 包和在长距离上管理存储时,如何处理SCSI 数据包以及如何在TCP/IP 命令中封装它们。     9.1.4 iSCSI 与FC(光纤通道)的比较     网络存储主要由三大部分组成:服务器(host)、交换(switch)和存储设备(target)。在这三者中,交换是很关键的。网络存储的交换方式有两种,一种是光纤通道(FC),另外一种就是iSCSI。     从数据传输的角度来看,光纤通道和iSCSI 有很大的不同:光纤通道的传输采用其FCP 协议,而iSCSI 采用Internet 上现有的TCP 协议。FCP 协议最初是按照光纤通道网络的高级协议设计的,它紧密地与低级网络功能集成在一起工作。而iSCSI 在开发时采用现有的由TCP 所提供的受保护的传输机制。所以由于采用不同的机制,iSCSI 和光纤通道之间是不可能兼容的。     与光纤通道相比,iSCSI 有其自身的诸多优势,主要表现在iSCSI 更加经济。成本的节约可体现在以下几个方面:(1)在一般的数据和SAN 网络之间存在的公用技术可使培训费用降低,而且也不必设立单独的岗位职员,这两者都可使成本降低;而且以太网大量的安装基础也可使价格降低。(2)iSCSI 可利用现有的、容易理解的TCP/IP 基础设施来构筑SAN,随着在QoS 和安全方面的进步,在存储与现有的基础设施之间的共享表明,在硬件、培训、实施等几个方面都有机会实现可观的成本节约。(3)随着千兆以太网的实现,用户将可得到传输速率为1Gbps 的存储网络,而不需改变现有的基础设施。     FC(Fibre Channel)的安装基础很少,理解其技术的人也不多,而且它很昂贵。FC 在同等速度下可提供稍好一些的性能,但是这一点并不能弥补其在实现时所需的高额费用和额外的培训费用所构成的高成本。近期,在以太网的速度超过FC 以前,FC 可以暂时保持其在SAN 技术领域的优势地位,但这也仅限于在iSCSI 成气候之前的一段时间内。     但是,iSCSI 在三到五年内不会取代Fibre Channel。首先,TCP/IP 网络虽说有许多值得称道的地方,但它在传输数据块时的致命问题至今在技术上还没有突破性进展。虽然Fibre Channel在标准、远距离连接、成本等方面有待进一步改进和提高,但它在区域性SAN 领域已经取得了显著成效。其产品和技术正逐步成熟。所以,就目前来看,如果用户需要大容量、高速块级数据存取,Fibre Channel 还是唯一的选择。但随着iSCSI 的成熟,它将为Fibre Channel 分担存储市场,加之,Brocade、Intel、Cisco 等各领域厂商的努力,也必将促进Fibre Channel 和iSCSI 技术的融合,取长补短,共同发展     9.1.5 iSCSI 的优势与局限性     iSCSI 技术具有如下优势: 1. iSCSI 的基础是传统的以太网和Internet,近20 年来,网络技术的迅猛发展使传统网络无处不在,iSCSI 有很好的基础,同时能大大减少总体拥有成本。 2. 随着技术的进步,IP 网络的带宽发展相当迅速,1Gbps 以太网早已大量占据市场,10Gbps 以太网也已整装待发。而且,该协议由包括IBM、Cisco、Intel、Brocade、Adaptec 等业界巨头的支持,同时,一批新型厂商也竞相参与,如Nishan System、SAN Valley、CNT、Pirus、3Ware 等。 3. 在技术实施方面,iSCSI 以稳健、有效的IP 及以太网架构为骨干,使忍受性大大增加。另外,简单的管理和布署也是iSCSI 让业界心动的一个原因,因为传统网络厂商已经培养了很多的专业网络人才,不需要投入培训,就可以轻松拥有专业的iSCSI 人才。 4. iSCSI 是基于IP 协议的技术标准,它实现了SCSI 和TCP/IP 协议的连接,对于以局域网为网络环境的用户,只需要不多的投资,就可以方便、快捷地对信息和数据进行交互式传输及管理。 5. 完全解决数据远程复制(Data Replication)及灾难恢复(Disaster Recover)的难题。安全性方面,以往的FC-SAN 及DAS 大都是在管制的环境内,安全要求相对较低。iSCSI 却将这种概念颠倒过来,把存储的数据在互联网内流通,令用户感到需要提升安全要求。所以,iSCSI 已内建支持IPSEL 的机制,并且在芯片层面执行有关指令,确保安全性。     但是,存储工程师在畅谈iSCSI 前景的时候,也需要实事求是地分析目前的形势和发展方向。实际上,到目前为止,还没有一个成熟的产品来展示iSCSI 的魅力,它还没有大面积商业化应用。而存储网络面临的诸多问题,iSCSI 并非都能迎刃而解,如距离和带宽之间的矛盾。虽然,iSCSI 满足了长距离连接的需求,方便了广域存储的连接,但是,IP 的带宽仍然是其无法解决的问题。虽然IP 网络发展迅速,1Gbps 的网络逐渐普及,但从广域网来说,带宽仍然相当昂贵。即便可以利用1Gbps 的带宽进行iSCSI 数据传输,速度仍不理想。而且,IP 网络的效率和延迟都是存储数据传输的巨大障碍。 网络存储导论第九章:iSCSI 应用与发展 9.1.6 iSCSI 技术的应用     当多数企业由于Fiber Channel 的高成本而对SAN 敬而远之时,iSCSI 技术的出现,一下子拉近了企业与SAN 之间的距离。目前,大多数中小企业都以TCP/IP 协议为基础建立了网络环境。对于他们来说,投入巨资利用FC 建设SAN 系统既不现实,也无必要。但在信息时代,信息的采集与处理将成为决定企业生存与发展的关键,面对海量数据,许多企业已感到力不从心。iSCSI 的实现可以在IP 网络上应用SCSI 的功能,充分利用了现有IP 网络的成熟性和普及性等优势,允许用户通过TCP/IP 网络来构建存储区域网(SAN),为众多中小企业对经济合理和便于管理的存储设备提供了直接访问的能力。除此之外,iSCSI 技术主要用于解决远程存储问题,具体如下:     9.1.6.1 实现异地间的数据交换     许多公司利用光纤交换技术实施了自己的本地存储区域网(SAN),但如果企业有异地存储要求时,如何完成异地间的数据交换则成为问题。设想一下,一家公司在相隔很远的地方有分公司,而且两地各有自己的基于光纤的存储网络,那么,如何将两个网络连接起来?用光纤吗?工程巨大,就是采取租用形式,其费用也相当高昂。存储工程师知道,iSCSI 是基于IP 协议的,它能容纳所有IP 协议网中的部件,如果将FC 转换成IP 协议下的数据,这些数据就可以通过传统IP 协议网传输,解决了远程传输的问题,而到达另一端时再将IP 协议的数据转换到当地的基于FC 的存储网络,这样通过iSCSI 使两个光纤网络能够在低成本投入的前提下连接起来,实现异地间的数据交换。     9.1.6.2 实现异地间的数据备份及容灾     通过iSCSI,用户可以穿越标准的以太网线缆在任何地方创建实际的SAN 网络,而不再必须要求专门的光纤通道网络在服务器和存储设备之间传送数据。iSCSI 让远程镜像和备份成为可能,因为没有了光纤通道的距离限制,使用标准的TCP/IP 协议,数据可以在以太网上进行传输。而从数据传输的角度看,目前多数iSCSI 的网络传输带宽为千兆即1Gbit,如果实现全双工能够达到2Gbit,第二代产品能够达到2Gbit 带宽,在未来第三代通用iSCSI标准中,带宽将达到10Gb,也就是说,采用iSCSI 构建远程异地容灾系统已不存在任何问题。     9.1.7 iSCSI 的发展概况     iSCSI 是由Cisco 和IBM 两家发起的,目前IETF(Internet Engineering Task Force)正在制订的标准规格。     IBM 以及美国思科系统公司等部分供应商正在供货对应iSCSI 的路由器和存贮设备。去年IBM 发布了IP Storage 200I 型存储设备,将其标榜为在市场上出现的第一种成熟的iSCSI硬件。iSCSI 能使现有的以太网在数据存储方面更加有用,而且IBM 也因首先推出符合该标准的产品而赢得了赞扬。     Cisco 对iSCSI 的支持至关重要。iSCSI 要想成为沟通FC 存储网和IP 网的桥梁,必须依赖在传统IP 网中占据霸主地位的Cisco 支持。在具体产品方面,去年10 月,他们就推出了SN 5420 存储路由器。今年5 月,Cisco 公司又宣布推出了iSCSI/光纤通道存储路由器――Cisco SN 5428。这一存储路由器配置两个千兆以太网端口、八个光纤通道端口和三个管理端口。由于支持IP 网络上的光纤通道、千兆以太网和iSCSI 协议,中小企业可方便利用现有设施建立SAN。     另外,美国Adaptec 和美国Emulex 等目前正在开发配备面向iSCSI 的卸载引擎的以太网适配器。     英特尔于2 月5 日面向iSCSI(SCSI over IP)推出配备专用处理器的千兆位以太网用适配器“PRO/1000 T IP Storage Adapter”,能够实现iSCSI 包卸载,并通过基于Intel Xscale 微架构的板上处理器获得较低的CPU 利用率,并已开始批量生产。Intel 提出了iSCSI 发展的三个阶段。第一个阶段是在2002 年第一季度实现TTM(Time To Market),也就是要大范围地推动厂商尤其是OEM 合作伙伴对iSCSI 的接受过程;第二个阶段是在2003 年第一季度之前,实现高性能和全功能的iSCSI /LAN 解决方案,提供iSCSI 卸载(offload)或TCP/IP 卸载;第三阶段,在2004 年,通过技术研发不断降低iSCSI 成本,提高性能以推动产量,同时,通过硅技术允许嵌入式的解决方案,把iSCSI 技术浓缩成一个晶片。     尽管iSCSI 的相关产品已经上市,但iSCSI 规范还没有得到IETF 的批准,在规范批准之前,还要进行相关的修改,因此不可能保证上市产品完全遵从标准。然而,如果厂商正在开发的iSCSI 卡能保证兼容,不管最后的规范如何,还是可以安全使用的。存储工程师相信,随着新技术标准的制定,iSCSI 必将成为存储领域内的核心技术,其低廉、便捷、开放、安全、标准等众多优异品质在未来必将得到充分的完善与发展,从而成为一个充满生机与活力的发展方向,为广大的用户提供最为完善的网络存储服务。 网络存储导论第九章:IPSAN方案实例(1) 9.2 IP SAN 存储方案举例     9.2.1 用户现状与需求分析     9.2.1.1 用户现状     用户主要开发针对用户各种彩色打印机、传真机、复合机和各种数码影像设备产品的系统软件,目前有10 台不同种类的服务器,每台服务器上都配置有硬盘,操作系统有Linux(RedHat 9.0)、Windows2000、Windows2003,每台服务器都承担着各自不同的应用,Linux 服务器是一台邮件服务器,Windows2000 服务器运行的是SQL Server2000 数据库,用户目前的网络拓朴结构如图所示:     图 9-1 用户现状     9.2.1.2 需求分析     用户的环境复杂,应用数据量大,应用数据增长速度也快,必须利用先进的IP SAN 网络存储系统来解决目前存在的问题。因此系统要求: · 系统需要集中管理、简单操作     用户目前有多种产品的系统软件代码,而且是多服务器、多操作系统、多数据库的复杂应用环境,因此要求为这些应用提供存储资源的存储系统必须集中管理,而且操作要简单方便。 · 必须满足日益增长的存储需求     用户目前大约有10 台服务器,每台服务器都承担着各自不同的应用,每个应用每时每刻都会产生大批量的数据,因此如何解决这些数据的海量存储是系统首先要考虑的问题。 · 系统必须提供块级服务     用户目前主要是数据库的应用,比如SQL Server2000,Oracle 数据库等,而且服务器操作系统有Unix、Windows2000、Windows2003 等,这就要求存储系统必须提供块级服务,以满足不用操作系统及数据库数据的存储需求。 · 系统扩展性比较好     用户随着业务的扩大,存储资源需求会越来越多,因此要求系统必须有很好的扩展性,以适应未来5-10 年的业务需求。 · 系统有数据备份功能     用户目前有邮件和数据库应用,所有的应用数据需要做定时的自动备份,因些需要系统必须能对Active Directory、SQL Server 数据库、Email 数据进行自动的全备份和增值备份,数据出错时能快速方便的恢复数据。 · 系统有容灾功能     用户的数据十分重要,而且在以后的时间里可能会对两个办公区域间做异地容灾,因此需要系统必须有容灾功能,以满足系统日后新的需求。     9.2.2 系统设计原则     鉴于IP SAN 的发展趋势,对构建IP SAN 系统应遵循以下原则: · 先进性     系统必须采用的是先进的技术,先进的产品,遵循国际标准和国内外有关的规范要求;符合计算机、网络通讯技术和网络存储技术的最新发展潮流,并且是应用成熟的系统。 · 实用性     系统设计必须符合实际要求,针对实际应用的特点,选择相应用的软、硬件系统;系统配置既要强调先进性也要注重实用性,还应注意系统配置的经济效益,以达到综合平衡。 · 集成性     系统选择的产品必须高度集成,体积小,重量轻,移动方便,功耗低;而且在高度集成小型化前提下,应具有多种功能。 · 可扩展性     系统设计要考虑今后发展,留有充分的扩充余地;系统要能满足不同协议的网络扩充和不同厂家不同产品的扩充;系统既应用于海量存储还提供本地和异地数据容灾。 · 灵活性     系统要根据实际需要灵活定制不同的网络接口(比如FC 或IP)和不同的存储资源模块(比如SCSI、iSCSI Target、FCP); · 安全性     系统具有高度的安全性,比如访问存储资源的身份认证,系统管理员的操作认证,系统本身数据的备份等等; · 可靠性     系统具备在规定条件和时间内完成用户所要求的功能的能力,能长期稳定的工作;结构简单,连接点少,可靠性高;对工作条件和工作环境要求较低;系统启动快,系统掉电后再来电或网络传输中断后再恢复正常,系统恢复工作迅速;故障率低,维护维修方便; · 经济性     综合考虑系统的性能和价格,性价比在同类系统和条件下达到最优,经济性应包括:系统本身的价格(包括系统、技术服务和培训);系统运行后经济效益预算的可能收益;对系统实施现场的特殊要求所需的费用;对系统集成所需的有关软件和硬件等的开发费用;系统的易扩展升级等。 网络存储导论第九章:IPSAN方案实例(2) 9.2.3 技术方案     9.2.3.1 方案描述     本方案将采用IP SAN 存储服务管理器做为整个系统的核心部件,其后直接接到磁盘阵柜和磁带机,然后通过千兆交换机为所有的服务器提供高速、可靠的存储服务;备份系统本方案将采用IP SAN 存储备份系统软件做D-D、D-T 或D-D-T 数据备份,将其中的一台服务器安装CommServer做为备份服务器,其它要备份的服务器安装DataAgent,系统将根据用户的备份策略自动的将各服务器的应用数据备份到IP SAN 中。     9.2.3.2 拓朴结构图 图 9-2 IP SAN 拓扑结构图     在本方案中,所用设备的主要功能描述如下:     IP SAN 存储管理服务器是实现存储子系统功能的主要设备,它实现对存储资源的整合与优化、数据保护等功能。IP SAN存储服务器集中管理磁盘阵列,把磁盘阵列中的所有单个磁盘整合并虚拟成多个逻辑卷,供服务器使用,并通过IP SAN 存储服务器的管理软件对这些卷进行直观化分配、管理:允许哪个服务器使用哪个卷、具有怎样的使用权限等。      备份服务器统一集中管理备份及恢复操作的各项策略。     磁盘阵列柜和磁带机为整个存储网络提供存储资源。     千兆交换机为IP SAN 存储服务器和服务器之间提供千千兆高速网络传输带宽。     9.2.3.3 方案的特点     对异构存储资源进行虚拟化和集中化管理:IP SAN 存储管理服务器集成了数据存储系统,实现存储资源的整合与虚拟化,实现资源共享;它能对不同厂商的存储产品、不同存储协议(SCSI,iSCSI Target,FCP)的产品进行异构整合管理,并可虚拟为逻辑上的存储池,将支持不同存储协议的存储资源整合在一起,可确保用户的所有重要数据获得统一的管理,以此为企业营造出一个安全的、集中的、易于管理的存储环境,在一个传统的以服务器基础架构下,存储内容和存储设备均是联接本地服务器之上;在新模式下,存储内容和存储设备被集中管理,存储空间被整个企业共享,使其不局限在某个应用程序或服务器上,更有利于用户对存储资源进行统一的、专业化的管理和维护,使得存储资源的可用性大大提高。     动态卷扩容:系统可以通过IP SAN 存储服务器将分配给某台服务器的卷做动态扩容,而卷上原有的数据将不改变。     简单化了系统管理:由于采用基于IE 的用户管理界面,使存储网络实现智能化、简单化和集中化的管理,同时,由于基于IP 技术,客户不需要专门培训?D?D本系统从安装到正式上线,客户在20 分钟内即掌握了本系统维护技术。     可扩展性:用户可根据需求来逐渐增加存储的容量(Storage Concentrator 的存储容量可以从1TB 增加到10.5T B),大量减少企业前期对存储资源的投资;另外IP SAN 存储管理服务器最大限度地优化企业已有的存储资源和网络资源,扩展了客户未来对存储系统的升级改造的可选择性。     先进的IP SAN 结构:系统从网络结构上是一个典型的SAN 存储架构,它是在传统的SAN结构中,以IP 协议替代光纤通道协议,来构建结构上与LAN 隔离,而技术上与LAN 一致的新型SAN 系统--IP SAN。     合成全备份技术:支持OnePath Restor 恢复和数据合并模式(将增量备份和全备份合并成全备份),减少了全备份的时间,加快了恢复的速度(不必恢复多次,比其他应用恢复速度快1 倍以上)这是本系统特有的功能。     备份任务的断点续传技术:支持备份任务的断点续传,这就保证了即使备份期间发生故障,也能从该故障点继续备份,而不必重新备份。     SnapShot 备份和QR 快速恢复:SnapShot 备份和QR 快速恢复可以不必重新安装应用,就可重启应用,加快应用恢复速度。     AD 和Exchange 的记录级备份:AD 和Exchange 的记录级备份,这样能对单个属性和信息进行备份和恢复,这样如果某些内容不对,只要恢复部分数据即可,而不必进行所有数据的恢复,加快了恢复速度这也是本系统特有的功能。     D-D、D-T 或D-D-T 技术:IP SAN 存储服务器将通常不间断的备份数据流分成两个阶段:第一阶段是将数据从需要备份的服务器备份到IP SAN 存储服务器的逻辑卷中;第二阶段是将数据从IP SAN 存储服务器的逻辑卷备份到磁带库中。多个需要数据备份的服务器可以同时启动第一阶段的备份过程,然后备份服务器在第二阶段中将数据逐一从IP SAN 存储服务器的逻辑卷备份到指定的磁带库中。因此,第一阶段是一个并行的进程,第二阶段是一个顺序的进程,它将极大地缩短数据全备份所需时间。     9.2.4 方案的优势     经过对客户的实际需求的分析,并从用户的实际情况出发,同时考虑到今后系统的升级问题,决定采用以上解决方案。该方案具有以下优势: · 一举三得的解决方案     与基于FC SAN 备份的比较,智能化的高速海量存储系统为用户提供了足够可管理的数据存储空间:较高的外部共享磁盘容量最大可达到几十个TB,根据存储数据量的需求,可配置可用容量,供数据存储使用,随着数据量增大,将来可以扩充磁盘数目以增加容量。 · 数据安全性得到了充分的保障:     IP SAN 数据访问的安全性 。IP SAN 存储服务器存储管理服务器提供了二级数据存取安全(CHAP),一是访问主机的安全,二是主机访问卷的安全,这就从根本上保证了SAN 中数据访问的安全性。     数据本身的安全。磁盘阵列柜支持多种RAID 等级:0、1、0+1、3、5,在多数情况下,Arena 公司推荐使用RAID5,因为RAID5 的硬盘使用率较高,是安全性较高的RAID 等级。除了RAID 等级上的保护之外,还可以提供多个全局热备份磁盘,一旦阵列中的任何一块磁盘出现问题,全局热备份磁盘都会立即工作,达到保护数据的目的。     阵列控制信息的存储。一般的阵列其阵列配置信息(包括硬盘分组、RAID 划分等信息),都存放在阵列控制器上,一旦控制器出现问题,那么存放在控制器上的配置信息就会完全丢失,即使更换新的控制器控制信息也无法挽回,那么硬盘上的数据就会丢失,给用户造成无法估量的损失。Arena BT1115 磁盘阵列的配置信息可以存放在硬盘上,这样即使控制器出现问题也不会影响硬盘上的数据,而且当RAID 组中的一块硬盘出现问题,更换新的硬盘后配置信息会自动复制在新硬盘上,确保了数据的完整性和安全性。一但控制器有问题,可以更换新的控制器而数据不会丢失。     系统具有高输入/输出性能 :在普通的数据库、邮件系统和文件应用中,磁盘阵列的输入/输出性能一般是8-10MB/s ,而IP SAN 存储服务器可以将整个系统的输入/输出性能提高6 倍以上。     系统具有高可靠性:系统可以用两台IP SAN 存储服务器做双机备份,当其中一台IP SAN存储服务器出故障时,另一台就会自动承担故障服务器的工作负载,而无须操作人员介入。     系统支持磁盘-磁盘-磁带库的备份:IP SAN 存储服务器将通常不间断的备份数据流分成两个阶段:第一阶段是将数据从需要备份的服务器备份到IP SAN 存储服务器的逻辑卷中;第二阶段是将数据从IP SAN 存储服务器的逻辑卷备份到磁带库中。多个需要数据备份的服务器可以同时启动第一阶段的备份过程,然后备份服务器在第二阶段中将数据逐一从IP SAN存储服务器的逻辑卷备份到指定的磁带库中。因此,第一阶段是一个并行的进程,第二阶段是一个顺序的进程,它将极大地缩短数据全备份所需时间。     降低了分布应用数据处理的管理成本:由于目前需要将每个业务子系统都使用SAN 中的集中存储设备,因此可减少每个系统都需要工程师进行管理,从而减少了管理成本和管理工作量。   图 9-3 容灾系统示意图     系统可以实现本地、异地数据容灾:IP SAN 存储服务器存储管理服务器提供了卷拷贝、卷复制、卷镜像以及快照等数据容灾手段,不需要第三方软件就能为系统数据构建高可靠性的数据容灾系统。 网络存储导论第九章:IPSAN方案实例(3) 9.2.5 系统建设的下一步设想     一个好的系统设计,往往体现在它能否适应客户将来新的需求,在不久的将来,用户 可能会在两个办公区域之间做数据容灾,拓朴结构图如图9-3所示: 图 9-3 容灾系统示意图     从上图不难看出,办公区一就是现在的系统,办公区二是现有系统的扩展,这就保证了系统的升级是在原有系统不变的情况的下进行的,不仅操作十分方便而且节省了成本。     9.2.6 解决方案介绍     IP SAN 存储管理服务器     本方案使用的IP SAN 存储管理服务器它是一个企业级的、完全基于行业标准的IP 网络存储系统(IP SAN)。它为企业建立集中化存贮网络系统提供了一种优秀的、高效率的手段。     表 9-1 IP SAN 存储管理器 · IP SAN 备份系统     本方案的IP SAN 备份系统采用了一种全新的体系结构,专为操作简单、无缝连接和可伸缩性的存储方案而设计,以应对21 世纪数据存储和管理需求。通过对传统数据管理中分离功能的紧密整合,利用完整的存储栈,从应用到设备,进行完整的、透明的管理,以自动操作的方式提供应用数据的存取和可用性。数据的索引、管理和传送都是建立公共技术引擎CTE 上的(CommVault Common Technology Engine),该IP SAN 存储备份系统平台是统一进行数据保护、高可用性、迁移、归档、存储资源管理/SAN 管理的基础,能用单一的、自动的平台来管理全局的数据、目录和索引。CTE 是个底层的软件,奠定了CommVault 所有产品能执行元策略(Meta-Policy)的独特能力,通过CTE 能把操作命令的特点转化成可控制的软件级或模块级的策略。     该IP SAN 存储备份系统平台包含了一系列可配置的软件模块,用来组织和实施真正的数据集中策略,来管理企业的信息存取,该IP SAN 存储备份系统软件模块包括: · 数据备份和恢复(Backup & Recovery); · 数据迁移或分级存储(HSM)(DataMigrator); · 依法归档(Data Archiver); · 应用的高可用性/灾难恢复(Quick Recovery); · 存储资源管理(Storage Resource Management); · SAN、网络和介质管理(SAN Management); · 集中统一管理以上所有模块。     IP SAN 备份系统能创建基于数据特性和优先级的智能策略,在NAS、SAN、DAS 以及LAN/WAN 环境中对存储进行统一的管理和使用。该IP SAN 存储备份系统能让IT 管理员创建用于保护和存储数据的策略,这些策略是基于存储模式、数据恢复和保留的优先级,利用统一的易于使用和管理的功能组件,直接控制存储设备每天的价值和保护数据的费用,从而改进公司的成本底线。该IP SAN 存储备份系统的优势在于:     灵活性、可扩充性、可靠性和易用性:提供了智能的、模块化的方法,让用户能实施单个的解决方案,或在需要时继续添加所需的模块,能在时间、效果、培训和费用方面来分步实施。 图 9-4 IP SAN 存储管理软件构造     用逻辑的图视来对应所有存储资源的物理图视:用该IP SAN 存储备份系统,管理员能在统一的浏览控制台上快速、方便的进行操作和数据存取,而不需要知道数据具体所在的物理位置。     多种级别的策略驱动或用户直接管理数据:利用自动的关键功能进行数据传送和数据管理间的交互,该IP SAN 存储备份系统神奇地减少了必须的管理员数量,其灵活度可由场地和特殊的数据需求来定。     与应用高度集成:客户端的模块提供了无与伦比的数据管理功能,针对关键的文件系统和应用数据,如:UNIX、Windows、Linux、NetWare、Oracle、Exchange、Lotus Notes/Domino、Informix、SharePoint Portal、SQL、Sybase。     可移动的、完整的“点击”界面:系统管理员能方便的、完全控制所有数据,不管他是在当地还是在异地。     自动的交互过程:能方便到只要用一个系统客户端就能进行数据管理,功能十分强大,能轻松应对其部门广泛分布在不同地方的企业的备份需求。     能对磁盘、磁带和光盘构成的虚拟存储池进行管理:包括磁盘阵列(具有或不具有快照功能),具有机械手的带库,磁带驱动器分配,磁带介质生命周期的管理。     可配置的软件模块:能满足企业在发展中的不断需求。     该IP SAN 存储备份系统平台基本架构包括了建立在单一的CTE 上可交互的多个软件模块,并能用统一的控制台进行管理。它包括了五个独立的软件产品:备份/恢复、数据迁移、合法的归档、快速恢复和存储资源管理/SAN 管理,这些软件都共享公共的底层软件。     CTE 使这一切成为可能,CTE 是一个能执行“元策略”算法的底层软件,利用这个公共的底层软件,软件服务的品质能变成可控制的软件产品级/模块级的策略。     该IP SAN 存储备份系统包括了下面软件模块: · QBR (CommVault Galaxy Backup & Recovery) 完善的数据保护模块。 · QDM (该IP SAN 存储备份系统 DataMigrator) 数据迁移/分级存储模块。 · QDA (该IP SAN 存储备份系统 DataArchiver) 合法的归档模块。 · QR (该IP SAN 存储备份系统 Quick Recovery) 快照管理和应用级的高可用,快速恢复模块,包括两个配置: QR-HA     高可用模块用来快速恢复应用。 QR-DR     灾难恢复模块用来创建远程快速恢复卷。 · QSM (该IP SAN 存储备份系统 Storage Manager) 存储管理模块包括了存储资源管理(SRM)和SAN 网下的存储设备和网络部件的管理。 · Q-Net 能用单一的界面对本地和异地的多个CommCell 进行管理,并提供策略管理、分析和跟踪二级存储、并提供统一的监控和报表等功能。 网络存储导论第九章:IPSAN方案实例(4) 9.2.7 技术服务及培训     技术服务     作为专业数据存储与保护方案提供商,整个项目实施过程中,建设者必须向用户提供全方位的技术支持服务,让用户没有后顾之忧,真正的让用户用的放心、踏实。一般来讲,具体包括如下内容:     技术支持队伍状况     实施队伍中拥有经验丰富的数据存储专家,与技术支持团队一起为用户解决问题。。     服务内容及模式     现场的技术服务:在项目实施的时候,派遣优秀的工程师到现场进行技术问题的处理。在以后的维护合同期内,如果出现产品的问题,即派工程师到现场进行问题的查看和解决。     必要的技术培训:为了保障用户能很好的使用产品,在软件运行后进行必要的操作和维护,给用户的工程师提供原厂的技术培训,在平时的时候,如果软件有什么变化,及时的给用户进行随时的必要的培训。     图 9-5 数据路径及模块结构     产品和各种与相关的技术问题的24 小时的咨询:用户可以通过电话、传真、电子邮件的方式找工程师进行相关的咨询,工程师必将在最快的时间里对问题做出明确的答复。     项目实施过程中的技术支持     在项目实施工程中,项目实施方进行现场的安装、调试、移交测试、开通、验收。安装工程开始前,存储工程师将提供安装技术资料和相关的技术规范。在开始进行安装工程的时候,公司都会派出最优秀的工程师到现场进行操作。     安装:该项目的主要负责人将带领最好的工程师到现场进行安装。     调试:在软件安装以后,工程师将对软件的运行在该项目的环境中进行调试,使软件能和好的用户的硬件和其他的软件进行很好的兼容。     移交测试:软件安装、调试完以后,交给用户的工程师,让用户的工程师在实施方工程师的指导下进行相关的测试。如果测试没有达到要求的结果,可以再次让存储工程师的工程师进行必要的调试,然后再进行测试。如果测试达到相应的要求,就是移交成功。     开通:实施方工程师在移交测试完以后,就要在用户的环境下,根据用户的需求,对软件要达到的几项功能进行全部的开通,使用户能进行正常的工作。     验收:由项目的主要负责人对产品进行验收。验收完以后,签署验收合格书。此时产品正式由用户开始使用。     软件质保期内提供的免费服务内容     对于免费服务,在这个期间,实施方的服务内容应该包括:     定时的产品培训:在产品安装前,对用户的工程师进行 产品的初级培训。在安装和验收后,对用户的工程师进行原厂的以实验为基础的技术培训。此后一年的服务期内,定时对用户的工程师进行产品方面的培训。     故障的及时解决:实施人员在接到用户的故障的信息后,会派遣相关的工程师以最短的时间内进行解决。如果问题不大,通过电话、传真或者电子邮件的方式指导用户的工程师自行解决,如果用户的工程师没有办法解决,存储工程师会马上到达现场,对问题进行分析和解决。     质保期之后的提供的技术服务     在软件的质保期后,也就是说在一年的保修期后,即第二年后如果继续需要技术服务,则需要签订维护合同。项目方有三级维护合同可以供选择:     按时收费     标准级维护合同:周一至周五,每天8 小时     企业级维护合同:7*24 全年无休     所以存储工程师将根据所签订的维护合同的不同,提供不同的服务标准。     技术培训     为使项目能正常安装、调试、运行、维护,项目实施方应该对用户提供相应的技术培训,使用户的技术人员对系统的原理和结构、功能、性能、安装配置调试运行、故障诊断和排除等各个方面有一定程度的了解,使用户的技术人员能对系统进行日常维护和处理出现的简单问题。 网络存储导论第九章:IPSAN灾备方案(1) 9.3 IP SAN 容灾及备份方案     9.3.1 需求分析     用户现有的环境拓朴图如下: 图9-6用户现状     用户现有的系统不具备数据保护功能,在大楼内部任一台服务器或网络系统出现故障,都会造成数据丢失,而且某一大楼出现自然灾害(火灾、水灾等),该大楼内的服务器数据必然丢失,整个大楼的业务全部中断,这将会造成很大的损失。因此用户要求在大楼与大楼之间做数据容灾,大楼内部做本地备份,大楼之间做异地备份,这样就从根本上保证了用户业务数据的安全性和高可靠性。     9.3.2 方案描述     本方案的设计思想是围绕提高用户整个系统的数据安全性和高可靠性为中心,其目标是当网络中的任意一台服务器发生故障时,系统都可以将原有数据和文件系统快速地恢复,以保证系统的正常运行。存储工程师向用户提供三套建议方案来保护用户的数据:     方案一、区域网数据容灾 + 集中式数据备份:     本方案有两部分组成:其一,两幢大楼相互做为容灾点,以保证某一服务器或某一大楼出现故障或自然灾害时容灾点数据接替其任务继续工作,从而保证业务的不间断进行;其二,系统还将采用集中式数据备份,即将采用一台备份服务器来集中管理两个大楼内部及大楼之间的数据备份。     方案二、区域网数据容灾 + 交互式数据备份:     两幢大楼相互做为容灾点,并且采用相互式数据备份,就是在两幢大楼各设立一台备份服务器来管理两个大楼内部及大楼之间的数据备份并且两台备份服务器相互备份,以保证当一台备份服务器出现故障,另一台备份服务器能接管其所有的备份任务。     方案三、远程交互式数据备份或远程集中式数据备份:     在本方案中,两个容灾点之间是通过广域网来连接的。只要容灾点每秒种的数据变化量不超过两个容灾点间的网络带宽,就可以通过远程交互式数据备份或远程集中式数据备份来达到数据容灾的目的。这样,当一个容灾点的数据出现问题时,可以通过另一个容灾点的数据来恢复。     9.3.2.1 区域网数据容灾     区域网数据容灾是两个方案的基本模块:利用两台IP SAN 网络存储服务器,在两幢大楼中分别构建IP SAN 存储网,每台IP SAN 网络存储服务器分别配置1T 的的存储资源并虚拟成多个卷分配给每台服务器使用,然后利用IP SAN 网络存储服务器自带的数据同步复制功能将一台IP SAN 网络存储服务器的虚拟卷与另一台IP SAN 网络存储服务器的虚拟卷做实时同步复制,以实现两幢楼间的数据容灾。这样当其中一台IP SAN 网络存储服务器的虚拟卷出现问题时,用于同步的另一台IP SAN 网络存储服务器上的容灾卷可以接替故障的卷继续工作。     拓朴结构     拓朴结构图如下(图9-7)所示: 图 9-7 容灾实施拓扑图     在本方案中,所用设备的主要功能描述如下:     存储管理服务器 IP SAN 网络存储服务器是实现存储与容灾系统的主要设备,它实现对存储资源的整合与优化、数据同步复制等功能。IP SAN 网络存储服务器集中管理磁盘阵列,把磁盘阵列中的所有单个磁盘整合并虚拟成多个逻辑卷,供服务器使用,并通过IP SAN网络存储服务器的管理软件对这些卷进行直观化分配、管理?D?D允许哪个服务器使用哪个卷、具有怎样的使用权限等;IP SAN 网络存储服务器同步复制功能,可以将一台IP SAN 网络存储服务器的虚拟卷与另一台IP SAN 网络存储服务器的虚拟卷做实时同步复制,当主卷失败时,镜像卷能自动接替主卷继续工作。     SCSI 磁盘阵列柜为整个存储网络提供存储资源:首先将分布于各个服务器内部的SCSI磁盘集中插入该磁盘柜;其次,将它直接联接到IP SAN 网络存储服务器,通过IP SAN 网络存储服务器将集中的存储介质虚拟成一个个的卷分配给每一台服务器使用。系统在设计时将磁盘阵列中1T 的 SCSI 硬盘做RAID 5,以保护数据的可靠性。     千兆交换机为IP SAN 网络存储服务器和服务器之间及两幢楼之间的IP SAN 网络存储服务器提供千兆高速网络传输带宽,以保证系统高速可靠的运行。     技术特点     先进的IP SAN 结构:系统从网络结构上是一个典型的SAN 存储架构,它是在传统的SAN 结构中,以IP 协议替代光纤通道协议,来构建结构上与LAN 隔离,而技术上与LAN一致的新型SAN 系统――IP SAN。     容灾技术实现了数据的高可靠性:IP SAN 网络存储服务器存储管理服务器提供了卷拷贝、卷复制、卷镜像以及快照等数据容灾手段,不需要第三方软件就能为系统数据构建高可靠性的数据容灾系统。     数据安全性得到了充分的保障:     IP SAN 数据访问的安全性 。IP SAN 网络存储服务器存储管理服务器提供了二级数据存取安全(CHAP),一是访问主机的安全,二是主机访问卷的安全,这就从根本上保证了SAN中数据访问的安全性。     数据本身的安全。SCSI 磁盘阵列柜RAID5 是安全性较高的RAID 等级。除了RAID 等级上的保护之外,还可以提供多个全局热备份磁盘,一旦阵列中的任何一块磁盘出现问题,全局热备份磁盘都会立即工作,达到保护数据的目的。     阵列控制信息的存储。一般的阵列其阵列配置信息(包括硬盘分组、RAID 划分等信息),都存放在阵列控制器上,一旦控制器出现问题,那么存放在控制器上的配置信息就会完全丢失,即使更换新的控制器控制信息也无法挽回,那么硬盘上的数据就会丢失,给用户造成无法估量的损失。系统采用磁盘阵列的配置信息可以存放在硬盘上,这样即使控制器出现问题也不会影响硬盘上的数据,而且当RAID 组中的一块硬盘出现问题,更换新的硬盘后配置信息会自动复制在新硬盘上,确保了数据的完整性和安全性。一但控制器有问题,可以更换新的控制器而数据不会丢失。     成熟先进的设备保证系统的高性能:通过 IP SAN 网络存储服务器整合、优化后的磁盘阵列在每条与交换机连接的千兆网线上能提供很高的数据块的持续读写速度,结合 IP SAN网络存储服务器自动动态负载均衡的功能,由2 条与交换机连接的千兆网线可以对外提供2倍的高速的数据持续读写的带宽。这样的高性能,是存储系统能够提供全天候稳定工作状态的先决条件。     智能化的高速海量存储系统为用户提供了足够可管理的数据存储空间:较高的外部共享磁盘容量最大可达到几十个TB,根据存储数据量的需求,可配置可用容量,供数据存储使用,随着数据量增大,将来可以扩充磁盘数目以增加容量。     对异构存储资源进行虚拟化和集中化管理:IP SAN 存储管理服务器集成了数据存储系统,实现存储资源的整合与虚拟化,实现资源共享;它能对不同厂商的存储产品、不同存储协议(SCSI,iSCSI Target,FCP)的产品进行异构整合管理。IP SAN 存储管理服务器最大限度地优化图书馆已有的存储资源和网络资源,扩展了客户未来对存储系统的升级改造的可选择性。     简单化了系统管理:由于采用基于IE 的用户管理界面,使存储网络实现智能化、简单化和集中化的管理,同时,由于基于IP 技术,客户不需要专门培训?D?D本系统从安装到正式上线,客户在20 分钟内即掌握了本系统维护技术。 网络存储导论第九章:IPSAN灾备方案(2) 9.3.2.2 集中式数据备份     方案一中应用到集中式数据备份,其原理就是采用 IP SAN 备份软件对两幢楼中的SAN 数据进行Disk-Disk 集中式备份。系统将在大楼-A 内配置一台备份服务器,用来统一管理两幢大楼中所有服务器的数据备份与恢复,备份的数据不仅要保存在同一楼内,同时还要保存到另一楼内一份,以做异地备份,而所有的这些备份操作全部是通过备份服务器来进行统一设置,这样不仅满足了用户的需求,而且方便了管理员的操作。 · 拓朴结构     拓扑图如下   图 9-8 系统方案一拓扑图 · 系统架构:     采用两台 IP SAN 网络存储服务器连接1T RAID 作为备份介质,用一台服务器(或普通的PC 机)作为备份/介质管理服务器,其他需要备份的应用服务器上安装相应的代理客户端,作为备份客户端。通过网络和其他服务器连接构成集中备份网络。     备份恢复说明:该系统采用集中备份/恢复/监控的方式。由中心管理员制定备份数据的备份任务策略和数据存储策率。每台备份客户端的代理程序根据相应的备份任务,将相应的数据备份到备份服务器上的RAID 中。到进行数据恢复时,则每台客户端的代理程序将从备份服务器上的介质中将相应的数据恢复到指定的区域。以上过程都可在线进行。     数据存放:该系统支持数据的分散存放和多拷贝,备份数据即能存放在本地的RAID 中,也能存放到异地的磁盘上,或者是离线的归档设备上(LTO 带库)等。同时所有的备份数据集都包含元数据和备份数据。因此能保证数据恢复的快速,准确,安全(多分拷贝),可靠(数据恢复时不必访问元数据库)。     用户管理:该系统采用多用户和群组的管理方式,可以采用自主备份的模式,能设定备份权限和优先级。增加了备份的安全性,减少了集中管理人员的负担。     日志传送:该系统可以在WAN 网络上进行数据传送时,支持日志传送方式。这样不仅保证了备份任务的完整性和可靠性,也降低了对网络资源的浪费。当网络发生故障时,可以自动从故障点继续备份。(断点续传) · 技术特点     采用Disk-Disk 备份方式:磁盘到磁盘的备份方式,提高了备份速度(顺序读写比LTO磁带快3 到5 倍),减少了备份窗口,加快了备份速度。     支持异地灾备模式:系统支持一份备份数据多份拷贝,这就可以利用IP SAN 方便的将备份数据保存到异地去,以防止本地环境出现大范围的自然灾害而造成数据的丢失。     支持OnePath Restor 恢复和数据合并模式(将增量备份和全备份合并成全备份):这样就减少了全备份的时间,加快了恢复的速度(不必恢复多次,比其他应用恢复速度快1 倍以上)。(特有功能)     支持备份任务的断点续传:这样保证了即使备份期间发生故障,也能从该故障点继续备份,而不必重新备份。     支持应用级的SnapShot 备份和QR 快速恢复:可以不必重新安装应用,就可重启应用,加快应用恢复速度。     支持AD 和Exchange 的记录级备份:这样能对单个属性和信息进行备份和恢复。这样如果某些内容不对,只要恢复部分数据即可。而不必进行所有数据的恢复,加快了恢复速度。(特有功能)     采用日志方式在网上传送数据:保证了备份数据的完整性,节约了网络带宽。(特有功能)     系统具有很好的可扩展性:无论是备份介质还是备份机器,无需任何设置,直接接入网络就能工作。     系统支持所有的主流平台和操作系统平台,也支持所有的备份介质(Disk/Tape ..)。     采用文件系统作为备份数据集:符合操作人员习惯,便于数据迁移和升级。     采用集中单点管理,支持异地的WEB 监控和管理:能方便的监控所有的备份资源和备份数据集。     支持用户和群组管理模式:使得备份管理可以由用户自主管理,减少了中心管理员的压力。     支持基于存储策率的备份模式:由管理员制定统一的数据迁移模式,当备份存储策率改变时,不用一一修改所有的备份任务。     采用BackupStorageSet 模式:支持备份数据集的分布放置和不同存储方式。使得数据监控一目了然。 网络存储导论第九章:IPSAN灾备方案(3) 9.3.2.3 交互式数据备份     方案二中应用了交互式数据备份,其原理是配置两台备份服务器,每台服务器将承担两项备份任务:一项是用于集中管理本地服务器正常的数据备份,另外一项任务是对另一台备份服务器本身数据进行备份,这样当一台备份服务器出现了故障,另一台备份服务器还将继续工作,并可以快速、安全、方便的恢复出现故障的备份服务器,以避免由于备份服务器自身的问题而丢失其它服务器备份的数据。     拓朴结构     拓扑图如下:     本方案将在两幢楼内分别配置一台备份服务器,大楼-A 中的备份服务器集中管理大楼-A 中所有服务器数据的备份与恢复任务,大楼-B 中的备份服务器集中管理大楼-B 中所有服务器数据的备份与恢复任务,并且大楼-A 中的备份服务器还要对大楼-B 中的备份服务器进行备份,大楼-B 中的备份服务器还要对大楼-A 中的备份服务器进行备份,这样就形成大楼-A 与大楼-B 中的服务器相互备份,当大楼-A 中的备份服务器出现了故障,完全可以从大楼-B 的备份服务器中恢复数据以保证大楼-A 中其它服务器的备份任务照常进行,备份的数据还能用于出错后的恢复,同理大楼-B 中的备份服务器出现了故障也可以利用大楼-A 中的备份服务器进行恢复。     9.3.2.4 方案特点     这两套方案都将采用IP SAN 网络数据存储结构,结合IP SAN 网络备份体系结构,构建成一个基于IP SAN 架构的数据容灾系统和Disk-Disk 数据备份系统,这是一个既能满足用户数据备份要求,又涵盖主流存储体系,用户级的容灾加备份的解决方案。     采用基于 IP SAN 网络存储服务器的 IP SAN 作为备份存储介质。它具有下列优点:     动态扩容。客户可根据需求来逐渐增加用于备份的存储容量。IP SAN 网络存储服务器可提供多达256TB 的存储容量。     可同时达到数据备份及容灾两个目的。由于是基于IP 网络,所以备份服务器与备份存储介质之间不受距离的限制。当把备份介质放到通过 IP 网络连接的异地时,不仅实现了数据备份,也实现了数据容灾。     先进的物理存储系统(IP SAN)与先进的备份技术整合在一起。这样取两家之长构成的数据容灾备份系统是其它单一的软件系统或硬件系统所无法比拟或无法实现的。其中数据存储系统最大限度地从速度和应用范围方面优化存储资源和网络资源,扩展了用户存储系统现有的投资;此外还解决了集中存储、数据复制、I/O 效率、网络性能等问题。 · 方案一特点     本方案采用的是区域容灾加集中式备份,采用该集中备份方案,能在现有的网络基础上,将各分散服务器的数据完整可靠的集中备份起来。同时能保证应用和数据的在线快速备份和恢复。该方案不仅能够提供备份数据的多种拷贝,而且由于将备份数据和元数据备份在一个备份数据集中,所以在各种情况下都能进行恢复,使得数据备份恢复安全可靠。     同时,采用基于存储策略的备份模式,和自主备份,集中监控的管理模式,可以大大减轻备份管理维护强度。     通过这个方案能为用户提供完整的数据保护服务。而且能够根据应用的不同要求,来灵活提供不同的客户端配置,能非常灵活的满足用户的最终要求。 · 方案二特点     数据的保护更加安全:本方案不仅仅保护了服务器的历史数据,而且也保护了管理备份的备份服务器的数据,这样使的用户的数据更加安全。     提升了系统性能:本方案采用了两台备份服务器,每台备份服务器都分担了一部分备份任务,与方案一相比较,不仅提升了备份服务器的性能而且也节约了大楼间网络传输的带宽。 · 方案三特点     本方案是通过异地数据备份来达到数据容灾的目的。 当用户对数据恢复的时间要求不高,而且数据变化量不大的情况下,这是一个既经济有稳妥的方案。 · 方案的关键点     如前所述,容灾不但是一个技术问题,更是一个工程问题。在技术方面,本方案克服了以下技术难点:     解决了传统技术构建的容灾系统的扩展性和延伸性受限制问题。     克服了因对数据传输介质专门要求而带来用户成本增高问题。以前在建造容灾系统过程中,容灾专线的建设占用了用户很大的投资。而存储工程师提供的方案由于采用比较普及的传输介质,如支持TCP/IP 网络,这样易于实施,更能降低成本。     解决了一般容灾系统的比较封闭问题。本方案容灾具有开放性,支持和兼容多种硬件系统。     充分考虑用户对主应用程序运行连续性要求,本容灾系统的运行不应影响应用系统的正常使用。     容灾系统如何保护用户信息的完整性是最核心问题。由于本方案设计过程中将此作为重要设计指标之一,因此它可保证用户数据的完整性和可靠性。     利用其它技术构建容灾系统存在技术复杂,使用、维护不方便等问题。而本方案则具有简单、实用的灾难恢复手段。     本容灾系统本身对具备各种容错进行了考虑,从而保证当灾难发生时,用户可以安全、可靠地将数据恢复出来。     本容灾系统还支持灵活多样的容灾结构,这样用户可以根据环境的变化来改变容灾的结构。     在工程方面,本方案在实施中还充分考虑了以下几点:     首先对容灾方案的可行性进行评估。     帮助用户建立一套规范的容灾流程及其具体措施。这包括: · 建立容灾系统的标准安装及操作流程 · 建立数据恢复的标准操作流程 · 建立测试流程 · 根据需求的变化,制定相应的数据容灾及备份策略 · 建立灾难的预警机制 · 建立定期的演习及测试制度 · 建立定期的人员培训制度 网络存储导论第九章:IP 存储的发展(1) 9.4 IP 存储发展     随着网络存储技术的飞速发展,各种存储设备和技术正趋于融合。总有一天,现在的光纤和SCSI 磁盘阵列、NAS 文件服务器、磁带库等设备都可以运行在一个统一标准的架构中。IP 存储(Storage over IP 简称为SoIP)----在IP 网络中传输块级数据----使得服务器可以通过IP 网络连接SCSI 设备,并且像使用本地的设备一样,无需关心设备的地址或位置。而网络连接则是以IP 和以太网为骨干,这令人联想起今天耳熟能详的存储域网(SAN)结构。只是以廉价而成熟的IP 和以太网技术,替代了光纤通道技术。     由于既有的成熟性和开放性,IP 存储技术,使企业在制定和实现“安全数据存储”的策略和方案时,有了更多的选择空间。例如远程的数据备份、数据镜像和服务器集群等领域,IP 存储的介入都可以大大丰富其内容。同时,IP 存储也消除了企业IT 部门在设计传统SAN方案时,必须面对的产品兼容性和连接性方面的问题。最重要的是,基于IP 存储技术的新型“SAN”,兼具了传统SAN 的高性能和传统NAS 的数据共享优势,为新的数据应用方式提供了更加先进的结构平台。     在过去的一年中,存储和网络厂商的注意力,主要集中在IP 存储技术的两个方向上----存储隧道(Storage tunneling)和本地IP 存储(Native IP-based storage)下面是这两个方面的一些粗略概况     9.4.1 存储隧道技术     顾名思义,这种技术是将IP 协议作为连接异地两个光纤SAN 的隧道,用以解决两个SAN环境的互联问题。光纤通道协议帧被包裹在IP 数据包中传输。数据包被传输到远端SAN后,由专用设备解包,还原成光纤通道协议帧。     由于这种技术提供的是两个SAN 之间点到点的连接通信,从功能上讲,这是一种类似于光纤的专用连接技术。因此,这种技术也被称为黑光纤连接(Dark fiber optic links)。由于其专用性,使得这种技术实现起来成本较高,缺乏通用性,而且较大的延迟也对性能造成一定影响。其最大的优势在于,可以利用现有的城域网和广域网。这一优势,正好为炒作的沸沸扬扬,但至今无法充分利用的宽带资源,提供用武之地。     另一方面,虽然IP 网络技术非常普及,其管理和控制机制也相对完善,但是,利用IP 网络传输的存储隧道技术,却无法充分利用这些优势。其原因主要在于,嵌入IP 数据包中的光纤通道协议帧。IP 网络智能管理工具不能识别这些数据,这使得一些很好的管理控制机制无法应用于这种技术,如目录服务、流量监控、QoS 等。因此,企业IT 部门的系统维护人员,几乎不可能对包含存储隧道的网络环境,进行单一界面的统一集中化管理。     目前的存储隧道产品还有待完善,与光纤通道SAN 相比,只能提供很小的数据传输带宽。例如,一个在光纤SAN 上,用两到三个小时可以完成的传输过程,在两个光纤SAN 之间以OC-3 标准传输大约需要14 个小时。这是目前存储隧道产品比较典型的传输速度。当然,这样的性能表现,不会限制到该技术在一些非同步功能中的应用。如远程的数据备份,就不一定需要很高的数据传输带宽。     总之,存储隧道技术,借用了一些IP 网络的成熟性优势,但是并没有摆脱复杂而昂贵的光纤通道产品。 网络存储导论第九章:IP 存储的发展(2) 9.4.2 本地IP 存储技术     这一技术是将现有的存储协议,例如SCSI 和光纤通道,直接集成在IP 协议中,以使存储和网络可以无缝的融合。当然,这并不是指,可以在企业IT 系统中,把存储网络和传统的LAN,物理上合并成一个网络。而是指在传统的SAN 结构中,以IP 协议替代光纤通道协议,来构建结构上与LAN 隔离,而技术上与LAN 一致的新型SAN 系统----IP SAN。这种IP-SAN 中,用户不仅可以在保证性能的同时,有效的降低成本,而且,以往用户在IP-LAN上获得的维护经验、技巧都可以直接应用在IP-SAN 上。俯拾皆是的IP 网络工具,使IP-SAN的网络维护轻松而方便。同样,维护人员的培训工作,也不会像光纤技术培训那样庞杂而冗长。     设想一下,一个大型企业的IT 部门引入了一项新技术,并以此构建了底层的大型存储系统。却不需要调整现有的网络和主机,不需要改变应用软件,不需要增加管理工具,甚至不需要过多的技术培训。现有的网络管理工具和人员,完全可以应付这一切。这是一个多么诱人的系统升级方案!     与存储隧道技术相比,本地IP 存储技术具有显著的优势。首先,一体化的管理界面,使得IP-SAN 可以和IP 网络完全整合。其次,用户在这一技术中,面对的是非常熟悉的技术内容:IP 协议和以太网。而且,各种IP 通用设备,保证了用户可以具有非常广泛的选择空间。事实上,由于本地IP 存储技术的设计目标,就是充分利用现有设备,传统的SCSI存储设备和光纤存储设备,都可以在IP-SAN 中利用起来。     本地IP 存储技术,更进一步的模糊了本地存储和远程存储的界限。在IP-SAN 中,只要主机和存储系统都能提供标准接口,任何位置的主机就都可以访问任何位置的数据,无论是在同一机房中,相隔几米,还是数公里外的异地。访问的方式可以是类似NAS 结构中,通过NFS、CIFS 等共享协议访问,也可以是类似本地连接和传统SAN 中,本地设备级访问。     随着带有IP 标准接口的存储设备的出现,用户可以单纯使用本地IP 存储技术,来扩展已有的存储网络,或构建新的存储网络。以千兆以太网甚至万兆以太网为骨干的网络连接,保证了本地IP 存储网络,能够以令人满意的效率工作。     9.4.3 技术选择     无论在哪个方面,用户总是要面对这样的问题。答案又总是,明确需求,从实际出发。简单的讲,存储隧道技术很好的利用了现有的IP 网络,来连接距离较远的各个“SAN 岛屿”。例如,对存储服务供应商来说,如果想向已经建有光纤SAN 的用户,提供数据看护服务,存储隧道技术就是非常好的选择。     一些用户期望自己的IT 系统具有很高的集成度,这一点是存储隧道技术难以达到的,而本地IP 存储技术在这方面,具有相当强的竞争力。同时,这项技术也是实现从光纤SAN平滑升级到IP-SAN 的最好选择。所以,越来越多的存储和网络厂商,开始对本地IP 存储技术提供投入和支持 网络存储导论第十章:大型综合存储系统 SAN 是建立在存储协议基础之上的可使服务器与存储设备之间进行“any to any”连接通信的存储网络系统,可以实现多服务器共享一个阵列子系统、共享一个自动库实现数据的共享和集中的管理,进而完成快速、大容量和安全可靠的数据存储,因此,越来越为业务迅猛发展、数据呈爆炸增长趋势的企业所青睐。     需要SAN 业务的系统为: · 对数据安全性要求很高的企业,典型行业:电信、金融和证券,典型业务:计费。 · 对数据存储性能要求高的企业, 典型行业:电视台、交通部门和测绘部门, 典型业务:音频/视频、石油测绘和地理信息系统等。 · 在系统级方面具有很强的容量(动态)可扩展性和灵活性的企业,典型行业:各中大型企业, 典型业务:ERP 系统、CRM 系统和决策支持系统。 · 具有超大型海量存储特性的企业,典型行业:图书馆、博物馆、税务和石油, 典型业务:资料中心和历史资料库。 · 具有本质上物理集中、逻辑上又彼此独立的数据管理特点的企业,典型行业:银行、证券和电信, 典型业务:银行的业务集中和移动通信的运营支撑系统(BOSS)集中。 · 实现对分散数据高速集中备份的企业, 典型行业:各行各业, 典型业务:企业各分支机构数据的集中处理。 · 数据在线性要求高的企业, 典型行业:商业网站和金融, 典型业务:电子商务。 · 实现与主机无关的容灾的企业, 典型行业:大型企业, 典型业务:数据中心。     以上是企业典型数据特性的典型业务举例,通常,企业环境、业务形式错综复杂,会同时具备多数据特性。     10.1 大型企业综合存储系统     10.1.1 业务的主要数据特性     对数据安全性、存储性能、在线性和文件系统级的灵活性要求高,并需要对分散数据高速集中的备份,又属于超大型海量存储。     10.1.2 用户状况     某大型企业通讯部门主要从事接收、处理、存档和分发各类全球性卫星数据,以及卫星接收技术和数据处理方法的研究。卫星的观测信息以图形方式显示,通过地面接收转换成数字格式保存,但每条信息的占用的存储空间都很大,每天的数据量在几百MB 到2GB 之间。由于在线数据存储空间很有限,特别是用户要通过HDDT 磁带方式对数据进行存档管理,并需要以人工方式管理磁带,从而使得数据查找效率低下,大量珍贵数据得不到有效利用。     10.1.3 需求分析     由于需要在线数据存储量大约在1~2TB,并在包括Sun、SGI、IBM的小型机和PC服务器在内的主机环境中还要增加曙光超级计算机,而且多台主机不仅集中存储,还要能够共享数据; 另外,卫星下载资料以文件格式保存,单个文件可达GB 级。针对这些需求,进行方案设计时首要考虑的因素是设备的容量和性能,以及系统的在线连接性和数据的共享。在此基础之上,还要扩大在线系统容量,建立自动化的数据备份系统,实现离线存储数据的自动管理。     10.1.4 系统设计     如前所述,原环境中已存在一些网络设备,在构建SAN时增加一台光纤通道交换机和一台光纤通道磁盘阵列。由于用户的应用需要不同平台的多台主机共享数据,所以还要配以文件共享软件和网络文件系统转换的软件。本方案采用HDS 公司的Thunder 9200 和IBM 公司光纤交换机2109-S08 或S16 组建存储区域网络,其拓扑结构如图 10-1 所示。 图 10-1 系统拓扑图     由于同一文件要被多台主机编辑、处理与访问,而且文件非常大,无论在SAN 还是在LAN 上传输都很浪费资源,因此要采取文件共享的方式,让所有主机访问文件的同一个拷贝。在多主机混合平台的情况下,采用IBM Tivoli SANergy 软件,配以支持在Windows NT上实现NFS 共享的软件NFS Maestro。     在此方案成功实施运转一个时期后,由于业务发展迅猛,系统的数据量快速增长,用户又提出增加在线存储容量和建立自动数据备份系统的需求。事实上,富有经验的集成商在系统设计初期已考虑到未来的扩展问题,当需要增加在线容量时,用户只需购买一台新的HDS Thunder 9200,将其连接到SAN 上,它提供的存储空间立即可分配给SAN 上任意主机,还能集中管理数据。当用户需要做自动数据备份时,根据对容量和备份窗口的要求选择IBM SAN 解决方案中的自动磁带库(如LTO 系列),将其与备份服务器连接到SAN 上,即可进行集中、自动且LANfree 的数据备份。扩容后的存储区域网拓扑结构如图10-2 所示。当设备数量增加较多时,可以通过交换机堆叠或级联增加SAN 的连接能力。 图 10-2 项目实施拓扑图     方案点评     性能:高性能的光纤通道交换机和光纤通道协议可以确保设备连接可靠且有效。     可靠性:磁盘阵列通过写缓存镜像、多RAID 等级和全局热备份盘等技术提供不同的保护特性,并通过在线数据校验,保证数据完整性。     扩展性:使存储与直接主机连接相分离,确保动态存储分区。     功能:基于SAN 结构的文件级共享是本方案的关键。     10.1.5 可选的解决方案     10.1.5.1 IBM SAN 解决方案     IBM SAN 解决方案由五大构件组成,包括服务器、存储设备、连接设备、管理软件和服务。其中服务器可选用IBM AS400、AS390、AS6000 或PC 服务器等。存储设备可选用IBM 的磁盘系统,如著名的ESS(大白鲨)、7133 串行磁盘系统和IBM 模块化存储服务器(MSS2106);磁带系统可选用Magstar MP 3570 磁带子系统、Magstar MP 3575 磁带库数据服务器、Magstar 3590 磁带子系统、Magstar 3494 磁带库/虚拟磁带服务器VTS 以及LTO 线性开放磁带系统; 还有光盘系统,如增强型3995 光盘库C 系列等;连接设备可选用IBM SAN光纤通道交换机(如2032-001 McDATA ED-5000 和2042-001 INRANGE FC/9000)、IBM 光纤通道管理集线器(如8 端口FC-AL 集线器和2103-H07 IBM SAN 光纤通道存储集线器)以及IBM SAN 网关(如2108-G07 IBM SAN 数据网关与2108-G03 IBM SAN 数据网关路由器和7139-111 VICOM 光纤通道SLIC 路由器); 管理软件可选用IBM StorWatch 系列存储管理产品、DFSMS 系列存储管理产品和Tivoli 系列存储管理产品。     此外,IBM 还推出一套主要面向中低端市场的IBM Open SAN 解决方案,它支持及时拷贝与脱机备份功能,提供SSA 空间复用性和支持不间断的扩展等性能。     其特点是:大而全,单件可选性强,兼容性强,其中磁带库产品性能强劲。     10.1.5.2 XIOtech(Seagate 子公司) SAN 解决方案     与其他厂商提供的存储方案略有不同,XIOtech 提供了SAN 环境下虚拟存储方案,主要包括Magnitude 硬件平台和Redi 软件。Magnitude 硬件平台符合开放系统标准,并且将所有SAN 组件并入了一个集中化配置中,即一个高性能的存储控制器、SAN 管理软件和64台硬盘或具有11.5GB 的存储设备。通过在所有可用硬盘上交叉存取数据,Magnitude 可让用户从一个中央控制台执行所有的存储管理任务,还可以在虚拟磁盘之间拷贝、交换和镜像数据,并在与Magnitude 相连的光纤信道设备上执行LUN 屏蔽、LUN 映像和群集任务。另外, Redi 将Magnitude SAN 内的所有物理驱动轴合并到一个虚拟库中,可伸缩性强,能使多平台服务器共享大量数据,并提高数据可用性。     其特点是:具有可扩性、高可用性和虚拟存储特性。 网络存储导论第十章:券商容灾系统案例 10.2 券商容灾系统     该系统业务的主要数据特性是需要实现与主机无关的容灾。     10.2.1 技术准备     客户现状设想如下:     某券商已有本地用户上百家,远程分中心若干个,都与当地用户相连,卫星用户约几千家,带近百个远程登记处。目前该券商已经建立起一整套证券股票交易网络体系(如图10-3 所示),为保证未来业务的可扩性和安全性,提高现有应用系统防范各种风险的能力必须建立一套有灾难备份能力的存储系统。 图10-3 客户系统现状     需求分析     灾难备份中2 个最关键因素是系统运行环境(包括系统数据与应用程序)和用户数据资源。前者的变动频率低,数据量不大,相对较稳定; 后者变化快,数据量大,实时性高。由于该券商的清算作业和大型非交易过户作业具有数据量大、处理强度高、不能中途恢复和在限定时间内尽快完成等特点,所以希望SAN 存储环境满足: 当灾难出现时,位于同城异地的备份系统能保持灾难发生日前半天的数据完整,并在灾难发生后一天内结算业务能正常运行工作,同时还要能够实现远程异地备份。     10.2.2 系统设计     根据该券商对灾难恢复系统的要求,集成商提出多种可能的解决方案。最传统的方法是磁带备份与恢复,但它不满足未来灾难备份可扩展性及日常可维护性。另一个是通过高速网将用户数据实时送到备份中心的方案,但它只能保证灾难发生日前一天的结算后数据,无法满足灾难备份要求。还有一个是采用软件方式实现数据的远程热备份方式,但它会引发时延问题,拖延结算时间。最后一个是远程磁盘镜像(SRDF)方案,它对生产系统的运行效率无不良影响,能够保持数据的完整性和可用性,并对用户数据实施多重保护等等。     该券商结算系统由本地生产系统和异地灾难备份系统及相关通信链路组成,其SAN 存储结构图如图10-4 所示。它在生产中心和灾难备份中心都采用了同档次的IBM 小型机和EMC Symmetrix 8430 磁盘阵列,其中Symmetrix 8430 配置450GB,在采用镜像保护措施后,可用磁盘量将达225GB。正常运行时,该券商生产中心的业务结算主机与EMC Symmetrix 8430 (以下简称R1)相连,灾备中心建在与生产中心相隔10km 的另一处机房,在灾备中心的EMC Symmetrix 8430(以下简称R2)中相同数量的一组硬盘与R1 远程镜像保持数据同步。而远程备机控制R2 中另一组硬盘供该券商查询处理及测试与分析用。需要指出,在进行远程异地备份时备份软件SRDF 功不可没。 图10-4 采用SRDF 条件下的容灾拓扑图     可以看出:容灾是一个从存储设备、主机系统到上层应用软件的系统工程,从功能上讲可以分为数据复制和应用切换两大部分。在考察方案时也应该从这两部分出发,缺少任何一部分,都不是完整的容灾方案。     10.2.3 可选的解决方案     10.2.3.1 EMC SAN 解决方案     EMC 公司支持最基本的集线器方式,主要产品包括面向高端市场的SAN 存储平台Symmetrix,它提供一个完全受保护的共享存储系统,可实现各种信息的透明访问。近日,EMC 新推了Symmetrix 增强系列8830、8530 和8230,引入更快存储器和双倍数量的内部数据总线,对信息存储设备的性能、连接性、功能和容量等进行了升级,使开放系统性能提高50%,主机性能提高100%,容量提高260%,可连接性提高500%,最大可处理70TB 的数据量,而且其运行环境、高速缓冲技术和处理能力均大幅提高,具有很好的兼容性,可实现信息高效的整合,降低用户的TCO。与此同时,对于基于光纤通道的ESN 系统,由于采用模块化设计,具有很强的伸缩性,可按照不同的连接和可用性要求提供灵活的配置阵列选择,其中包括对单一的、单点的、集中化的管理软件Control Center。它采用统一的管理界面和管理方式,使对不同的存储设备的管理工作简单易行; 控制中心可以建立在工作站、服务器上,还可以通过浏览器的方式远程实施管理; 另外,只需简单的鼠标点击,就可以自动获得存储器物理图像,了解磁盘的配置情况; 同时,控制中心还提供逻辑化的管理手段、简洁的图形化的管理系统,完成企业存储网络的管理。ESN Manager 软件则主要完成SAN 交换管理。     10.2.3.2 CA SAN 解决方案     2001 年8 月,CA 公司在京推出其端到端的集成化跨平台存储解决方案BrightStor 中的第一款产品CA BrightStor Enterprise Backup。它是一款多平台备份和灾难恢复解决方案,可对数据进行快速可靠的恢复,最大限度缩短系统的停机时间,还能对各种应用和数据实现不间断保护; 并可实现集中监控和管理,管理人员只需通过一个控制台即可监控所有备份和恢复。同时其扩展性强,可提供大量的选件,支持广泛的应用平台和大型存储系统以及大容量的索引数据库,还易于安装与配置。此后不久,CA 公司又发布了 BrightStor CA-Vtape Virtual Tape System(VTS) 2.0 版。它能帮助客户在现有基础上建立一个虚拟的磁带系统,通过把大量文件堆栈到每个磁带中,解决磁带利用率不高的问题。企业采用新版本CA-Vtape 后,可以把存储在虚拟空间中的数据压缩到DASD 高速缓存中,使数据存储量增加1 倍。     10.2.3.3 Veritas SAN 解决方案     Veritas 公司提供的Cluster Server(VCS)和高性能的File System 等为SAN 环境下的解决方案真正铺平了道路。目前,VCS 支持32 台服务器的互联和无限容量的存储管理,具有高可扩展性,还支持多种主机系统平台和磁盘系统以及多种企业级应用,而配置和管理非常简单,可以实现应用级的服务器高性能切换。通过与Volume Manager 结合,VCS可让用户的数据以一种最快捷的方式分布到多个磁盘上面,使应用系统在相当高效的基础上运行。File System 是一个强大的、可快速恢复的日志式文件系统,它提供了关键性应用所需的高性能和易管理性。Volume Manager 为SAN 环境提供了易于使用的在线磁盘与存储管理工具。当系统处于联机状态时,它提供磁盘使用情况分析、RAID 技术、数据镜像和磁盘存储区的动态配置,确保数据的可用性、易用性和保护性。     10.2.3.4 Legato SAN 解决方案     Legato SAN 解决方案的基本产品模块包括Networker Power Edition、Legato Networker Power Edition Storage Nodes 和Legato SmartMedia/Alphastor。其主要特点如下: 降低对服务器和网络的影响; Legato Networker 备份速度可达每小时1.5TB; 单个Legato NetworkerServer 可集中控制256 个Networker Storage Nodes; 支持异构平台的协同运作,数据备份和恢复可跨越Windows NT 和各种Unix 平台,并支持市场上所有的文件系统和卷管理器; 可实现磁带库和驱动器的共享访问; 此外,Legato Celestra 的Serverless 技术可确保终端数据与应用程序的可用性,无须备份窗口便可实现故障自动修复; 同时采用先进的Snapshot(快照)技术,还可实现在线备份。 网络存储导论第十章:移动业务存储系统 10.3 移动业务逻辑独立的存储系统     该客户类型的数据特征是:主要具有本质上物理集中、逻辑上又彼此独立的数据管理特点。     10.3.1 预先分析     用户状况     按照移动公司系统建设要求,某省业务运营支撑系统不只是局限于原先计费、结算、营业和账务系统,而是将其扩展到与业务、市场相关的客服、决策支持和用户数据管理等方面,用户原有的系统业务处理的结构无法满足未来BOSS 系统全网的扩展,因此有必要对该结构进行重新设计,尤其是存储结构。     需求分析     BOSS 系统对存储资源的需求往往是一个动态的过程。由于用户业务是不断迅速增长的,对磁盘阵列在线存储的需求无法准确预测,用户不可能事先对所有不同类型的业务种类都分配永远足够的磁盘容量,这样就要求不仅能够在线动态分配存储,而且能够在线进行整个磁盘阵列的容量扩展。具体来讲,有如下需求。 · 可提供不小于4.5TB 存储空间。 · 可连接不少于11 台业务服务器。 · 存储设备组件故障冗余,对共享的数据存储设备提供统一的RAID 保护; 同时通过多通道技术和Hot Spare 技术实现组件故障冗余; 支持群集管理,提供群集环境中各业务服务器的数据存储资源共享; 具备远程存储,借助特殊的连接设备实现服务器与存储设备的远程连接; 提供数据高吞吐率和设备连接性。     10.3.2 系统设计     如图 10-5 所示,省移动BOSS 系统是由多台小型机组成处理系统,组成N+1 模式的群集结构,其中6 台主机主生产机,1 台主机为备用机。日常业务的处理由前6 台主机完成,备用主机只在前6 台主机中的1 台出现异常宕机时接管主机。 图 10-5 系统结构图     此BOSS 系统可通过增加数据库主机数目、磁盘阵列存储空间等手段进行扩展,并通过将原服务器上的某部分数据分离出来,进行业务的均衡,以达到扩容目的,从而保证BOSS系统的平滑升级。     此方案主要采用了HP 公司和Borcade 公司SAN 环境下按需求分配磁盘存储资源的解决方案。其中,采用了磁盘阵列容量为9TB 的HP SureStore XP512,并采用RAID0+1 方式实现磁盘阵列数据的保护; 同时采用了实现磁盘阵列与服务器连接的Borcade 公司Silkworm 2800 光纤通道交换机; 还采用了可实现业务数据LANfree 备份管理的StorageTek 公司的Aegis L700 磁带库系统。     在决策支持系统中,数据衍生速度是惊人的。这就要求存储系统在具有高度稳定性和高性能的同时,必须具有极强的扩展性。也就是说,不仅要考虑单个存储设备的容量上限,更要考虑整体结构的扩展性,即光纤交换设备的扩展能力。     10.3.3 可选的解决方案     10.3.3.1 HP SAN 解决方案     HP ESAM 体系结构包括SureGear Hardware、SAN Software、SureSpan Fabric、SureGuide Services 和SureDesign Solutions 。其中, SureGear Hardware 包括SureStore SC10/FC10/FC60/XP48/XP512、VA7100/VA7400 和SureStore Tape Library 2/20、4/40、6/60、6/140、10/180 及20/700,特别是VA7100/VA7400,都是端到端的光纤通道磁盘阵列,分别拥有900/1600Mbps 的性能,高速缓存能提供12/27KB IOPS,磁盘后端可提供3000/7500 IOPS。HP SureStore XP512 为OLTP 应用提供了很好的顺序I/O 传输性能,可在不停机的情况下从4 个磁盘驱动器扩展到512 个磁盘驱动器,还能跨越多个大型主机和混合的其他开放系统的平台。SAN Software 是指Openview SAN,它具有自动发现、拓扑结构图、性能监控、通过中央控制台对存储容量进行评估和管理等特性。SureSpan Fabric 主要包括SureStore Hub L10/S10、Brocade SilkWorm 2400/2800、Qlogin SANbox 8/16、SureStore SCSI Bridge FC4/2 和SureStore Bridge FC4/1 HV 与FC2/1 LV 等。SureGuide Services 主要包括项目管理、业务流程和商业运作咨询等等。     其特点是: 大而全,兼容性强,高端阵列产品表现出色,全线产品性能好。     10.3.3.2 Sun SAN 解决方案     Sun 最新推出的SAN 解决方案将Sun StorEdge T3 的模块可扩展性和Sun StorEdge 网络光纤交换机系列的性能和高可用性结合起来,是工作组、企业数据中心以及端到端SAN 解决方案发布的理想选择。该解决方案具有以下一些特点: 具有大容量的可扩展性,满足客户不断增长的存储需求; 无论本地或远程存储与备份,均可通过单独的控制台进行方便地管理;具有很强的互操作性,支持多种操作平台; 提供安全的容错、掉电冗余和327GB~169TB 的容量; 内含Sun StorEdge 软件管理工具。     其特点是: 易安装和管理,投资低,运效高。     10.3.3.3 Brocade SAN 解决方案     Brocade 开发的智能Fabric 服务体系结构为解决重要的SAN 需求提供了强大而灵活的框架。智能Fabric 服务的关键元是SilkWorm 系列光纤通道交换机和相关的Fabric OS 软件平台。SilkWorm 光纤交换机产品系列包括由低至8 端口的入门级交换机乃至可提供多达128端口连接的SilkWorm 12000 核心光纤交换机。SilkWorm 12000 支持2Gbps 光纤通道模块和新兴的存储协议,还支持可实现存储虚拟化和第三方拷贝等高性能光纤服务的应用软件平台。另外,Fabric OS 可与硬件结合,实现支持高冗余网络,且在设备之间有多条路径。它包含一组用于提升管理能力、可用性及扩充能力的重要光纤服务。     Brocade SilkWorm 交换机可配合其他主流存储硬件和服务器使用,令用户能选择最佳的开放式系统环境。其特点是: 具有开放性、灵活性、可扩展性和智能性。 网络存储导论第十章:不成功的SAN 应用 10.4 不成功的SAN 应用     10.4.1 网站SAN 存储系统     环境: 网络系统由Web 系统、Mail 系统和数据库系统3 部分组成。Web 系统以Windows平台为主,Mail 系统以Linux 平台为主。     存储系统解决方案: 以SAN 结构实现数据的集中和分散数据的LAN Free 备份。     分析隐患: 由于网站各系统主机平台多种多样,为了保护数据必须在SAN 中实现LUN隔离功能。为了节约成本,方案中没有选择具有LUN Masking 功能的磁盘阵列系统,而是通过主机端光纤卡中的设置,手工实现LUN 的屏蔽。同时,光纤交换设备也采用了成本较低的光纤Hub,而不是具有光纤交换机制的光纤交换机。     经过复杂的设计和配置,磁盘阵列终于可以被主机识别和访问了,网站就此开通。     问题: 当将备份磁带库接入系统时,问题产生了。首先是由于系统结构的变动,主机端的手工配置需要完全重新来过; 继而又发现磁带库的光纤接口类型与主机端的光纤卡无法匹配; 然后是光纤Hub 无法将磁带库与磁盘阵列的数据分流,致使系统对磁带库操作时磁盘阵列不可用……     随着这一系列问题的出现,网站最终决定追加投资,将系统全面升级。但是,整个网站在此半个月期间不能对用户提供及时有效的服务,其损失是难以估量的。     10.4.2 某气象单位存储系统     环境: 主要是卫星气象数据的采集和处理。主机系统为IBM SP 并行机,数据库为Oracle。     存储系统解决方案: 主要采用了IBM 7133 磁盘阵列。     问题: 系统在建成并运行了一段时间之后,经历了一次意外断电。结果Oracle 数据库无法对数据进行恢复,致使长达数月的气象数据丢失。     分析隐患: 事后的调查分析发现,问题出在IBM 7133 磁盘阵列。由于IBM 7133 的磁盘数据容错校验并不是硬件实现的,所以主机端磁盘管理软件的逻辑错误会造成整个磁盘阵列系统的数据不可用。即使设法恢复出主机端的磁盘配置方式,但由于IBM 7133 的缓存是基于电池保护的,当意外断电恰巧发生在电池电量不足时,会造成对磁盘阵列系统内部数据完整性的破坏,数据仍然无法恢复。     IBM 7133 属于部门级产品,在很多环境中都能表现出突出的性能优势。但是在本案例中,对数据安全性的要求是第一位的,另外在主机系统方面采用了仅次于IBM S/390 的大型服务器,可见该系统对安全要求之苛刻,因此在投资方面可以采用更高价的高端存储设备。     10.4.3 某电视台非线性编辑系统     该系统环境及系统结构如下: 5 台以Windows NT Workstation 为操作系统的非线性编辑工作站,通过光纤交换机共享连接硬盘塔。     需要解决的问题是: 硬盘塔在存储业内也称JBOD,即没有阵列控制器的磁盘组。由于硬盘塔、交换机和主机光纤卡之间配合的问题,系统连接后,主机端总是无法稳定地访问到磁盘,因此系统不能正常工作。     分析隐患: 经过仔细检查发现,问题出在交换机的内部交换机制。是过多的地址转换造成了主机端的超时报错。解决的办法有二,一是增加投资,将硬盘塔换成带有控制器的磁盘阵列; 二是减少投资,将光纤交换机换成光纤Hub。在系统性能和并行性压力不强的情况下,最后决定采取第二种解决办法,不仅节省了资金,而且保证了系统的稳定性。     当然,如果该系统的性能和并行性要求较高的话,还是应该采取第一种解决办法。因为光纤Hub 是共享带宽的交换方式,而且不支持LIP 的隔离。 网络存储导论第11章:数据中心设计概述 第十一章 数据中心设计     11.1 概 述     条件:     数据中心形式的信息数据库建设用户是用户生产信息通信网络的核心和枢纽,也是用户生产数据中心。按照用户工作职能的划分,数据中心形式的信息数据库建设用户将承担网络运行、系统运行、数据整合、信息服务、安全保障和应用开发等任务,其运行维护质量与工作水平将直接关系到“数据生产系统”所建的信息数据库和各类应用系统能否充分发挥应用效益,以及生产信息网络和应用系统能否安全、高效地运行。     根据“数据生产系统”本次建设任务要求,数据中心形式的信息数据库建设要建设和完善多个基础性、共享性数据库和多个重点应用系统。按照生产部下达的建设任务书要求,现有多数服务器的配置已不能满足运行要求,有关业务部门在制定系统建设方案时都考虑重新配置更高性能的服务器和存储设备,这样分散的设备建设将带来很多弊端:机房、电源、备份系统的重复建设,服务器及存储设备利用率不高,运行管理人员分散等,势必造成经费重复投入,维护成本增加,不利于资源的整合和综合利用。     为此,按照集中整合和资源共享的原则,在数据中心形式的信息数据库建设用户统一构建集中式的计算机应用系统数据运行设备平台,在满足业务信息系统建设和运行要求的同时,实现用户服务器和存储设备资源的集约化管理,提高设备资源的综合利用和运行管理水平,增强系统和数据的安全性。     11.2 需求分析和设计目标     11.2.1 系统现状     数据中心形式的信息数据库 是用户生产信息通信网络的核心和枢纽,也是用户生产数据中心。按照用户工作职能的划分,数据中心形式的信息数据库建设用户将承担网络运行、系统运行、数据整合、信息服务、安全保障和应用开发等任务,其运行维护质量与工作水平将直接关系到“数据生产系统”所建的信息数据库和各类应用系统能否充分发挥应用效益,以及生产信息网络和应用系统能否安全、高效地运行。根据“数据生产系统”本次建设任务要求,数据中心形式的信息数据库建设要建设和完善多个基础性、共享性数据库和多个重点应用系统。按照集中整合和资源共享的原则,在数据中心形式的信息数据库建设用户统一构建集中式的计算机应用系统数据运行设备平台,在满足业务信息系统建设和运行要求的同时,实现用户服务器和存储设备资源的集约化管理,提高设备资源的综合利用和运行管理水平,增强系统和数据的安全性。     随着多个数据库和多个应用系统的建成并投入运行,数据中心形式的信息数据库建设的信息存储量和查询量必将急剧上升,业务量也将快速增长,亟待按照技术先进、性能优越、存储量大、安全稳定、扩展灵活的要求,建设基于多层应用体系架构的集中运行平台,为数据中心形式的信息数据库建设数据库和应用系统的集中运行提供支撑,满足数据中心形式的信息数据库建设建设多个数据库和多个应用系统的需要,实现数据和设备的高度共享,提供有力的信息支持和服务。     系统现有问题假设     在此设定,数据中心形式的信息数据库建设用户的软硬件平台目前主要存在以下问题:     1、硬件处理能力低,设备老化,维护成本、数据风险增大。数据中心形式的信息数据库建设用户目前配备的PC 服务器已使用多年,Unix 服务器系统配置较低。这些服务器性能不高,不能满足日益增长的业务应用需要。     2、没有采用先进的多层架构,无法实现统一管理和资源共享,资源利用率低,管理复杂,扩展性不强。由于受管理体制、机制和经费的制约,数据中心形式的信息数据库建设用户设备资源需求规划不足。至目前为止,数据中心形式的信息数据库建设用户都是根据应用系统建设的需要,单独为某个应用系统配置相应的运行设备,导致数据中心形式的信息数据库建设用户各个设备自成体系、独立运行,没有整合成多层架构体系,无法有效地扩展系统资源。使得各个应用系统无法按照需求动态占用设备资源,一方面硬件资源严重短缺,另一方面部分设备资源闲置、无法共享,不能适应动态调整的要求。     3、数据中心形式的信息数据库建设用户目前的设备资源不能满足“数据生产系统”数据库和应用系统的建设需求。 设计方案“数据生产系统”将在2 年内建设多个应用系统和多个数据库,即使将目前的硬件资源进行整合和优化,也无法满足建设需求。据统计,目前数据中心形式的信息数据库建设存储的各类信息数据约为4TB,2 年后将达到20TB 的存储容量,而数据中心形式的信息数据库建设用户现有的可用存储空间已远远达不到要求;而数据库服务器的处理能力将大于500,000 tpmC,现有数据库服务器的处理能力离这一指标要求相去甚远。     4、系统抗灾能力不足。一方面由于各应用系统分布在各自独立的设备上运行,且各个设备对可靠性考虑不足,缺乏必要的冗余备份手段,数据缺少高可靠的存储阵列和容错策略予以保护,数据备份能力不足。一旦出现严重故障导致数据损失、必然导致系统瘫痪,即使能通过脱机备份数据恢复,也必将长时间影响应用系统的正常运转。     11.2.2 系统总体架构要求     根据设计,按照设备集中、集约管理、满足应用、方便扩展、安全稳定的要求,今后数据中心形式的信息数据库建设用户建设的发展方向是按照先进计算机应用模式建立多层体系结构(N-Tier)的数据中心。数据中心的逻辑结构如下图所示。 图 11-1 数据中心逻辑图     多层体系结构核心应用层组件包括客户层、应用/WEB 服务器层和数据库服务器层和存储备份层。 · 客户层:客户层是消耗应用数据的层。通常指Web 浏览器。但多层结构(N-Tier)也能支持诸如手机、掌上电脑等其它非浏览器。 · 应用/WEB 服务器层:应用/WEB 服务器层由应用服务器器和Web 服务器组成。应用服务器层提供应用的业务逻辑处理。应用逻辑服务器检索并处理来自数据库、生产业务系统等应用的数据,然后向Web 服务器返回格式化的结果。通过采用中间件技术(Websphere、WebLogic、MQ)可实现应用逻辑服务器的高可用性及可伸缩性。 · 数据库服务器层:数据库服务器层是一个中心存储库,是业务应用系统中所有数据资源的管理中心。提供包括关系型数据库系统(如Oracle,Sybase,DB2 等)服务和数据仓库(如多维数据库等)服务。 · 存储与备份层:存储与备份层由磁盘存储阵列和备份软件和备份磁带库组成,提供数据存储和数据备份、数据恢复服务功能。     11.2.2 系统建设目标     根据设计规划,按照设备集中、集约管理、满足应用、方便扩展、安全稳定的建设要求,遵循高起点、高标准、高质量的建设原则,立足当前,着眼发展;     在数据中心形式的信息数据库建设用户构建统一的集中运行平台,建立开放式多层架构体系,优化整合现有设备资源,为数据中心形式的信息数据库建设数据库和应用系统建设提供统一的运行环境,并实施系统资源的统一管理和维护;     提高硬件设备的集约化管理水平和可扩展能力,增强应用系统和数据的运行效率和管理水平,降低各类应用系统建设成本,满足数据中心形式的信息数据库建设数据库和应用系统的建设需要;     为数据中心形式的信息数据库建设开展应用系统建设、信息数据集中整合、方便信息分析研判以及信息化建设的健康持续发展奠定良好的硬件设施基础。     11.2.3 系统建设任务     构建专用存储系统,集中存储数据     在多层体系架构中,采用存储区域网络技术,构建专用大容量存储系统,通过区域划分满足各类信息数据的集中存储,保证存储系统信息存储的灵活性和可扩展性。     构建统一的数据库集中运行平台,提高数据处理能力     按照“运行可靠、性能优良、满足应用”的要求,在多层体系架构中,建设小型机集群系统,采用并行运行和互为备份的集群技术,保证小型机高效和不间断运行。同时,通过小型机分区技术,在小型机上构建不同应用数据库(统一采用Oracle 数据库)的运行区域,满足不同应用数据库系统的运行需要,使各类应用数据库既集中又相对独立地运行,以降低不同数据库之间相互影响,提高数据库处理能力。     建立多种系统应用平台,提高集中运行平台的适应性     按照各类应用系统所需的不同系统运行环境,在多层体系架构中,建立与之相适应的多种系统运行平台,提供Unix、Windows 或Linux 操作系统平台上应用服务和Web 浏览等应用。通过共享统一的存储系统,建立如SQL Server 等其他主流数据库运行平台,提供数据库服务。为有关部门的不同应用系统提供相应的运行环境。     整合优化现有计算机设备资源,提高集中管理和应用水平     根据系统建设的整体框架要求,按照数据集中整合和应用的需要,对用户现有计算机设备资源进行调整,纳入统一集中运行管理框架的多层体系架构中。同时,按照设备集中管理的要求,在数据中心形式的信息数据库建设集中计算机房建成后,将用户各类服务器及相关设备集中起来,根据不同应用的要求进行整合优化,实行统一的运行和管理。     扩展数据备份系统,提高系统可靠性     数据中心形式的信息数据库建设数据库、其它应用数据库以及衍生的整合分析数据资源是生产机关极其宝贵的重要资源,必须做到安全上的万无一失,并且各类应用系统要求7×24 小时×365 天不间断运行,要求基于多层体系架构的集中运行平台有多层面的系统可靠性保障。集中运行平台中,所有层面要建立相应的容错机制,确保设备发生故障或升级维护时系统服务不中断;设备自身必须具备容错能力,尽可能在设备一级就能屏蔽大多数故障。此外,构建存储系统的“快照”复制和磁带备份系统,包含专业的数据备份系统、备份管理策略与手段,通过在现有备份系统基础上进行扩展,实现信息数据的快速备份和统一的常规备份以及高效的数据恢复,使集中运行平台具备高效、全面备份数据的能力,保证信息数据的安全可靠。     建立集中运行管理机制,实现设备和系统资源的统一管理     按照计算机应用系统和数据集中运行的要求,建立设备和系统的集中运行管理机制,实现对集中设备和系统的性能监控、配置优化和维护服务的统一运行管理,确保设备和系统的高效、可靠和安全地运行,提高对设备和系统的运行管理水平。 网络存储导论第11章:简述系统设计原则 11.3 系统设计原则     数据中心形式的信息数据库建设用户集中运行平台多层架构体系建设必须既满足当前的应用需求,又面向未来业务和技术的发展要求。集中运行平台的建设遵循以下原则:     1、实用性和先进性     采用成熟、稳定、完善的产品和技术,满足当前应用需求。尽可能采用先进的计算机及网络技术以适应更高的数据处理要求,使整个集中运行平台在一定时期内保持技术上的先进性,并具有良好的扩展潜力,以适应未来应用的发展和技术升级的需要。     2、高性能和高负载能力     数据中心形式的信息数据库建设用户集中运行平台必须能够承载较大的系统和应用运行负载,提供高性能的数据处理和应用响应能力,确保各类应用系统和数据库的高效运行。     3、安全性和可靠性     为保证业务应用不间断运行,数据中心形式的信息数据库建设用户集中运行平台必须具有极高的安全性和可靠性。对系统结构、网络系统、服务器系统、存储系统、备份系统等方面须进行高安全性和可靠性设计。系统达到C2 级以上标准安全级别,具有一定的防病毒、防入侵能力。在采用硬件备份、冗余、负载均衡等可靠性技术的基础上,采用相关的软件技术提供较强的管理机制和控制手段,以提高整个系统的安全可靠性。     ;4、灵活性与可扩展性     数据中心形式的信息数据库建设用户集中运行平台要能够根据生产信息化不断发展的需要,方便地扩展系统容量和处理能力,具备支持多种应用的能力。同时可以根据应用发展的需要进行灵活、快速的调整,实现信息应用的快速部署。     5、开放性和标准化     数据中心形式的信息数据库建设用户集中运行平台要具备较好的开放性,相关系统和设备应是业界主流产品,遵循业界相关标准,保证数据中心形式的信息数据库建设选用的主流系统和设备能够随时无障碍地接入集中运行平台,实现系统和数据的集中运行和统一维护管理。     6、经济性与投资保护     应以较高的性能价格比构建数据中心形式的信息数据库建设集中运行平台,使资金的产出投入比达到最大值。以较低的成本、较少的人员投入来维护系统运转,达到高效能与高效益的要求。尽可能保护已有系统投资,充分利用现有设备资源。     7、集中运行和逐步过度     数据库和应用系统建设采用集中运行和逐步过度相结合的原则。新的应用要直接部署在新建的集中运行平台上运行,现有应用及硬件资源将根据需要和可能分期分批逐步融入集中运行平台,进行统一的管理和资源配置。 网络存储导论第11章:系统方案设计实例 11.4 系统方案设计     11.4.1 系统总体结构图     根据数据中心形式的信息数据库建设需求分析,系统总体结构(图11-2)描述如下:   图 11-2 数据中心建设概况     本项目的存储网络架构图,通过SAN 能够将多种数据应用全面整合起来,其中后端的阵列是整个系统的核心,所有的业务数据都存在该阵列中,因此阵列本身需要完全冗余架构和极高的吞吐性能;SAN 网络采用dual Fabric 设计,采用两台交换机构成冗余的存储网络;每台主机(关键业务)可以采用两块(甚至更多)HBA 跨接到两台SAN 交换机上,做的主机到存储接口冗余;主机层采用HA 配置,因此整个系统是高效而全冗余的。同时也能够平滑过渡到下阶段的容灾系统。     备份系统也跨接到SAN 网络上,这样所有的备份工作可以大大减轻对于生产网络的影响,主机直接通过SAN 将数据读出并写到带库,完全采用FC/SCSI 协议。     在上述架构中,后端的磁盘阵列采用高性能磁盘阵列,作为综合存储磁盘阵列。该磁盘阵列代表当时行业的最佳性能、100%数据可用性,以及功能丰富的管理软件。     11.4.2 数据库服务器设计     11.4.2.1 数据库系统结构     数据库服务平台主要采用动态分区、多机集群、并行数据库等技术,实现多台数据库主机同时并行访问数据库,应用可以根据需求均衡到不同主机资源上同时工作,多机互为备份。这种机制依靠系统提供的系统硬件、操作系统集群软件、与数据库提供的并行技术来满足要求。数据库支持数据分区技术,通过数据库分区技术提高查询效率。同时,与数据库服务平台相配合,采用专用数据采集处理服务器,负责数据采集工作,各数据库的数据采取分别汇集,单点入库的数据更新策略。     数据库服务器系统图如下: 图 11-3 数据服务器示意图,以IBM 产品为例     数据库服务器选用高性能UNIX 服务器,每台 高性能UNIX 服务器划分成2 个分区,每个分区配置8 路1.7GHz CPU、16GB 内存、2 块千兆光纤网卡、2 块15000 转73G 硬盘、2 块2GB 光纤通道卡。对应分区通过 HACMP 软件实现群集。     根据设计要求:“当前配置tpmC =(TPMC 基准值* 实际CPU 数目* 实际CPU 主频)/ (基准CPU 数目*基准CPU 主频)”     (768,839*16*1.7)/(32*1.7)=384,420tpmC     数据来源www.tpc.org     11.4.3 存储系统设计     11.4.3.1 存储系统结构 图 11-4 网络存储结构图     上图为数据存储部分的系统架构示意图。     整体架构采用SAN-存储局域网的架构搭建,分为主机、交换机和存储设备三个层面:     1、主机层面     前端服务器每台通过两块光纤卡(以下简称HBA 卡)跨接到两台光纤交换机上,构成冗余链路;     2、光纤交换机     利用两台16 口光纤交换机作为SAN 的骨干设备,连接主机和存储设备;     3、存储设备     主存储设备:核心磁盘阵列存储所有系统的数据。该磁盘阵列通过1 对(2 块)接口卡分别跨接到两台光纤交换机上,构成冗余链路     近线存储设备:近线备份目标磁盘阵列使用采用STAT 磁盘的廉价磁盘阵列,离线备份目标带库采用设计方案已有的带库。     11.4.3.2 主存储系统方案     目前存储区域网(SAN)是解决海量存储问题的主流解决方案,也是本项目建设要求的解决方案,同时也支持NAS 方式。数据中心形式的信息数据库建设数据库及其应用系统相关的数据库即将统一存储到大容量高性能的存储设备上,存储设备与主机群之间通过SAN光纤交换机互联(具有冗余联接),同时数据备份设备也通过光纤交换机联接以提高备份效率,减轻网络和主机的压力。     在本方案中,存储工程师使用高档全光纤磁盘阵列为主存储系统,从用户的投资、需求综合分析,推荐了极佳的性能价格比的产品,用户可以根据性能要求、扩展性要求、价格需求等因素来选择。     根据数据中心形式的信息数据库建设该设计的需求,为了提高主磁盘阵列的性能,在该设计中推荐配备15000RPM 的73GB 磁盘。     磁盘阵列在各方面均应充分扩展,并能够充分满足今后业务发展过程中数据迁移、系统容灾的要求:     1)硬件方面     所有重要部分均应在线扩容――前端接口、磁盘控制卡、缓存、磁盘等。     2)软件方面     可选择不同的软件实现性能优化、数据迁移和数据容灾等: · 管理软件 · 安全控制软件 · 数据缓存化软件 · 性能管理套件 · 本地镜像软件 · 容灾软件 · 多链路负载均衡和故障切换软件     3)所有维护和扩容均应在用户现场、不中断应用的情况下完成     11.4.3.3 近线备份系统     传统的数据存储一般分为在线(On-line)存储及离线(Off-line)存储两级存储方式。所谓在线存储就是指将数据存放在磁盘系统上,而离线则是指将数据备份到磁带上。硬盘的优点是速度快,特别是随机访问能力强,但单位容量成本高,适合需要频繁访问的数据存储;磁带善于传输流式数据,介质与驱动器相分离的特性决定了其单位容量成本低廉,保存数据的安全性也较高,适合数据备份。     但随着数据量的猛增,这种只使用在线和离线两级存储的策略已经不能适应企业的需求。一方面,用户有越来越多的数据在一定时期内仍需要访问,如果备份到磁带上,则读取的速度太慢,而保持在线状态,又会因访问频度不高而占用宝贵的存储空间;另一方面,用户要求“备份窗口”越来越小,备份设备要具有更快的速度,以缩短备份时间,而带基设备与盘基设备相比还不够快。     由此产生了数据的分级存储管理(HierarchicalStorageManagement,HSM)。分级存储管理是一种将非在线存储与在线存储融合的技术。它以数据生命周期的不同阶段来决定存储的位置,从而在在线存储与离线存储之间诞生了第三种存储方式----近线(Near-line)存储,使存储网络从“在线--离线”的两级架构向“在线--近线--离线”的三级架构演变。近线存储的特点是性能接近在线存储,而成本接近离线存储。     根据大型信息数据库存储系统分析结果,存储容量约为16TB,考虑适当冗余和“快照”备份,存储阵列实配容量应大于20TB,存储阵列最大扩展容量应不低于64TB。     基于存储区域网技术,满足数据中心形式的信息数据库建设数据库和应用系统相关数据库,以及运行于其上的业务系统、查询系统、数据分析系统的要求,必须增强数据存储核心,选择高性能存储阵列,LUN 数量应≥2048,系统IOPS≥240000(吞吐量大于1540 M/S)。     其基本性能需求分析如下:     1、在存储系统中,处理器主要完成I/O 处理、Cache 控制管理、数据传输控制以及一些智能化的软件运行功能,处理器的能力直接影响到整个存储系统的性能。考虑到不同厂商存储所采用的CPU 性能差异较大、主处理器所承担的任务也有所区别,应在给出实际处理器配置数量的同时给出性能指标、承载任务分析,CPU 实配数量不低于16 个。     2、磁盘本身性能也决定存储系统整体性能,通常磁盘性能以转速、寻道时间等技术指标衡量,考虑到性价比,推荐采用15K rpm 的磁盘。     3、对于数据库等大数据量访问应用,缓存越大,性能越好,本项目实配存储容量应与Cache 的容量配置成比例配置,按大于16GB 考虑,最大可扩展到128GB。     11.4.4 负载均衡系统设计     考虑到系统的高并发访问量和系统应用需求的快速增长,项目建设明确制定了Web 服务层、应用服务层规划:走横向扩容、持续发展的道路,以服务器群、交易中间件满足不断增长且趋于复杂化的用户访问请求、提高访问处理和响应能力。遵循这一规划,Web 信息发布层、应用服务层考虑了以下因素:     1、支持横向扩容的负载均衡器。     2、提高系统可靠性的集群或热备技术应用     3、各层服务器本身构架、性能、配置要满足需求。     本系统中采用业界领先的全千兆负载均衡解决方案:(千兆光纤端口+千兆以太网端口)方案中,可以采用两台 IP 应用交换机BIGIP 安全流量交换机6400 作为冗余,为中间件服务器和应用服务器做负载均衡,并且SSL 加速功能。所有服务器均配置冗余千兆网卡与两台BIGIP6400 相连,这样无论是其中的一个服务器网卡故障还是一台BIGIP6400 故障,都不影响业务的正常运行。 图11-5 负载均衡设计图     方案的特色: · 实时监控服务器应用系统的状态,并智能屏蔽故障应用系统 · 实现多台服务器的负载均衡,提升系统的可靠性 · 提供服务器在线维护和调试的手段 · 可以对服务器提供流量限制和安全保护     11.4.5 应用服务器、浏览服务器和数据处理前置机设计     应用服务器层主要负责业务逻辑处理,用户请求的连接处理和数据库端或其他应用系统的连接处理,以及业务处理过程实现。用户多层体系结构要求应用服务器与Web 服务器物理独立,考虑到应用服务器对处理能力、系统稳定性的要求均大大高于数据表现层,关键应用采用Unix 服务器,其他应用可考虑刀片式微机服务器,建立多机集群环境。     本方案中间一的应用服务器采用中档UNIX 服务器,实配单台处理能力不低于70000tpmC,中档UNIX 服务器 采用4 路1.45GHz CPU(可扩≥8 路),8GB 内存(可扩≥64GB),73G 硬盘2 块,4 块千兆光纤网卡。     浏览服务器群和数据处理前置机采用工业级刀片服务器,每台配置2 路Xeon MP2.7GHz CPU(可扩≥4 路),8GB 内存,2 块73GB 硬盘,2 块2GB 千兆光纤通道卡。系统架构中该层面应不少于2 台小型机,4 台微机服务器,以满足峰值下信息访问的需求。 网络存储导论第12章:海量存储系统设计 第十二章 海量存储系统设计     以传统的方式存储和管理日益增长的数据,意味着你需要不断地增加磁盘,投入更多的人力与物力,导致成本上升。以优秀的分级存储软件和自动磁带库系统,即可以轻松实现海量数据存储。     12.1 海量数据存储系统架构方案     考虑到海量存储系统是IT 构架的核心模块, 这里存储网络架构采用双Fabric 网络结构,这种结构一方面带来了高可用性,另一方面提供了更多的数据通信带宽。下面是海量存储系统的双Fabric 网络结构图: 图12-1 双光纤通道结构     其中网络核心采用director 级别的核心光纤通道交换机1 台(端口数>=128),通过在其内部划分虚拟SAN 分别构成两个独立的fabric;为保证高可靠性和提高系统的运行速度,存储工程师在各服务器群的每台主机上都通过两个HBA 连接到不同的Fabric 网络中,而且存储设备(磁盘阵列和磁带库)也是同时接入两个fabric,这样构成了一个无单点故障的网络系统。     双Fabric 存储网络设计要点和优势: · 主机和存储设备的冗余连接,整体提高系统的可靠性 · 主机和存储设备的双路连接,工作在Active-Active 模式,整体提高系统的性能 · 双网络结构设计,提高网络的可靠性,避免由于意外系统故障造成网络中断 · 双网络结构设计,核心-边缘体系架构,方便未来网络的扩充 · 交换机具有很强的向下兼容性,即可兼容1G 的交换机,又可兼容1G 的存储设备,如磁带库等设备都可直接连接到交换机中,提高设备的利用率 · 可做LAN-Free 备份,减少备份对网络带宽的占用,整体提高数据备份和恢复的速度 · 有利于系统的在线维护和扩展,而不影响系统的正常运行 · 采用硬件实现的网络安全性管理,保证数据的安全性     与外部存储网络的互联方案     外部存储网络的接入是为了更好的提供基于数据复制(异步或同步)的容灾服务。本着为客户各部门不同容灾需求服务的原则,这里存储工程师设计了采用三种形式的存储网络外部互联方案,即: FCIP 接入方案 DWDM 接入方案 SDH 接入方案     在100Km 以内的连接上这三种接入方案的特点如下: 表 12-1 外部网络存储通道比较       无论是内网还是外网及互联网存储网络,这里在外部接入采用同样的技术和拓扑结构,只是由于内网的数据量较少,采用端口数少的SAN 路由器,SAN 路由器的数量也应当适当减少。具体拓扑结构如下图所示: 图 12-2 SAN 及扩展IP 网络连接     注:为了清晰明了的原则,这里将服务器和局域网的连接省略。     如图12-2,FCIP 接入方案将SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同fabric 中,同时SAN 路由器会接到局域网的千兆交换机上;这样就可以通过SAN 路由器的FCIP 功能将FC 协议转换为IP 协议,通过IP 网络与远端的某部门计算中心的SAN 路由器互联,在通过该路由器的协议转换将FC 协议传输到该部门的SAN 网络中,从而将容灾中心和该部门的存储网络互联,使得两个存储网络中的设备可以实现基于FC 的高速数据通信。     如图,DWDM 接入方案将SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同fabric 中,同时SAN 路由器会接到DWDM 设备上;这样就可以通过DWDM 设备的波分复用功能将多条FC 通信,通过裸光纤传输到远端的某部门计算中心的DWDM 设备,通过它的解复用功能,再通过SAN 路由器将容灾中心和该部门的存储网络互联起来,使得两个存储网络中的设备可以实现基于FC 的高速数据通信。     如图,SDH 接入方案与DWDM 方案类似,将SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同fabric 中,同时SAN 路由器会接到SDH 设备上;这样就可以利用FC over SDH 技术,通过SDH 网络将数据传输到远端的某部门计算中心的SDH 设备,进而再通过SAN 路由器将容灾中心和该部门的存储网络互联起来,使得两个存储网络中的设备可以实现基于FC 的高速数据通信。     这里之所以采用SAN 路由器,主要是在不同的fabric 间提供路由服务功能。路由服务功能正是可以将不同的Fabric 网络逻辑地连接在一起,在不同的Fabric 网络上共享存储资源,这一功能可以充分利用分离Fabric 的种种好处,提供误隔离和方便管理的能力。     路由服务可以隔离SCN 和RSCN 等功能。如在一个Fabric 中产生的RSCN,可以通过路由服务隔离, 不会传到另外一个网络中, 可以避免由于RSCN 造成的Fabric Reconfiguration;另外,也可以隔离由于设备原因,造成主机之间的相互影响,提高系统的运行效率。对于远程连接网络,这一点尤其重要。     方案中将不同应用的数据备份到容灾中心的磁带库之中,而又不影响两个系统的相对独立,所以采用SAN 路由器将不同的Fabric 网络互连。连接到SAN 路由器的Fabric 被称为边缘Fabric,由于SAN 路由器可以有效隔离不同Fabric 网络之间的相互干扰,这就允许用户建立更大规模的SAN 网络,确保系统具有更为强大的扩展能力。     通过路由服务,每个边缘Fabric 都保留自己独立的Fabric 服务:名称服务器、分区数据库、路由表、域ID 空间,等等。这就是说,假如一个Fabric 有一个域ID 1 交换机,另一个Fabric 也有一个域ID 1 交换机,但没有该多协议路由器,这些Fabric 就不会合并,除非这些冲突得到解决。在生产环境中,解决这些冲突是一个非常耗时和危险的过程。有了多协议路由器,这些冲突就成了无关的问题。     在SAN 路由器平台上,其他Fabric 通过路由功能与路由器相连接。这可以防止WAN链路上的故障转化为影响整个容灾中心SAN 或某部门计算中心SAN 的事故。这个优点很重要,因为一般的远距离连接链路(裸光纤/DWDM/SDH/IP)的都有一定的不稳定性。一条不稳定的远程连接链路可能会干扰数据中心的SAN 应用,但是路由器可以将这些干扰与数据中心的Fabric 隔离开。 网络存储导论第12章:存储设施存放管理 12.1.1 磁盘阵列存储设施     海量存储的核心对象是数据,因此数据的存储设备是海量存储系统的核心设备。如前所述,采用SAN 网络,可以将海量存储系统存储的数据实现集中存储,实现集中存储的存储设备形成存储池。本处描述海量存储系统基于磁盘的存储实现。     根据对该海量存储系统的需的分析,以及根据“按需扩展”的原则,这里初步设定海量存储系统的存储池容量50T。该容量可以基本满足未来一段时间内的需要,随着容灾业务的发展,更多的容量可以通过扩展更多的存储磁盘阵列来实现。     根据海量存储系统服务用户数量众多,数据访问IO 频繁的特点,选择的磁盘阵列应该具有如下特点: 1. 应该选择性能较好的光纤磁盘阵列,保证良好的读写性能和可靠性。 2. 磁盘容量应该尽可能的大。考虑到主流磁盘阵列的容量、经济型、以及磁盘阵列的集中管理的便利性,尽可能采用大容量配置的磁盘阵列机柜。目前建议采用磁盘阵列的最大容量大约为30T 的产品。。 3. 磁盘阵列应该附带有强大的磁盘管理软件,实现磁盘阵列的分区、访问控制、容量扩展等功能。 4. 存储设备支持广泛的服务器平台。光纤磁盘阵列应该支持目前所有流行的主流UNIX 和NT/2000、Linux 操作系统和服务器,并且应该允许尽可能夺得服务器同时连接到光纤磁盘阵列上。 5. 海量的扩展能力。可以仅仅通过增加磁盘,就达实现容量的扩展。应该支持不同容量的磁盘混合共存在同一盘阵内,为用户今后容量的扩展打下基础。在实际应用时,应该留出富裕的盘柜位置,以便在同一盘柜中较方便地实现扩展 6. 具备强大的数据复制功能。光纤磁盘阵列应该支持快速磁盘拷贝、远程容灾等先进功能,为将来功能的进一步扩展打下基础。 7. 磁盘阵列支持支持多种RAID 处理,和保留Hot Spare 硬盘的功能。     关于磁盘存储池的设计实现,以下是一些考虑: 1. 为了实现海量存储系统内网应用容灾的安全性,海量存储系统内网的数据存储设备将和其他数据存储设备分开。根据内网数据的大小,可以选择容量小一些的磁盘阵列,或者减少磁盘阵列柜的数量,但存储设施的架构基本相同。 2. 为了便于管理,建议先期采用同一厂家和型号的产品。 3. 建议先不考虑对存储池做虚拟存储管理。因为虚拟存储会影响数据存储的性能,其优势在于管理众多异构的存储盘柜。可以在将来容量快速增长之后,考虑虚拟存储管理技术的应用。 4. 为了便于充分使用,每个磁盘阵列需要分成不同的卷。为了实现不同数据的安全,可以将不同的卷加入到不同的SAN 网络的“分区”中,实现数据卷的逻辑隔离。 5. 考虑到中心需要管理的数据卷较多,可能需要对用户卷信息进行管理,如果磁盘阵列附带软件没有设这一功能,可以通过磁盘阵列管理软件提供的API 进行开发。     以上磁盘存储池的设计,没有考虑为特殊用户提供的磁盘阵列数据镜像(该方案在后面的章节描述)服务存储能力。该阵列中的数据,主要是通过远程备份、数据文件复制、数据库复制等服务软件,为用户保存的数据。     有些部门已经具备某些某种型号的磁盘阵列,如果实现磁盘阵列级的数据复制和容灾,往往需要海量存储系统提供同构的磁盘阵列。在这种情况下,本海量存储系统可能需要根据具体方案提供相对应的磁盘阵列。对这种海量存储系统需求,事先采购大量的磁盘阵列是不经济的,也是没有必要的。因此,对这种需求,应该在海量存储系统的场地和网络设施基础上,设计专门的方案,来实施实现。在本方案设计中,仅仅作为一种扩展考虑,不作为当前实施实现的一部分,也不纳入预算。     根据对用户数据量的分析估算,建议海量存储系统一期购置的存储设施为: 1. 内网磁盘阵列。容量为10T,包括机柜,机头,磁盘以及相应高级功能和管理软件。 2. 外网磁盘阵列。容量为30T,包括机柜,机头,磁盘以及相应高级功能和管理软件。 3. 存储管理服务器,中端的PC 服务器即可。 图12 -3 海量存储系统扩展     12.1.2 磁带存储设施     数据备份是海量存储系统的核心业务,因此数据备份最终存储设备是海量存储系统的核心设备之一。如前所述,采用SAN 网络,可以将海量存储系统存储的数据实现集中存储,实现集中存储的存储设备形成综合存储池。本处描述海量存储系统基于磁带的存储实现。     根据对海量存储系统需求的分析,以及根据“按需扩展”的原则,海量存储系统的磁带库存储容量按照100 个单位,每个单位600GB 备份量,备份周期为1 周,2 周轮换磁带,至少需要200GB 磁带600 盘,考虑到冗余和其他因素,初步设计海量存储系统的磁带库存储容量为1000 盘。该容量可以基本满足未来一段时间内备份的需要,随着容灾业务的发展,更多的容量可以通过增加扩展柜和磁带槽位,或采用更多的磁带库来实现。     根据海量存储系统服务用户数量众多,数据访问I/O 频繁的特点,选择的磁带库应该具有如下特点: 1. 即时、按需提供存储空间特性,使海量存储系统可以立即增添所需要的存储空间,并只为所需要利用的存储空间付费。 2. 成熟的存储网络互操作能力,意味着无缝集成到新的、或现有的SAN 网络当中。 3. 集成的存储网络资源管理,为用户提供SAN 设备和网络视图和设备级SAN 安全控制机制。 4. 可以同时装载大量磁带机驱动器,以获得最高的性能和配置的灵活性。 5. 支持LTO、AIT、SDLT/DLT8000 和3590 等磁带机技术,通过方便的技术迁移和升级途径。同时支持混和磁带介质管理和操作。 6. 拥有众多高可用性特点,包括支持热更换电源、双磁带库控制器、热插拔磁带机驱动器等。 7. 拥有每秒钟清点5 盘以上磁带的高性能机械手;可以快速自动发现新配置、自动校准所有部件。 8. 智能存储管理工具包含远程监控、自动报警和虚拟磁带库等功能。     关于磁带库的设计实现,以下是一些考虑: 1. 为了实现政务内网应用容灾的安全性,政务内网的数据存储设备将和其他数据存储设备分开。根据内网数据的大小,可以选择容量小一些的磁带库,或者减少磁带槽位的数量,但存储设施的架构基本相同。 2. 为了便于管理,建议先期采用同一厂家和型号的产品。 3. 建议远程的数据服务首先将数据备份到磁盘阵列上,再将数据导入磁带库;磁带库除了完成对外服务(如远程备份)外,需要对内的数据备份提供服务。 4. 为了便于充分使用,每个磁带库可以按需要分成不同的虚拟磁带库(分区)。为了实现不同数据的安全,可以将不同的虚拟磁带库加入到不同的SAN 网络的“分区”中,实现数据逻辑隔离。     磁带库部署图请参见存储网络设计。     12.1.3 介质存放设施     介质存放设施     在海量存储系统中需要保存各种移动数据存储介质,由于这些介质的数量会随着海量存储系统的运作和时间的推移而变得越来越多,所以有必要为这些介质设计和建设存放场所和空间――介质仓库,一方面便于介质的保护,一方面便于介质的查找。海量存储系统介质仓库的系统功能如下:     入库管理     海量存储系统介质入库的环节尤为重要。要求能够按照容灾计划做到即时确认、及时补充。     库管理员根据手中的手持终端(Handheld Terminal,简称HHT),调用后台资料,与容灾计划资料进行实时比照,并可通过终端无线驱动打印机打印对照表;     库管理员根据实时对照表,现场决定介质是否缺失,通过终端调用后台数据库通知容灾用户,以最快速度取回需要入库的介质;保证介质库中介质的可恢复性。     上架     将介质存放到架位上,要求介质价位应当可以保存各容灾部门所使用的所有格式磁带、光盘等介质。     架位管理     通过条形码及后台数据库系统对介质存放的架位进行统一的管理,确认哪个介质存放在哪个架位;可定时由库管理员实时检查介质存放的正确性。     通过终端或管理控制台实时地查看架位的存储情况、空间大小及介质最大容量/可用容量,管理仓库的区域、容量、体积和仓储限度。     系统可以支持介质和架位的反复排定和追踪管理;避免实际现场的错误堆放;使之有序、易于比较和修正现场与系统管理的信息差异;显示、查询介质和架位的使用历史资料。     查询管理     在任何时间和地点,都可以通过终端进行查询;查询内容包括:介质信息、存储情况、有效期等等;     每次查验可以包括该项诸多信息的逐一核对,并反馈给系统有效结果。     现场实时查询和容灾恢复的现场实时指挥工作变得方便容易。     介质追踪管理     在介质的整个生命周期中,从产生、入库保存、调用、归档直到销毁,对每个介质的信息进行追踪管理。     调用管理     完成调用要求检查、所有须用介质的查询和发送等工作     维护管理     对介质定期做防霉、防粘等维护工作,防止介质的损坏。     安全管理     设置介质库门禁和监控系统,防火、防盗。     介质存放设施管理系统架构     介质存放管理系统拓扑结构示意图如下: 图12 -4 介质存放管理系统拓扑结构     如上图12-4 所示,整个介质存放管理系统分为计算机管理系统和人工介质存放库两部分组成,其中介质管理系统主要通过条形码对介质进行统一的管理,为快速的查询和自动化的管理提供基础平台;介质库主要负责介质的存放,为数据存储介质提供安全的、防范各种危害(霉变、火灾等)的存储空间。而对外服务系统为容灾单位提供网上查询功能。注:内网和外网需要各建立一套管理系统和介质库。 网络存储导论第12章:备份系统设计综述 12.2 备份系统设计     针对海量存储系统的备份实现,以下图示(图12-5)的是统一的实现架构。 图12-5 统一实现架构     12.2.1 远程备份容灾     远程备份(e-vaulting)级别容灾满足哪种需求     针对对于恢复时间要求较高,而且有可能还没有在本地实施备份系统的的部门,通过远程网络直接将数据备份到海量存储系统的存储池中,可以大大提高容灾系统的RTO 和RPO,由于海量存储系统具备最为妥善的介质保存措施,不但可以将这些备好数据的介质安全的保护起来,而且可以最大程度地保证介质的数据可恢复性。     采用这种容灾方式,一般要求恢复的数据时间点在灾难发生前的几十分钟到几个小时;而从灾难发生后,需要完成从恢复系统、恢复数据、直到实现对外提供应用服务这么一整套的恢复工作,所需要时间大约为几小时到一天。     工作流程     远程备份级别容灾的工作流程如下图所示: 图 12-6 远程备份级别容灾的工作流程     首先海量存储系统按照事先和各部门协商所制定的容灾计划,定期(每天的某个时刻)自动启动各部门的备份工作,将数据备份到海量存储系统的存储池中。     备份数据会按照部门、日期、保存时间、数据类型等关键信息分类地存放在存储池中,同时会再空闲时备份到磁带中,并被保存到温湿环境适当、门禁严格、可防范多种灾害(如火灾、水灾等)的安全区域,海量存储系统还为这些数据建立了完善的数据库及其应用管理系统,以便快速的存取,并提供网上的数据备份查询服务。     而当出现故障或自然灾害等灾难时,在出现灾难的部门的本地数据备份完全丢失的情况下,海量存储系统可以按照该部门的要求将完成数据恢复所需的所有数据通过网络恢复到该部门指定的备用服务器上,由该部门的技术人员(或在海量存储系统技术人员的协助下)完成应用的重新启动和对外开放;海量存储系统也可以按照该部门的要求将将完成数据恢复所需的所有物理介质通过人工运输到该部门指定的地点,由该部门的技术人员(或在海量存储系统技术人员的协助下)完成数据恢复工作。     整个备份恢复的过程如果完全采用网络传输,甚至在本地不需要做备份;所以如果该部门技术人员甚至不需要掌握备份和恢复技术,在实施时可以大大加快进度。     上述是一种原理性的容灾实施步骤,简化的标准可实施的流程如下: 1. 和相关需要远程备份级别容灾的部门的技术及业务一起制定详细的DRP 计划,包括备份策略、恢复策略、双方指定联系人等; 2. 必要的话,海量存储系统可以对该部门人员(技术和业务)进行容灾知识培训,并帮助其完成DRP 计划; 3. 海量存储系统协助该部门完成远程备份系统客户端及安全通信网络的搭建; 4. 海量存储系统和远程备份部门按照DRP 计划,按期执行远程备份工作; 5. 在海量存储系统将数据保存在存储池中的同时,制作一份磁带拷贝副本,并将其分门别类地存放在具备良好存放条件的远程备份区,同时要建立完备的数据备份数据库和管理系统; 6. 数据保存期间,海量存储系统负责监控数据的安全性;而备份的磁带介质在存放期间,海量存储系统一面要按照保存的时效完成介质的更换或归档;一面定期对介质进行倒带、防霉等维护操作, 7. 各远程备份部门可以通过海量存储系统对外开放的服务系统,完成诸如查询数据备份记录,更改DRP 计划等工作; 8. 海量存储系统应当配合远程备份部门定期实施DR 演练,确保DRP 计划在灾难真正来临是起到真正的作用; 9. 当灾难来临时,按照预先制定的DRP 计划,快速实施数据恢复工作。     系统架构     远程备份/容灾系统在海量存储系统的总体逻辑拓扑结构如下图所示: 图12-7 远程备份/容灾逻辑图     整个系统主要由备份服务器、备份用磁盘阵列和磁带库三部分组成。此外备份客户端安装在远程的各部门服务器上,而网络主要完成数据的可靠和安全传输。     为了保证7x24 的备份服务,无论是内网、外网还是互联网都是各由多台服务器组成一个备份服务器集群,当集群中某台服务器出现故障时,可以由其他服务器接替它的的工作。     而备份服务器的主要工作有:     在执行远程备份操作时,指引远程传输过来的备份数据流向备份用磁盘阵列;而在空闲时(没有远程备份操作时),再将磁盘阵列的数据备份到磁带库中。     磁盘阵列是远程备份的近线存储,主要是为了提高备份的速度,最好地利用网络带宽。     磁带库负责最终保存备份的数据。     而远程备份管理应用系统主要负责远程备份的自动化管理;在数据到备份到存储池中时,海量存储系统的远程备份管理应用系统就会及时地将备份数据的相关信息保存起来。这样远程备份管理应用系统中就会保存有所有远程备份的相关信息,一方面供海量存储系统内部管理使用,一方面可以允许用户可以通过Web 浏览器查询自己的相关容灾信息。同样为了安全起见,这里建立了内网和外网两套管理应用系统。     远程备份容灾系统的特点 · 容灾的RTO 和RPO 时间较短,可以满足大部分应用容灾需求 · 要求各部门在本地服务器安装软件 · 连续的在线备份方案 · 数据可以获得最为安全的保护 · 可靠性和可恢复性更高 · 投资成本较高     远程备份容灾系统需要考虑的要素:     为了有效的提供远程备份服务,不能简单的将现有的本地备份技术应用于远程备份,因为这样将使得远程备份的成本、效率和服务质量非常低下,从而严重阻碍远程备份服务的开展。因此在建设远程备份系统时,需要在现有的备份技术基础上着重考虑以下几个因素:     减少存储投资     一方面是解放硬件资源,降低实现同一任务所需要的设备要求;另外一方面是资源的充分利用,解决如何降低磁盘容量需求,提高磁盘利用率等因素,降低客户在享受该服务时需要支付的设备成本。     减少网络带宽需求     带宽对于本地备份而言不是关键问题,但如果需要实现异地备份,则是非常重要的一个成本因素,如果用户为了享受该服务而必需支付昂贵的带宽租用费的话,那将是一个非常高的成本。因此需要采取一切措施减少远程备份所需要的带宽资源。     提高服务质量,保证服务级别     提供远程备份服务的目的是保证用户系统在出现故障后能够恢复、并且能够在规定的时间内恢复。     降低管理费用     对普通的存储系统而言,按照Gartner Group 的报告,其管理费用是购置成本的8 倍。对几种存储系统而言,管理变得更复杂,对服务的要求更高,这一比例相应更大。管理费用分为两个部分:对设备的维护管理和提供的服务。先进的技术,规划良好的系统结构和专业人员队伍能极大地降低维护费用。     客户端的多样性和服务平台的统一性     由于备份客户端会因为不同部门的不同应用而不同,但在海量存储系统可以采用统一平台的备份服务器为各种备份客户端提供服务。     外网/互联网与内的区别     外网/互联网的数据大、服务多,所以采用的服务器数量较多,内网的服务器数量较少。     12.2.2 存储资源监控     存储管理和监控对于了解、监控与管理规模较大的存储网络是十分必要的。对于容灾系统,这些管理可以有效的帮助位于数据中心与管理中心的管理人员从网络、系统层面上进行全面集中的监控,为将来的发展以及整个存储网络的管理搭建管理框架,并且进一步保证各子系统的管理与维护。     存储资源管理(SRM)是一组互为补充的产品、标准和进程,用来对物理及逻辑存储在可用性、容量、配置和性能等方面进行报告,分析和自动管理. --引自 Gartner     简单地说,SRM 提供了一个有关存储网络中的存储容量及其使用状况的动态视图,从而使管理员可以从一个中心管理控制台监控其所有存储设备的状态。即存储资源管理负责管理存储网络上的各种系统,包括数据库、邮件系统、磁盘阵列、NAS、备份系统等对硬盘空间、磁带库空间的使用管理;监控、预测、分析并以各种报表的方式呈现。其主要功能包括: 1. 空间管理----搜集空间的使用信息,监控空间的使用,实现配额管理、预警、空间回收、数据迁移 2. 容量规划----收集容量消耗的历史信息,提供容量消耗速率报表,从而辅助完成容量的规划 3. 资产管理----收集存储资产信息,提供额外的元数据输入 4. 事件管理----监控、诊断以及在必要时修复存储 5. 性能管理----收集存储资源的性能数据,提供性能分析报表,在物理的极限内提高存储资产的性能 6. 配置管理----决定如何对已有的物理存储资源作出最好的安排     用于将这些多种多样的功能串接起来的公用线索是----它们都是元数据驱动的。元数据(Metadata,关于数据的数据)汇集了每个被管理的存储对象的信息,包括数据文件(大小、创建日期和属主)和物理存储系统(容量和性能特征)。 这些信息可以被那些负责存储的管理员、数据库管理员,IS 规划人员以及IS 执行人员用来辅助决策。     SRM 是对许多具体的存储管理功能的新的分类方法----例如容量规划和空间管理(这些功能已经出现很长时间了)。这种在SRM 下的重新分类简化了自动化的任务并隐藏了这些管理任务的复杂性,因而可以帮助IS 向存储公用设施方向发展。     12.2.3 存储网络管理     负责发现、监控与管理整个存储网络,以及网络的连接性、每个节点的状态、网络可用性、系统性能等等,完善的事件管理可以将事件及时地以各种方式报告给管理员。同时,还可以对光纤交换机等网络设备进行配置管理。     更具体地说,对各交换机经常查看其所处 SAN 架构的运行状况,及早发现潜在问题并自动向网络管理员报警,从而消除了隐患,避免了故障的进一步升级。     通过跟踪广泛的fabric 事件,为SAN 解决方案传递出了最有价值的信息。例如,它应该监控: · Fabric 资源,包括fabric 重新配置,zoning 变化和新的设备登陆/退出,ISL 的状态变化或中断等 · 交换机等存储网络设备的环境功能如温度,电源和风扇状态以及高可用性的度量值 · 既可以监控多端口级别的端口状态转换,错误和流量信息,并指定端口性能的监控范围,也应该监控所支持的FINISAR 的“ 智能”SFP 模块的各种状态。 · 监控SAN 网络的安全性,记录非法登陆的时间和次数     在监控到各种要素发生规定范围外的变化,应自动、及时地通知管理员,通知的方式应有如下几种: 1. 通过向指定e-mail 地址发送信息的方式提供事件通知 2. 通过简单网络管理协议(SNMP)发通知 3. 事件记录(Event Log)条目记录事件 4. 通过锁定端口记录 5. 通过UNIX 的标准系统记录和事件接口集成在一起的SYSLOG 发通知     同时,网络监控的参数应可快速配置,并可将监控功能集成到一些企业级管理软件中。     12.2.4 系统监控管理     系统管理软件能够帮助IT 管理部门持续的监控分布式的异构系统和网络设备的运行状态,它可以支持OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、PalmOS、MVS等几十种操作系统确保管理的扩展性,并且提供非常灵活的体系架构从而有利于管理范围的伸缩行。海量存储系统系统要求系统管理软件具有内置的智能包括高级事件关联Advanced Event Correlation (AEC)可以提供根源分析的能力,快速隔离非根源事件并迅速发现故障原因。     12.2.5 服务管理     服务水平管理     海量存储系统实际上是一个数据存储,备份和再处理中心,为各种用户提供高质量的IT 服务;为此需要海量存储系统具有很高的服务水平(Service Level)。以往一般是依靠严密的数据中心管理制度等人为方法来保证,但多年的实践经验说明需要采用可视化的、量化的管理方式和手段,所以容灾在制定完善的服务水平管理规范的同时,也要采用高效的管理软件实现计算机化的管理,提高服务响应速度和水平。     服务水平要求是一个综合的、基于Web 的解决方案,能够管理跨越整个海量存储系统基础架构的预定义的服务目标。它能够直接从各种不同来源包括基于SNMP 的应用程序和网络服务如SMTP、POP、NNTP 和HTTP 等方面收集可用性和性能数据,其高级配置工具应当允许管理员设置批量报告产生的时间间隔。服务报告基于这些数据产生。     运维管理     运维管理包括运维规范和辅助的运维管理系统。运维规范在《运行维护》一节做详细阐述。     运维管理系统是一个综合的、集成的智能服务台解决方案,它可以接受通过Call Center或Web 界面手工提交的问题,也可以自动接收事件管理平台转发的问题,并且按照规范的处理流程完成问题请求、变更管理以及服务水平管理,科学的自动的完成人力资源分配,确保每个问题及时解决。     基于运维管理系统建设的IT 服务支持系统是整个系统管理体系的核心。它把用户、各级支持人员、被管理IT 系统和监控管理软件有机的结合起来,通过服务台提供的标准化管理模式协同工作,使整体IT 服务支持体系达到高效、有序、迅捷的预期目标,从IT 服务支持的基础方面保障各项业务系统的高效运行。 网络存储导论第12章:存储系统扩展分析 12.3 海量存储系统扩展能力分析     在本方案的设计中,必须足够重视IT 环境系统建设的可扩展性,导致海量存储系统IT环境可能需要扩展的原因包括: · 用户数量的增加; · 本方案的实施需要分期进行,初期方案必须考虑未来的扩展性 · 需求不明确的情况下,逐步发展 · 用户的需求的不断变化,新的关键应用的出现。 · 容灾级别需要升级,以抵御更大范围的风险需要。     以上需求的变动将可能导致海量存储系统如下方面的扩展需要: · 数据扩展能力:海量存储系统存储数据容量和能力的变化 · 应用扩展能力:海量存储系统增加新的用户容灾功能,满足用户新的容灾需要 · 网络扩展能力 · 场地扩展能力 · 管理扩展能力     下面就以上各方面的扩展实现能力进行论述。     12.3.1 数据扩展能力     随着用户数量的增加,以及用户积累数据的增加,海量存储系统的数据将不断增长,因此海量存储系统需要首先具备数据扩展的能力。由于采用了海量存储系统SAN 网络存储结构,因此数据容量的扩展相对比较容易实现,只要购买新的存储设备,直接接入光纤交换机,经过配置管理软件的恰当设置即可。     数据扩展需求一般表现在如下2 个方面 · 同一用户原来设置的容量不能满足用户使用,需要扩展容量(包括减少容量)。对这一需求,一般可以通过存储管理的管理软件,进行动态扩展即可。 · 为新的用户提供存储容量(包括取消老用户的存储容量,以便重用)通过存储管理软件,可以进行容量的增减。     为了更好地实现海量存储系统地数据扩展能力,需要在扩展数据存储能力时,注意如下几个方面: · 尽可能为用户一次提供合理地空间。虽然通过存储设备的管理软件可以实现数据容量的动态调整,但动态调整后,磁盘的重构需要的时间一般较长。 · 注意光纤交换机端口数的变化。尽管目前接入交换机的端口数量够用,但要避免随着海量存储系统的发展,导致交换机端口数太少,使得存储设备的接入困难。一般来讲,出现交换机端口数太少的情况,表明SAN 网络中需要增加新交换机,要合理设置交换机之间的连接,避免出现数据传输瓶颈。 · 每个存储磁盘阵列在规划时都应该预留存储扩展能力。在同一盘阵中进行容量的动态扩展,相对容易一些。     一般而言,存储容量接近总物理容量的70%时,就需要考虑购买和添加新的存储设备。     新的存储设备容量应该尽可能比较大,一方面减少单位存储容量的成本,另一方面也便于管理。     在购置新的存储设备时,采用同一系列的存储设备,采用同样存储设备管理软件,可以减少管理复杂度和管理成本。同时注意购置存储设备的相关性能指标(例如支持的主机数等),建议先期先不采用虚拟存储软件对存储设备进行同一管理。在将来有必要时,可以考虑采用虚拟存储管理软件降低存储容量管理的复杂度。     12.3.2 应用扩展能力     由于用户需求的不断增长,以及新的容灾技术和方案的出现和发展,海量存储系统的应用扩展将是不可避免的。本海量存储系统在设计时充分考虑了容灾应用的扩展能力,可能的扩展需要和实现策略分析如下:     1)通过原有容灾设施的配置来满足相同用户端应用容灾的数量扩展     在设计和采用容灾技术和方案时,注重了容灾技术和方案的开放性,容灾方案中的架构和产品尽可能采用开放式平台,通过“一对多”的模式,以少量的设施为同时众多的用户端应用和数据提供容灾服务。     这样,当仅仅是拓展相同的用户端应用时(利用相同的数据库、相同的操作系统等),可以通过简单的设置来实现应用的增加。满足相同应用容灾需求的扩展。     为了实现“一对多”的服务模式,在选择中心的技术和产品时,还应尽可能考虑对用户端操作系统的开放性。尽量避免由于用户端操作系统平台的不同,海量存储系统不得不重新布署新的设施和产品。     但考虑到海量存储系统是一个服务对象数量总多的公共中心,因此,在采用“一对多”的模式下,也可能性能、操作系统平台的不同等原因,一套通用容灾平台和设施无法满户足够数量的要求,在这种情况下,就需要考虑增加新的容灾设施来扩展容灾能力。     2)通过增加新的容灾应用满足新的用户端容灾需要     在如下情况下,需要考虑增加新的容灾设施满足新的用户端容灾需要:a)原有容灾设施由于性能的原因无法满足众多用户的需要;b)由于原有的容灾设施无法满足用户端操作系统的需要;c)用户端有新容灾需要海量存储系统采用新的容灾方案、部署新的容灾设施(例如iSCSI 技术等等);等等。     这时,可以通过在海量存储系统直接设计新的容灾方案、部署新的容灾设施来实现。这依赖于海量存储系统网络扩展能力和场地扩展能力。     因此海量存储系统应用扩展能力的实现,一方面依赖于原有容灾方案和部署产品的开放性,一方面依赖于海量存储系统的运行维护和技术支持能力。归根结底,海量存储系统的扩展能力还取决于海量存储系统的网络、场地等基础平台的扩展能力。     12.3.3 网络扩展能力     海量存储系统网络直接影响海量存储系统数据的传输性能,网络扩展能力是保证容灾网络数据传输可用、可靠和性能扩展的需要。     具体来说,需要的网络扩展能力包括如下      · 用户的接入能力的扩展     首先要保证用户接入多路由的可能性,由于海量存储系统服务对象、以及政务专网结构的特殊性,需要从政务专网来实现。     设定目前政务专网运行的高层协议是IP 协议。为了保证用户端到海量存储系统端数据传输的用户的接入性能及扩展,采用网络结构,海量存储系统的扩展容易实现。     在最初设计时,在充分考虑当前的基础上,考虑未来的网络能力的需求。     在本海量存储系统,不论是LAN 网,还是SAN 网,都采用了核心-边缘交换结构,这是一种容易扩展的架构。需要关注核心交换机的富余端口的数量,做适时的扩展。必要时升级网络设备,较少数据传输瓶颈。     12.3.4 场地扩展能力     场地扩展能力包括系统的物理空间,地理空间等等,它为海量存储系统提供最后的扩展能力。     12.3.5 管理扩展能力     随着海量存储系统的逐步扩展,海量存储系统的场地基础设施、网络设施、存储设施、服务器设施等规模会逐步扩大,其中运行的容灾应用规模也会越来越大,为了更好地支持海量存储系统的管理,需要管理能力相应地得到扩展。     管理能力的扩展主要通过管理软件的选择实现,必要时通过开发门户管理软件来实现     应该规划管理软件的实现的主要功能及其扩展实现包括:     存储资源管理的扩展性:     存储资源管理系统应该提供存储网络上的各种系统对硬盘空间、磁带库空间的使用管理、监控、预测和分析,并能以各种报表的方式呈现。在存储资源数量增多,存储设施类型增多的情况下,可以考虑采用虚拟存储管理。存储资源在选择时,必须充分考虑其可管理性,除了支持SNMP 管理协议外,更重要的是支持SMI 等存储管理协议,以便更好的实现可管理性。 · 存储网络管理的扩展     负责发现、监控与管理整个存储网络,以及网络的连接性、每个节点的状态、网络可用性、系统性能等等,完善的事件管理可以将事件及时地以各种方式报告给管理员。同时,还可以对光纤交换机等网络设备进行配置管理。同样存储网络设施应该支持SNMP、SMI 等协议,以保证对其管理性的扩展。       · 系统监控管理扩展     系统监控管理应该能够持续的监控分布式的异构系统和网络设备的运行状态,应该支持OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、PalmOS、MVS 等常用的操作系统,并通过开放的接口,确保对更多系统的管理扩展。同时,系统监控管理软件必须提供非常灵活的体系架构从而有利于管理范围的伸缩性。       · 安全管理能力扩展     容灾系统中的安全管理涉及到了网络的安全性、跨防火墙的数据访问与数据保护、主机的安全性、数据的安全性以及传输的安全性、审计、漏洞扫描等内容。这些都是保证容灾系统正常运行以及安全无忧的保证。系统的安全管理功能一般应该包括:身份管理、访问管理和威胁管理,并且安全管理系统可以提供一致的直观显示和管理功能,从而协助海量存储系统实现安全管理。安全管理系统必须具备支持SNMP、SMI 等多协议,并且具备良好的开放性和扩展性。      · 运维管理能力的扩展     海量存储系统应该通过一个综合的、集成的智能服务台来为杭州市电子政务各应用系统提供服务,该系统应高可以接受通过传统业务申请或Web 界面手工提交的申请,也可以自动接收事件管理平台转发的问题。并且按照规范的处理流程完成问题请求、变更管理、应用升级等服务水平管理,科学的自动的完成人力资源分配,确保每个业务得到高效的解决。     管理体系的核心。它把用户、各级支持人员、被管理IT 系统和监控管理软件有机的结合起来,通过服务台提供的标准化管理模式协同工作,使整体IT 服务支持体系达到高效、有序、迅捷的预期目标,从IT 服务支持的基础方面保障各项业务系统的高效运行。      · 集中管理门户扩展     集中管理门户提供对以上各种监控进行集中并且基于Web 页面的管理能力。可以实现通过任意一台浏览器,按不同的角色,集中管理各种存储系统与备份系统。集中管理门户的扩展能力依赖于集中管理门户软件的选择,系统必须是一个开放的管理系统,能够通过非常灵活的模块配置或者简单开发,很容易就实现管理能力的扩展。     12.3.5 容灾级别扩展     目前,高可靠性海量存储系统的设计,由于距离的限制,容灾能力虽然达到了一定的程度,可以预防一般地域性威胁,单要提供容灾服务的级别,达到防范局部战争和地域性危害的程度,还需要对容灾能力进行扩展。     容灾能力的扩展需要增加容灾的距离,使需要容灾的数据和应用在更远的地方实现复制和冗余,例如在1000 公里以外建立另外一个海量存储系统。     但建立另外一个海量存储系统,又需要庞大的资金支持。为了节约建设成本,同时考虑到国内其他数据业务商也在规划和建设自己的海量存储系统,所以可以考虑和别的不同地理位置的海量存储系统建立互为备份,在充分利用现有海量存储系统的基础上,将城市级别的容灾能力扩展到跨城市的全国范围。例如可以考虑杭州和上海海量存储系统各规划和建设充足的容灾场地和网络,为对方城市海量存储系统的数据和应用提供远距离的容灾能力。在条件容许的情况下,还可以考虑多个城市互为备份,将城市容灾级别能力进一步提高。     由于城市间互为容灾建立于各个城市海量存储系统的首先实现上,而且实现起来牵涉的因素较多,因此,本方案暂不对此方案的设计和实现进行论述。 网络存储导论第13章:容灾系统设计纵论 第十三章 容灾系统设计     13.1 容灾方法的具体分析     13.1.1 灾难备份需求的衡量指标     对于大多数企业而言,提到灾难备份,最直接的反映就是增加预算,购买更多的主机,存储设备以及相应软件。虽然这是实施灾难备份项目的一个必要步骤,但是,从“灾备方案应是风险和成本相应平衡”的出发点来综合考虑,实施灾难备份项目的第一步应该从“分析评估以确定灾难灾难备份需求目标”开始。     RTO (Recovery Time Objective)     RTO,Recovery Time Objective,是指灾难发生后,从I/T 系统当机导致业务停顿之刻开始,到IT 系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。     一般而言,RTO 时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管理的角度而言,RTO 时间越短越好,但是,这同时也意味着更多成本的投入,即可能需要购买更快的存储设备或高可用性软件。     对于不同行业的企业来说,其RTO 目标一般是不相同的。即使是在同一行业,各企业因业务发展规模的不同,其RTO 目标也会不尽相同。     RTO 目标的确定可以用下图来说明:     如上所说,RTO 目标越短,成本投入也越大。另一方面,各企业都有其在该发展阶段的单位时间赢利指数,该指数是通过业务冲击分析(BIA-Business Impact Analysis)咨询服务,以交谈、问答和咨询的方式得到确定的。在确定了企业的单位时间赢利指数后,就可以计算出业务停顿随时间而造成的损失大小。如上图,结合这两条曲线关系,存储工程师将可以找到对该企业而言比较适合的RTO 目标,即在该目标定义下,用于灾难备份的投入应不大与对应的业务损失。     RPO (Recovery Point Objective)     RPO,Recovery Point Objective,是指从系统和应用数据而言,要实现能够恢复至可以     支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。 图13-1 RTO 目标确定指标图     与RTO 目标不同,RPO 目标的确定不是依赖于企业业务规模,而是决定于企业业务的性质和业务操作依赖于数据的程度。因此,RPO 目标对相同行业的企业而言会有些接近,而对于不同行业的企业来说仍可能会有较大差距。     RPO 目标仍是以咨询的方式,通过与各业务部门主管的交流,了解业务流程和IT 应用的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的RPO 目标。     13.1.2 重要系统灾难备份主要的实现方法     在目前的技术条件下,重要系统灾难备份主要的实现方法主要有一下几种: 1. 基于应用本身的容灾----应用直接指向2 个同时运作的数据中心,在任意一个中心活动情况下继续工作 2. 基于文件/数据库日志----通过复制数据库日志和数据文件方式,从生产中心向海量存储系统进行数据容灾 3. 基于复制磁盘容灾----通过复制磁盘IO 的方式,从生产中心向海量存储系统进行数据容灾,根据复制设备的不同,又可以分为: 4. 基于主机 5. 基于磁盘阵列 6. 基于智能SAN 虚拟存储设备     下面对各种方式进行一个简单比较:     表 13-1 容灾方式比较     13.1.3 灾难备份方式比较的分析     各种容灾方式下,只有基于应用本身的方式可以做到RTO 为0;其它方式一般需要进行网络切换、存储切换和数据库重启等工作,RTO 一般从几十分钟到数小时不等;一般都要求主机和数据库同步,虽然存在理论上的异构可能,但是在具体实施时会给开发/测试带来巨大的难度,并大大降低容灾系统的稳定程度,一般不会采用。     基于应用本身的方式虽然可以做到RTO 为0,但是对应用要求极高,并且需要极其复杂的机制处理双中心的数据同步问题;目前浙江系统众多,应用复杂,如果采用这种方案,需要对所有应用进行更改,实施难度极大,顾不予推荐。基于基于文件/数据库日志的方式,只能以文件方式传输数据,数据丢失单位至少一个文件,无法做到RTO=0,在不允许丢失数据的关键应用上也不适合,顾不予推荐。基于复制磁盘容灾主要有同步和异步2种方式,异步方式无法做到RTO=0,在不允许丢失数据的关键应用上也不适合,顾不予推荐;同步方式的情况下,以复制主题不同进行分类。基于主机复制磁盘数据:磁盘阵列可以异构是最大的优点;但是,这种方式容灾时对主机性能有一定影响,针对不同的主机需要采用不同的实现方式,目前浙江系统众多,应用复杂,如果采用这种方案,需要对所有主机进行论证和实施,实施难度较大,顾不予推荐     基于磁盘阵列复制磁盘数据:实施简单是最大的优点,不影响主机,只镜像数据,是目前较主流的一种容灾方案;但是,这种方式容灾时,需要磁盘阵列高度同构,不但要求磁盘阵列是一个厂商的,还必须是同一厂商同一系列的阵列,否则无法实现数据复制,所以,这种方案多用于已经进行存储整合的大型系统;目前浙江的现实情况是系统非常多,不同系统采用不同磁盘阵列,很多目前的系统还不支持磁盘阵列的远程镜像功能;如果实施这种方案,首先需要升级/替换很多磁盘阵列,然后为每一种阵列在海量存储系统配置相应的同构磁盘阵列,投资巨大,每一种不同的阵列采用不同的软件,维护不便,而且,中心的各个存储各自工作,没有一个统一存储池能够灵活调配资源,资源使用也狠浪费     基于智能SAN 虚拟存储设备复制磁盘数据:这种方式拥有所有基于磁盘阵列复制磁盘数据的优点,而且通过这种方式可以解决许多基于磁盘阵列无法解决的问题: · 磁盘阵列可以完全异构,不同厂商不同系列的阵列可以混合使用,大大节约客户方案复杂程度和实施难度 · 智能SAN 虚拟存储设备实现远程容灾不在乎客户现有的SAN 阵列是否支持远程数据容灾,大大保护客户投资 · 智能SAN 虚拟存储设备可以将中心的多个存储设备(如果有多个的话)作为一个统一的存储池进行管理,存储效率大大提高 · 智能SAN 虚拟存储设备针对不同的主机存储设备采用统一的软件实施远程容灾,管理维护大大简化     所以,在目前情况下,基于智能SAN 虚拟存储设备进行磁盘复制的方式是最适合目前项目需要的,也是存储工程师主要推荐的方案。 网络存储导论第14章:存储技术组织简介 第四部分 存储产业的组织和推动力     第十四章 国际存储技术组织简介     14.1 SNIA     全球网络存储工业协会 ( 英文名称 Storage Networking Industry Association 英文缩写SNIA )协会于1997 年在美国成立,由400 多家致力于"发展网络存储,确保网络存储成为IT领域完整的、可信赖的解决方案而服务" 的企业所组成, 是一个基于技术标准确立的中立性组织。SNIA 积极推动行业标准的制定,推广各种网络存储技术和解决方案的互操作性和培训事务。 目前,在全球范围SNIA 已经拥有五家分支机构:欧洲、加拿大、日本、中国、南亚 (包括印度和新加坡) 以及 澳洲 & 新西兰。     其中,SNIA-CHINA 是其全球范围内的第三家地域性分支机构。     SNIA 作为制订存储业内工业标准的一个官方机构,同时提供业内专业人员的认证与培训,为存储产业提供标准化的人才。     “标准”历来是IT 产业发展竞争的中心。谁掌握了标准,谁就掌握了未来。在存储领域,标准之争较其他领域有过之而无不及。SNIA 网络存储认证体系 (Storage Networking Certified Program 简称 SNCP)是业界第一个独立于厂商的网络存储认证课程。SNCP 是为了满足企业客户的需求而开发而成,提供了网络存储领域中用与衡量IT 人员专业技能的标准。     SNIA 网络存储认证体系 (Storage Networking Certification Program 简称 SNCP)是业界第一个独立于厂商的网络存储认证课程。SNCP 是为了满足企业客户的需求而开发而成,提供了网络存储领域中用与衡量IT 人员专业技能的标准。     经过优化的SNCP 计划既反映了过去几年来网络存储技术的发展,同时也涵盖了未来存储技术发展趋势。通过对SNCP 的进一步拓展,SNIA 建立了一套衡量技术人员的理论知识与技术实践能力的统一标准。     最新课程--FC-SAN 存储管理 (beta S11-200)(pdf)     * 认证系统     经过改版的SNCP 认证系统,现包括四个领域:概念、标准、解决方案、产品。 · SNCP 专家认证 (SNIA Certified Professional 简称 SCP):概念领域的认证 · SNCP 系统工程师认证 (SNIA Certified Systems Engineer 简称 SCSE):标准领域的认证 · SNCP 架构师认证 (SNIA Certified Architect 简称 SCA):解决方案领域的认证 · SNCP 网络存储专家 (SNIA Certified Storage Networking Expert 简称 SCSN-E):解决方案领域的认证     SNIA-CHINA 协会宗旨     SNIA-CHINA 将沿袭SNIA 的以往发展宗旨"发展网络存储、确保网络存储技术成为IT领域完整的、可信赖的解决方案", 促进网络存储技术在大中华地区的发展,为网络存储的应用和发展推波助澜。     协会任务 · 推动大中华地区网络存储业的发展 · 积极推动网络存储标准化在大中华区的进程 · 创建和发展用以发布SNIA 信息和中国网络存储行业信息的本地渠道 · 将现有的技术中心发展为大中华地区的网络存储教育、培训和认证基地 · 组织国内外存储技术培训、考察和交流活动 · 引进、出版网络存储技术及应用的有关资料文献协会服务 · 在大中华区推广SNIA 全球网络存储培训与认证体系 · 根据中国市场与行业用户的不同需求,加强与各行业协会间的交流;积极推进相应存储技术的发展 · 致力于网络存储技术与文献资料的引进工作 · 通过专题研讨会议、技术高峰论坛、解决方案的演示等形式为会员单位与行业用户间构筑信息交流 平台 · 提供一个中立、客观的多厂商技术整合方案的权威测试环境 图 14-1 SNIA-CHINA 组织结构图 网络存储导论第14章:互联网工程任务组 14.2 互联网工程任务组(IETF)     IETF 史创于1986 年,其主要任务是负责互联网相关技术规范的研发和制定。目前,IETF已成为全球互联网界最具权威的大型技术研究组织。     IETF 体系结构分为三类,一个是互联网架构委员会(IAB),第二个是互联网工程指导委员会(IESG),第三个是在八个领域里面的工作组(Working Group)。标准制定工作具体由工作组承担,工作组分成八个领域,分别是Internet 路由、传输、应用领域等等。IAB 成员由IETF 参会人员选出,主要是监管各个工作组的工作状况,它必须非常认真的考虑Internet 是什么,它正在发生什么变化以及我们需要它做些什么等问题。互联网工程指导委员会(IESG)主要的职责是接收各个工作组的报告,对他们的工作进行审查,然后对他们提出的各种各样的标准、各种各样的建议提出指导性的意见,甚至从工作的方向上、质量上和程序上给予一定的指导。     IETF 基本上不太涉及应用领域,但仍设立了一个应用领域。另外凡是没有归到以上那些领域的研究课题,都把它归至此类。IETF 实际上有上百个工作组,这里是真正完成工作的地方。IETF 的交流工作主要是在各个工作组所设立的邮件组中进行,这也是IETF 的主要工作方式。     IETF 产生两种文件,一个叫做Internet Draft,即"互联网草案",第二个是叫RFC,它的名字来源是历史原因的,原来是叫意见征求书,现在它的名字实际上和它的内容并不一致。     Internet Draft 任何人都可以提交,没有任何特殊限制,而且其他的成员也可以对它采取一个无所谓的态度,而IETF 的一些很多重要的文件都是从这个Draft 开始。需要说明的是,仅仅为成为Internet Draft 毫无意义。Internet Draft 实际上有几个用途,有一些提交上来变成RFC,有些提出来讨论,有一些拿出来就想发表一些文章。     RFC 更为正式,而且它历史上都是存档的,它的存在一般来讲,被批准出台以后,它的内容不做改变。RFC 也有好多种,第一个就是它是一种标准,第二个它是一种试验性的,RFC 无非是说人们在一起想做这样一件事情,尝试一下,还一个就是文献历史性的,这个是记录了人们曾经做过一件事情是错误的,或者是不工作的。再有一种就是叫做介绍性信息。     IETF 的自身定位是一个互联网技术研发的跨国民间组织。虽然已有很多互联网技术规范通过在IETF 讨论成为了公认标准,但它仍有别于像国际电联(ITU-International Telecommunication Union)这样的传统意义上的标准制定组织。IETF 的参与者都是志愿人员,他们大多是通过IETF 每年召开的三次会议来完成该组织的如下使命: · 鉴定互联网的运行和技术问题,并提出解决方案; · 详细说明互联网协议的发展或用途,解决相应问题; · 向IESG 提出针对互联网协议标准及用途的建议; · 促进互联网研究任务组(IRTF)的技术研究成果向互联网社群推广; · 为包括互联网用户、研究人员、行销商、承包人及管理者等提供信息交流的论坛。     IETF 与网络存储有关的包括但不限于如下内容:     1. 光纤通道基本架构     FC-4 Upper Layer Protocol:SCSI,HIPPI,SBCCS,802.2,ATM,VI,IP      FC-3 common service      FC-2 Framing Protocol /Flow Control      FC-1 Encode/Decode      FC-0 Media:Optical or copper,100MB/sec to 1.062GB/sec     描述:     FC-0:物理层,定制了不同介质,传输距离,信号机制标准,也定义了光纤和铜线接口以及电缆指标      FC-1:定义编码和解码的标准      FC-2:定义了帧、流控制、和服务质量等      FC-3:定义了常用服务,如数据加密和压缩      FC-4:协议映射层,定义了光纤通道和上层应用之间的接口,上层应用比如:串行SCSI协议,HBA 的驱动提供了FC-4 的接口函数,FC-4 支持多协议,如:FCP-SCSI,FC-IP,FC-VI。     2. FCP-SCSI     FCP-SCSI:是将光纤通道设备映射为一个操作系统可访问的逻辑驱动器的一个串行协议,这个协议使得以前基于SCSI 的应用不做任何修改即可使用光纤通道。FC-SCSI 是存储系统和服务器之间最主要的通信手段。SCSI 扩展了COPY 命令,一个新的ANSI T10 标准,也支持SAN 上存储系统之间通过数据迁移应用来直接移动数据。     FCP-SCSI 和总线联结方式相比的优点在存储局域网上已经得到证明,FCP-SCSI 提供更高的性能(100M/sec),更远的连接距离(每连接最远达10 公里),更大的寻址空间(最大16000000 个节点)。FCP-SCSI 使用帧传输取代块传输。帧传输以大数据流传输方式传输短的小的事务数据,这样可提高服务质量。FCP-SCSI 支持为了简化管理和资源存储的存储“池”技术的网络配置。FCP-SCSI 支持提高可靠性和可用性的编码技术。     3. FC-IP     FC-IP 将光纤通道地址映射到IP 地址,FC-IP 的寻址方式:广播一个IP 地址,然后从存储节点返回一个MAC 地址。如果SCSI 设备不能区分FCP-SCSI 帧和FC-IP 帧,IP 广播可能导致错误。HDS 系统可通过检测帧头来区分FCP-SCSI 帧和FC-IP 帧,没有这个能力的存储系统必须通过别的方法(如switch zoning)来阻止FC-IP 帧被广播到fibre 端口。     FC-IP 和以太网比有几个优点:可以和类似FCP-SCSI 存储的内部连接架构集成,以节省使用成本;传输速度更快,效率更高。     以太网传输数据包最高到1500 字节。包是以太网中基本校正单元,在每一帧后都会导致消耗CPU 周期的一个中断。在GB 以太网里负载通常也是一个限制因素,避免占用全部带宽。而FC-IP 数据帧达到2000 字节,FC-IP 校正基本单元是一个多帧队列。MTU 可以达到64 个帧,比较以太网而言允许光纤通道在主机中断之间传输更多的数据。这种MTU可减少需要的CPU 周期和提高传输效率。     FC-IP 还有使用光纤通道网络的优点,光纤通道网络是基于流控制的封闭网络。以太网设初是考虑到要通过无流控制的公网,它在阻塞发生时,在一贯时间段之后返回并重发包,消耗额外的CPU 周期。IP 应用无须修改即可运行于FC-IP,享受光纤通道带来的高速和大大减少处理中断。     Emulex 和JNI 是提供FC-IP 驱动的光纤通道HBA 厂商。他们计划传递一个“Combo”以支持FCP-SCSI 和FC-IP。Troika 提供支持FCP-SCSI、FC-IP、FC-IP(QOS)的控制器,QOS 允许网络管理员分配协议优先权。     4. FC-VI     FC-VI 是在光纤通道上实现VI 架构,它允许数据在光纤通道接点的内存地址之间快速迁移。FC-VI 是VI 架构的光纤通道应用,一个intel,Compaq,100 多家厂商和组织为了减少服务器通信等待的协议标准。VI 设计的初衷是为了达到集群计算机之间通信等待减少和高带宽的效果。在光纤通道网络里,通过和另一节点接口的HBA 的缓冲区和应用内存之间直接访问(DMA)的方法,这个目标完成了VI 架构建立了内存注册机制,实质上就是限制用户内存的内存地址并支持数据从用户内存直接传输到HBA 的缓存,然后这个数据可以通过外部介质传输到另一个服务器应用内存的指定位置(注册)。如果要使用VI,应用、数据库或操作系统必须从www.viarch.org 获得相应的API。DB2 6.1 和Oracle8.1 都在他们的数据库集群应用中使用了VI 架构。     IP over Ethernet 的延迟包括TCP 栈(CPU 负荷)和以太传输延迟。100BaseT 的最大传输速率为100Mbit/sec,FC-IP 减少了以太相关的延迟并以光纤通道的速度传输,提供比IP over Ethernet 更好的吞吐能力,但仍然避免不了TCP/IP 的软件延迟。FC-VI 去掉了TCP 栈并提供了应用内存和HBA 之间的DMA。FC-VI 饶过了系统内核,避免了操作系统上下文转换和缓冲改变,实现了更高的传输速率。     FC-VI 需要一个支持VI 架构的光纤通道HBA,FC-VI HBA 和支持SCSI I/O 的光纤通道HBA 有本质上的不同。Troika 和Finisar 都提供支持VI 架构的光纤通道HBA。Finisar出售一种基于PCI 的支持VI 架构的光纤通道HBA,支持点对点连接或交换形式。Troika 出售一种基于PCI 的智能控制器?D?DSAN 2000 系列控制器,这种控制器支持FC-SCSI,FC-IP,点对点FC-VI,FC-AL 和交换拓扑。Troika 控制器提供多种管理选项和特征,比如协议优先权配置和在负载均衡的path 变换。     人们正在努力提出访问存储的IP 标准,Cisco 为SCSI over IP 向IETF 提交了一个规范,目前这个规范仍在开发中,它需要将控制和命令信号与数据信号的传输电缆分开,主要是考虑流控制和传输控制的开销。 网络存储导论第15章:HDS9900V 产品综述 第十五章 现有设备厂商简介     15.1 HDS 公司的HDS 9900V     15.1.1 HDS 9900V 产品综述     HDS 公司于2002 年5 月7 日发布了基于HDS9900 和第二代HI-STAR 全光纤交换结构以及64 位高速处理器的企业级高端智能存储系统HDS 9900V 系列产品。在HDS 9900V 系列中包括两个型号的产品:HDS 9980V 和HDS 9970V,其中9980V 最大管理1024块盘包和9970V 最大管理128 块盘包,HDS 9980V 由1 个磁盘控制器柜和外接1 至4 个磁盘阵列柜组成。  图 15-1 HDS 9900 外形     9900V 产品在以下几个方面进行了增强:     HDS 9970V 产品 · 系统支持4 块到 128 块盘包 · 36GB 1.5 万转/每分钟 ( 系统最大裸容量4.6 TB ) · 73GB 1 万转/每分钟、1.5 万转/每分钟( 系统最大裸容量9.2 TB ) · 146GB 1 万转/每分钟 ( 系统最大裸容量18 TB ) · 系统缓存64GB NV-CACHE · 系统最大支持48 个Fibre Channel(开放系统),24 条FICON 或 24 条ESCON 通道(IBM Main Frame)。 · 系统内部全光纤通道和HI-STAR Ⅱ型,带宽为7.9 GB/S     HDS 9980V 产品 · 系统支持8 块到 1024 块盘包 · 36GB 1.5 万转/每分钟 ( 系统最大裸容量36.8TB ) · 72GB 1 万转/每分钟、1.5 万转/每分钟( 系统最大裸容量73.7TB ) · 146GB 1 万转/每分钟 ( 系统最大裸容量147.5TB ) · 系统缓存128GB NV-CACHE · 系统最大支持64 个Fibre Channel(开放系统),32 条FICON 或 32 条ESCON 通道(IBM Main Frame)。 · 系统内部全光纤通道和HI-STAR Ⅱ型,带宽为15.9 GB/S     lightening 9900V 和9900 硬件技术指标检索对照表见表15-1:     15.1.2 HDS 9900V 硬件技术介绍 · 系统内部更高的带宽     HDS 9900V 系列产品的内部架构采用全光纤通道技术和最新的立体交换架构,即第二代HI-STAR 体系结构。第二代HI-STAR 体系结构与第一代(HDS 9900 系列产品采用,包括:HDS 9960、HDS 9910)相比,在系统的整体性能上具有极大的提高,特别是通过64位的高频CPU 处理器和多光纤通道,使HDS 9970V 产品的带宽可达到7.9GB/S,HDS 9980V产品的带宽可达到15.9GB/S。新一代HI-STAR 体系结构的带宽几乎为上一代产品的3 倍,是传统第二代产品的8 倍。 表 15-2 HDS 9900 产品带宽 · 系统内部更强的处理器和扩展性     HDS 9900V 系列产品中的前端与主机的连接通道控制器以及后端与磁盘阵列连接的控制器中的处理器也进行了升级更新。新的处理器采用64 位的高频MIPS 处理器,取代了过去的32 位低频处理器。其中前端与主机连接的处理器为200MHZ 主频,后端接磁盘阵列的处理器为160MHZ主频,它的处理能力为HDS 9900 系列产品中处理器能力两倍以上(HDS 9900系列产品所使用的处理器为32 位的80MHZ 主频的i960 处理器)。     由于处理器能力的提高,HDS 9900V 系统内部的每条光纤通道的带宽由200MB/S 提高到332MB/S。并且连接主机通道数量与内部接磁盘阵列通道数量可随应用规模和I/O 支持能力的变化及要求,可不停机在线扩充,示意图如图15-3: 图 15-2 HDS9900 系统示意图(1) 图 15-3 HDS9900 系统示意图(2) HDS 9900V 前端64 位高频处理器示意图 系统超大容量 ·  HDS 9900V 系列产品的最大容量也提高了很大。目前,HDS 9900V 产品支持36GB(转速15000/分)、72 GB(转速10000/分,15000/分)、144GB(转速10000/分)的磁盘。HDS 9980V产品可装载到1024 块物理盘,是目前全球最大的磁盘存储系统。HDS 9970V 产品可装载到128 块物理盘。这样, HDS 9980V 产品的最大容量为147TB,HDS 9970V 产品的最大容量为18TB,并且所有系统可在不停机情况下进行4 块或8 块为一组的基本容量单元扩充。  图15-4 HDS 9980V 前后端通道扩展能力示意图 · 更灵活的RAID 5 和RAID 0+1 保护方式技术。     HDS 9900V 系列产品对RAID 保护技术也进行的增强与灵活选择。在RAID 0+1 保护方式下,一个RAID 组可以由4 块或8 块物理盘组成2D+2D 或4D+4D,这样可以达到更高的性能。同时HDS 9900V 还提供由4 块或8 块组成的物理盘支持RAID 5 保护方式下的3D+1P和7D+1P,其中7D+1P 的RAID 5 方式可以极大的提高磁盘组的利用率(88%),节约了盘组投资并可同时提高大文件处理方式的性能。  图15-5 HDS 9900 系统RAID 缓存设计 · 缓存最大和最安全设计的存储系统 图15-6 HDS 9900 系统电源保护     HDS 9900V 仍在数据缓存采用多块设计并支持数据在缓存区的镜像写处理方式,保证了HDS 9900V 相对其他存储设备在缓存一级无单故障点设计(见图)。其他产品因采用单块缓存处理技术并存在单故障点设计隐患,这样数据在缓存延时处理期间会因缓存板故障而丢失数据。     9900V 采用4GB 缓存板作为扩充单元进行在线扩容,9980V 最大扩充至128GB,9970V最大扩充至64GB。 · 逻辑虚拟端口功能可以支持更广泛和更灵活的SAN 连接性     HDS 9900V 系列产品通过新增加的微码功能率先实现逻辑虚拟端口软件定义功能(HSD),可支持系统连接主机更广泛更灵活的SAN 连接性,即在原有的多物理通道支持多操作系统主机平台连接的基础上,通过在单个物理端口上定义多个虚拟端口(最大为128个)来支持在同一个物理通道上的不同操作系统多主机平台的连接,该功能为用户在多操作系统环境下的连接配置系统端口节省了投资,不需要为每个操作系统在存储系统上都配置相应通道接口(连接示意图如图15-7)。 图15-7 HDS 9900 系统主机连接方式 · 独特与高可靠性的盘包设计     HDS 9900V 采用HDS 自行设计的3 英寸直径和1 英寸高全光纤双口读写高速盘包,其它同类产品仍使用SCSI 与单口读写盘包。同时HDS 9900V 所用盘包平均无故障间隔指标为250 万小时。 · HDS 9900V 部件冗余设计     9900V 整机部件没有单一故障点,所有部件均为N+1 冗余备份设计,即双独立供电接口与内部N+1 电源模块,冗余散热风扇,双SVP 服务处理器设计,RAID 技术保护方式,动态热备份盘包,双独立Cache 板设计,在两组独立Cache 内镜像写数据,7 x 24 x 365 天不停机运行标准。 · HDS 9900V 不停机维修、升级与扩容设计     9900V 的所有部件均可热插拔和不停机进行更换、扩容和不停机地微码升级。当微码出现问题时可以自动不停机地返回旧版本并可不停机地加入微码的Patch。 · HDS 9900V 自动故障预警监测与回叫系统设计     9900V 控制器柜内设有故障信息与指示灯显示报警系统及SVP 笔记本电脑显示服务与报警系统,并通过系统配置的Resource Manager 当中的Graph Track 智能菜单式窗口软件显示9900V 内部各个部件运行状态及故障发生时部件所处位置便于查找故障与维修。 图15-8 HDS9900 系统故障诊断     另外在9900V 中配有Hi-Track 自动故障预警监测与回叫系统,定时运行监测所有部件,当部件即将发生故障时,其征兆信息通过Hi-Track 与配置的电话线和Modem 自动拨号传至实施方Hi-Track 监测中心。实施方技术人员根据信息可及早通知用户更换部件,避免故障发生。 网络存储导论第15章:HDS9900V 软件分析 15.1.3 HDS Lightening 9900V 软件分析 · Hicommand 异构存储管理框架平台     作为一家专业的存储系统生产及服务厂商,HDS 对客户在存储系统方面的需求有深深的理解。存储工程师知道客户在进行庞大的数据管理时的痛苦,那就是如何有效的管理不断增长的大量数据,如何的保护这些重要的数据,如何将这些数据成功的转化为知识为企业所用,如何降低管理的成本。所有的这些需求,就是HDS 开发的Hicommand 管理框架的动力。它的目标就是简化存储系统的管理、保护存储系统的数据资源、优化存储系统数据资源的使用。 图 15-9 HDS9900 软件结构     Hicommand 管理框架是一个开放的、可扩展的、模块化的管理架构。它通过采用工业标准的公用信息模型(CIM)和简单对象访问协议(SOAP),可以很容易的集成HDS 公司的软件产品以及独立软件厂商的产品。通过它,可以将最好品牌的产品进行完美的集成,使客户得到最好的系统解决方案和信息基础架构,并支持将来的扩展。HDS 公司知道,没有任何一家公司能够为客户在任何方面都提供最好的产品,存储工程师的优势在存储系统,存储工程师专注于存储系统,如果客户选择磁带库备份系统时,有些公司在该领域实力很强,客户有权利选择这些优秀的产品。只要各家厂商都遵守工业的标准,那么对其产品的管理都可以集成到这个框架上来。通过Hicommand 管理框架,为用户可以带来下列的好处: · 降低用户的总拥有成本(TCO) · 简化存储系统的管理 · 无缝的集成业界最好品牌的软件及硬件产品     目前,在Hicommand 管理框架下,HDS 公司提供了Hicommand 设备管理软件以及Hicommand 性能管理软件。 · HiCommand 设备管理软件(Hicommand Device Manager)     HiCommand 设备管理软件为企业提供了一个统一的管理平台,可以实现集中式的管理多个异构的存储系统。它可以从主机、应用和存储系统等方面对存储资源进行管理,可以提高存储系统管理员的工作效率,联机的动态的对存储资源进行管理。目前,通过Hicommand设备管理软件,可以在统一的管理界面下集中管理HDS 的存储系统以及SUN 的存储系统。 图 15-10 设备管理软件     Hicommand 设备管理软件的结构和主要功能     Hicommand 设备管理软件由三个部件组成:设备管理软件服务端,基于Web 的图形化的客户端以及运行在主机上的代理。     主要功能: · 从逻辑、物理以及主机的角度对存储系统进行管理 · 可以同时管理多台存储系统,这些系统可以是不同型号、不同厂商的存储系统 · 支持HDS Shadowimage 和Truecopy 软件 · 使用中央控制台来发现、管理和监控多台存储系统 · 易于使用的用户接口 · 通过Internet 或WAN 采用基于Java 的图形化方式进行远程管理 · 严密的安全保护机制 · 同时支持自动化的脚本编程 · 可以与其它厂商的硬件及软件集成 · 采用预警机制对存储系统进行维护管理     使用这种软件,可以为客户带来的好处如下:     面向业务运营的管理方式,企业可以从其商业运营的层面来规划和管理存储资源;用户可以实时的掌握其存储资源的使用率,以便尽早规划,满足业务运营的要求,便于管理。用户得以采用统一的管理界面对不同的存储系统进行管理,实现自动化的配置及管理复杂的存储资源,满足服务标准的承诺,减低管理的风险。另外,客户还可以得到如下收获: · 采用预警式的故障诊断机制,使故障清除在萌芽之中。 · 将复杂的手工管理过程自动化,极大的降低出错的概率 · 投资最大化利用 · 实时的对存储资源进行管理,充分有效的利用存储资源 · 集中的控制台对所有的存储系统进行管理 · 统一的管理界面管理所有不同的存储系统     Hicommand 性能管理软件(Hicommand Tuning Manager)     Hicommand 性能管理软件可以对其管理的存储系统的性能进行智能的预警式的监控、报告及预测存储资源的需求能力,可以与业务应用系统进行集成(如Oracle 系统)。 这种软件帮助客户实施集中管理他们的存储系统环境。     Hicommand 性能管理软件报告存储系统的性能和容量,从多个方面观察存储系统的状况。它可以从存储系统,从服务器以及应用程序各个方面来看存储的表现。同时,它还提供高级的预测功能,对存储系统的需求进行预测。实现: · 同设备管理软件一样,也是采用易用的图形化界面; · 从应用系统、服务器以及存储的角度报告存储系统的资源状况; · 监控存储系统的性能及能力; · 分析和预测未来的需求; · 自动的生成各种报告。 网络存储导论第15章:HDS 软件分析(二) Resource Manager-系统资源管理、性能监视套件     Resource Manager 是HDS 公司设计的存储系统资源管理的软件包,实现对存储系统的配置、定义、性能监视、状态报告等管理功能。帮助用户简化存储系统设置管理操作流程,直观表现存储系统工作状况和配置状况,提供用户实时监控、历史数据分析报告和变化发展的趋势预估报告,帮助用户优化存储系统性能,合理分配和利用存储系统资源,提高系统管理的生产效率,释放管理员的生产力,帮助客户规范的、安全的实施和管理生产流程和管理流程,为用户的容量评估、容量扩展、资源使用提供了详细的数据积累和报告,使客户的投资回报率最大化。整个系统软件包由Remote Console、LUN Manager、LUN Expansion、Flash Access、SANtinel、Graph Track 软件组合构成。 · 主要功能:     提供用户友好的图形用户界面(GUI)和WEB 浏览器的管理方式,从本地(存储系统上)或远程(企业内部网络)通过Windows 工作站以WEB 方式远程管理HDS 的企业存储网络系统。     HSD 功能是业界唯一的多主机共享存储系统物理端口的解决方案,提供异构主机系统或多个主机共享同一个物理通道端口访问LUN,提供主机更广泛、灵活的SAN 连接性,节约大量的投资。     Flash Access 通过在指定的Cache 中进行读写I/O 操作,以接近于主机通道数据传输的速度,来提高具有特殊要求的数据存取访问的速度,为应用系统提供了高速、安全的特殊虚拟存储区域和数据读写方式,通过应用系统的合理设计和使用,可以帮助用户提高整体性能系统。     LUN Manager 对磁盘存储系统进行系统配置和定义,LUN 分配,RAID 定义和管理,Cache 管理和配置,报告磁盘系统的配置信息。     监视存储系统工作情况,报告磁盘系统运行状态,提供错误预警和报警。     报告磁盘组性能情况,自动调整存储系统的性能,支持数据库性能表现。     提供直观、醒目的图形和报表方式监视存储系统资源和系统性能,并提供预先设计的格式化的报告和趋势分析报告。     完成ShadowImage 系统软件和TrueCopy 远程备份系统件的控制与定义操作。     具有Zone 分区安全管理。     Remote Console-远程控制台软件,包括Local User Interface 和Storage Navigator软件     Local User Interface-本地用户控制接口软件     管理存储系统的门户,基于Java 的开放管理平台     对存储系统进行简单的本地化操作和管理     可以线性的管理8 个相同种类的存储系统     简单易用的集中管理所有与存储系统相关的软件,包括商业连续性处理、性能、备份/恢复等软件,简化用户的操作流程     提供远程访问功能,增强存储系统的控制和管理的可用性和灵活性     Storage Navigator-存储管理导航软件 图15-11 软件接口     基于Java 的独立的管理机制和平台,用户使用具有Java 插件的浏览器,通过安全许可进行Lightning 9900V 系列的存储管理,无需客户端软件,远程管理存储系统     通过Java GUI 直观清晰的定义和控制逻辑卷(Virtual Volume)与物理磁盘的布局     通过Java RMI 提供虚拟管理服务器功能,内置WEB Server, 支持远程访问     通过RAID Java RMI 和主机代理引擎提供逻辑卷的管理     LUN Manager-磁盘逻辑单元管理软件 图15-12 软件模块接口     该模块提供简单易用的物理磁盘矩阵的集中管理功能,可以通过远程控制台灵活、方便的配置磁盘矩阵组,通过减少调整平衡I/O 负载的工作时间,提高雇员的生产力;配置FC光纤通道的属性,包括FC-AL 和光纤通道的拓扑,定义SCSI 端口与LUN 的映射关系,可以随时动态增加、删除SCSI path;给LUN 分配SCSI path、LUN #、SCSI ID,Fibre path 等配置定义,通过减少逻辑设备的竞争访问,提高数据访问的性能,减少主机I/O 排队时间,可以将Open 9s、Open 3s、Open Ks 聚合成Extended LUN。     另外,它还支持Open Ks(1.9GB), Open 3s(2.4GB), Open 8s(7.3GB), Open 9s(7.3GB) 的LUN 模式     LUN Expansion(LUSE)-LUN 卷容量扩展软件     对于某些接口访问LUN 数量有限制的主机操作系统,LUSE 提供了访问大容量存储系统的解决方案。     LUSE 提供在开放系统的主机上使用较少的LU 数目解决方案,允许将最大36 倍于标准Open-X 容量大小的LU 绑定为一个逻辑LUN。 图15-13 HDS 9900 的连接     SANTinNel & HSD(feature)-存储区域网安全管理软件     HSD 功能是业界唯一的多主机共享存储系统物理端口的解决方案,提供异构主机系统或多个主机共享同一个物理通道端口访问LUN,提供主机更广泛、灵活的SAN 连接性,节约大量的投资     HDS 9900V 系列产品通过新增加的微码功能率先实现逻辑虚拟端口软件定义功能(HSD),在原有的多物理通道支持多操作系统主机平台连接的基础上,通过在单个物理端口上定义多个虚拟端口(最大为128 个)来支持在同一个物理通道上的不同操作系统多主机平台的连接     在开放系统、多平台或SAN 环境中通过使用World Wide Names,控制每台主机仅可以访问事先定义的LUN,达到SAN 结构中Zone 的安全管理功能和数据保护功能。     支持开放系统和OS390 系统     在HSD 功能支持下,允许WWN 群组访问LUN 或LUN 群组功能,每个组最多可以有图15-13 HDS 9900 的连接128 个WWN 访问一个LUN 或者LUN 群组     HSD 最大配置: · WWNs per port: 128 · LUNs per HSD: 256 · HSDs per port: 128 · LUNs per port: 512 · HSDs per system: 4096 (32 x 128) - · Graph Track-性能监控软件 图 15-14 Graph Track 图形界面     实时采集存储系统运行信息,通过图形、报告的方式帮助用户监视、分析存储系统性能和资源使用情况将实时和历史性的监视数据以图形方式显示,并将峰值、趋势等关键信息重点显示     实时监控存储系统的整机、控制单元、部件等的使用情况和性能,包括短期和长期的Cache 命中比率,读写操作比率,I/O 次数统计     GT 可以在Array Group 和LDEV 层面收集和显示详细的I/O 统计数据     GT 对某些指定的部件提供了可调整的警告级别监视机制,GT 监视CHIP、ACP、LDEV等控制单元的活动,当超出用户设定的阈值,GT 将在监控图形中变换颜色警告用户GT 提供了内部日志功能,详细记录内部GT 程序的操作,便于客户核实操作、调查问题、监视GT 的操作情况     为用户预先设计了格式化的报表,可以对存储系统上的磁盘配置、逻辑卷分布、主机的连接情况分别作出报表统计等工作     用户可以自己设置的采样频率,Graph Track 还可以根据用户设定的其他参考值自动的管理有关性能和资源使用情况的数据     可以显示Subsystem ID、Subsystem 和LDEV 配置的详细信息,直观展示存储系统的配置情况。 图 15-15 GT 界面示意图     Flash Access-逻辑盘常驻缓存,快速存取软件 图 15-16 HDS 9900 缓存结构示意图     Flash Access 通过在指定的Cache 中进行读写I/O 操作,以接近于主机通道数据传输的速度,来提高具有特殊要求的数据存取访问的速度,为应用系统提供了高速、安全的特殊虚拟存储区域和数据读写方式,通过应用系统的合理设计和使用,可以帮助用户提高整体性能系统。所有对Flash Access area 写操作的I/O,都是双写的操作模式,同时写入Cache 和磁盘中,保证数据的完整性和安全性     Flash Access 允许用户将逻辑卷的数据保存在指定的Cache 区域中(占系统总CACHE的容量),可以动态的增加或删除Flash Access 区域的大小,不用中断正在运行的Flash Access 设置,而可以动态的扩张容量。在用户人为的删除Flash Access area 中的数据之前,系统保证Cache 中的数据不会丢失,如果删除Flash Access area,所有写I/O 都会保存到受影响的磁盘上,数据不会丢失。每一个LDEV 可以有最大1024 个Flash Access extent。     HDLM-通道负载均衡与故障自动切换软件     HDLM(Hitachi Dynamic Link Manager)是HDS 公司提供的安装在主机端的存储工具软件。HDLM 提供主机到存储系统的I/O 通道负载平衡和故障切换功能;增强了主机系统的数据可得性。虽然存储系统通过RAID 技术对数据进行了保护,但是单纯的存储系统是不能够提供整个I/O 系统的端到端的保护的。主机端到存储系统的整个I/O 路径中发生了故障如:     HBA 失效、FC 交换设备故障、连接电缆断开等会中断主机端对数据的访问;HDS 公司提供的HDLM 软件,通过对主机到存储的冗余I/O 路径的管理实现负载均和故障切换;保证了24..7 业务不间断的运行。     HDLM 是基于服务器端的GUI 解决方案,能够提供: · 支持SCSI 和FC 的连接方式; · 在SAN 环境中能够自动的发现主机到存储的路径; · 支持I/O 路径的自动故障切换和恢复回切; · 支持多通道的负载均衡技术; · 支持命令行/图形界面/API 接口; · 支持所有的HDS 存储系统。     可以看出HDLM 软件具有如下特点:     高可靠性方面:通过服务器的多条通道实现I/O 通道自动的故障切换和恢复回切提高了服务器端数据访问的安全性和性能。     高性能方面:通过多条I/O 通道的负载均衡提高了应用系统数据访问的性能,进而有效改善了应用系统的性能。     对于操作员来讲,易安装性方面:HDLM 能够自动查寻主机端到存储端的路径,这种查寻无论是直连的DAS 结构还是复杂的SAN 结构都可以自动完成。因此HDLM 安装完成后不需要复杂的配置就可以使用了。 图15-17 HDML 的工作方式 图15-18 HDML 通道控制     HDLM 的工作方式     HDLM 对I/O 通道进行实时控制,检测每个通道的状态;当有任何一个通道发生故障时自动将I/O 切换到其它健康的通道上;同时,HDLM 会自动记录整个操作过程。HDLM 能够支持所有的HDS 存储系统,并且在功能上基本相同。对于Lightning 9900V 系列和Thunder 9570V 系列,在实现负载均衡的时候会有所不同。由于Thunder 9570V 系列中的LUNs 是由两个控制器分别控制的,因此服务器通过不同的通道同时连接两个控制器时会存在两种类型的通道 ― Owner 或Non-ower 的通道如下图(图15-18):在Owner Path 之间可以实现负载均衡 网络存储导论第15章:HDS解决方案(一) ShadowImage--“业务连续性”解决方案     ShadowImage 是HDS 公司深入研究当今商业社会业务连续性处理流程、7 x 24 x 365 服务、数据可靠性、数据可用性、数据保护等一系列需求后,全力开发的、业界公认的、技术领先的数据复制软件。基于存储系统内部运行的数据复制技术,无需主机资源参与,最大程度的发挥了软件的可用性;瞬间分离得到的多个数据备份拷贝,提供了用户并行处理联机业务、批量作业、应用开发、测试、数据分析和数据挖掘、快速恢复的解决方案,节约了生产主机宝贵的资源而处理其他重要的业务,革新了批量作业、磁带备份的新策略,给客户提供了最佳投资选择--最小的总拥有价值(TOC)和最大化的投资回报。配合HDS 公司的TrueCopy 和Freedom 智能存储系统,为客户提供高度安全的、高度灵活的、高度统一的数据保护、容灾、数据备份的解决方案。     它的主要功能如下:     第一,它采用了高速的、无需主机处理资源参与的数据复制技术,不依赖于任何的主机操作系统、文件系统、和数据库系统的限制,以存储系统内部的软件操作,完成基于磁道的逻辑卷复制。     其次,ShadowImage 使用了本地镜像、数据同步(异步方式)处理机制,在保证不增加主机I/O 响应时间的前提下,保护关键联机生产数据的高度安全性、应用系统的可靠性、数据的完整性,保护用户的商业信誉;运用立即获得连续性业务处理的不同时间段(PIT)的数据拷贝,确保灾难或故障发生时的最新时间段的数据拷贝备份和数据的一致性,提供客户灵活、快捷、安全的恢复方法。     第三,通过ShadowImage,可以在一个系统内立即访问关键业务数据的拷贝,立即共享对时间比较敏感的相关数据,保证业务处理流程的并行处理,确保企业为客户提供实时的服务,提高客户对企业的忠诚度,提升企业对客户和市场的的敏捷反映程度。     第四,ShadowImage 革新数据备份策略,提高操作流程的效率,彻底清除连续性业务处理流程中的“备份窗口(Backup-Window)”时间和缓慢的磁带备份时间,满足日益增长的业务量和数据急剧增长的需要,在日趋激烈的竞争中获取宝贵的空间     第五,ShadowImage 在磁盘拷贝操作中提供快速的恢复技术和数据拷贝的高可用性,完全提升数据恢复的速度和可靠性,摒弃缓慢的、因磁带质量问题引发故障的磁带恢复机制,提升了企业对人为事故、灾难的快速恢复能力和应变能力     第六,ShadowImage 通过快速数据拷贝技术和连续的PIT 数据拷贝技术,可以快速、有效的准备开发和测试环境,大大缩短新的商业应用程序的开发、测试的时间和周期,为用户快速推出业务品种提供强有力的保障,缩短业务创新的周期。通过快速数据拷贝技术,ShadowImage 快速的复制真实用户环境,大大简化灾难恢复测试的步骤计划、流程演练、例行测试,确保容灾计划的可实施性     第七,ShadowImage 提供高可用的、灵活的操作性,客户可以自行配置和操作,无需HDS 工程师参与;无需预留专用的逻辑盘池,节约磁盘资源,提高了存储系统的利用率。经过ShadowImage 复制的所有数据拷贝都是Raid 保护的,本地镜像机制+磁盘矩阵Raid 技术给用户提供了双重的数据保护。     第八,ShadowImage 支持开放系统和OS390 系统。开放系统下1 个源逻辑卷最多可以获得10 个拷贝(包括源卷),OS390 系统总共支持4 个拷贝(包括源卷)。HDS 9900V 系列最大支持4096 pairs(镜像磁盘对)。 · 本地磁盘镜像功能与快速数据恢复     ShadowImage 是存储系统内部的数据复制技术,磁盘的镜像功能对于主机系统是不知情的处理,异步方式数据复制技术在不增加主机I/O 响应时间的前提下,提供了逻辑卷的实时(异步方式)数据保护功能,提高了系统的可靠性通过ShadowImage,可以定义生产数据逻辑盘与备份逻辑盘的镜像复制关系,实时的(异步方式)保持2 个逻辑磁盘的数据同步。可产生一个或多个与生产主机数据库所在的盘卷(P-Vol)完全相同的一个备份镜像卷(S-Vol),备份镜像卷中的数据和生产数据库中的数据完全相同。 图15-19 HDS9900 双机热备 图15-20 HDS 9900 双机热备工作过程     ShadowImage 是实时镜像写与盘组RAID 保护,因此在同一9900V 系统内可得到2 份或多份数据拷贝,并当存放生产数据盘组发生故障不能恢复运行时可通过备份卷的数据(两边是实时一致的)与切换地址定义恢复应用,相比磁带恢复方法,SI 有无可伦比的快速性、简便性、可靠性。 · 革新数据备份策略,缩短业务处理流程中的“备份窗口(Backup-Window)”     通过ShadowImage 可以快速获得多个生产卷的PIT 数据拷贝,由此革新了业务处理流程的并行处理的新策略和解决方案,不但保持7x24 连续服务,并且消除了数据备份窗口,引发了LAN-Free, Server-Free 的数据备份的革命,节约了宝贵的CPU 和内存等资源、网络资源,大大缩短了应用系统因数据备份等原因的脱机时间。备份卷(S-Vol)是一个可独立寻址的盘卷,通过分离磁盘镜像对等操作,马上可以获得多个与生产数据完全一样的数据拷贝备份卷,这些卷可以立即在同一系统内使用,或者通过装载等操作被其他的系统使用。 图15-21 ShadowImage 的数据备份     用户应用系统几乎无需“0”秒的下机时间,即可利用其他主机备份通过ShadowImage得到的时间段(PIT)的数据拷贝。     由于备份主机系统直接连接存储系统,可以访问SI 的数据拷贝,因此备份主机与磁带库构成了LAN-free 的备份体系,释放了传统备份方法所占用的局域网带宽。     另,ShadowImage 兼容任何的主机备份软件--完全的、自动化的兼容VERITAS NetBackup version 4.5 软件。 · PIT(Point in Time)拷贝的并行应用     ShadowImage PIT 解决方案为用户提供了业务并行处理的新思路和实际可行的操作流程,不但可以继续生产系统的运行,还可以同时处理以前无法并行处理的业务,极大的提高了生产效率和生产力。     其次,它缩短了应用测试过程中环境准备、测试失败后的数据恢复的时间和周期,通过SI 的瞬间分离技术、本地镜像、多个PIT 拷贝等功能,上述复杂、麻烦、危险性极高的操作可以快速、安全的实施。     SI 的PIT 拷贝解决方案可以帮助缩短应用开发周期,应用环境的准备瞬间可以获得,提高应用测试、开发的效率,加快产品创新周期,保持市场的竞争力,是系统程序员、数据库管理员的福音。     ShadowImage PIT 还解决了长期困绕用户的大量数据传输的问题。用户的数据分析和数据挖掘业务将无需耗费大量的时间进行生产数据、历史数据的传输与迁移,PIT 拷贝的使用可以保障客户快速、实时的分析营业数据,极大的提升了商业价值,是用户最好的投资回报。 图 15-22 PIT 拷贝过程     ShadowImage 是HDS 提供的独特系统件,既可以在主机上通过CCI(Command Control Interface)控制操作,也可以在HDS 存储系统本地的服务控制台(SVP)操作。它使主机系统和9900V 设备管理者能够在后台状态下,为主机处理的数据在9900V 内部实时创建可独立寻址的多copy 卷。这些copy 卷是应用数据存放的现用生产卷的镜象,可同时并行运行任务。一旦生产数据的copy 卷建立后,通过命令可以与其生产卷分割开,应用系统数据库可通过生产卷继续做联机应用,与此同时,备份系统可利用copy 卷进行备份、报表生成和应用开发测试等工作。 · ShadowImage--安全、经济、有效的数据容灾解决方案 图 15-23 ShadowImage 的卷复制     ShadowImage 本地镜像技术提供本地关键数据的实时(异步方式)的镜像备份解决方案,在保证正常的I/O 响应时间的前提下,用户可以将关键的生产数据实时保持镜像备份,长时间的保持数据同步,镜像操作由HDS 智能存储系统内部完成,对主机操作系统是不知情的正常的I/O 操作;一旦生产卷故障,应用系统可以快速的使用相同内容的备份卷恢复生产系统。配合HDS 磁盘系统的Raid 技术,给用户提供了双重的数据保护。     ShadowImage 的快速PIT(Point in Time)拷贝技术,保障了用户连续、快速、完整、可靠、灵活的获得连续时间的关键数据拷贝;当由于误操作、测试、或者灾难对原始数据造成破坏,PIT 拷贝可以帮助客户快速的、戏剧性的恢复最接近时间段、或者客户指定的时间段的数据;快速的复制、同步、分离、恢复机制为客户提供了安全的、快速的、灵活的数据恢复保障,极大的缩短故障恢复的时间,最大限度的降低灾难的冲击,减少用户的损失。     ShadowImage 提供了全新的、经济的、可实施的容灾测试解决方案,可以在保持本地生产系统和远程拷贝不受影响的情况下,通过远程SI 的PIT 拷贝,进行实时的、模拟真实数据环境的灾难恢复计划的测试。     TrueCopy+ShadowImage 配合使用为用户提供了“终极”数据保护的解决方案,实现了多重媒介、多重备份、异地容灾、本地镜像、本地恢复、异地恢复的立体数据保护解决方案。     与HDS 的远程拷贝软件TrueCopy 配合使用,可以非常灵活按照不通的需求和具体环境情况组合各种异地容灾备份方案,提供具有高度的灵活性、高度的安全性、高度的数据一致性、高度的可靠性的容灾数据保护解决方案 · TrueCopy-数据远程容灾解决方案     TrueCopy 数据远程容灾解决方案是HDS 公司在全面分析各种操作系统、各种容灾技术、仔细研究客户对容灾的需求和理念之后,结合HDS Freedom 智能存储系统的特点推出的数据远程容灾解决方案;彻底解决长期困绕用户的、难于进行容灾方案的真实演练、真实数据测试的问题,最大限度的减少数据丢失问题;TrueCopy 是基于磁盘存储系统运行的软件包,不依赖任何的主机操作系统和其他第三方厂商软件,为用户提供了最安全、最开放、最经济、最实用的远程容灾解决方案。     HDS 公司作为全球最大的独立的磁盘存储生产厂商,专注于单一化产品生产的优势,拥有熟悉IBM、HP、SUN、Compaq、SGI、Dell、Window NT/2000 以及Linux 等平台和远程灾备实施的经验丰富的服务工程师,向用户提供全方位的灾备方案设计、技术咨询和实施服务。     目前,HDS 的TrueCopy 软件其独有的时间戳(Timestamp)和一致性组(Consistency Group)技术,是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案,保证异步处理方式下的数据一致性和完整性,最大程度的减少数据的丢失,并被广大用户采用。     主要功能如下所述:     第一,TrueCopy Async 异步数据拷贝软件,是HDS 公司独有的创新技术,是世界第一也是唯一的在开放环境中基于存储硬件系统的、无需主机系统的、异步处理方式的、能够保证数据一致性的远程拷贝软件,它可以在重复发生的灾难中保护数据,在任何远的距离保持数据库记录被修改顺序的完整性。     其次,TrueCopy 可以在在任何距离下,提供完整的、可靠的异地或同城灾难数据恢复和应用系统快速重新启动的解决方案,先进的处理技术能够最大程度的减少灾难时的数据丢失,提升企业对事故和灾难的应变能力和快速反应能力。通过与HDS ShadowImage(本地数据镜像拷贝软件)配合,可以用PIT 拷贝获得真实的生产环境数据,不必中止生产系统的运行,能够频繁的启动低廉花费的灾难模拟测试,最大的限度提升用户的投资回报率(ROI),确保容灾计划的可操作性,提高用户的商业信心,免除客户的后顾之忧     另外,TrueCopy 简化、减少用户计划用于设备维护、数据迁移、数据集中、备份的业务停顿时间。通过减少用户对缓慢的、高强度劳动的、基于磁带的数据备份技术的依赖,线性化的提升IT 业务操作的效率。TrueCopy Sync 同步数据拷贝软件,为用户的任何数据提供了实时的、同步的远程“镜像”保护功能。 与此同时,TrueCopy Sync 与Async 软件支持开放系统和OS390 系统环境。NanoCopy解决方案提供用户在世界任何地方,获得完全不间断的、连续的PIT 时间段(Point in Time)的远程数据拷贝。HXRC 扩展的远程拷贝软件完全与IBM 大型主机OS390 系统的XRC 软件和GDPS 解决方案兼容,满足用户不同的远程数据备份方案和要求 网络存储导论第15章:HDS解决方案(二) · TrueCopy Synchronous 远程容灾同步方式数据备份软件     远端的数据拷贝与本地的数据拷贝或生产数据永远保持一致,远端拷贝永远是本地数据盘的“镜像”     备份存储系统总是与生产存储系统数据同步,本地存储系统与备份端存储系统同步进行相同的I/O 更新,备份端存储系统在更新时总是与生产端存储系统保持完全一致的顺序,以保证数据的一致性和完整性。当生产中心发生灾难时,不会出现数据丢失。     不依赖于主机系统、文件系统、数据库系统,基于存储系统的工作机制,利用存储系统控制器的控制台来启动、监控、控制远程数据备份的操作。节省主机系统的CPU 资源,提供用户开放的高可用性     任何厂商的同步处理方式对应用系统的响应时间都会有冲击。在进行远程数据备份时,生产主机的应用程序系统发出写I /O 指令,生产中心的存储系统同时向本地磁盘和备份端的存储系统发出写操作的指令,必须等候备份端存储系统回复写操作完成以后,生产中心的存储系统才向主机应用程序回复I/O 完成,因此主机应用程序每次I/O 将承受备份端存储系统I/O 确认的延迟,以及由此带来的主机系统处理能力降低和资源消耗的冲击。     受应用系统I/O 读写的活动频率、网络带宽、可以容忍的交易响应时间和其他因素的影响,远程同步工作方式有距离的限制,一般小于25 公里。 图15-24 TrueCopy 的异地备份 · TrueCopy Synchronous 远程容灾异步数据备份软件     解决由于远程同步镜像方式给生产应用系统性能造成的巨大冲击和系统的压力,解决异地长距离的场地部署问题,以异步方式实现可靠的、经济的、可实施的容灾解决方案 图15-25 TrueCopy 的异步拷贝过程     在TrueCopy 的远程容灾异步方式下,通过时间戳、分组号可以保证数据的一致性和完整性,并在灾难发生时的数据丢失最少,恢复时间短,极大的提升了用户的投资回报率。而其它厂商的远程容灾异步方式为了完全保证数据的一致性和完整性,需要额外的投资(更多的磁盘盘组或更高的CPU)才能实现。     在异步方式下,生产系统所发出的I/O 操作至本地存储系统,本地存储系统处理结束后即通知主机本次I/O 结束。然后,本地生产存储系统将多个累计的写I/O 异步(几乎实时发送)的,不一定按顺序的传送到备份中心的存储系统中,因此在异步方式下,对应用系统的性能没有任何影响     由于I/O 操作不是同步的传送到备份中心,在异步方式下,就存在数据的传送顺序与实际的数据的操作顺序不一致问题。为了解决这一问题,HDS 容灾软件对每个写入生产中心存储系统的I/O 都打上一个时间戳(TimeStamp)并进行一致性分组(Consistency Group), 在数据传输至备份中心时,备份中心存储系统严格按照此时间戳的时间顺序重新排列并写入相应的逻辑卷中,从而保证了备份数据的逻辑一致性与完整性。目前,HDS 的TrueCopy 软件其独有的时间戳(Timestamp)和一致性组(Consistency Group)技术,是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案并被广大用户采用 图15-26 数据块的异地异步复制分段     由于数据异步远程更新,应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制。只有在当传送中的数据在生产磁盘控制器或在TCA 中还没有形成数据一致组时生产中心发生灾难,这些“in-flight”的数据就会丢失。但TrueCopy 通过“consistency group”技术保证灾难发生时已经发送到备份中心的数据将保持一致性,因此在系统和应用程序重新启动之前,需要恢复那些“in-flight”丢失的数据。所花费的时间和造成的影响取决于客户的环境,例如应用程序和设备配置的复杂性,更新的完整性等等。     HDS 支持的容灾通信链路协议为:Fibre Channel、ESCON、DWDM、ATM、E1/E3、IP、SONET 等。如果采用ESCON 通道直连方式,最大的距离可以为43 公里,如果采用光纤通道直连,最大距离为10 公里(长波单模光纤),如果采用DWDM,最大的距离可以达到100公里(上述通信链路可以运行在同步方式)。如果在ATM、E1/E3 或IP 链路下,采用异步方式,理论上可以达到无限距离。     容灾系统的建设是一个系统工程,并不仅仅是建立海量存储系统、实现数据的远程备份,更重要的是容灾系统的管理制度、应急计划的制定、容灾系统的切换演练。只有这样,才能保证在灾难发生时,及时、有序的切换到容灾系统上运行,保证应用系统的业务连续性。HDS 拥有既具备IBM、HP、SUN、Compaq、SGI、Dell、Window NT/2000 以及Linux 等平台技术,也具备远程灾备系统设计和实施的经验丰富的技术专家,向用户提供全方位的灾备方案设计、技术咨询和实施服务。 网络存储导论第15章:HDS解决方案(三) ShadowImage 提供了全新的、经济的、可实施的容灾测试解决方案,可以在保持本地生产系统和远程拷贝不受影响的情况下,通过远程SI 的PIT 拷贝,进行实时的、模拟真实数据环境的灾难恢复计划的测试 图15-27 应用主机系统的容灾 图15-28 数据备份的容灾     TrueCopy+ShadowImage 配合使用为用户提供了“终极”数据保护的解决方案,实现了多重媒介、多重备份、异地容灾、本地镜像、本地恢复、异地恢复的立体数据保护解决方案。     与HDS 的远程拷贝软件TrueCopy 配合使用,可以非常灵活按照不通的需求和具体环境情况组合各种异地容灾备份方案,提供具有高度的灵活性、高度的安全性、高度的数据一致性、高度的可靠性的容灾数据保护解决方案 图 15-29 HORC 的多种应用     HDS 容灾系统的切换过程     A. 生产中心系统故障 图15-30 基于 HDS 9900 的远程容灾系统     当生产中心主机故障或者整个磁盘子系统全部损坏时:     1)切断备份中心与生产中心的TrueCopy 连接。     2)通过备份中心主机及主控台发出TrueCopy 控制命令,进行FAILOVER 切换操作。将备份端存储系统中磁盘的 Read Only 状态改为 Write Enabled 状态,以供备份中心主机进行读写操作。     B. 备份中心磁盘系统故障     当备份中心的磁盘子系统故障时,生产系统照常运行 ,数据被存储到生产中心的磁盘上并在BITMAP 文件中记录所修改的磁道,当备份中心的磁盘系统修复后,TrueCopy 自动将生产卷的数据拷贝到备份中心的磁盘上。数据的拷贝是增量进行的,即只转送更改过的数据所在的磁道。     C. 通信链路或NISHAN 设备故障     当通信链路连接中断或IP 设备故障时, 生产中心数据的修改以磁道为单位自动记录在存储系统中的BITMAP 文件中,一旦链路恢复正常,则可以将未传送的磁道传送到备份中心 。     D. 系统的回切过程 图15-31 灾难发生时的切换     当生产中心的系统设备完全恢复并具备生产运行条件时,可很容易地将业务运行系统从备份中心切回到生产中心。     实现步骤: 1. 待非生产时间,停止备份中心的系统运行。 2. 通过备份中心主机发出TrueCopy 控制命令,将磁盘由Write Enabled 状态改为Read Only 状态。 3. 将备份中心的存储系统数据传送到生产中心存储系统中。 4. 待上述步骤完成后,从生产中心启动系统及应用。     HDS TrueCopy 实现方式     HDS TrueCopy 实现两个 Lightning 9900V 系统间的数据复制,这些系统可以处在同一个数据中心或不同的地域。它主要包含下列部件: 1. 复制的逻辑卷对 (P-VOLs and S-VOLs) 2. HDS Lightning 9900V 子系统 3. 远程复制连接Remote copy connections 4. 远程控制端口及本地控制口     HDS TrueCopy 支持ESCON 及Fibre Channel 两种远程连接端口,根据本地及远程数据中心间的距离不同,不同传输协议的选择,TrueCopy 支持如下几种连接方式(仅以Fibre Channel 为例):     通过裸光纤直连交换机,采用FC 协议     生产中心与备份中心的光纤交换机通过裸光纤直连,两个中心存储系统的TrueCopy 独占端口通过光纤交换机和裸光纤进行连接,可以保证异步数据复制的性能。如果用户希望当生产中心的存储系统故障或数据被破坏原因,生产中心主机可以接管备份中心的数据,此方式裸光纤的数量要求较多,线路租费比较高,但由于采用多链路传输,可靠性比较高 图15-32 用于光纤通道的TrueCopy 模块 图15-33 备份连接拓扑(电信裸光纤)     通过DWDM 设备直连裸光纤     采用密集波分技术,可以加载多协议,例如FC 协议、IP 协议,两个DWDM 终端之间的距离可以延伸到100 公里,解决了FC 通道有效传输距离10 公里的限制。生产中心的2台光纤交换机通过4 条光纤FC 端口连接到DWDM 终端,租用电信的裸光纤一条,那么通过DWDM 技术,可以将多路FC 通道和IP 网络复用在一条裸光纤上,比较好的解决了裸光纤的利用率和多协议复用的问题。生产主机接管备份中心的方式与工作流程与上述FC 直连方式一样。但此方案整体投资比较大,DWDM 设备投资较高,一般适用于光纤资源比较紧张的情况。 图15-34 备份连接拓扑(DWDM 连接,距离小于100Km)     利用IP 网络,采用ATM 或E1、E3 线路,通过FC/IP 转换器     将FC 加载在IP 网络中传输。此方案采用国际流行的IP 网络协议和链路,通过FC/IP转换设备(例如Nishan),将FC 通道协议打包在IP 数据包内,通过IP 链路传输,理论上没有距离的限制,适用于远程异步数据复制,是性能价格比很好的选择,具体的带宽要根据业务量峰值、距离、应用系统高峰时的写I/O 的数量、写I/O 块的大小、应用系统所能承受的响应时间的延迟、生产与备份中心之间的距离来计算。但由于IP 链路的带宽和协议限制,无法满足生产中心接管备份中心磁盘的要求。 图15-35 备份连接拓扑(基于 FC Over IP)     各种种通信链路所提供的带宽     表15-3 给出了各种连接通路的传输带宽。 网络存储导论第15章:McDATA产品介绍(1)   McDATA Intrepid 6000 系列Director 是现在和未来的最佳存储网络的理想平台。凭借着业界最高的安全性等级、无以伦比的性能、出色的可靠性和功能出众的管理工具,McDATA Intrepid Director 是支持关键任务型业务需求--24×7--的最佳选择。一个在核心采用Intrepid Director 的SAN 将可以适应呈指数式增长的存储的需要,并能够满足一些目前甚至还无法想象的商业应用的要求。 · Intrepid 6140 Director     具有140 个端口的Intrepid 6140 Director 适用于那些需要数百个甚至上千个端口的超大型系统,是一种理想的高性能、灵活构成组件。它是目前唯一的一种单级140 端口 Director,它采用了一种独立于协议的架构,可以支持未来出现的新型技术,从而提供无以伦比的投资保护。Intrepid 6140 还可以满足端口数更高的存储网络和大型机FICON 环境的连接需求,从而提供出色的灵活性。 · Intrepid 6064 Director     对于那些需要Director 级别的性能和可靠性,同时连接端口低于64 个的企业来说,64端口的Intrepid 6064 Director 是一种经济有效的理想解决方案。它可以为需要24×7 的关键业务提供无以伦比的99.999%可用性、性能、可扩展性和可靠性。 · Intrepid 6000 系列Director 的主要特征:     通过99.999%的可用性来确保业务的连续性:所有关键部件全部双冗余;在线不中断任何应用的微码装载和激活;彻底消除因处理器failover 或微码升级所造成的被迫停机情形     通过集中式的管理,最大限度地增加系统管理资源     提供持久的高性能:无阻塞CrossBar 单步交换、稳定的迟滞时间和独享Buffer Credit      通过独立于协议的设计,提供投资保护      通过对光纤通道和FICON 的支持,实现灵活的部署  图15-36 McData 交换机(Director)外形     与目前任何其它交换设备相比,MCDATA 的Intrepid 6000 系列Director 使用更方便、管理更简单,并提供了更高的可用性。     坚实的可用性     由于故障停机可能使公司每小时有数以百万元的损失,信息技术管理人员绝不容忍采用不稳定、不可靠的交换设备来建设企业的存储网络。IntrepidTM6000 系列Director 以市场上最高的可用性--99.999%,来确保在线数据的连续性访问。用6000 系列Director 构筑的存储区域网络,为连接所有其它SAN 设备提供了高度可用的网络核心。由于其所有主要部件的冗余特性、故障件自动切换、以及Call Home 预警功能,具备自动修复功能的IntrepidTM 6000系列Director 为关键数据的连续存取提供了坚实的保障。     企业级的管理     McDATA 的SAN 管理软件SANavigatorTM 简化了SAN 的构建、配置和控制,需要更少的资源,并降低了管理费用。针对企业系统昂贵的管理费用,SANavigator 使公司能最充分地利用管理性资源。SANavigator 提供: · 对无论任何厂商协议的多种设备的管理 · 通过事件管理和通知以提高可用性 · 从单一界面实现设备发现和管理 · 保存存储网络配置以实现业务连续性 · 稳定的性能     不能及时存取数据,对公司来说意味着浪费资源并由此损失机遇。MCDATA IntrepidTM6000 系列Director 的高性能和不间断性,使公司能够充分利用其最宝贵的资产 -- 数据。使用大量网络Switch 建造的骨干网,数据需要通过大量的跨交换连接,使性能大打折扣,与此不同,IntrepidTM6000 系列Director 通过直接的背板交换可以很容易适应和满足商业需要。     速度2Gb/S 或更高     IntrepidTM6000 系列Director 为诸如视频等应用提供2Gb/s 的传输速率并备以额外所需带宽。此外,独立于协议的IntrepidTM6000 系列Director 只需简单升级即可支持10Gb/s、FCIP 和iSCSI 等新技术。     存储区域网络的全面解决方案     McDATA 提供的全系列存储网络交换产品包括Director、部门级Switch 和边际设备,这些设备都源自McDATA 公司在建造“核心到边缘”解决方案领域的丰富经验。互用性比仅仅按照工业标准设计和制造产品更为重要。MCDATA 建造了投资数千万元的系统集成实验室对其所有产品及解决方案进行实地安装的完整测试。其中互操作性测试包括与业界主流的服务器、存储,以及与竞争对手存储网络设备的互用性测试。     MCDATA 在投入生产前均会对产品进行长期测试,以此降低风险,确保存储区域网络的成功实施与运营。 表15-4 McData 交换机规格 可用性 · 99.999% · 可热插拔的冗余电源、风扇、处理器 · 可热插拔的光学端口模块 · 联机诊断 · 联机、不中断应用的固件加载和激活 兼容性 光纤通道协议 FC-PH Rev4.3,FC-PH-2,FC-PH-3,FC-GS-2,FC-FLA,FC-FG, FC-SW-2 光纤通道组件MIB FE-MIB TCP/IP MIB-II 组 系统、接口、地址解析、IP、ICMP 、TCP、UDP、SNMP 服务类别 二类、三类、F 类 性能 端口速度 2Gb/s ,全双工 缓冲信用 每个端口60 交换延迟 平均不超过2 微秒 可扩展性 每个机箱的端口数 Intrepid 6064:64 个端口Intrepid 6140:140 个端口 介质类型 热插拔业界标准LC 小接口 所支持的光介质类型/距离 短波:500 米 (1640 英尺) / 1Gb/s 长波:300 米 (1148 英尺) / 2Gb/s 借助中继器可达距离 10 公里 (6.2 英里) 100 公里 (60 英里) 电缆铺设 62.5/125 微米多模式,300 米 (1148 英尺) 50/125 微米多模式,500 米 (1640 英尺) 9/125 微米单模式,10 公里 (6.2 英里) 管理选项 SANavigator 软件EFCM 采用FICON 管理服务器(CUP)的SA OS/390 SNMP 开放式系统管理服务器以太网 (10/100 Mbps) 光纤服务简单名称服务器管理服务器(可选)广播名字服务器分区 访问 In-Band 管理以太网(10/100Mbps) 光纤服务简单名字服务器管理服务器(可选)广播名字服务器分区 诊断 加电自检联机端口诊断、CTP、SBAR 内部和外部回送联机系统健康状况诊断 可维护性 不中断应用的固件升级HotCAT (热代码激活技术)Call-Home 、E-mail 报警(通过McDATA 的软件)智能热保护机箱、端口、FRU 标示 物理尺寸 Intrepid 6064 Intrepid 6140 高度 39.7 厘米(15.7 英寸,9U) 53.03 厘米(20.88 英寸,12U) 宽度 44.5 厘米(17.5 英寸) 44.45 厘米(17.50 英寸) 厚度 54.6 厘米(21.5 英寸) 61.37 厘米(24.16 英寸) 重量 52.3 千克(115 磅) 78 千克(172 磅) 安装选项 可机柜安装,19 英寸EIA 机柜 环境 非工作温度: 4°至52°C (40 °至125°F) 网络存储导论第15章:McDATA产品介绍(2)   15.2.2 McDATA Switch 3232 ?C 32 端口交换机      为使整个企业都能从储存区域网络(SAN)中受益,IT 经理已经意识到,许多部门级SAN需要超过16 端口的连接性能。为满足这一需要,McDATA 特别推出了Sphereon 3232 光纤交换机―业界唯一的基于部门级连接能力的2Gb/s 32 端口光纤交换机。      Sphereon 3232 光纤交换机提供了比多个16 口交换机集连更优秀的解决方案。多个16口光纤交换机的集连需要多个ISL 连接,这将导致网络性能的下降,同时增加了网络管理的复杂程度。      McDATA Sphereon 3232 光纤交换机为IT 经理提供了空前的SAN 实施的灵活性。不论是建设一个部门级SAN,还是把部门级SAN 集成到一个企业级存储网络中,Sphereon 3232光纤交换机都可以适应数据系统用户的多种需求。选择之一就是McDATA Flexport 技术―允许用户从16 端口开始按需配置端口数量,再逐步扩展到32 端口。      Sphereon 3232 光纤交换机为各端口提供了2Gb/s 非阻塞带宽的优良性能,同时具备了以前只有数据中心级产品才具备的重要特征。目前只有McDATA 提供具有如下特点的部门级光纤交换机: · 2Gb/s 无阻塞连接性 · 连接速度的智能自感应能力 · 热插拔冗余电源与制冷 · 按需配置端口数量的McDATA Flexport 技术 · 在线且不中断应用的固件装载和激活 · 网络活动的在线诊断和故障隔离工具      除以上所具备的业界同类最佳特征之外,Sphereon 3232 光纤交换机提供了最高的可用端口密度,仅需占用立式机柜空间的1.5U(2.63”)。在机柜空间甚为宝贵的条件下,为扩容提供足够的空间。 表15-5 McDATA 交换机3232 指标 网络存储导论第15章:IBM解决方案(一) 15.3 IBM 存储产品解决方案     IBM 作为一个大型的数据处理和加工的设备制造企业,其数据存储部门为企业中所有信息系统提供支持的高性能磁盘存储解决方案。     15.3.1 成熟的存储磁盘阵列     SAN 构架全光纤磁盘阵列--IBM TotalStorage FAStT700 存储服务器,它依靠领先的技术实现快速数据访问;提供扩展能力以满足公司独特的需要;提供高可用性以实现最优安全性和效益;保留人力资源以应对核心工作任务。     15.3.1.1 依靠存储保持快速发展     随着日常的业务流程越来越依靠数据,各公司正在大力发展自己的存储基础设施。但是,如今的公司必须在存储需求和紧张的预算之间作权衡。因此,所采用的解决方案必须经济高效、可扩展,并且能够满足各种存储需求。 图15-37 IBM FastT700 面板     IBM 存储系统部的工作人员能够提供灵活的业务解决方案来实现最高的性价比。IBM TotalStorage FastT700 存储服务器是一种全光纤的存储区域网(SAN)解决方案,能够以最合适的价格提供您所需要的性能。从与主机接口到磁盘驱动器全光纤通道的结构,为企业用户提供最先进的磁盘技术。     15.3.1.2 提供领先技术以实现优异性能     依靠多达8 个光纤通道直接主机或SAN 连接,FastT700 存储服务器提供了快速数据访问能力(高达383MBps 和每秒60,000 次I/O),特别适合于那些实时性能是关键因素的计算环境。除了高带宽外,FastT700 还支持各种操作系统,包括IBM AIX、Sun Solaris、HP-UX、Linux、Novell 和Microsoft Windows NT/2000 等。在FastT700 存储服务器内,所有磁盘均为最先进的、支持光纤通道的热插拔磁盘驱动器,使用户可以采用最先进的技术。     15.3.1.3 提供可扩展性和灵活性以满足发展需要     FastT700 的模块化设计可以按照需要来购买部件,它可以从18GB 扩展到使用22 个机箱的16TB。每一个FAStT EXP500 最多支持10 个光纤通道磁盘驱动器。另外,还可以采用和选择合适的RAID 级别,从0、1、3、5 到10,这样做的目的是为了与应用相匹配或满足特殊经费需要,从而能够扩展和充分利用现有和将来的投资。     15.3.1.4 提高可用性以尽可能减少与停机相关的效益损失     公司的成功与其支持全天候运营的能力成正比。意外的停机将影响到数据检索和其它的业务流程,这意味着效益损失,并造成客户的不满意。而TotalStorage FastT700 解决方案是高度可用的解决方案,能够提供部件发生故障时的安全性。双热插拔RAID 控制器提供了高吞吐量和冗余度,并且每个控制器支持高达512MB(合计1GB)的电池备份高速缓存。冗余风扇、电源和动态存储管理进一步提高了可用性。并且提供了Remote Copy 的远程灾难恢复功能,为业务提供高可靠性的保障。     15.3.1.5 为核心竞争工作保存资源     FAStT 存储管理器使您能够在单个控制台上管理多个FastT700 系统。从一个地点控制所有的环境节省了用户的资源,可以将精力放在更有竞争力的核心业务上。     这种软件是图形化的软件,用户无须记忆任何命令,可以轻松地管理FAStT 磁盘阵列。如图15-38 所示。 图15-38 FastT700 管理界面     15.3.1.6 灾难恢复 图15-39 FastT700 异地备份     FastT700 存储服务器提供了强大的灾难恢复功能,该功能是基于磁盘阵列控制器的,与所连接的操作系统无关,因此,可以提供跨平台支持的、数据级的灾难恢复解决方案。 图15-40 FastT700 容灾系统     建立远程灾难恢复功能,需要在FastT700 中配置Remote Copy 功能,该功能提供了激活该功能的密码。它可以实现在两台FastT700 之间自动地实时镜像,与操作系统无关。由FastT700 的控制器来控制数据的同步。 采用Remote Copy 功能,需要在FastT700 控制器上指定镜像端口,(不可以用主机的光纤端口),两台FastT700 控制器之间采用光纤连接起来(目前支持10 公里,通过RPQ 方式,可以支持到最远70 公里甚至更远),如上图中红线所示,(黑线表示数据的连接,蓝线表示冗余连接)。一旦,本地(Primary)出现故障,异地(Secondary)仍有镜像数据供系统使用。如果异地出现故障,不会影响到本地工作,但此时,停止数据镜像。每个阵列最大支持32 个镜像对。     表 15-6 IBM FastT700 存储服务器一览 网络存储导论第15章:IBM解决方案(二)   15.3.2 ESS 800 系统     ESS 800 系统的主要特征包括如下几点: · 为IBM eServer p 系列和UNIX 、Microsoft Windows NT 、Microsoft Windows 2000 、Novell NetWare 、Linux 和SGI IRIX 平台以及IBM eServer i 系列和AS/400 平台、IBM eServer z 系列和S/390 平台提供共享存储 · 使用双集群RISC SMP 处理器、大型高速缓存和串行磁盘连接,提供优异的性能 · 提供高级拷贝服务―专为实现快速的备份和灾难恢复而设计 · 使用冗余硬件,包括镜像化的写高速缓存以及RAID-5 和RAID-10 磁盘保护,为关键任务业务应用提供所需的高可用性 · 通过ESCON 、FICON 、光纤通道、2Gb 光纤通道/FICON 或Ultra SCSI ,实现与连接主机之间的快速数据传输 · 提供高效的中央运行管理(通过一个Web 浏览器或命令行界面CLI)或使用ESS API (Bluefin SMIS),提高管理效率 · 使拥有多个异构主机的企业能够将物理磁盘容量扩展到最高55.9TB ,同时保持优异的性能     具体描述为:     1. 可满足当今业务需求的性能IBM TotalStorage 企业存储服务器(ESS)为满足和超越当今大多数高要求应用的性能需求而设计。高速磁盘可提供快速的数据访问。内部串行存储架构(SSA)磁盘路径可支持流水线数据移动。数据将自动地以条纹化的方式分散到多个磁盘上,从而增加了I/O 并行性并减少了事后人工调整的必要性。高效的高速缓存管理使数据系统用户能够以更快的速度访问更多的数据。     2. 为主要的服务器平台提供共享存储IBM ESS 是第三代高级架构磁盘存储系统。它可以支持今天的业务连续性和数据可用性需求,使得员工、客户和交易合作伙伴能够通过一个可靠、具有灾难抵御能力的共享存储系统,实现24×7 级别的数据访问。此外,它还可以通过异构连接、高性能和易管理性功能提高业务效率,从而帮助降低总拥有成本(TCO)。     很多类型的服务器平台都能够以并发方式连接到ESS―包括i 系列和AS/400;Linux 、Novell NetWare 、Windows NT 、Windows 2000 或运行IRIX OS 的SGI Origin 服务器;以及多种类型的UNIX 服务器。因此,ESS 是拥有多个异构服务器的组织实现增长的理想选择。     3. 为分布式系统提供企业级存储随着更多的关键业务信息处理将在分布式系统(运行多个不同的操作系统)上进行,IBM ESS 将在提供出色价值的同时,还能够为数据系统用户提供优异的性能。ESS 不仅仅是简单地支持跨企业平台的存储共享―它可以通过以下多种强大功能,在整个企业的范围内提高存储资源的性能、可用性、可扩展性和易管理性:     第一,FlashCopy 提高了一个高级卷复制工具,在进行备份和运行其它拷贝应用时可以显著地减少应用停机。FlashCopy 高效的写拷贝NOCOPY 选项在帮助减少系统开销的同时,还允许灵活地重用本来属拷贝操作专用的磁盘容量。     其次,对等远程拷贝可在一个远程地点维护数据的一份同步拷贝(随时是与主拷贝同步)。数据的这一备份拷贝可用于在主系统发生故障时实现快速恢复。这一可选功能可以使数据系统用户电子商务应用的运行不被中断。     第三,扩展远程拷贝(XRC)可以在一个远程地点(通过电信线路连接,距离不受限制)提供z/OS 数据的一份拷贝,用于在主存储系统发生故障的情况下使用。XRC 的目标在保护数据完整性的前提下,实现不间断的全异步远程拷贝。     另外,ESS 可以灵活、高效地将物理容量划分为不同大小的逻辑卷。这些逻辑卷被分配给需要存储容量的主机,也可在多个主机之间共享(以支持集群应用)。此外,还可以在客户的控制下在主机间进行容量的重新分配―同时保持ESS 在线。通过定制卷可为S/390 服务器定义不同大小的卷,使管理员能够通过对系统进行配置实现最优的性能。     4. 确保数据访问的高可用性ESS 中内建了24×7 级别的运行支持。在RAD-5 和RAID-10 磁盘阵列为数据提供保护的同时,远程拷贝技术还可以实现快速的数据备份和灾难恢复。ESS 使用双活动处理集群,可提供故障切换、热备用功能以及热交换磁盘驱动器、镜像化的写高速缓存以及冗余电源和散热设备。     ESS 还包括了集成的预防自诊断功能,可以不间断地对系统功能进行监视,防止宕机。例如,预测故障分析(Predictive Failure Analysis )功能可以就指定硬件组件尚未解决的问题向数据系统用户发出通知,这样数据系统用户就可以在这些问题未影响到系统性能之前解决它们。 表 15-6 IBM 企业存储服务器800 型一览     5. 内建的灵活性     ESS 可以提供出色的灵活性,包括:可交叉配置的磁盘大小和速度(获得最优的性价比和可扩展性);可交叉的RAID-5 和RAID-10 保护;磁盘容量、缓存大小和主机连接的独立可扩展性;客户控制的逻辑卷大小以及服务器间存储容量的在线重分配。     6. 为环境快速增长提供可扩展性     ESS 非常适宜用于电子商务和其它需求增长难以预测的应用。它在提供高可扩展性的同时,还能够保持优异的性能。     ESS 中使用的磁盘驱动器是以集成8-磁盘驱动器组(称为8-磁盘组)的形式提供的。磁盘驱动器的容量为10000rpm 的18.2GB、36.4GB、72.8GB 和145.6GB 驱动器,以及15000rpm 的18.2GB、36.4GB 和72.8GB 驱动器。     ESS 800 型最多可配置384 个磁盘驱动器;当使用145.6GB 的磁盘时,可以提供最高55.9TB 的物理容量。     7. 提供存储组网价值     ESS 增加了存储区域网(SAN)的价值。ESS 能够很好地处理SAN 的基本功能,包括高速2Gb 光纤通道连接、异构服务器间共享每一光纤通道端口的能力以及内建的LUN 屏蔽(SAM 安全性)支持。此外,ESS 更能够进一步能够支持网络连接存储(NAS)网关,从而使SAN 能够同时处理SAN 上的传统块I/O 和TCP/IP 网络上的文件I/O。     8. 总拥有成本     ESS 是可以帮助数据系统用户降低TCO 的理想选择。ESS 的关键特性―如高级业务连续性功能、性能、可扩展性、对驱动器容量和速度进行混合和匹配的能力、异构连接和开放软件架构提供的灵活性,说明了为何ESS 能够提供如此出色的价值―而以上列出的还只是其中的少数原因。它是存储整合的最佳选择,从TCO 的角度看也是一个明智的选择。     9. 为S/390 和z 系列服务器提供领先的性能     对于S/390 和z 系列服务器,ESS 提供了如下先进功能:     并行访问卷(Parallel Access Volume):以前的S/390 在同一时刻只允许每一逻辑卷执行一个I/O 操作。现在,由于任何可支持的操作系统可在同一时刻对同一个卷进行多个I/O 操作,所以性能得到了提高。     多应用(Multiple Allegiance):这一功能允许不同的操作系统对同一逻辑卷执行多个并发I/O操作,从而可以帮助减少排队现象并显著地提高性能。多应用特性和可选的并行访问卷功能使ESS 能够并行处理更多的I/O 操作,所以能够使性能大大提高,使更大型的逻辑卷能够得到更有效的使用。其结果是存储管理的简化和成本的降低。     优先级I/O 队列:存储服务器可以使重要的任务能够优先访问存储资源。通过优先级I/O队列,ESS 可以使用OS/390 负载管理器提供的信息管理I/O 处理队列―使I/O 的优先级与应用的优先级相匹配。     10. 一个完整的管理解决方案     IBM TotalStorage 软件产品家族提供了一个集成的存储管理工具集,使存储管理员能够以集中的方式对ESS 进行监视和管理。     IBM TotalStorage 企业存储服务器专家(IBM TotalStorage Enterprise Storage Server Specialist)工具可以帮助存储管理员控制和管理ESS 的存储资产。通过一个浏览器界面,存储管理员可以从工作中、家中或途中通过一个安全的网络连接访问这一ESS 专家工具。     IBM TotalStorage 企业存储服务器专家(IBM TotalStorage Enterprise Storage Server Expert,注意与前一段中提到的工具不同)可以帮助存储管理员监视企业中所有被连接的IBM 企业存储服务器的性能。这一创新的软件工具可以提供性能统计数据和灵活的资产管理功能,并能够通过一个公共的浏览器界面跟踪多种容量信息。因此,这一可选工具使管理员能够以集中的方式管理企业中任何地点的所有企业存储服务器。 网络存储导论第15章:IBM解决方案(三)   15.3.3 IBM 存储归一化实施方案     15.3.3.1 SVC 简介     存储技术从直接连接的磁盘阵列发展到集中式的SAN(存储区域网络),在连接性和性能上带来了巨大的优势。然而,对SAN 用户的研究显示,虽然存储区域网络具有这些优点,但是SAN 中磁盘利用率只有50%左右,不同类型和品牌的存储的统一调配和管理非常复杂。IBM 最新推出的 IBM TotalStorage SAN Volume Controller (又名IBM 存储魔法石)就是为解决此类问题的开创了新的方式。     SAN Volume Controller(缩写为SAN VC),SAN 控制器,是存储业界又一次崭新的突破,就像存储历史上的RAID,主机系统的存储管理体系和虚拟磁带技术,这些重要的发明均源自IBM。SAN Volume Controller 是整个SAN 网络的控制器,它将整个SAN 中的各种存储设备整合成一个巨大的存储池,充分利用存储资源和按需分配存储空间、性能和功能。而传统的SAN 网络中,每种存储系统都自成一体,就像一个个独立的孤岛,无法构成一片统一的大陆。     SAN VC 实现了虚拟存储层(Virtualization Layer)的功能,将存储智能加入到SAN的网络中。现在用户可以按照应用不断变化的需求来分配存储,而不再受制于存储子系统设备在功能和性能上的限制。SAN VC 又是一个SAN 网络的中心管理控制点,而且它对服务器的操作系统和存储子系统透明。如图15-41 所示。 图15-41 SVC 存储虚拟化     这个SAN 的中心控制器具备更为灵活的磁盘管理功能,极大的提高了存储管理的效率,例如可动态创建和扩展逻辑卷等。而且,SAN VC 为各种不同的存储设备提供了一个统一的数据复制平台,例如瞬间复制-FlashCopy 和远程复制-Remote Mirroring。这些复制功能都允许源磁盘卷和目标磁盘卷可以存在于不同品牌的磁盘阵列上。     透明的数据迁移是SAN VC 的基本功能,当SAN VC 被加入到一个现有的SAN 环境中时,不需要做数据迁移,SAN VC 把现有的磁盘配置原封不动的继承下来(这是SAN VC的Image mode),这样对服务器上的应用是完全透明的。当SAN VC 完全配置好以后,它又可以将原先磁盘上的卷及数据透明的迁移到其他真正的虚拟卷中。所有的迁移过程对服务器透明,因此不需要中止应用。     IBM SAN VC 是一个软硬件集成化的产品,专业的虚拟存储软件运行在集群式的硬件引擎上。它使用了定制的IBM eServer xSeries 服务器,运行的存储操作系统是基于 Linuxkernek 的。与SAN 网络接口是工业标准的HBA 卡。由于SAN VC 是为一个完全开放的存储环境设计的,兼容各种不同的存储设备。用户可以将各种存储方案融合其中,而不用担心SANVC 会有什么封闭性。SAN Volume Controller 天生具备灵活的扩展能力,可以使用户在存储性能和存储容量方面平滑无缝的升级。例如,扩展控制器个数可以增加性能,而往存储池中增加磁盘则可以增加容量,这两方面的扩张都可以在线完成,不需要中止应用。SAN VC的主控台提供了自动向IBM 服务中心报警(call home)和远程支持的能力。 图15-42 SAN VC 系统结构示意图     15.3 .3.2 SAN.VC 小结     可以看出,SVC 是一个虚拟存储的解决方案,提供了如下功能: · 为高性能和高效管理而设计的SAN 嵌入式(In-band)虚拟存储 · 一个集中化的磁盘存储池l 可包含不同种类和品牌的磁盘系统 · 为卷管理和数据复制提供的统一平台 · 瞬间复制-Flashcopy 在 SAN 一级实现,可跨不同的磁盘系统 · 远程复制-Remote Mirror 可在不同的磁盘系统上 · 透明的、不影响应用运行的数据迁移 · 灵活开放的体系结构: · 易于实施 · 易于在性能和容量双向发展 · 远程报警和诊断t · 企业级的高可靠性和稳定性 · 支持r NT, Linux, 和各种主流UNIX operating systems,支持各种存储 · 流量负载均衡和切换 · 投资保护 网络存储导论第15章:Netapp产品分析(1) 15.4 Netapp 产品分析      Network Appliance 是提供网络数据高端存储和高速缓存设备的专业公司, 其业绩高速发展,是美国E 百强里增长第4 快的企业。公司是网络数据存储解决方案的市场领导者,其网络存储服务器 (FILER)及网络缓存解决方案(NetCache)提供高效、简捷、可靠的数据存取 。 自1992 年成立至今,全球已安装了超过45000 套,连续10 年以每年营业额和利润翻番的速度高速增长。其销售和 利润增长率均位居全美高科技企业前列; 为NASDAQ 上市公司, 其股票列为 NASDAQ 100 和华尔街标准普尔500 成分指标股(NTAP); 1999,2000 连续两年被财富杂志评为全美最快成长公司第四位; 被商业周刊杂志评为99 年全美最佳业绩公司第19 位 , 1999 , 2002 年连续四年名列高速增长公司前100 位(20th/00)(http://www.businessweek.com/2000/00_13/bw50.htm http://www.businessweek.com/2000/00_22/b3683022.htm )      NetApp 的哲学是‘Simple is best’,通过Appliance 方式为用户提供快速、简单、可靠的数据服务。以网络为核心的革新设计获得业界迅速认同,是美国最成功的企业之一,经过5 年发展进入世界500 强,其成功的数据管理和部署方案,通过消除管理复杂度,为用户带来价值。      以系统的方式设计:使应用服务与数据管理分离,解决数据存储、移动、部署的问题。      Appliance 的设计原则:软件优化导致性能的提高远远超出硬件的提高,专门的目的导致管理的简单和系统可用性的提高。      开放的标准:业界创新和技术的领导,集成SAN 和NAS 的优点。支持SAN 方式的数据备份,NAS 的数据共享。      先进的服务:产品的简单使得先进的服务体系,极大降低用户的维护成本,极高的服务效率。 图15-43 NetApp 解决方案      15.4.1 NetApp 存储的类型和发展      15.4.1.1 存储技术的演进      最早,系统结构是以主机或者服务器为中心的,传统的存储是直接连接计算机的,所以又称为DAS(Direct Attached Storage), 过去,IT 部门以服务器为中心,不同的应用由不同的服务器完成,例如,用IBM 运行Database,用HP 运行Data warehouse,SUN 服务器为Email,在这种结构里存储直接连接服务器,由于过去网络速度的限制,这种结构是唯一获得高性能的方式。这种方式的缺点是每台服务器需要自己的存储,形成了信息的分离的“服务器孤岛”,复杂的管理,例如,信息共享、容量计划、配置、升级、troubleshooting、厂商管理,导致最高的TCO。      DAS 的管理工作极大地依赖服务器上的软件,用户面对多个管理点,例如备份工作需要在每一台服务器上独立进行,容量资源无法共享,可用性较差。DAS 的采购成本最低,但潜在成本,例如配套软件和管理成本最高。 图15-44 服务器集中型的存储      存储的爆炸性增长使企业的存储管理面临巨大的挑战,出现了以存储为中心的结构,服务器通过网络共享存储资源,通过集中化的管理使花费迅速下降。在这种结构中,服务器通过FC-AL 网络,连接到集中的存储池。      SAN 解决了DAS 的一些难题,例如,实现存储集中,集中备份,容灾等,但是,通过FC_AL网络的方式连接存储系统,SAN 的方式,数据管理工作还是在服务器上进行,这是由于计算机和存储间的接口是底层的块协议,存储系统无文件系统等数据管理工具,所以要求每一个服务器都有一些存储管理功能,SAN 中的每一个存储服务器都要安装存储服务。      另外,SAN 的设备结构复杂,各个厂商标准不一致,带来的兼容问题,而且需要复杂的软件才能使用,使得SAN 的存储方案仍然具有很高的TCO。      在以网络为中心的计算结构中,越来越多的集中存储管理选择了利用IP 构建存储网络,并且使存储网络具备更多智能,高级NAS(Network Attached Storage)方案。网络附加存储与SAN 的主要区别有两点:服务器访问数据的协议和服务器访问传输介质不同。网络附加存储通过自己的文件系统管理数据,服务器通过文件级的协议,例如, NFS/UNIX,CIFS/Windows,将数据请求重定向到NAS,服务器和NAS 之间的连接是标准的IP 网络。NAS技术是计算机目前增长最快的应用之一。 图15-44 存储集中型结构 图15-45 网络集中型结构      NAS 不要求服务器额外安装软件,可以集中进行数据管理,NAS 将复杂的磁盘、通道、管理软件等集成在一起,可以在网络上即插即用,最大的优点就是简单。作为存储系统,NAS提供了比SAN 更高的可用性,这是因为SAN 本身无法提供完整的数据可用性,服务器、管理软件的实效、升级等都会影响SAN 上数据的可用性。随着网络速度的飞跃,通道优势已经从FC-AL 转移到IP,使得NAS在企业环境应用的优势越来越明显。 图 15-46 网络与存储      以太网与计算机内部磁盘通道相比,在速度上已经持平,而且网络带宽会越来越快。消除了网络的传输瓶颈,使瓶颈转移到文件系统性能。由于以太网络的配置经验企业已经具备,使得更易融入企业现有计算环境。 网络存储导论第15章:Netapp产品分析(2) 15.4.1.2 NAS 与DAS(主机+磁盘阵列)的比较     NAS 与DAS(主机+磁盘阵列)的基本差异可以通过下面的表格体现: 表 15-7 NAS 与DAS 比较 比较项目 NAS DAS 安装 安装简便快捷,即插即用。只需要10 分钟便可顺利独立安装成功。 系统软件安装较为烦琐,初始化RAID 及调试第三方软件一般需要两天时间。 异构网络环境下文件共享 完全跨平台文件共享, 支持Windows、NT、UNIX(Linux)等操作系统。 不能提供跨平台文件共享功能,各系统平台下文件需分别存储。 操作系统 独立的优化存储操作系统,完全不受服务器干预,有效释放带宽,可提高网络整体性能。 无独立的存储操作系统,需相应服务器或客户端支持,容易造成网络瘫痪。 存储数据结构 集中式数据存储模式,将不同系统平台下文件存储在一台NAS 设备中,方便网络管理员集中管理大量的数据,降低维护成本。 分散式数据存储模式。网络管理员需要耗费大量时间奔波到不同服务器下分别管理各自的数据,维护成本增加。 数据管理 管理简单,基于Web 的GUI 管理界面使NAS 设备的管理一目了然。 管理较复杂。需要第三方软件支持。由于各系统平台文件系统不同,增容时需对各自系统分别增加数据存储设备及管理软件。 软件功能 自带支持多种协议的管理软件,功能多样,支持日志文件系统,并一般集成本地备份软件。 没有自身管理软件,需要针对现有系统情况另行购买。 扩充性 在线增加设备,无需停顿网络,而且与已建立起的网络完全融合,充分保护用户原有投资。良好的扩充性完全满足24X7 不间断服务。 增加硬盘后重新做RAID 须宕机,会影响网络服务。 总拥有成本(TCO) 单台设备的价格高,但选择NAS 后,以后的投入会很少,降低用户的后续成本,从而使总拥有成本降低。 前期单台设备的价格较便宜,但后续成本会增加,总拥有成本升高。 数据备份与灾难恢复 集成本地备份软件,可实现无服务器备份。日志文件系统和检查点设计,以求全面保护数据,恢复数据准确及时。双引擎设计理念,即使服务器发生故障,用户仍可进行数据存取。 异地备份,备份过程麻烦。依靠双服务器和相关软件实现双机容错功能,但两服务器同时发生故障,用户就不能进行数据存储。     15.4.1.3 NAS 与SAN 的比较     NAS 与SAN 都是在DAS 的基础上发展起来的,是新型数据存储模式中的两个主要发展方向。 图15-47 SAN Device 图15-48 SAN & NAS 共生运行     NAS 再定义:     网络附加存储设备(NAS)是一种专业的网络文件存储及文件备份设备,或称为网络直联存储设备、网络磁盘阵列。一个NAS 里面包括核心处理器,文件服务管理工具,一个或者多个的硬盘驱动器用于数据的存储。 NAS 可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地在NAS 上存取任意格式的文件,包括SMB 格式(Windows)NFS 格式(Unix,Linux)和CIFS 格式等等。NAS 系统可以根据服务器或者客户端计算机发出的指令完成对内在文件的管理。另外的特性包括:独立于操作平台,不同类的文件共享,交叉协议用户安全性/许可性,浏览器界面的操作/管理,和不会中断网络的增加和移除服务器。 图15-49 直连存储与NAS 数据流比较,来源: IDC,2000     由图示说明(图15-49),NAS 是在RAID 的基础上增加了存储操作系统,而SAN 是独立出一个数据存储网络,网络内部的数据传输率很快,但操作系统仍停留在服务器端,用户不是在直接访问SAN 的网络,因此这就造成SAN 在异构环境下不能实现文件共享。NAS 与SAN的数据存储可通过下面的图来表示: 图15-50 NAS 和SAN 比较,来源: IDC,2000     以上两图说明:SAN 是只能独享的数据存储池,NAS 是共享与独享兼顾的数据存储池。因此, NAS 与SAN 的关系也可以表述为: NAS 是Network-attached ,而SAN 是Channel-attached。     目前存储设备供应商能提供的SAN 技术还是很有限的,例如: 1. 存储设备能实现跨平台的存储是很多厂商宣传SAN 时重点强调的,但在现阶段多平台的系统如S/390、各种厂家的UNIX 和NT 的服务器都要联到SAN 中的一个存储设备上,并进行平台之间的数据共享、跨平台操作,实现起来还是有许多障碍的。现实中SAN 往往只能作到NT 与有限的UNIX 平台间的互操作。而且SAN 中不同操作系统间文件系统和数据格式不同所带来的不兼容性,尚未得到很好地解决。所以应用可以读取到网上不论什么地方、什么服务器、什么操作系统平台的数据,还只是人们的一个良好的愿望。 2. 企业宣传SAN 带来的另一大好处是管理简单方便,但存储的管理工具还不够完备,还不能用统一的管理控制平台管理所有SAN 中的设备及应用。 3. SAN 应能自动识别、配置新的存储设备,并根据使用情况平衡SAN 内不同存储设备间的负载,进行存储设备间的数据复制、备份。但这只是理论上能作到的。 4. 大多数厂商在一个SAN 中只能联一种厂家的SAN 存储设备。 5. SAN 追求的是性能和速度,但SAN 也是昂贵的代名词,对于大部分的企业用户,NAS的应用要比SAN 要多得多。     当要求给提供许多客户提供文件共享的接入时,NAS 一般来说是可选的方法。现在NAS设备在满足此种要求上有极大的功效。因为NAS 系统是建立在现有的LAN 和文件系统协议之上的。同SAN 相比,NAS 技术是相对成熟的。尽管有一些SAN 文件共享解决方案存在,它们一般是针对特定的要求,多个服务器要求高速的的接入通过私有的轻量级的协议来实现共享数据。 网络存储导论第15章:Netapp产品分析(3) 15.4.1.4 用户需求举例     为了说明问题,这里给出一个相关的例子来解释NAS 的数据存储解决方案:某研发中心设计人员需要协同工作,频繁访问大量2D 3D 图像,因此数据的共享特性决定必须采用高性能存储系统。此外,客户还有一定量的SQL 数据库,总数据容量要求为2TB。     存储系统的特点要求如下: · 系统高可用性满足生产系统的高要求---7x24 小时的服务 · 确保业务连续性----企业级灾难恢复方案 · 集中存储-----数据中心,数据集中 · 数据安全-----企业的安全 · 业务高性能 · 系统易用性 · Oracle,Exchange,SQL 等数据库服务器的支持     建成一个集中式开放式的存储,并且必须具有非常高的安全稳定性、高性能、高容量、易扩充性、易维护性、成本低的高端存储架构。并且能够很好的支持用户的SQL 数据库存储需求以及数据库的备份应用需求,把数据库中的数据和文件系统中关键的文件按照备份策略实现集中,高效的备份。当数据系统出现故障时,可以及时实施恢复,把数据丢失减少到最低限度。     15.4.2 解决方案     根据客户的需求,存储与备份系统必须满足支撑多业务系统的能力,并充分考虑客户日后业务的发展和数据的迅猛增长。因此可以采用NetApp 统一存储平台FAS 存储系统,在同一台设备上既可提供基于文件(File)的NAS 服务,同时又可提供基于磁盘块(Block)SAN 的服务(FCP 和iSCSI),集SAN/NAS/iSCSI 等多种存储服务于一身。 图15-51 NetApp 解决方案图示     如上图所示(图15-51),NetApp FAS 系列存储服务器提供统一存储平台,既可以提供SAN 的服务(FCP 和iSCSI),同时又可以提供NAS 服务。     15.4.2.1 方案概述     如图(图15-52)所示,我们可以在总部配置一套NetApp FAS 核心存储设备,同时提供文件服务(NFS 和CIFS)和iSCSI 磁盘服务,主要服务器及存储设备均通过千兆链路接入核心千兆交换机。核心业务如数据库服务器、email 和OA 系统中的Unix 系统可以通过NFS访问存储数据,Windows2000/2003 服务器则可通过CIFS 或iSCSI 方式访问存储。 图15-52 NetApp 的存储和备份     FAS 系统中可以为每个卷保留255 个快照备份(snapshot),客户可以根据业务的需要定义snapshot 的日程表,以保留不同时间点的系统数据。     离线备份包括两部分:各服务器操作系统和本地数据的备份和存储设备数据备份。因此存储工程师可以配置一台独立的备份服务器作为备份控制台,FAS 上的数据可以利用NDMP通过直接与带库相连的FC 或SCSI 通道备到带库上,流量无需经过前端网络和服务器,即所谓LAN-Free 和Server-Free 备份。服务器操作系统和本地数据则可通过备份服务器备到带库。     对于远程的分公司可以选用较低端的FAS 作为本地存储,利用NetApp 独有的SnapMirror 可将数据远程备份到总部,实现异地容灾和数据共享。     15.4.2.2 产品选型     NetApp 的存储产品产品线如下(图15-53): 图15-53 NetApp 产品线     所有NetApp 产品均采用统一的DataOntap 操作系统,FAS 系列从2TB 到64TB,性能满足不同客户要求,可以根据不同容量和性能要求选择相应的型号。     本次方案的数据存储选用Network Appliance (NetApp)公司性价比极高的FILER FAS270 系列存储器服务器。FAS270 存储是NetApp 公司一款企业级的存储产品,高性能和高可用性使得这一型设备可以满足高度密集的数据访问要求,根据第三方评测机构(SPEC)的测试结果,此存储在NAS 评测性能上可支持每秒并发8000 个网络文件操作,而每一处理的响应时间仅为1.41 毫秒为业界响应最快的存储产品。NETAPP 在业界中提供独树一帜的SAN/NAS/iSCSI 一体化解决方案,在同一FAS270 硬件结构中可同时进行数据块(SAN 结构)和网络文件(NAS 结构)的双重访问服务.而实现方式简便易行,只需针对不同应用灵活采用网络接口或光纤接口分别连接网络交换机或光纤交换机与前端服务器配合即可实现。     SAN/NAS/iSCSI 一体化的特点为业界首创,且至今无其他厂商可以达到,此功能的实现大大节省了用户的投资成本并提高了存储使用的效率。     FAS270 系统主要技术参数: 1. 容量,FAS270 存储支持6TB 的磁盘容量,初始可配置裸容量3TB,满足当今的数据容量要求 2. 高效,在1 个物理卷中最大可支持到6TB 的数据量 3. 可用性,FAS270C 群集存储系统能达到99.999%的可用性,随着应用和业务的需要可以轻松扩展到F900 系列的Cluster 架构 4. SAN 连接,通过直连或Fiber Channel 的Switch 组成一个高可用的SAN 环境,物理和应用上做到了完全的容余,没有任何的单点故障 5. 支持iSCSI/NAS 访问,最大扩充至4 个千兆网口,可以灵活进行网络配置; 6. 易于实施,FAS270 存储存储系统30 分钟完成安装、配置; 7. 数据备份能够采用NDMP 模式即LAN-FREE 方式,磁带库直接连接在FAS270 后面,备份时通过NDMP 协议数据直接从Filer 到磁带库,无需经过网络,也不需要服务器的处理,也可以连接到SAN 的交换机上, 实现Server-Free 的备份, 企业可以集中备份作业,速度和效率大大提高。 网络存储导论第15章:Netapp产品分析(4) 15.4.2.3 文件与磁盘服务     由于目前阶段主要是SQL 数据库和文件服务,考虑NAS 和iSCSI 两种实现方式。对SQL服务器,存储工程师可以采用iSCSI 方式。如下图所示,NetApp FAS 可以作为iSCSI 的目标节点,提供ISCSI LUN 服务,Windows 2000 /2003 服务器只需从微软下载一个iSCSI 的驱动程序(Initiator),即可将Filer 上的iSCSI LUN 连接到本地,作为本地硬盘一样使用。也可在服务器上安装iSCSI HBA 卡,用硬件ASIC 芯片处理iSCSI 协议,从而提高存储访问的性能,降低服务器的开销。 图15-54 NetApp 磁盘与文件服务     此外,为了满足2D3D 图像文件服务的要求,FAS 还可作为一台CIFS 文件服务器加入原有Windows2000 /2003 的域,其他域内用户访问Filer 必须首先通过域内的AD 认证,对Filer 上的共享管理和授权可以完全通过Windows2000 / 2003 的Active Directory域用户和计算机管理来完成。     15.4.2.4 系统扩展     NetApp FAS 存储系统具有无可比拟的扩展性,允许在线扩盘,在线软件升级。FAS270可以平滑扩展到6TB,如果容量需求超出6TB 的极限值,则必须升级到更高级别的产品。由于NetApp 所有产品线均采用相同的操作系统,硬件平台的升级同样简便,只需更换机头,没有任何数据迁移工作,因此没有任何风险。     15.4.2.5 数据的备份/恢复,归档,和容灾     数据的备份/恢复、归档和容灾采用NetApp 独有的的Snapshot, SnapMirror 和SnapRestore.技术,大大提高了数据的可靠性,降低了数据维护的成本。Snapshot 可以在1秒钟内生成一个卷的系统快照,SnapRestore 将TB 级的数据恢复时间缩短为分钟级,NetApp内置的SnapMirror 提供了一种简便高效的基于IP 网络的远程容灾备份/恢复手段。更详细的描述请参见015.4.3.8 数据备份/恢复,归档,和容灾。 图5-55 NetApp 系统备份示意图     在线备份可以利用NetApp 的snapshot 技术为每个卷创建多达255 个备份,随时可以将系统恢复到快照的某时间点。     离线备份采用NDMP 以LAN-Free,Server-Free 的方式将FAS 上的数据备到带库上。各服务器的操作系统和本地数据则通过备份服务器备份。     为了实现数据的远程传送和容灾保护,可以利用NetApp 的SnapMirror 技术实现快速远程备份。     15.4.2.6 系统管理--FilerView     Network Appliance 提供远程管理开放存储网络的有力工具。每台Filer 上都有FilerView 工具,使 IT 管理员利用Web browser 访问统一的、易用的图形界面 (GUI) ,进行日常的filer 管理工作。     管理员可以随时随地,利用任何平台远程管理NetApp filer,不会影响到关键业务的运行。NetApp filer 安装完成后,管理员可以有效地监控状态,扩充容量,改变文件系统的配置,等等。管理员可以扩充volume 或在NT Domain 中新建Common Internet File System (CIFS) share,而不会影响到数据访问。     FilerView 作为Filer 管理的常用工具,十分简便地引导管理员完成Filer 和Filer的部件的安装和配置任务。不需要学习任何命令行或语言,只需 Web browser,管理员可以通过轻松的点击屏幕完成任务。     如下图,左边的导航树可以随时指引、现实各项工作。安装、配置、监控、修改Filer和文件系统,得到加速、简化,而且不易出错。 图5-56 FilteView 图示     安装和设置Filer     FilerView 将安装减少到只有简单的几步,为Filer 从Console 或者DHCP 服务器分配IP address 后,利用Setup Wizard 迅速可以完成基本的配置。Setup Wizard 提供间接明了的输入界面,并且指示filer 在设置生效前动态地测试所选的参数。     配置Data ONTAP 服务     FilerView 基于Web 的方式避免了用户使用难记的command-line 界面,从一个GUI界面里,管理员可以对所有的资源和服务管理、配置、生成报告。     文件系统. Disks, volumes, Qtrees, 和 quotas (NFS 和 CIFS)     数据保护. Snapshot. 和 SnapMirror. 工具集,Network Data Management Protocol(NDMP)     高可用性. 集群和互备软件     网络. 接口卡; HTTP, DNS (Domain Name Server), 和 NIS servers (Network     Information System)     管理. 安全设置, AutoSupport 和 SecureAdmin. 软件, SNMP 工具集,资源监控工具。     生成文件系统。一台filer 安装好, Data ONTAP 服务配置完成, FilerView 提供文件系统生成和管理的帮助。FilerView 的功能可以简化下列任务:     生成 UNIX. 或 Microsoft. Windows 文件系统     设置每个文件系统的quotas(配额,容量上限)和最大文件数量     显示生成的卷(volumes)和参数,按需要迅速调节     随时得到实时的统计数据,例如,卷使用百分比,可用容量,在用容量等。     管理和配置Qtrees,卷内的逻辑文件系统。     定义、调整、监控用户、组、Qtrees 的配额;按照分配空间和文件数量限制使用     管理访问服务     管理员利用FilerView 可以配置网络文件访问服务, NFS 和CIFS 。UNIX 和 Windows文件系统可以根据用户设置相应的访问:     配置服务     察看活动的session, security, 和统计statistics     审计     激活、报告、管理share 或者文件系统的使用     控制和监视文件系统     重新启动、关闭filer ,或者开启/关闭Data ONTAP 服务。     FilerView 可以开启/关闭NFS, CIFS, HTTP, 和其他的各种服务。用户定义的SNMP trap 可以自动监视特定的参数。当某些情况发生或者参数超过某些阈值时自动生成消息通知管理员。 网络存储导论第15章:Netapp产品分析(5) 15.4.3 NetApp 的技术特点与优势     NetApp 的存储产品Filer 提供简单、快速、可靠、可扩展的数据管理解决方案,解决数据共享、数据保护、数据管理等一系列问题。Filer 使用了高效率的Data ONTAP 操作系统,该系统是专为集成Windows、UNIX 和WEB 数据设计的,其中的WAFL 文件系统与硬件紧密结合,在无需复杂配置和人工调优的情况下,提供异常迅速的响应速度和很高的吞吐量。     在Data ONTAP 系统集成了Snapshot 快照功能,有效解决在线备份、复制、恢复、Pointin Time 拷贝。NetApp 的Filer 从小到大,容量和性能不同,而使用方式是一致的。 型号 容量 使用环境 FAS250 2TB 入门级 FAS270 FAS270C 6TB 部门级 FAS920 FAS920C 6TB 12TB 企业入门级 FAS940 FAS940C 12TB 24TB 企业级大型应用 FAS960 FAS960C 24TB 48TB 企业级数据中心大型应用 FAS980 FAS980C 32TB 64TB 企业级数据中心大型应用     数据在Filer 上,服务器运行应用程序,通过SAN/NAS/iSCSI 访问Filer 上的数据,使得数据与应用管理分离,从而提供更加快速、简单、可靠的数据访问。     15.4.3.1 Appliance 结构的存储系统的优点     Appliance 是指能很好完成特定功能的设备。网络上有许多常用的服务通过Appliance方式实现,不再通过软件加通用计算机的方式。例如,Cisco 公司和北电的专用的路由器几乎取代了所有计算机包转发的服务,虽然早期的路由都是用计算机处理的。     Appliances 设备易于使用,更加可靠,而且具有比通用计算机更好的性价比,所以得到广泛的使用。这些优点是由于Appliance 只需要完成特定的任务,可以针对特定的功能进行更强的优化,不会像通用计算机系统需要在很多(有时是矛盾的)要求下进行折衷。     Network Appliance 发明了network storage appliance ( filer) ,Filer 上不运行应用程序,只是提供UNIX 或 Windows .服务器所需要的数据。     Filer 作为appliance 具有下列优点:易于管理、高性能和性价比、高数据和系统的可用性、快速部署和升级能力,以及低Total cost of storage ownership。     轻松管理     Filer 的可管理性是一方面是由于去除了操作系统与数据服务无关的部件,例如,打印、图形、API 等;另一方面集成了许多必须的功能,不需要额外的软件工具,例如,Filer 的文件系统可以在增加新磁盘时自动成长。这样就去除了划分磁盘驱动分区的复杂性,去处了将分区分配给不同用户的复杂性。逻辑分区可以在线动态增减,微内核的升级不用3 分钟就可完成。     Filer 利用SnapShot 简化了备份,Snapshot 是整个文件系统在线的只读拷贝。Snapshots 可以在一天的任意一些时间自动或手动生成,用户无需系统管理员的帮助就可以通过NFS 或CIFS 访问SnapShot 来检查和恢复他们过去版本的数据,Filer 可以即时完成Snapshot,而且除非文件删除或发生变化,否则不消耗额外磁盘空间。     虽然与传统方式相比Filer 所需的管理工作已经微不足道,Filer 仍然提供多种方式的管理工具。基于Web 的图形界面 (FilerView.) 提供简单易用的全方位的Filer 管理,Windows 系统管理员利用他们熟悉的工具管理针对Windows 的任务, Server Manager ,User Manager for Domains 等。对于喜欢命令行的人提供了类UNIX 的命令,只需50 条命令,这些命令包括数据管理和网络管理,例如, ping, ifconfig, exportfs, 和 nfsstat, 还有一些一般命令,date, uptime 和passwd. 命令行界面可以通过console 或者TELNET访问。     多个Filer 可以通过NetApp 提供的DataFabric Manager 统一管理,或利用Openview和Tivoli 等网络管理工具利用SNMP 进行管理。     性能/价格比     Filer 采用十分精巧的实时微内核,标准的硬件平台,以达到最佳的性价比。通过省略不必要的模块达到高性能,例如,virtual memory, graphical window systems, 和一些本地应用。软件优化相对于才用采用复杂高昂的硬件结构更为有效,复杂的结构会导致成本增加和可靠性的减低。由于Data ONTAP.软件从底层到数据服务的整体优化,Filer 具有很高的性能和性价比。     系统和数据的高可靠性     Filer 的Appliance 方式增加了数据的可用性。通用计算机系统需要支持太多不同的功能和应用,所以没有可能测试所有的使用方式。而Appliance 却可以进行彻底的测试,而且简明的硬件结构减少了故障点。     Filer 利用RAID (Redundant Array of Inexpensive Disks)技术保护数据,Filer 可以两分钟内重新启动,进一步减少了宕机时间和系统升级和安装时间。     Filer 的重要的软件功能也增加了数据可用性,     Snapshots 用于文件的即时恢复     SnapRestore. 用于整个文件系统的即时恢复     SnapMirror. 用于数据复制和容灾     Appliance 方式与常规存储系统相比也极大减少了计划停机时间。例如,扩容,升级、维护、备份等的停机时间。     快速安装和扩展     Filer 可以在30 分钟内完成安装,而且一开始就是有RAID 支持,避免系统管理员花费几个小时建立RAID group 和volume。通过一条命令就可以把磁盘添加到任何文件系统中,增加存储无需停机,而且对正常作业和性能没有任何影响,可以动态增加服务器,工作较传统的SAN 方式大为简单。     低总拥有成本     Appliance 结构使得存储的总运营成本最低,较低的初始采购成本,特别低的运营成本,例如,     3 分钟的升级时间     1 条命令即时扩充文件系统     最少的 RAID 管理工作     无需通过磁带就可以恢复删除的文件,(Snapshots)     文件系统可以迅速恢复到以前的某个时间点     迅速地从应用程序失败的问题恢复 网络存储导论第15章:Netapp产品分析(6)  15.4.3.2 Filer 的系统结构     Filer 由控制器机头和磁盘子系统组成。机头通过光纤通道接口连接磁盘SAN 子系统,通过网络接口提供数据到应用服务器,机头的接口数量通过PCI 插卡扩充。磁盘子系统由可以堆叠的磁盘柜组成。     Filer 的基本软件结构如下图(图5-57)所示,一些紧密耦合的处理模块处理NFS,CIFS, 和 HTTP 请求。一个请求从下方的网络驱动开始,经过网络协议层和文件系统,向上到达磁盘I/O ,当文件系统完成了请求,它把请求送回网络。这些模块建立在一个简练的real-time 内核上,提供产生进程,内存分配,消息传递和中断等基本处理。     网络层支持TCP/IP,与UNIX 系统相比,为Filer 的文件服务进行了优化,以增加Filer文件系统通讯的效率。     WAFL., Filer 的文件系统,是专门为通过网络提供文件服务而设计的,而且与Filer的RAID 配合设计,解决常规操作系统由于RAID 而引起的性能问题。 图 5-57 Filter 基本结构     15.4.3.3 WAFL - Write Anywhere File Layout     Filer 文件系统是经过重新设计的,而不采用常规文件系统,是为了达到三个主要目标:     文件系统应当和RAID 高效协同     文件系统可以在新增磁盘时动态扩充     文件系统无需进行费时的一致性检验     而且,由此产生了支持Snapshot 的要求。     在一些方面WAFL 的磁盘格式与其他UNIX 文件系统类似,例如, Berkeley Fast File System 和 IBM TransArc Episode file system。.其中:     WAFL 是基于块的,使用连续的4KB block     WAFL 使用 inode 来描述文件     目录是特殊格式的文件     WAFL 利用文件保存元数据(meta-data),数据存储的控制信息,WAFL 的三个最重要的元数据,分别是inode file (包括所有的inodes), 空闲磁盘块的位图文件,空闲inode 的位图文件。将元数据以文件方式组织,可以将元数据块写到磁盘的任何位置,这就是WAFL(任意写文件系统)名称的来源。由于没有特定数据写入特定磁盘区(例如0 磁道)的要求,WAFL 可以完全控制其写操作的空间分配策略。Windows 和UNIX 的FFS 文件系统却不是这样的。     WAFL 利用了这种灵活性优化Filer 的RAID 的写操作性能,在IO 中write 优化的文件系统是十分重要的,因为写操作必须更新到磁盘或者NVRAM(不掉电内存),而读可以在UNIX/Window 用户和服务器的内存里进行Cache 缓存。一般 UNIX 和Windows 服务器的写操作数通常有5 到10 倍的读操作数。     15.4.3.4 Snapshot 介绍     Snapshot 功能是WAFL 的随意写带来的另一个功能。Snapshot ,也叫“快照”,是文件系统在线的(随时可以访问),只读的“拷贝”, Snapshot 只需几秒钟就可以生成,如果文件未被改变或删除就不占额外空间,或者说只有当文件系统的变化,变化部分会写入新的磁盘空间,这时,快照消费额外空间。     快照可以用于在线备份,并且使用户可以自己进行文件恢复操作。简化了备份到磁带的作业。由于快照是整个文件系统的只读的拷贝,是当前文件系统的具备自身一致性的备份,所以无需关机或使当前文件系统离线,系统管理员可以将快照备份到磁带机上。 图5-58 Snapshot 的生成     上图(a)示意了一个简化的文件系统,一个指针指向文件对应的磁盘块,(b)示意通过指针结构的复制生成了快照,(c)示意当块C 被修改,修改后的值存入新块,C’,当前文件系统指向C’,而快照仍保存了文件系统在拍快照时的状况。     WAFL 通过复制指针数据生成新的快照,由于该结构只有128Byte 大小,而且没有数据磁盘块需要复制或者移动, 除非当前文件系统的数据发生变化,快照步需要占用额外的磁盘空间,而且快照可以即时生成。     Filer 可以为每个文件系统在线保留255 个版本的快照。可以手动生成或删除快照,也可以根据用户定义的日程自动生成和删除。Snapshot 占用的空间取决于用户数据变化的频率,可以通过指定快照占用空间的大小。一般17%的额外空间就可以保留整个文件系统的多个版本的快照。     用户访问快照的方式     文件系统的每个目录都含有一个特殊的子目录,表示快照,通过对它的访问,用户可以得到以前的数据。假如用户以外删除了名为foo 的文件,希望从快照里把它恢复出来,下面例子现实如何在UNIX/NFS 下察看以前的文件并进行恢复。     % ls -lu .Snapshot/*/foo      -rw-r--r-- 1 hitz 16787 Jun 16 15:00 .Snapshot/hourly.0/foo      -rw-r--r-- 1 hitz 16744 Jun 16 12:00 .Snapshot/hourly.1/foo      -rw-r--r-- 1 hitz 16811 Jun 16 10:00 .Snapshot/hourly.2/foo     三个Snapshot 中含有文件 foo。 -u 选项通知ls 命令列出foo 文件的生成时间,也就是拍快照的时间。如果要恢复,只需要将要恢复的文件copy 回来到foo 所在得目录就可以了。     % cp .snapshot/hourly.0/foo .     Snapshot 的目录是隐藏的只读目录,这样平常的操作不会受影响,而且不会被修改。 网络存储导论第15章:Netapp产品分析(7) 15.4.3.5 磁盘数据的一致性检查点和NVRAM     WAFL 最长每10 秒就会生成一个内部快照,成为一致性检查点,所以在磁盘上会有一个完全具有一致性的文件系统版本,当filer 启动,WAFL 总是是用在磁盘上最新的检查点,所以Filer 避免了费时的文件系统校验,File system check, 使得即使意外掉电或者系统故障时,也不必进行file system check。 Filer 只需要2 分钟的硬件自检就可以重新完成启动。     Filer 使用电池支持的不掉电RAM (NVRAM),避免丢失任何发生在检查点后的NFS/CIFS请求,正常关机时,Filer 关闭NFS/CIFS 服务,将所有缓冲在NVRAM 的请求刷新到磁盘后关闭NVRAM。当filer 故障后重启动,它将replay 所有保存在NVRAM 中的没到磁盘的NFS/CIFS请求。     使用NVRAM 保存没有commit 到磁盘的请求,与一些UNIX 使用NVRAM 作为disk cache有很大的区别。当在磁盘层面上使用NVRAM ,其中可能包含影响一致性的重要数据,如果NVRAM 出问题,文件系统会不一致,即使使用fsck 也无法恢复。     WAFL 还使用NVRAM 作为文件系统日志journal,而不是需要变化的磁盘块的缓存(Disk Cache),所以WAFL 极为有效地利用了NVRAM 的空间。例如,一个请求,让文件系统生成一个新文件,可以用几百个字节信息表明,而磁盘上却需要改变十几块的信息。由于WAFL 使用NVRAM 保存操作命令日志,而不是这些命令的结果,NVRAM 可以保存几千个操作的日志。     15.4.3.6 Filer 的RAID     Filer 使用了一种RAID 4 设计来保护数据避免受磁盘故障的破坏。然而与一般的RAID4 和 RAID 5 实现不同,一般的RAID 实现结构没有考虑文件系统的结构和活动方式。     WAFL 的 RAID 4 实现,是与文件系统的设计紧密优化的。 通过将文件系统和RAID 层结合考虑, NetApp. RAID 的设计提供了所有RAID 校验保护的好处,克服了常规的RAID 5带来的性能损失。另外, WAFL 的 RAID 4 设计不像RAID 5 那样将数据和校验数据交织到每个盘,整个系统可以在有RAID 的时候仍然可以迅速简便地扩充。     通过RAID 4, 如果一个磁盘有损坏,利用RAID 组里的校验盘可以重新计算出损坏磁盘上的数据,其 block 映射到磁盘上的新的位置。如果整个磁盘损坏,校验盘也可以保护数据不丢失,当故障盘重新替换,所有内容通过校验盘自动重计算。     RAID 4 阵列使用一个磁盘专用于校验,其余用于数据。每个磁盘由4KB 的 block 组成。一个条带,stripe,由每个数据磁盘的一个block 和校验盘的一个block 组成。     最常用的RAID 级别有0,1,3,5,RAID0 是划分为条带,由于没有校验区,所以无容余纠错能力。RAID1 是简单地镜像,所有数据复制在另一粒盘上,RAID 1 很安全,但是需要两倍的磁盘容量。RAID 3 类似 RAID 4, 专门一个盘用于校验,但是RAID 3 的条带太小,一个读写操作就可能跨阵列内所有的磁盘, RAID 3 适合单个大文件很高的速率要求,例如超级计算,和图像处理,但对于多用户应用产生的不相关的读写表现很差。而RAID 4 改进了这一点。     RAID 5 类似 RAID 4,但是在所有磁盘中循环安排数据区和校验区,第一个条带的校验区在第一块盘,第二个条带的校验在第二个盘,等等。主要的优点是防止校验盘成为瓶颈。缺点是在RAID 5 array 中增加一个盘很不实际,扩容时需要添加一个新阵列。例如,如果在RAID 5 实施时每个阵列使用7 个disk,通常扩容时每次增加7 个盘。     大多数用于UNIX 和Windows 环境的外设避免使用RAID 4,因为使用通用的文件系统,校验盘会成为瓶颈。另一方面,WAFL file system, 利用其随意写的布局写磁盘,使用RAID4 的磁盘却十分高效。     以UNIX 的文件系统为例说明WAFL 如何与通用的文件系统不同。通常的UNIX 使用FFS(the Berkeley Fast File System) ,该文件系统的设计针对一次写一个文件进行优化,所以不同文件的块写到磁盘上很分散的位置。FFS 在阵列里写入3 个不相关的文件时的块分配的位置,每个数据盘写只有2 次,而校验盘却要写6 次。更致命的是,校验位的写十分分散,导致很长的寻道时间。     这是由于 Berkeley FFS 不知道下层的RAID 4 的布局,往往会生成在数据盘上分散的磁盘写请求,导致校验盘过长的寻道时间。WAFL 的写方式被设计成最小化校验盘的寻道时间。WAFL 总是把写相邻条带的block,减少校验盘的寻道时间。WAFL 还尽可能地写同一条带的多个块,进一步减少校验盘的流量。     15.4.3.7 Appliance 方式的优点     通过Appliance 方式的设计,以网络为服务器提供数据,使得NetApp 可以提供一种传统的存储方式,以及基于UNIX 和NT 的系统无以比拟的存储管理 · 快速而简单的系统安装 · 快速的重启,即使在掉电或者系统故障停机后 · 通过增加磁盘在线扩充分区 · 快照提供简单的备份方式 · 简单的管理,50条命令     这些特点,以及Appliance方式带来的高性能和高可用性,使得Filer成为十分易用且性价比很高的产品。 网络存储导论第15章:Netapp产品分析(8) 15.4.3.8 数据备份/恢复,归档,和容灾      Snapshot 技术从根本上改变了对数据的备份/恢复、归档的操作方式。      备份数据可以保护由于用户误操作或者硬件故障造成数据丢失,对数据归档(archiving data )可以生成完整的具有一致性的数据集合的副本,用于将数据恢复在线到将来的某一个时间。备份保护免于故障,归档可以使业务暂停并恢复工作(可以在另外的地点)。      从backup 的数据中经常会只需恢复某个文件或某个目录,而不必进行整个文件系统的恢复。 而归档archive 往往要完整地进行恢复。容灾 Disaster recovery (DR) 和备份和归档的特点类似,用于防止故障,更强调灾害、整个建筑灾难的情况。类似归档,DR 的数据必须具有一致性,使作业可以在容灾点继续。      对数据备份可以包括对项目的归档,在另一地的项目归档可以用于从灾难恢复。      备份和归档最重要的问题是速度。当把大量数据备份到磁带或者其他的介质时,由于数据量很大,备份本身就对系统产生了很大的工作负荷,使得系统性能下降,备份必须尽快完成以避免对用户产生影响。所以备份工作一般在下班时间,对于24x7 的环境,则没有下班时间,“BACKUP WINDOW”越来越小。      对备份速度的主要限制是由于磁带机的速度,现代磁带机的速度一般每秒几兆字节,几百GB 的数据就需要多台高速磁带机并行处理。数据的一致性是另一个问题,为防止正在备份的文件被修改,简单的备份程序会锁定文件处于不可写状态,而这只能通过offline或single user mode 进行。      备份程序虽然试图解决在线备份的问题,但是用户仍然面临数据完整和一致性的问题,备份无法保证是可以恢复的。      NetApp 的Snapshot, SnapMirror 和 SnapRestore™提供给系统管理员有力的解决这些问题的工具。 · 恢复Restore      常常因为用户错误而进行恢复,用户经常意外删除、覆盖或其他方式修改了不该改的文件,对于DBA 和SAPDBA,这样的机会特别容易发生。现代系统往往提供了很大的硬件保护,时数据在硬件意外时不丢失。      Snapshot 为用户提供了自己恢复错误的能力,不需要依靠系统管理员从磁带定位,恢复自己的文件。 · 在线备份Live Backup      Snapshot 是当前文件系统的一个只读的、一致的副本,提供了巧妙的解决在线备份的解决方案。在进行备份前,对文件系统拍快照,快照只需一两秒就完成。然后把最新的Snapshot 目录中的数据备份。由于快照目录下的数据只读,永远不会被改变,所以可以保证备份到磁带的数据的一致性,这样磁带备份的速度不会影响数据一致性,因为对当前文件系统的改变不会影响到快照的数据。用户当前的文件系统总是可以读写的,用户的作业不受影响,而备份设备看到在备份前即时做的快照,它稳定不变。      这种随时(在线)生成具有数据一致性的、可以恢复的档案的能力,具有无比重要的价值。 · 数据库备份Database Backup      Snapshot 提供了特别方便的方法对关系型数据库文件( 包括DBM 文件、email/messaging 数据库,如Exchange 和Notes,动态WEB 页面内容数据库,不仅是传统的RDBM,像Oracle, Sybase, SQLServer 等)。      传统的方式在备份前保证数据一致性的方法是关闭控制数据库的应用程序。备份过程往往包括,关闭应用程序,进行备份,重启应用程序,停机时间完全取决于备份的速度,从几分钟到几个小时。进行热备份需要将应用程序、数据库转换为热后备模式,备份完成后再转换回正常运行模式,热后备模式影响系统的性能,需要尽量缩短热后备时间。      利用Snapshot 可以把停机时间缩短到几秒种----生成Snapshot 的时间。操作方式:停应用,拍照,重起应用,把在Snapshot 目录里的内容倒到备份介质,这种备份的数据/归档具有数据一致性的保证,确保应用程序可以立刻使用。      同样重要的一点,这些快照可以保存在线存在很长时间,万一数据库毁坏就可以立刻用来恢复,极大地减少了恢复时间。 · 数据迁移和复制Backup to Disk      磁带设备的速度比较慢,系统的吞吐量执行tar/dump/pkzip 类型的工具只有几百KB/s,硬盘相对快很多,所以在数据中心数据临时dump 到磁盘设备,然后再下带。随着磁盘的降价和性能提高,这种方法越来越流行。      Network Appliance 的 VolCopy 功能提供给用户将数据高速整卷迁移到另一台Filer的方法,速度达到~45 GB/hour。使用VolCopy,用户可以在另一台机器FILER 上生成一个完全一样的文件系统,包括原数据系统的所有Snapshot。复制时目标系统不可用,一旦复制完成目标系统的数据就可在线。VolCopy 提供了一种快速将数据从一个卷迁移到新的位置的方法,可用于升级到新的系统,或者生成一个副本,副本的数据进行磁带备份而不管源数据正在发生变化,或者用于容灾。 · 自动文件系统复制SnapMirror      Data ONTAP(Filer 的操作系统)利用WAFL Snapshot 功能提供了自动的文件系统级的复制功能:SnapMirror。通过SnapMirror 技术,一个源filer 可以将一个或多个文件系统复制到伙伴Filer,使伙伴Filer 上的文件系统与源Filer 的自动生成的Snapshot 同步。伙伴Filer 可以分布在任何地方,可以在同一大楼或者地球的另一边,只要源和目的之间有网络连接和复之数据需要的带宽。      SnapMirror 在WAFL 里的对block 进行操作,效率很高。文件系统是由磁盘中的块组成的,Snapshot 文件系统一个固化的版本,表示文件系统拍照时的状态。      WAFL 利用内部的块映射表(block map file)记录了哪些块属于哪些不同的Snapshot,block map file 记录每个BLOCK 是否属于当前文件系统或是某个快照。 如下表,BLOCK 28854的数据在Active File System 和Snapshot 1 中,而snapshot2,3,…20 都没有用这块。      WAFL block map file 使得SnapMirror 很容易确定两个Snapshot 的数据变化(增量),例如上表, block 28856 不在Snapshot 1, 却在Snapshot 2。.假如Snapshot 2 在Snapshot 1 之后拍的, block 28856 一定Snapshot 1 拍完后假如到Snapshot2 的,而 block 28854在Snapshot 1 里,但Snapshot 2 里没有,所以是Snapshot 1 拍完后删除的。通过比较两个快照的不同, SnapMirror 可以十分有效地顺序将变化数据复制到另一台设备。      SnapMirror 复制开始时,目标Filer 安排源Filer 拍快照"Snap A",建立与源Filer的TCP 连接,开始传输"Snap A" 文件系统的块。      数据传输完成后,目的Filer 上的数据十完整的、具有一致性保证的,而且完全等于"Snap A" 文件系统,包括与SnapMirror 无关的“Snap A”快照时的SnapShot 的信息。目标Filer 上的数据可以被用户只读访问。当“Snap A”传输时,源Filer 上的数据也正在发生变化,然而 WAFL 的 copy-on-write 策略保证了所有变化数据在传输期间写入到新的“Snap A”以外的block。      为了保证目标Filer 自动复制源Filer,变化的块也要传往目标Filer。目标filer 安排源filer 进行另一个Snapshot,"Snap B",然后建立另一条TCP 连接传输两次快照期间变化的数据。      当目标Filer 接受完成SnapB,其数据是具有数据一致性且等于源Filer 的SnapB,SnapA会被删除,新一轮传输又再启动。      SnapMirror 通过在目标Filer 上的一个简单的配置文件控制, /etc/snapmirror.conf, 设定Snapshot 的发生间隔和数据传输的时间。 该文件包含下列格式的命令行:      srcfiler:srcvol dstfiler:dstvol schedule      srcfiler, srcvol, dstfiler 和dstvol 分别代表source filer, source volume,destination filer, 和destination volume 的名称。管理员利用后面的变量值控制复制传输的特性。例如throttle value,阈值,限制Filer 间的数据传输最高带宽kilobytes per second。      Schedule 参数由4 个独立变量组成,minutes,hours,days of the month,和days of the week,表示传输发生的时间。      例如, /etc/snapmirror.conf 如下的一项:      sf:sv df:dv 2000 30 8,12,16,20 * 1,2,3,4,5      将使得目标volume 在 8:30am, 12:30pm, 4:30pm 和8:30pm, 每周一到周五,进行同步,阈值是2000 KB/S 或2 Megabytes/Second,两台filer 间的最大数据传输带宽。*表示所有的月。      srcfiler:srcvol dstfiler:dstvol - * * * *      指示目标卷尽快与源卷同步,-表示以网络允许的最大带宽传输。      在源Filer 上的配置文件/etc/snapmirror ,控制只有指定的Filer 才可以进行复制。提供复制的安全性。 网络存储导论第15章:Netapp产品分析(9) 恢复整个文件系统SnapRestore     在一些情况下需要完整地恢复以前保存的数据,当发现数据库corruption 时,就需要这样的恢复。在NetApp filer 上,Snapshot 使得一个volume (或称file system) 的数据冻结在某个时间点上, SnapRestore 使文件系统回到以前的某个Snapshot 的状态。     在NetApp 这种独特的功能以前,完整恢复文件系统的两种方法:     从磁带进行完整的restore     从Snapshot 把所有内容拷贝回来     这些方法比简单地进行卷的回复,需要更多的时间和工作, SnapRestore 不需要拷贝任何文件,它把文件系统回复到以前的状态,只需要几秒钟的时间。     当需要回复的数据不多,可以很快直接从Snapshot 里拷贝回来。而在很多情况下,这个功能十分有用。     数据库管理员面临的重要问题是备份需要的时间,特别是恢复需要的时间,在一些宕机的情况,恢复毁损的数据库需要几天的时间,如果数据库保存在NetApp 的Filer 上,就可以极大减少,甚至消除宕机的时间。     数据库程序可以有计划地周期地stop 或hot backup,Filer 拍快照,只需要几秒钟的时间,数据库就可以恢复正常工作,快照里保存了数据库的具有一致性的内容,进行磁带备份或者利用Snapmirror 传到容灾点。     快照完成后可以立刻用一些工具进行检查,如果一切正常,系统管理员可以这些数据可以备份或复制,而且回复后可以正常工作。许多时候,系统管理员会发现备份时数据库数据已经毁损,在恢复时才发现。Filer 减少了这些风险。     管理员可以不断进行在线备份,当问题发生时,Filer 上有问题发生前一个小时内的版本,从这个版本进行回复。这要比从磁带未验证的数据回复快速许多。     对数据库的LOG 和DATA 分别进行Snap 操作,当问题发生时:     如果数据库仍在运行,停止数据库     选择以前的一个包含正确数据库数据的Snapshot     所有在选定的快照以后生成的archive log file 拷贝到另一个卷临时存放,防止被SnapRestore“回复”这些内容     用SnapRestore 回复卷的内容     将archive log 复制回到卷     数据库重启,根据LOG 进行 roll forward     以上操作可以在5 分钟内恢复正常工作。参见NetApp white paper "Oracle8 for UNIX:Backup and Recovery Using a NetApp Filer"。     SnapRestore 在测试环境也提供很大的效率。在协同软件开发过程里,通常要建立基本的测试环境,运行测试,检验结果,经常要重新生成测试环境,进一步测试。利用SnapRestore,一旦基本测试环境生成,无论其多大多复杂,都可以在3 分钟内重建。   · 磁带备份     利用Dump 和Restore 进行本地磁带备份     Network Appliance Filer 可以通过本地执行 dump 和 restore 命令将数据备份到磁带机, Dump 和restore 内含在Data ONTAP 中, 可以被基于NDMP 的备份软件访问,对企业范围的多台filer 进行备份。     Dump 以archival 格式将数据写入备份介质,可以通过Filer 进行restore,或者通过Sun® Solaris® 用ufsrestore 恢复。Dump 可以对volume, quota tree (qtree), 或任意directory 进行备份。Restore 可以恢复volume, qtree, directory, 或单个file。     第三方的基于 NDMP 的 Backup-and-Restore 解决方案     NDMP (http://www.ndmp.org/) 是用于集中控制企业范围数据管理的协议,使得备份软件厂商不需要将客户端代码移植到Network Appliance filer 上就可以提供对其支持,一个支持NDMP 的备份方案将备份/恢复的控制信息从数据流和备份介质分离,通过调用 Data ONTAP 软件的dump 和 restore 控制数据从Filer 备份和数据恢复到filer。     基于NDMP 的方案提供LAN-FREE 和ServerFREE 的备份方式,这些产品可以控制filer把数据备份到Filer 本地磁带机,不需要把数据送到网络上。     典型的ServerFree 的备份方式:如下图   图 5-59 Server Free 备份图示     典型的LAN-Free 备份方式:如下图 图5-60 LAN-Free 备份方式     Network Appliance 与Legato 合作提出了 NDMP。现在NDMP 已经成为工业标准,主要的备份软件商有: · BakBone® NetVault® (http://www.bakbone.com/) · CommVault® Galaxy (http://www.commvault.com/) · Computer Associates™ BrightStor™ Enterprise Backup (http://www.ca.com/) · Legato® NetWorker® (http://www.legato.com/) · Atempo® Time Navigator (http://www.atempo.com/) · SyncSort® Backup Express (http://www.syncsort.com/) · Veritas® NetBackup?(http://www.veritas.com/) · Workstation Solutions Quick Restore (http://www.worksta.com/)     NDMP 协议支持下面的backup 设置: · 本地将数据备份到Filer 直接连接的磁带机 · 从网络将数据备份到另一台filer 连接的磁带机 · 从网络将UNIX 或 Windows NT server 的数据备份到filer 连接的磁带设备 · 从网络将NetApp filer 的数据备份到UNIX 或 Windows NT 备份服务器连接的磁带设备。     Fibre Channel 和 Gigabit Ethernet Tape SAN 方案     Network Appliance 提供基于Fibre Channel Fabric Tape SAN 备份方案和Gigabit Ethernet Tape SAN 备份方案。都能提供下面的优点。 · 带库资源的共享 · 扩展集中磁带备份的距离 · 将备份对网络和服务器的影响减至最低 · 磁带机 hot-swapping · 动态改变磁带机的配置而无需Filer 关机     下图(图5-61)是Gigabit Ethernet Tape SAN 的配置     Gigabit Ethernet Tape SAN 方式使得多台Network Appliance filer 同时通过千兆网将数据传输到支持NDMP 的一台或多台设备。Filer 共享带库,全部采用经过验证的以太网部件。.     与支持NDMP 的第三方软件配合,利用dynamic drive sharing 技术, Fibre Channel (图5-62)和 Gigabit Ethernet tape SAN 方案使用户可以动态地分配在一个大型磁带库里的驱动器给需要进行备份和恢复操作的filer。因而避免了为每台filer 配备昂贵的磁带机。 图5-61 Gigabit Ethernet Tape SAN 图 5-62 Fibre Channel Tape SAN     利用这些方案,企业可以在不影响Filer 的运行的情况下更换、升级磁带机,磁带驱动器不需要停机就可以动态添加和移除,减少了停机时间。     其它的磁带备份方法:     用户可以利用第三方的基于Windows NT 的 Backup-and-Recovery 方案,例如,     Veritas (formerly Seagate Software) Backup Exec     Computer Associates ARCserve     Legato Systems NetWorker     对Filer 进行备份,详细可参阅白皮书 "How to Integrate a Network Appliance Filer into the Windows NT Backup Model"     用户也可以利用 NFS Mounts 和 CIFS Shares 将所需要备份的数据连接到备份服务器,利用一般的备份程序将内容下带。     Filer 还支持RMT 协议,这个工业标准协议允许Filer 通过网络将数据备份到连接灾其他主机上的磁带设备,远程主机也需要支持RMT 协议。多台Filer 之间可以通过该协议利用一台连接在任何一个Filer 上的磁带机进行备份。 网络存储导论第15章:Netapp产品分析-10 15.4.3.9 高可用性     文件系统专用设备Filer 除了软硬件本身具有99.99%的高可靠性以外,为了消除一些单点故障(如系统主板出错,等),在以低成本、低性能开销、不增加系统复杂度的前提下,将两台独立的Filer 耦合起来,实现一旦一台Filer 因故障而停止运行并且不能重新启动,另一台Filer 立即就可接管这一台Filer 的全部工作,保证系统正常运行。     两台Filer 都与磁盘阵列相连,并处于同一网中,两台Filer 之间用高速、冗余的光纤互连。光纤通道(FC-AL)的硬盘有两个端口,分别与两台Filer 相连。     每个Filer 有自己主管的一组硬盘。正常运行时,两台Filer 各自独立工作,硬盘、风扇或电源出错不影响另一台Filer 的工作。同样,若一台Filer 的软件出错,这也仅仅引起这台Filer 重新启动,不会影响到另一台Filer 的工作。如果一台Filer 发生灾难性故障,即不能重新启动,则另一台Filer 会自动接管原属于有故障的Filer 的硬盘、文件系统、同时将其IP 地址也归为己有。     在整个接管过程中,客户端仅简单地感觉到系统像是在重新启动。所有在系统本身重起过程中,能够保留的状态,另一台Filer 也同样通过接管保留。当然,如果一台Filer 在其重新启动过程中丢失一些状态,如CIFS 锁(LOCK)状态和文件状态等,则在接管后,另一台Filer 也不能保留这些状态。     一旦有故障的Filer 恢复正常运行后,它不会自动地再接管自己的文件系统,这需要系统管理员干预才能实现。系统管理员也可强制一台Filer 交出自己的文件系统,从而可实行计划中的Filer 和硬盘维护工作。     Cluster Failover 主要依靠以下两个方面工作:     其一是WAFL 的特性,特别是WAFL 文件系统的盘上状态(ON-DISK STATE)永远是一致的。这个盘上状态从一个一致点移动到另一个一致点的过程为一个交易,也就是说,要么完成一个状态迁移,要么无状态迁移,因此它永远保持一致。另外,WAFL 在日志文件中记录所有被服务过的、能够转移到非易先性RAM(NVRAM)中的客户请求。日志文件中那些已被转移到硬盘上的客户请求只有在一个盘上状态迁移完成后,才被丢弃。Filer 通常利用这些特征将盘上数据从故障中恢复。当Filer 重新启动时,它只是简单地重新执行在最近(一致性)盘上状态未反映的NVRAM 中的客户请求。     NVRAM 在CLUSTER 中的镜像     其次是互连的特性,特别是互连具有远程内存存取能力(有时也称作非一致性内存存取,或者简称NUMA)。当一个客户请求到来时,Filer 将其记录在它本地的NVRAM 中。     在Cluster 的配置中,Filer 利用远程内存存取特性将日志文件中的记录项拷贝到另一台Filer的NVRAM 中。这个技术的一个突出优点是发送方发送的拷贝极快,几乎不影响到接收方的操作(如,没有包处理过程)。同样,另一台Filer 也会将自己的NVRAM 中的日志记录项拷贝到这台Filer 的NURAM 中。     当一台Filer 不能从互连的光纤通道、网络或硬盘上探测到另一台Filer 的心跳(HEARTBEAT)或I/O 活动,他即认为这台Filer 已出故障,接管过程开始。主要是接管出故障的Filer 的IP 和MAC 地址、文件系统和硬盘,以及后台服务器进程(daemon),并将其使用的NVRAM 中的日志记录项回现。这个技术与Filer 重新启动时所使用到的技术类似。接管后,正常工作的Filer 中的每个后台服务器进程(daemon)具有两个标识符,一个用于本地Filer,另一个用于另一台Filer。 网络存储导论第15章:磁带库产品介绍(1) 15.5 磁带库产品介绍     15.5.1 STK L700E 自动磁带库产品介绍     15.5.1.1 概述     StorageTek L700e 自动磁带库是 StorageTek 公司全新的L-系列自动磁带库产品的一员。L700e 自动磁带库是世界上最早能够本机支持2GB 光纤通道的自动磁带库产品。     采用先进的高性能和高可靠性的机器人、视觉识别、磁带机和光纤通道技术,使其具备无与伦比的高性能,可以确保客户可靠、快速地访问关键业务数据。     L700e 自动磁带库采用的是StorageTek 发明的独特的圆柱型库体结构,它不但增加了单位面积存储磁带的数量,而且可以减少机械手的移动距离,从而提高了自动磁带库的总体性能。L700e 所有关键部件均为冗余设计并可现场热更换,从而保证了整个磁带库系统的可靠性。     L700e 自动磁带库同时混合支持多种磁带机和磁带介质,可以满足用户对性能和容量的不同要求。全新的L700e 自动磁带库提供PTP(磁带传递口),可以将2 个L700e 磁带库的库体互连在一起,有效地将存储容量增加2 倍。L700e 灵活的扩充性能,使客户可以随着业务的增长轻松增加所需的存储容量和处理能力。     L700e 配备了完善的管理软件和微码,不但可以支持 UNIX、NT 和 AS/400 等环境下的应用,而且可以完全溶入系统管理的框架中。利用内置的WEB 服务器和SNMP 代理模块可以将L700e 自动磁带库的管理延伸到企业网络所能到达的任何角落。     L700E 自动磁带库由如下主要部件组成: · 机器人系统   -- 机械手控制器、机械手、智能摄像视觉识别系统 · 磁带存储槽 · 磁带存取口(CAP) · 磁带存取口(CAP) · 磁带机驱动器机架 · 磁带机驱动器 · 控制管理软件等组成。     15.5.1.2 机器人系统     L700e 自动磁带库采用 StorageTek 第 6 代高性能机器人系统,专利的高速旋转移动机械手系统,每小时可以装/卸磁带 900 次,即 450 交换/小时。这意味着,对服务器的任何装载磁带请求,都可以在 4 秒钟之内完成。     L700e 采用基于摄像机的智能视觉系统,这是 StorageTek 公司的专利技术。该视觉系统还配备多重冗余 LED 阵列照明光源,提供照明的冗余。这种视觉系统不但比传统的激光条形码阅读器的速度快,而且具备更高的智能。它可以快速、准确地识别磁带带标和磁带库配置。配合近距离精准传感器,该视觉系统还可以自动地对机械手进行校准,并迅速地识别放置在存储槽中不同类型的磁带,其中包括:     贴有带标的磁带(各种类型)     无带标的磁带(各种类型)     空的存储槽     StorageTek 独特的4D 机械手和视觉系统使 L700e 可以同时读/写所用的系统应用,多种应用共享L700e 提供的大数据存储池。智能的视觉系统使L700e 的机械手具备了高智能的介质自适应技术(AMT),使其可以处理各种类型磁带介质的装/卸带操作,永远不必变换磁带槽、软件或机械手。这种高智能的视觉系统可以极大地提高机器人系统的性能,特别是可以大大地缩短对存放在自动磁带库内的磁带进行清点核对的时间:     核对 216 盘磁带仅为 2 分钟     核对 384 盘磁带仅为 3 分钟     核对 678 盘磁带仅为 5 分钟     这种能力可以使 L700e 自动磁带库大大缩短灾难恢复的时间。     L700e 的机器人系统的机械部件少,可靠性高,并具备免维护能力。其平均无故障交换次数(MEBF) 高达 200 万次以上。L700e 的机械手通常处于闭合状态,在异常掉电情况下,机械手能牢牢抓住磁带,不会使磁带脱落造成磁带损坏。     15.5.1.3 容量配置     单个L700e 具有三种不同存储容量的配置:216、384 和 678 个磁带存储槽的配置。而2 个L700e 通过PTP 互连时,磁带存储槽可达到1344 个、磁带机总数多达40 个、最大非压缩存储容量268TB、最大非压缩吞吐量每小时4320 GB。利用 StorageTek 公司的ACSLS 自动磁带库服务器软件,可以将多台自动磁带库统一管理起来。这样可以做到对存储容量和性能的无限升级。用户可以根据自己的应用对容量的需要,选择相应配置。如果用户的应用在最开始时对存储容量要求较少,用户可先选择较小的配置;随着应用存储容量的增加,用户可以在现场对L700e 磁带库进行扩充直到其最大配置。     L700e 自动磁带库采用专利设计的、非常完善的磁带存储槽,它可以适合存放多种不同类型的盒式磁带。该存储槽具备一定的倾斜角度,使存放在其中的磁带不会滑落。即使是在振动的环境中(如:在地震多发地带、海上石油勘探船上),也能保证磁带不会震落,确保存储在磁带库中数据的安全。     15.5.1.4 磁带机和磁带介质混装     L700e 自动磁带库可以支持一台至最多40 台不同类型的磁带机,包括: DLT7000、DLT8000、SuperDLT、T9840、T9940 和LTO Ultrium。     L700e 还可以支持多种磁带机及介质的混合配置。各种类型的磁带介质可以任意存放在磁带库中的任何磁带存储槽中,多种磁带机可以同时混装在L700e 自动磁带库中。所有磁带机都可以带电热插拔。更换故障驱动器和增加驱动器配置都不会中断 L700e 磁带库的正常运行。用户可以根据其应用的需求特性来选择相应的磁带机技术。如:     需要保障数据的快速存取性能的应用,可以配置 T9840 磁带机。如:HSM (分级存储管理)、大型数据仓库。     需要存储的数据量很大而且要保证存储的高性能,则可以选择 T9940 或 LTO 磁带机。如:大量数据备份和恢复、数字化媒体管理、视频点播。     需要将大量数据存档保留但不要求高传输速率的,则可选择 DLT7000 或 DLT8000 磁带机。     如果用户有多种类型的应用,可以根据应用对容量和性能不同要求来选择多种磁带机的混合配置。     L700e 具备的这种灵活性,可以满足用户不同类型应用对磁带机性能和容量的不同要求。同时也做到了既能承袭已有的技术产品又能支持未来新的磁带机技术产品,最大限度地保护了用户的投资。     在 L700e 的磁带机机柜的上方留有外设安放空间,可以安置SCSI 交换机、光纤通道桥接器、光纤通道 HUB、光纤通道交换机和 UPS 等设备。便于机房的空间管理。     15.5.1.5 盒式磁带存取口 (CAP)     盒式磁带是通过盒式磁带存取口 (CAP) 被送入或退出带库的。L700e 可以配置 1 或2 个 CAP。每个 CAP 可同时处理 20 盘磁带的入库和出库。当盒式磁带被送入带库时,机械手上的智能视觉系统将直接读取贴在磁带背面上的条型码,以便快速分配存储槽并记忆该磁带在带库中存放的位置。如果没有条型码贴在盒式磁带上,通常自动磁带库控制软件会指示机械手将该磁带装入某个磁带机内,以读取其内部带标,并利用带标来记忆该磁带在自动磁带库中存放的位置。     通过 CAP 进行磁带的入库和出库工作,不中断自动磁带库的正常操作。为了方便操作,L700e 的 CAP 配备了 5 盘磁带的磁带匣。 网络存储导论第15章:磁带库产品介绍(2) 15.5.1.6 独立的平台     支持各种计算平台和各种系统管理环境     L700e 自动磁带库支持所有主流的UNIX 和NT 平台。ACSLS 和Library Manager 磁带库管理软件支持L700e 的双库体互连,以及运行不同备份软件的不同主机系统。另外,互连的2 个磁带库配备独立的磁带库控制和数据路径,确保系统的可用性、扩展性、和连接性。     L700e 可以支持许多第三方的存储管理软件,如:     CA Unicenter TNG ASO、ARCserveIT、Alexandria      IBM SMS (HSM, RMM)      Legato NetWorker      Veritas NetBackup、Backup Exec      LXI MMS      HelpSystem Robot/Save     利用 StorageTek 公司的 ACSLS 自动磁带库管理软件,L700e 磁带库可以被各种平台同时共享。L700e 还可以被多种系统管理框架软件来统一管理。如:IBM Tivoli、HP OpenView 和 CA Uniceter TNG。     完善的远程监控和管理功能     做为选件,StorageTek L700e 可以配备内置 Web 服务器 ?C Library Manager 磁带库管理软件。与其它基于主机接口的产品不同,L700e 不需要任何外部服务器,它可以直接通过以太网连接到任何TCP/IP 网络上。L700e 内置的 Web 服务器,使用户通过Netscape或Internet Explorer 浏览器,直接访问磁带库的相关信息。包括: · 存储槽和磁带机活动情况统计信息 · 磁带机和磁带库的配置 · 故障报告     StorageTek L700e 的固件提供完全的远程管理功能,包括对磁带机配置、磁带库配置、微码下载、和远程复位等操作。系统管理员将会非常喜欢嵌入在 L700e 内的 SNMP 代理模块,它使得 L700e 可以直接纳入用户的系统管理框架中,如 IBM Tivoli、OpenView 和UnicenterTNG。这个功能使用户可以从系统管理控制台或异地全面地管理 L700e 自动磁带库,包括对带库运行的监控和异常提示等。即使在系统管理框架软件失效的情况下,用户仍然可以利用web 浏览器来监控磁带库的运行情况。自动磁带库会自动收集性能统计信息,包括: · 机械手对磁带的取/放操作统计信息 · 完成的作业数量 · 清洁带可用次数 · 记录各种错误     用户可以利用这些统计信息来分析和预测 L700e 自动磁带库的运行情况、调整自动磁带库和网络的性能、或更换清洁磁带等。     高可用性、高可靠性和可服务性     L700e 配备了冗余的电源和冷却风扇系统,固件包含了故障监控能力。冗余的电源平时可以均衡负载,当一个电源模块或风扇模块失效时,另一个仍可以保障带库正常工作。故障部件可以在带电工作状态下被更换,而不会中断磁带库的运行。L700e 内的磁带机也可以被热更换。当某个模块出现故障时,L700e 磁带库会自动发出警告。警告的方式可以是电子邮件和寻呼机等多重方式,这样可以及时地将故障的位置和类型通知给维护人员,使设备能够得到及时维修。     StorageTek L700e 支持 TapeAlert 协议,它定义了标准的故障通知格式。L700e 的固件监视驱动器和磁带库的性能统计信息,以便预报可能发生的故障。当磁带机和磁带库的性能参数低于下限时,L700e 磁带库会自动发出警告。     StorageTek L700e 不需要定期维护,不需要润滑和调整皮带的松紧。它采用高度集成化的电路设计,减少了插板,从而提高了可靠性。     L700E 磁带库技术指标     L700E 磁带库技术指标如下表所列: 表 5- L700E 磁带库功能数据 表 5- L700E 磁带库可靠性 表 5- L700E 磁带库物理数据       表 5- L700E 磁带库环境数据      表 5- L700E 磁带库电源      表 5- L700E 磁带库有关认证          LTO 磁带机产品介绍     LTO (Linear Tape Open)是由IBM、HP 和Seagate 公司联合开发的一种新型技术,旨在推出一种磁带格式的“开放”标准。LTO “开放格式” 技术意味着不同厂家提供的带机产品和介质能够相互兼容。LTO Ultrium 是一种1/2"、单轴、线绕式加载磁带机,它具有下述特点:     每盒带具有100-200GB 的大容量;     持续传送速率达15-35MB/秒 (56GB-112GB/小时);      专利陶瓷涂层金属微粒(Ceramic Coated Metal Particle)磁带;      4KB Memory-盒带存储器;      1,000,000 次磁带通过次数;      为服务器进行备份、恢复和归档的理想设备;     通过了磁带股东委员会(TPC-the Tape Partners Committee) 标准组会议的认证。     LTO Ultrium 磁带机是与DLT,SDLT 同类的中档市场产品。      Ultrium 格式的特点     高容量 Ultrium 可使一个压缩盒式磁带具有100-200GB 的本地容量。该盒式磁带小于现有的单轴盒式磁带。     高数据率 Ultrium 为第一代8 信道版本提供了10-20 MB/秒的数据传送速度。为与数据传送速度较慢的系统相匹配,另备有数据传送速度为5-10 MB/秒的4 信道版本可供使用。     广泛的应用范围 在第一代Ultrium 产品中提供4 种不同的盒式磁带容量(10、30、50和100 GB)以及4 信道和8 信道磁头几何分布。容量成倍增长的盒式磁带使该项技术可以与不同应用程序的容量、性能和成本要求相匹配。     开放线性磁带盒记忆功能的功能性因提供多余文件记录及用户定义信息得到增强。外部阅读程序使不将盒式磁带插入驱动器即直接存取多余文件记录及用户定义信息成为可能。     开放线性磁带技术 Ultrium 利用了开放线性磁带技术公认的纠错和数据压缩技术。     适应性 只需要对盒式磁带数据交换需要的特性作出规定,Ultrium 格式保留了适应性。     这种适应性使性能特征、排列要素、可靠性、控制器和界面的实现具有相当大的自由度--同时盒式磁带在不同Ultrium 磁带驱动器之间都可以互换。     一致的伺服系统 伺服系统格式在全部产品的使用期当中都保持一致。这一重要的优越性使生产商能够使投资得到有效的使用。     多源性 多种介质和驱动器来源减少了生产瓶颈,还为原始设备制造商及终端用户的投资提供了保护。     符合性 由独立机构进行的测试促进了对技术规范的符合性。这样缩短了资格鉴定的周期简化了原始设备制造商的未来产品规划。     成熟的LTO2 产品介绍     STK 在选用第三方产品的时候,需要进行严格的性能测试,兼容性,稳定性测试,目前STK已经按照测试要求进行测试,目前已经通过测试的成熟的LTO2 包括:     (1),HP LTO2 SCSI-LVD 驱动器,      (2),IBM LTO2 FC 驱动器,     同时,存储工程师正在严格测试IBM LTO2 SCSI 驱动器和SEAGATE LTO2 SCSI 驱动器,估计在今年三季度初推出该成熟产品.正如对LTO1 驱动器的支持一样,StorageTek 将一如既往地支持LTO 系列的三个生产厂家(HP,IBM,SEGATE)的全部LTO 换代产品.     现将现有比较成熟的HP-LTO2 和IBM-LTO2 的相关性能指标对比如下:     Ultrium LTO2 技术规格     Ultrium 产品系列设计中的可扩展性来自于授权技术的结合与有效利用,从而产生出了技术可靠的移动通路。此种旗舰产品移动通路(8 信道版本)描述了一代又一代产品的改进过程。     LTO Ultrium Gen2 磁带机技术规格: 存储课堂----从系统架构分析光纤磁盘阵列技术 当今世界信息爆炸式的增长,除了给科技与技术的发展带来更大的发展动力外,也给企业的数据存储带来了巨大的挑战。然而,作为企业信息存储系统中的最关键部分――磁盘阵列,很多人未必能说得清楚。        磁盘阵列技术诞生于1987年,由美国加州大学伯克利分校提出。这项技术的核心设计理念是RAID技术。原来的名称是“Redundant Array of Inexpensive Disk”,最初的研制它的目的是为了组合小型的廉价磁盘来代替大的昂贵磁盘,以降低大批量数据存储的费用。同时也希望通过冗余信息的方式,使得单一磁盘失效时不会丢失数据,因此开发出不同级别的RAID数据保护技术,并在此基础上逐渐致力于提升数据访问速度。这个名字后来改为“Redundant Array of Independent Disk”,但仍然称作“RAID”。        经过多年的发展,企业中数据的价值越来越高,而承载这些数据的磁盘阵列也越发受到用户的重视。从市场分布可以看出,存储与服务器所占比例呈逐年上升趋势。用户的强大需求同时也给存储系统供应商创造了巨大的商机。目前市场上不但有老牌厂商提供的各种产品,也有初创公司新推的各种系统。自然,当前市场上的磁盘阵列也是一番花团锦簇的景象。在用户有了众多选择的同时,也有了选择上的困惑。因此,我们就从体系结构的角度,简要分析目前磁盘阵列的差异性,希望可以给用户在选择磁盘阵列时参考。         目前的磁盘接口有IDE、SATA、SCSI、SAS、FC等几种。其中IDE接口磁盘正在被SATA接口硬盘取代,将逐渐退出历史舞台,两者主要多用于桌面;SAS接口磁盘也正在逐渐淘汰SCSI接口,很快将占领企业应用的低端市场;而FC(Fibre Channel,光纤)接口硬盘一出生就是专门针对高可靠、高可用、高性能的企业存储应用的,不但接口速度快,而且支持双端口访问,又经过严格的生产工艺控制,可靠性很好。由于这些天生优势,FC接口硬盘在企业用户中尤其是关键数据存储应用中占据着绝对优势,也是高端存储应用的首选磁盘。        基于SATA、SCSI接口的磁盘阵列大家见过很多了,这里就不再赘述,重点说是所光纤接口磁盘阵列。光纤磁盘阵列又可进一步从体系结构细分成三大类:JBOD磁盘阵列、双控制器磁盘阵列和多控制器磁盘阵列。        严格意义上讲,JBOD还不能称之为“阵列”。JBOD是Just Bundle of Disk的缩写,意即只是一串磁盘的组合。这样的“磁盘阵列”也被称为傻盘阵列,因为JBOD内部既没有控制器,也没有缓存,磁盘之间也没有提高性能和安全性的任何手段。每个磁盘都独立地接收来自主机的数据访问。如果需要实现RAID级别的保护,主机不但要负担磁盘读写等操作,还要进行RAID算法的处理,对主机资源的占用率较大,严重影响系统整体性能。        因此,在采用光纤磁盘阵列时,一般都采用带智能磁盘控制器的磁盘阵列。磁盘控制器是介于主机和磁盘之间的控制单元,配置有专门为I/O进行过优化的处理器以及一定数量的cache。控制器上的CPU和cache共同实现对来自主机系统I/O请求的操作和对磁盘阵列的RAID管理。相对于JBOD磁盘阵列,控制器磁盘阵列释放了大量主机资源,来自主机的I/O请求由控制器接受并处理,阵列上的cache则作为I/O缓冲池,能够大大提高了磁盘阵列的读写响应速度,显著改善磁盘阵列的性能。又由于光纤磁盘天生拥有双端口,所以,一般的光纤盘阵都采用双控制器,从而充分发挥光纤磁盘的高可用特性。两个控制器不管配置成active-active还是active-standby,都能为用户提供高可用特性,而且大都支持热插拔功能,能够实现简单的无单点故障,为用户提供的7*24不间断业务。        在配置了CPU和cache的磁盘阵列中,其部分高端产品还可以运行基于磁盘阵列的存储软件。因此,它可以提供比较全面的基于磁盘阵列的解决方案。        在当前存储市场上,这一类的磁盘阵列种类繁多,数量巨大,同时也在质量和性能上也存在着巨大的差距,价格跨度也很大。其代表产品有IBM DS系列、HP EVA系列、EMC CLARIION系列、HDS Thunder 95系列等等。LSI也在这一档次的磁盘阵列方面颇有建树。尤其值得一提的是,IBM S-4000系列、STK D系列及SGI TP系列都是OEM LSI公司的E系列阵列控制器。         从体系结构上讲,这类产品属于中端产品,但其中比较引人注目的是IBM SHARK系列产品。IBM的SHARK系列产品是典型双控制器结构的产品,其高端型号DS-8300产品的每个控制器是4个CPU的P570小型机,双控制器最大配置CPU数量为8个CPU。但DS-8000系列产品具备了许多高端产品应有的特征,比如主机端口最大可达128个2Gb FC,磁盘接口多大64个,缓存容量也可以达到256GB,这些特性使其可以匹敌多控制器存储系统,因此,DS-8000系列也是IBM公司参与高档存储产品市场竞争的主要武器,而且和竞争对手高档产品相比其价格优势非常明显。     第三类是多控制器磁盘阵列:双控制器磁盘阵列由于控制器只能配置两个,不能在同一磁盘阵列内配置更多控制器,在一定程度上局限了其数据处理能力。多控制器磁盘阵列便应运而生,其体系结构一般分为三层 · 通道控制器:管理主机和cache之间I/O及运行基于存储的软件解决方案。 · 全局缓存控制器:巨大的非易失性cache,它是系统性能超群的基础之一。 · 磁盘控制器:管理cache和物理磁盘组之间I/O及运行基于存储的软件解决方案。     在实际应用时,每层的控制器至少成对配置,提供全冗余特性,实现无单点故障。也可以配置多对,在性能上进行成倍扩展。比如EMC的DMX-3最多可以配置8个前端控制器(Channel Director)、8个缓存控制器(Memory Director)、8个后端控制器(Disk Director),整个系统中处理器数量最多可达130颗。多级控制器分工协作,系统整体性能因而可以获得最佳扩展性。更重要的是,在多控制器体系结构基础上,提供了许多独特存储软件解决方案。该档次产品是大型关键业务数据中心的首选。        目前,掌握高档多控制器体系结构产品技术的厂家,只有EMC和HDS这两家公司。从体系结构来看,最初的EMC和HDS公司的多控制器磁盘阵列产品没有什么区别,都是基于总线结构。后来HDS开发出了基于全交换架构的Lightning9000/USP系列,并在内部把控制流和数据流分开,提升了内部的传输带宽。其后EMC推出了基于直联矩阵结构的Symmetrix DMX系统,在继承低延迟特性的基础之上,进一步的提升了内部总线的带宽。但无论如何,这类系统都是以高可靠性和高可用性为诉求的高端存储阵列,在这两方面已经达到了近乎完美,在电信和银行等领域都得到了极大的认可和广泛的应用。        很多服务器生产厂商也都有磁盘阵列产品出售。由于拥有广泛的销售渠道和强大的市场运作能力,也有较高的市场占有率,到目前为止,所有主机厂商掌握自主知识产权的磁盘阵列仍然停留在双控制器磁盘阵列这个层面。虽然HP和SUN也有的多控制器体系结构的磁盘阵列在销售,但都是OEM HDS产品。        当下流行的信息生命周期管理、虚拟存储、存储资源管理等等理念都和分级存储密切相关,这为用户进行全方位的数据管理提供了参考。用户可以根据信息的价值采取适当级别的磁盘阵列,制定相应的存储方案。        本文只是从系统结构上对光纤磁盘阵列做一个简单的划分,供用户参考。 大话备份:企业没有备份 后果将会怎样 曾经     有一堆的数据摆在我的面前     我没有好好备份     当硬盘crash的时候我才追悔莫及     如果老天再给我重来一次的机会     我一定要好好备份     如果非要进行冗余的备份     我希望是     一万份     备份这东西,就如健康,只有在失去的时候,才会知道它的重要----虽然存在硬盘里面的资料无非是0和1。就连去买一把锁都会配两把钥匙,我们还有什么理由不对能够关系到我们的业务能否顺利进行的系统和数据进行备份呢?     当然,如果目前您还没有意识到备份的重要性,对我以上抽象的说法感到可笑,那么我将不动声色的恶毒的建议您立即停止正在运行中的系统一两天,看看会发生怎样的事情。     好了,假设您已经听取了我刚刚的馊主意,并在不久以后就被一大群客户打电话过来骚扰,有不少愤怒的客户甚至威胁说如果不马上将系统跑起来就要你们赔偿所有的损失,并永远不会再信任你们承诺了。于是您不得不命令工程师赶快摁下那该死的电源开关,立即将能够平息用户愤怒的应用跑起来----谁让“顾客就是上帝”这句话是这么的有权威性呢?幸好这一切都是实验性的尝试,从这件事情中,您已经看到了……系统正常运行的重要性。您不无意味的对我笑了笑,似乎我还没有对您直接说明备份的重要性,似乎只要一摁开关,事情就轻松搞定。但是这时还不用我开口,您的系统管理员已经在告诉您了:     “老板,刚刚重新启动的时候突然断了一下电,存储重要数据的硬盘坏掉了。”     您有些不知所措了,问道:“这----意味着什么?”     您的系统管理员对你这个突如其来的问题感到茫然,他显然有些紧张:“这……这意味着……意味着我们丢掉了我们重要客户的信息,意味着我们无法按合同给我们的客户提供服务,他们也许会控告我们,我们也不得不赔偿所有的损失。即便以后我们的系统正常运行了,丢失的信息和数据也已经无法找回来了。而且,我们今后怎样才能让客户对我们有信心?”     从您木然的神情中,我知道了您已经觉得备份不再是一件可有可无的事情。但是事情到了现在这个地步……您的双手在空中乱抓着,啊----的一声叫喊,从梦中醒了过来。哦,是的,至少目前,事情还没有真的变糟,但是您已经明白了,如果不做备份,将来某一天发生这样的事情,就会真的变得这么糟糕,甚至更糟!     明天,一上班----您告诉自己----马上让系统管理员去做备份。     第二天一来到公司,您就给系统管理员打了一个电话,叫他马上到您办公室来。系统管理员诚惶诚恐的来到您的面前,心里还在盘算是不是今天迟到又被您看见了。现在您也没有心情诈他说出最近自己又迟到不少次了,直接让他马上去做备份。     管理员有些诧异于您对备份态度的突然变化,但他还是支持您的想法。因为虽然对他来说也许工作量大了一点,但是毫无疑问,他将从中学到更多的东西,而且定期的做好备份,也将使他看起来更像一个系统管理员。免得他网上的那些狐朋狗友问他多久做一次备份,他都不好意思说他不做备份。     管理员走出办公室那一刻开始,就已经在思考怎么备份了。怎奈何长久的没有作备份,已经对备份需要注意的方面生疏了。他走到机房,找到当初我留下的名片,给我打了个电话,问了这个问题:老板要我做备份,我应该怎么开始?     我听到这个问题,有些晕了----问题这么模糊,让我怎么回答?还好,之前其他客户已经让我晕了N次,面对这种让人犯晕的问题,有了些抵抗力。     我知道这时候最好的就是让他明白备份其实并不是敲几个命令那么简单的事情,尽管局外人看来熟练的管理员做备份就只是敲了几个命令。我甚至可以告诉你们的是,有些管理员做备份都不需要敲命令,只需要定期去看看备份是否正常完成了!     于是耐心的解释道:“这就要看你的决定了,比如备份什么,是系统还是数据?还要看你决定什么时候进行备份,是下班前备份还是夜里备份?还要看你备份的方式,是全备份还是部分备份?还要看你备份的频率,多长时间备份一次?这些都是需要考虑的因素,而这些因素是会因为你的选择而有所变化,有所关联的。至少,你选择不同的备份方案,使用到的命令就不一样,需要的存储空间也不一样。”     我知道管理员也已经晕了,从他好长时间没有应答就知道。呵呵,想当初,从培训老师那里知道要考虑这么多因素的时候,还不是当场就晕?!     反正这种问题在电话中也说不清楚。于是管理员和我约定了一个时间,一起来针对您公司目前的具体情况来制定一个备份方案。 大话备份:备份方案差别与常用备份命令 星期六早上9:00,闹钟将我闹醒――10:00之前必须赶到约好的咖啡馆。尽管有美味的Star Bucks Coffee & Delicious Cookies,不过我宁愿睡上一个难得的懒觉。既然客户有需求,那么只好牺牲睡懒觉的时间。这样其实也不是没有好处的,不然以后客户的系统出现了问题,而又没有做好备份,对于我们这些现场工程师来说,真是一个可怕的事情!      还没有走进星巴克咖啡馆,我就已经透过明亮的落地玻璃窗看见管理员在冲我笑了,手边还放了一个笔记本。因为工作关系,和他已经比较熟了,也就没有客气,直接就点了喜欢的香草咖啡,然后问他:      “你想好了备份方案没有?准备进行怎样的备份呢?”      “还没有想呢。已经向老板说明了情况,他说让我来跟你学学,然后请你和我们一起制订一个备份方案。”      “哇塞,你老板还真会想,好像我的时间就不值钱一样,你说,耽误我睡懒觉,怎么赔偿?”      他开心的笑道:“怎么不值钱,你当这星巴克咖啡都是免费的啊。”     面对他的无赖,真是无可奈何,只好转入正题。      “考虑到你们的系统之前一直没有做过备份,而且系统主要跑的应用是Oracle,我建议你这样,先对系统作一次全备份,然后对数据也做一次全备份,以后就是根据制订的备份方案,定期的做好增量备份和全备份。”      “嗯”,他点点头,“这样比较保险一些。不过你最好先对我说说各种备份策略的区别和各种备份命令的比较吧,这样以后遇到问题,我就可以自己解决,而不用总是麻烦你,打扰你的懒觉了。”      好家伙,这个时候还不忘嘲笑我的懒惰,那么就毫不客气地回击:“我还不了解你,是不是准备将我知道的这些备份知识全都学去,好到论坛上去炫耀啊?”      没想到他真的脸红起来,于是我转移话题,免得他总说我抓他的小辫子。      “我们先看看备份的策略吧。从备份策略来讲,现在的备份可分为4种:完全备份、增量备份、差异备份、累加备份。”      “完全备份我知道,”还没有等我说完管理员就迫不及待的说,“完全备份就是用一盘磁带对整个系统进行备份,包括系统和数据。”      “正确!但是你知道完全备份有哪些优点和缺点呢?”我丢给管理员一个问题,看看他对完全备份了解到那种程度。      “完全备份的优点就是:直观,恢复容易。假如我每天都做一次完全备份,那么当系统出现问题的时候,只要将最后一次备份的内容恢复就行,这样非常直观。而且如果我将内容都备份到一盘磁带上,这样恢复的时候只需要一盘磁带,大大简化了操作。不过完全备份的缺点也是显而易见的:冗余和备份时间长。假如每天都做一次完全备份的话,其实很多内容都会被重复备份,而正由于每次都要备份其实很多都不需要多次备份的数据,让需要备份的数据大大增加,导致了备份时间很长。”      “完全正确!”我喝了口咖啡,用一本正经的口气调侃,“所以,为了减轻我们工程师的劳动量,为了尽可能的让我们偷懒,早点回家,我们一般都会建议老板说为了节省备份的开资,少买一些昂贵的磁带,最好采取增量备份。”      听得管理员差点将咖啡喷出来,憋红了脸将咖啡吞下去。      “妙啊,”他差点拍案,“这个建议既可偷懒,又可让老板觉得自己在为公司考虑节省成本。”      看到他这样开心,我不禁也笑道:“本来就是这样,不然,增量备份这种备份策略又怎么会诞生呢?不管它是因为老板们为了节省成本,还是管理员们为了偷懒,总之,这样的备份策略绝对是一种双赢的方式。”      “那么,”我继续问他,“增量备份又有哪些优点和缺点呢?”      “增量备份的优点当然是节省磁带,又缩短了备份时间??,至于缺点嘛……”管理员有些犯难了。      “你只记得增量备份可以帮你偷懒,却忘记了凡事有利必有弊,你告诉我,增量备份的定义是什么?”      “所谓增量备份就是只备份在上一次备份后增加、改动的部分数据。增量备份可分为多级,每一次增量都源自上一次备份后的改动部分。”      “你啊,对定义背得这么清楚,却不理解,看来你真的对备份只是仅流于书面的理解啊。想想看,每次只记录上次备份以后改动的部分,那么你恢复起来,怎么操作?”      “哦,我明白了,增量备份的缺点在于当发生灾难时,恢复数据比较麻烦。”      “可是,”管理员迷惑的问道,“差异备份也是只备份在上一次完全备份后有变化的部分数据。那么,差异备份和增量备份,又有什么区别呢?”      “嗯,这个问题问得好!”我赞赏的说,“差异备份和增量备份这两种备份策略的确容易让人感到迷惑,但是它们的区别在于,增量备份可以分为多级的,假如你星期五做了完全备份,那么,如果你采用增量备份的方式,星期一就只要备份当天改动过的――因为这天改动过或增加的,星期五的完全备份里面肯定没有,而星期二也只要备份当天改动过的,依次推理,直到星期五重新做一次完全备份。这就是以一个星期作为周期,采取增量备份的策略。如果进行数据的恢复,就比较麻烦,首先要将完全备份恢复,然后依次将星期一的增量备份,星期二的增量备份等等按照次序恢复过来,要注意次序不要颠倒了。所以说增量备份的数据恢复比较麻烦。明白了吗?”      管理员点点头,有点迫不及待的问道:“那差异备份又是怎么做呢?”      “如果这么说,你可能就明白了增量备份和差异备份的区别和相同点。如果我们选择两天一个周期的循环,第一天采取全备份,第二天采取增量备份,那么这种备份方式,就是差异备份。”      “早这么说不就得了?”管理员恍然大悟的说。      “差异备份的定义是谁说的?然后马上又问我增量备份和差异备份的区别。那时候我可是什么也没有说啊!”      管理员不好意思的笑道:“这样也好,以后别人问我,就先告诉他们深奥的定义,显得层次高些,呵呵。不过我仍然有些不明白,既然增量备份和差异备份,都是对完全备份以后的变化改动进行备份,那么还要弄这两个名词出来?”      “能问出这个问题,说明你已经在思考了。要知道,没有任何一种备份方案是完美的。完全备份和增量备份,你不都说了它们的有点缺点了吗?如果我们进行增量备份的周期拉长,比如第一天进行完全备份,后面九天都进行相应级别的增量备份,那么恢复起来,是不是很麻烦?恢复的时间是不是相应也会拉长?但是有些用户的系统需要在很短的时间内就恢复过来,采用这种形式的增量备份,肯定难以满足其需求的,所以就有了差异备份的出现。这种出现,不是人为的搞出来的多余的东西,而是根据需求产生的。”      管理员赞同的点点头。      不等他回味过来,又问了他一个问题:      “那么,你是否清楚,什么又是累加备份呢?”      管理员想了一会儿,摇了摇头。      “累加备份采用数据库的管理方式,记录累积每个时间点的变化,并把变化后的值备份到相应的数组中,这种备份方式可恢复到指点的时间点。”      “那么这么看来,累加备份不是很好?”      “的确这样,不过相应的,操作也较复杂一些。而实际上,我们进行备份,选择备份策略的时候,会根据我们自己的实际需求,将几种备份策略结合起来使用,形成适合自己的备份策略。常用的方法有:完全备份、完全备份+增量备份、完全备份+差异备份、完全备份+累加备份。”      管理员点点头。      我提醒他:“注意看看我们常用的方法,发现什么没有?”      “好像不管是什么方法,都首先要进行一次完全备份。”      “对,”我喝完最后一口咖啡继续说道,“不管怎么样,进行一次完全备份是肯定有必要的!”     “还要咖啡吗?谢谢你给我讲解了这么多,所以,不用客气,想喝什么,想吃什么,尽管点好了,反正也不是我出钱,回去以后找老板报销去,让老板买单。”      “这招借花献佛还真学得不错啊。不过,‘免费的午餐’好是好,但是总是要占用自己的时间的,下午还有球赛呢,所以我也得要早点赶回去啊。”      不忍心让管理员太失望,只好对他说:“这样吧,我再给你讲解一下备份常会用到的命令,之后时间也应该差不多了。”      “好的!”管理员的兴致看起来很高。      他招手叫来了服务员,让其再帮我加杯咖啡。      “还是香草咖啡。”我说。     “我们备份常用到的命令有这些:make_tape_recovery(make_recovery)、tar、cpio、fbackup、dump、vxdump、copyutil、dd。当然了,如果你要对数据库――比如Oracle――的数据进行备份,就需要用到专门的命令,或者是一些工具的帮助。不过,这些内容咱们以后再说。这次咱们先看看HP-UX操作系统里面提供的这些命令。”      管理员点点头。      “make_tape_recovery命令虽然你还没有用过,但是肯定看过别人用过的。我们惠普的工程师当初帮你们安装完新机器之后,不是用make_tape_recovery命令给你们的系统作了一次备份吗?”      “是的。是不是make_tape_recovery命令还需要安装的啊?”      “够细心的,这都被你注意到了。的确,如果新安装的系统里面没有包含这条命令的话,你可以在附带的HP-UX Application CD-ROM 安装。这条命令是Ignite-UX application中的一条。当然,如你这般丢三落四的作风,如果万一将这张光盘弄丢了,还可以从HP的网站上download Ignite-UX,网站的地址是:http://www.software.hp.com/,通过Network & System administration超链接,就可以看到Ignite-UX了。”      “那么,我下载下来以后,怎么安装呢?”      “下载以后,一般是以.tar作为后缀名的Ignit-UX文件,此时你可以用tar命令对其解压缩。至于怎么使用tar命令,等下会说到。解压缩以后,就可以用你熟悉的swinstall命令安装这个软件包了。安装完成以后,就可以在/opt/ignite/bin目录下看到make_tape_recovery这条命令了。看到这条命令,就意味着你已经可以使用这条命令来备份系统了。”      “这条命令怎么使用呢?”      “早知道你会问,所以早就给你准备好资料了。”一边说我一边从资料家里拿了一份关于make_tape_recovery命令的格式和简单说明给管理员。

下载文档到电脑,查找使用更方便

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档