多方位全面保护数据库

jopen 9年前
 

前不久看了朋友发的一条微博,去听了一场公开课,加深了我对数据库保护方面的理解,主要是结合使用多种措施的意义。

尽管我从事数据保护和灾备行业已经有几个年头,但更多时候是在向用户解释什么时候适合用备份?什么时候适合CDP(持续数据保护)?它们的区别,RPO和RTO等等。

简注:

RPO——恢复点目标,即到故障发生前的数据丢失量

RTO——恢复时间目标,即恢复故障所用的时间

拿这两个指标一衡量,就可以看出不同类型数据库保护/备份技术的差别,类似的比较网上有许多,在此我只是以Oracle为代表简单总结一下,如有不准确之处还请大家指正。

1.RMAN/备份软件简化跨平台数据保护

为什么把Oracle RMAN和备份软件归为一类,因为后者目前主要的机制也是调用RMAN,或者导入/导出。作为一种定时的数据库物理备份方式,基于RMAN的备份可以保证 恢复的有效性,以磁盘、磁带介质为目标,做到完全、增量和差异备份,可以说是DBA和备份管理员所必须掌握的。

不足:首先是备份间隔——定时备份通常不适合在业务繁忙时进行,所以频率不能太高,RPO相对较大;而且在有些数据量很大的用户那里,每天一次夜 间备份窗口也不够用了,可能要改为每周一次;出现故障时,需要一个恢复的过程,数据才能可用,所以RTO也不算短;RMAN要求数据库必须打开归档日志。

如今随着两地三中心和双活的流行,人们对RPO和RTO的要求不断提高,备份看上去有些退居二线。但实际上它具有长期保留等方面的价值,还是很重要的一道保障。

代表产品:NetBackup、CommVault、戴尔NetVault(原Bakbone)等。

这些软件都能支持Windows、Linux和Unix多种平台,以及Oracle RAC集群。其中NetVault的一大特点是简捷易用,通过图形界面可以绕开RMAN命令的复杂性。

多方位全面保护数据库

RMAN备份Oracle数据库到重复数据删除设备、远程复制容灾示意

1.5重复数据删除设备这里我加了一个特殊的序号,该产品分类实际上要配合备份软件或者RMAN来使用,目的是通过重复数据删除等优化技术,节约存储空间并加快备份的速度。站在数据库保护的角度,不应完全算做一个单独的技术路线。

代表产品:EMC DataDomain、戴尔PowerVault DR系列等。

2.数据库物理复制高可用的低成本容灾

如今DataGuard(DG)已经是Oracle一个免费的组件,它通过将redo log同步/异步传送到本地或者远程的数据库服务器,再将对数据块的操作进行到备库。在11g之后的版本中,Active DataGuard(ADG)支持只读方式挂载的活动备库,不是完全的双活。

注:ADG是需要额外收费的,DG不单独收费。

同步方式的DataGuard基本上可以做到RPO=0,并且支持通过脚本来实现自动故障切换,RPO最短可达分钟级水平,不过生产环境中通常还是手动切换,毕竟一旦误切也挺麻烦的。

多方位全面保护数据库

不足:由于传送的是全量日志,对网络带宽和延时的要求较高。另外常用的DataGuard物理备库,偶尔也会遇到由于Oracle某种bug或者其他原因,导致block逻辑损坏,而且这个损坏会传输到备库,导致备库也异常。

DataGuard比较适合低成本容灾,非ADG不需要另外购买License,但也需要有人来监控、维护库之间的复制状态,或者说对DBA水平要求高一些,还是会产生一定成本。

注:备份可以理解为将某个时间点的数据状态导出单独保存;而数据库软件复制,只是建立了备库,如果想回滚到历史状态都需要用数据库自身的日志来实现。

3.数据库逻辑复制随时可用的灵活容灾

代表产品:Oracle GoldenGate、戴尔SharePlex(原Quest)等。

它们的共同特点,都是从Oracle日志中解析出逻辑SQL语句,发送到备库,并将这些SQL重新执行一遍,以达到数据复制的效果。由于解析出来 特定格式的文件,本身不需要传递所有日志,这类软件在传输的过程中可能还增加了压缩功能,所以逻辑复制通过网络传送的数据量显著减少,对带宽要求降 低,RTO最短可达1秒。

这类复制软件应用相当灵活,支持异构跨平台(比如在小型机和x86服务器之间),甚至跨不同数据库复制。数据库逻辑复制应用的场景包括数据迁移、 多库合并、容灾等方面,能够做到双活双写实时可用,只是备库做不到与主库之间的严格同步一致(会有一点滞后)。因此不需要数据库的切换,只要做好站点的仲 裁并在上层应用切换即可。

多方位全面保护数据库

数据库逻辑复制流程示意

不足:正是因为灵活,逻辑复制有时没有redo log的物理复制来的可靠,因此有的DBA朋友提出它并不适合所有的容灾需求。另外,复制的对象是表,因此要求DBA必须参照主库提前规划好备库,增加了 日常维护的工作量。还有就是价格,这类软件通常的销售方式是按照参与复制的节点数/CPU插槽来计算,所以购买成本不菲。

曾有业内资深人士表示,“SharePlex在国内的支持响应速度比较快,以前他们在某个用户的环境中遇到读归档日志慢的情况,原厂开发人员1天内就解决了这个bug。相比之下,有的厂商在国内的服务主要是第三方来做,原厂工程师来了有时解决不了问题”。

4.存储阵列的快照和复制改善的存储经济性

磁盘/闪存阵列提供的本地、远程复制功能,被称为底层存储(数据块级)的容灾保护。在经过LUN的初始同步之后,只需要继续复制数据增量/变化量即可。该技术配置简单,以逻辑盘为单位,而无需关注到具体的应用数据内容。

存储级复制,容灾端阵列上的LUN可以随时挂载到备用数据库服务器使用,根据操作的自动化程度,RTO可达分钟级。同步复制(镜像)的RPO接近零,但需要裸光纤,并且一般距离不超过50公里;异步复制RPO通常不短于5分钟。

多方位全面保护数据库

远程复制

不足:阵列复制只负责维护源端存储和目标端存储之间的一致性,而上面数据的有效性(比如数据库是否能正常打开)则不负责。因此该技术许多时候要结合快照一同使用。

快照是一种逻辑数据保护方式,它相当于在一个LUN上增加了时间点数据状态回滚/挂载的功能。为了实现应用数据的有效一致性,有些高级快照功能支 持主机端代理程序,比如在快照之前通知Oracle将内存中脏数据写盘,短时暂停I/O等快照完成再恢复。此外,对于应用数据在多个LUN之间的同步一 致,比如Oracle数据文件、日志文件等放在不同磁盘的情况,快照还需要支持一致性组功能,以保证它们在同一时间点创建快照。

快照能在很短的时间内回滚到历史点,或者直接生成即时数据回放(或称直接挂载、瘦克隆),需要人工干预但RTO也较短。带有快照的复制,能够更好地与应用结合。

多方位全面保护数据库

高级快照功能

不足:不同阵列的快照技术水平,决定了对性能影响和磁盘空间的占用也不相同,单一LUN/整个系统的快照数量通常也会做出限制。因此默认就打开或 者推荐用户使用快照的存储厂商并不多,比如戴尔SC(Compellent)和NetApp FAS系列。在存储高压力写入的情况下,即使有专门的一致性保证机制,还是有一定几率出现快照数据不可用的情况,这有点类似于主机掉电对数据库的影响。

戴尔SC系列得益于原生的底层存储空间虚拟化管理,在单一存储系统上支持高达16000个Replay快照,可短至1分钟间隔达到准CDP的效 果。并独创了根据策略将快照数据转换为不同RAID级别(如RAID 10 to RAID 5/6)来节省空间,或者迁移到廉价存储层来降低成本。

对于快照、异步复制和同步复制功能,有些阵列品牌需要购买License,有的则包含在基础功能中。

小结戴尔一站式解决方案 构建多维度屏障

正如那位数据库专家朋友有感而发:“Oracle的备份、容灾不能全部依赖物理DataGuard容灾。因此在条件允许情况下,建议增加物理备份 和逻辑容灾。”这里的物理备份就是我们介绍的第1类——RMAN/备份软件;逻辑容灾则是第3类——数据库逻辑复制软件;我认为第4类——存储阵列的快照 和复制也可以作为一种补充。这三类产品戴尔全部都有,而且在技术上还都是属于广受好评的,能够为用户提供一站式解决方案。

至于同时应用多重数据保护技术是否复杂?“取决客户对于数据安全的重视程度”。本文我们只是拿Oracle来举例,对于其它类型数据库也可以作为一个参考。