集群管理技术白皮书


集群管理技术白皮书 华为技术有限公司 Huawei Technologies Co., Ltd. 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 i 目 录 1 前言 .................................................................................................................................... 1 2 主要特性 ............................................................................................................................. 2 3 技术方案 ............................................................................................................................. 3 3.1 交换机在集群中的角色 ...................................................................................................... 3 3.2 拓扑信息的收集 ................................................................................................................. 5 3.2.1 NDP 协议的应用..................................................................................................... 6 3.2.2 NTDP 协议的应用 .................................................................................................. 6 3.3 拓扑管理 ............................................................................................................................ 7 3.3.1 拓扑管理的白、黑名单........................................................................................... 7 3.3.2 拓扑认证................................................................................................................. 8 3.3.3 交换机状态 ............................................................................................................. 8 3.3.4 拓扑的显示 ............................................................................................................. 8 3.4 集群维护的过程 ................................................................................................................. 9 3.5 集群内部的通讯 ............................................................................................................... 11 3.6 命令交换机对集群状态的监控.......................................................................................... 12 3.7 成员交换机的即插即用(零配置) .................................................................................. 12 3.8 集群的各种管理应用........................................................................................................ 13 3.8.1 集中网管通过 SNMP 管理集群............................................................................. 14 3.8.2 通过 Telnet 管理集群 ........................................................................................... 14 3.8.3 通过 WEB 网管管理集群 ...................................................................................... 15 3.8.4 程序和数据的逐个和批量加载 .............................................................................. 16 4 典型应用 ........................................................................................................................... 19 5 结束语...............................................................................................................................21 附录 A 缩略语 .......................................................................................................................... 21 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 1 集群管理技术白皮书 摘 要:HGMP集群管理是对于以太网产品统一配置、维护和管理的协议。可以实现对多个设 备统一、集中、批量配置/升级,实现网络拓扑信息收集、维护,动态更新,实现对远 程新设备自动发现、下发配置,从而大大减少维护成本。本文主要介绍集群管理的基本 原理和典型应用。 关键词:HGMP,集群管理 1 前言 在目前的数字网络环境下,对网络设备的管理主要有两种方式,一是直接到网络设备布放的 地点,通过串口直接连接网络设备,对设备进行配置管理;二是通过SNMP协议或者使用Telnet 协议,在远端管理网络设备。 对于第一种方式的管理方式,主要优点是管理手段相对比较简单,而且由于通过串口直接连 接被管设备,因此对于配置网络设备时不需要配置相应的管理IP地址,节省了IP资源,而且不需 要另外附加其他设备,只需要一台便携PC就可以完成所有的配置工作;主要的问题是维护比较 困难,维护工作量大。由于网络设备基本都是分散分布的,特别是在电信网络中,数据设备量非 常大,而且设备的布放点十分分散,同时可能有数百,甚至上千台设备,分布在方圆数公里的范 围内,如果采用这种管理方式,对于每一次日常维护工作,维护人员都需要四处奔走,不仅工作 量大,而且维护十分不方便。 相对于第一种管理方式,第二种管理方式的主要优点在于日常维护工作量要小得多,工作人 员可以在远端,通过网管终端,或者Telnet仿真终端,远程对被管理的维护终端实现管理,可以 完成日常所需的基本配置功能,但是要实现这种管理,对于这些网络设备必须要配置一个公共网 IP地址,对于目前IP地址资源愈来愈缺乏的现状,要求必须分配IP地址成为了这种管理方式的致 命伤,特别是在电信网络中,由于设备数量非常大,这种管理方式的缺陷显得尤为明显。 HGMP(HUAWEI Group Management Protocol)就是华为公司为了解决上述对大量设备 配置维护量大、IP资源浪费严重、开放性不佳等的问题提出的一套对一组以太网产品统一配置、 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 2 维护和管理的专用协议族。 HGMP主要解决以下问题: „ 实现对一组设备统一、集中、批量配置/升级的途径; „ 网络拓扑信息收集、维护,动态更新; „ 节省 IP 地址资源; „ 对远程新设备能够自动发现、下发配置、并可纳入集群中进行管理 2 主要特性 HGMP具有以下的主要特性: „ 管理VLAN可配置:用户可以根据自己的网络规划,在交换机支持的VLAN范围内建立 集群 „ 零配置即插即用:对于新出厂的设备,无需任何配置,连入已建立集群的网络后,5分 钟内,就能自动修改管理VLAN并加入集群 „ 批量下载配置文件:用户可以在FTP服务器上对应的目录下放置公有配置文件和针对每 台设备的特殊配置文件,成员交换机在加入集群并通过认证后,会自动去获取该配置文 件并运行,用户也可以通过命令行的方式,手动的批量下载配置文件。(注:配置文件 下载后,会自动运行,无需重启) „ 保存配置文件:用户可以保存任何一台设备的当前配置到FTP服务器上,可以选择作为 本设备的特殊配置或公有配置 „ 批量升级app:用户可以在FTP服务器上对应的目录下放置app文件,然后通过命令行 的方式批量升级app,由于命令交换机处理能力有限,app升级采用令牌的方式,任意 时刻,只能有三台升级,用户输入给所有app升级的命令后,会自动给所有成员排队升 级。一般情况下,给15个成员批量升级app,大约需要30分钟,批量升级会自动设置下 次启动的文件为最新下载的文件,下载app的结果将以SYSLOG的形式通知给用户 „ 重启所有成员:升级好app后,用户可以在命令交换机上输入一条命令远程重启所有成 员,重启后,这些成员会自动加入集群。 „ 拓扑管理:由于即插即用功能,安全性尤为重要,可以提供黑白名单式的管理方式,白 名单的成员才可以下载配置文件,更新app,获取SNMP配置,黑名单的成员,不允许 加入集群。黑白名单由用户自由添加,可以保存在FTP Server上,也可保存在命令交 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 3 换机的FLASH中。 „ 拓扑显示:在命令交换机上,以字符串的形式,画出了一张网络拓扑图,形象的描述了 拓扑结构,同时标记出了异常的成员,目前显示支持三级,用户可以选择不同的设备作 为根节点 „ 按位置恢复配置文件:如果一台成员交换机发生故障,更换后,只要保证其上下行连接 的端口不变,在其连入网内后,能自动通过认证,并获取原先设备的配置(原设备的配 置,需用户提前保存在FTP服务器上) „ SNMP自动配置:加入集群后,SNMP的配置会自动配在成员交换机上,SNMP的口令 可以提前在命令交换机上统一配好。 „ Trace MAC:用户可以查看任意一台设备距离当前设备的完整路径,或网内的任意一 台PC距离当前设备的完整路径 „ 成员超时退出:如果成员交换机与命令交换机的联系中断,默认情况下,在3分钟后, 该成员会自动退出集群,这样,他就可以被其他集群加入,不会吊死,减少维护工作量。 3 技术方案 3.1 交换机在集群中的角色 实现集群管理功能的主要目的是允许网络管理员通过一个主交换机的公网IP地址,实现对多 个交换机的管理。主交换机称为命令交换机(command switch),其它被管理的交换机称为成 员交换机(member switch),成员交换机一般不设置公网IP 地址,命令交换机和成员交换机组 成了一个“集群”。按各交换机所处的地位和功能的不同,也就形成了不同的角色,用户可以通 过配置来指定交换机的角色,各种角色可以按一定的规则来切换。 集群中的角色有命令交换机、成员交换机,还有备份交换机以及侯选交换机四种: 1)命令交换机:配置有公网 IP 地址的交换机,管理命令首先发送到命令交换机上由命令交 换机处理,如果发现目的是某成员交换机,则转发到成员交换机上处理。 2)备份交换机:备份交换机,用于命令交换机的备份。当命令交换机失效时,备份交换机 能够转换成为命令交换机。通常设置了多个备份交换机时,还需要提供一定的机制选出其中一个 作为命令交换机。 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 4 3)成员交换机:集群中的成员,对成员交换机的管理是通过命令交换机的代理来完成的, 它一般不设置公网 IP 地址。 4)侯选交换机:候选交换机,没有加入任何集群但有集群能力、能够成为集群成员的交换 机称为候选交换机。 角色转换规则如下: 图1 角色切换规则 关于集群中的角色说明下: 1)每个集群必须指定一个且仅有一个命令交换机。在命令交换机被指定后,命令交换机通 过收集 NDP/NTDP 信息,确定和发现候选交换机。用户可以通过配置把候选交换机加入到集群 中。当开启集群即插即用功能时,命令交换机会将发现的候选交换机自动加入到集群中。 2)候选交换机加入集群后,成为成员交换机; 成员交换机被删除后将恢复为候选交换机。 当开启集群即插即用功能时,成员交换机在一定的时间内与命令交换机握手联系不上,则自动退 出集群,等待加入到其他集群中。 3)成员交换机可以被指定作为命令交换机的备份,成为备份交换机,在命令交换机失效时, 优先级最高的备份交换机将成为命令交换机;如果取消指定,则备份交换机成为成员交换机。 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 5 图2 各角色在集群中 上图2简要描述了集群管理系统的组网应用,图中一台命令交换机、一台备份交换机和若干 成员交换机组成了一个集群。在集群中,命令交换机负责对整个网络的统一管理,实现集群的建 立和维护,成员的加入/删除,成员的状态维护,网络的拓扑收集等等功能;备份交换机用于实 现在命令交换机出现异常时,替代命令交换机,接管对整个网络的集中管理。交换机在加入集群 后,用户就可以通过命令交换机来对它们进行远程管理,包括配置、查看等各种操作。 3.2 拓扑信息的收集 集群管理对网络拓扑信息的收集由以下几个步骤完成: 首先,所有设备都会使用NDP协议收集相邻设备的信息,包括MAC地址、端口信息、设备 类型、设备间相连接的端口号等。即使在STP阻塞的端口,也可以互相发现邻居。 然后,由命令交换机使用NTDP协议收集所有设备的自身信息和各个设备上收集到的相邻设 备信息。这些信息就作为网络的拓扑信息的基础,网管软件使用它可以准确的画出网络的拓扑图。 另外,命令交换机还可以从收集到的信息中查找集群的候选交换机。 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 6 HGMP能快速响应拓扑变化,加入集群的交换机在发现相邻交换机拓扑有变化时,会通知命 令交换机,由命令交换机对拓扑信息进行更新,网管则通过查询拓扑信息的变化更新拓扑图。 3.2.1 NDP 协议的应用 NDP发现协议被设计用于该设备获取邻接的设备的信息,如邻接设备的设备类型、硬件版 本、软件版本、连接端口、设备ID、地址信息、设备能力、硬件平台等信息,它非常有助于调试, 为拓扑协议提供最基本的信息。NDP协议与链路的物理介质和协议都无关,可运行在支持SNAP 的LAN、Frame Relay和ATM网络中,NDP运行在数据链路层之上,因此不同网络层协议的系统 可以互相发现。 NDP协议只能用来发现直接相连的邻居信息。支持NDP的设备周期性向设备所有接口发送 NDP报文,同时接收邻居设备发送的NDP信息,并存储和维护NDP信息表(NDP Cache)。NDP 信息表提供邻居设备的设备信息,如设备类型、设备ID等,每个邻居的NDP信息表可以被老化, 一旦老化时间到,相应记录将被自动删除。 3.2.2 NTDP 协议的应用 拓扑协议(NTDP)在一定网络范围内收集每个设备的NDP信息以及它与所有邻居的连接信 息,收集完这些信息后,将这些信息传送给网管系统,网管系统可以画出网络拓扑结构图。 拓扑收集设备(如命令交换机)向网络内的所有设备都发送一个拓扑请求报文,收到该请求 的设备都会向它发送拓扑响应报文,这样,拓扑收集设备可以收集到所有设备及设备间互联的信 息,并且把该信息传送给网管系统,网管系统可以显示出网络拓扑图。 如下图所示,NTDP实现原理是:NTDP从指定的一个或多个启动NDP功能的端口发送拓扑 请求报文,收到该请求的设备立即发送响应报文,并且复制此请求报文发送给它的所有邻接设备, 邻接设备收到请求后将执行同样的操作:发送响应报文,复制请求报文发送给它的所有邻接设备。 以此类推,网络中的每个设备都会收到此请求,都会向拓扑收集设备响应此请求。响应报文包含 有本设备的NDP信息和它与所有邻接设备的连接信息,因此,拓扑收集设备可以收集到所有设 备的NDP信息和它们间的互连信息,网管系统可以依据此信息构造出网络拓扑图。 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 7 图3 拓扑收集示意图 3.3 拓扑管理 3.3.1 拓扑管理的白、黑名单 拓扑管理的白名单(标准拓扑):是经过网络管理人员确认的正确网络拓扑,从某一时刻的 当前网络拓扑中提取数据,包括拓扑的结点信息,及其邻接关系信息,此外扩充了的结点对应在 FTP服务器上存放配置的目录名,如该结点加放集群,还会自动记录成员ID,目录名的组成由设 备的MAC地址与成员ID组成。可以根据当前的网格拓扑状况对白名单进行维护:添加结点,删 除结点,修改结点。 拓扑管理的黑名单:在黑名单中的成员,不允许自动加入集群。需要网络管理人员手工添加, 包括设备的MAC地址,如该设备在添加到黑名单时,通过非黑名单设备连接入网,将会自动添 加是接入接换机的信息及接入端口。 白名单与黑名单具有互斥性,在白名单的结点必定不在黑名单中,在黑名中结点,不能加入 白名单。但需注意,拓扑结点可以不在白名单与黑名单中,这类结点通常属于新增结点,其身份 还有待网络管理人员确认。 白名单与黑名单是拓扑管理的依据,不应随命令交换机的掉电而消失。白名单与黑名单具有 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 8 两种备份与恢复机制,备份在FTP服务器与命令交换机的FLASH中。备份到远程FTP服务器,从 远程FTP服务器恢复白名单与黑名单需要手工进行;备份到命令交换机的FLASH也需手工进行。 在命令交换机重启以及集群管理重建时,将会自动从FLASH中恢复白名单,与黑名单。 3.3.2 拓扑认证 拓扑认证:对自动加入的设备进行自动认证,如为黑名单结点,将拒绝加入集群,如为白名 单成员,允许加入集群,并下发该结点的私有配置,可进行app远程自动升级。 认证过程:在黑名单中按结点的MAC地址在黑名单中查找,如找到,则返回认证结点为黑 名单结点;在黑名单中没有匹配项,则在白名单中查找。白名单的查找方法是在当前拓扑中,找 到一条从命令交换机到待论证结点的路径,根据此路径,在白名单中查找对应结点,如对应结点 的设备型号与待认证结点型号一致,则认为设备通过认证,如有多点匹配该结点,将优先使用 MAC地址相同结点的配置数据,如无MAC匹配记录,则按第一匹配结点下发配置,相当于进设 备替换处理。通过认证后,可加入集群,并获取私有配置。如待认证结点,既不在白名单中,也 不在黑名单中,则返回设备论证没发现,可加入集群,但不能获取私有配置、远程自动升级app。 3.3.3 交换机状态 通过认证状态:处于通过认证状态的交换机,可自动加入集群,获取私有配置,并可在命令 交换机上启动该台设备的远程app升级。 黑名单状态:处于黑名单状态的交换机,不可以加入集群,不能获取私有配置,及远程升级 APP。通常不属于集群管理网络的用户交换机,且支持HGMP管理的交换机。 未确认状态:当有新设备加入网络时,又没经过网络管理人员的确认的状态,可以加入集群 被管理,但不然获取私有配置及远程升级app。 3.3.4 拓扑的显示 HGMP对于拓扑的显示主要有: z 树状白名单显示,树状显示,最多为三级 z 树状当前拓扑显示 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 9 z 点对点路径显示 z 黑名单显示 3.4 集群维护的过程 集群通过命令交换机的MAC来唯一标识,但在处理命令交换机的重启请求时,允许只通过 集群名称来判断是否是同一个集群,不同的集群应该配置不同的名称。 建立集群过程要求: 1)所有要加入集群的交换机必须支持集群操作,并且是否支持集群操作,可以由用户设置 决定。 2)至少有一台交换机可以作为命令交换机。 3)必须首先设置命令交换机,然后通过加入与删除成员交换机的操作来建立整个集群。 4)成员加入过程支持自动加入与人工加入两种方式,两种方式的流程是相同的,只是触发 条件不相同,自动方式是在命令交换机被指定后,由系统自动触发的;而人工方式是由用户通过 命令行或者网管来触发的。 在命令交换机上,用户可以查看当前网络拓扑状态下的候选交换机。候选交换机的发现通过 NTDP来得到。如果一个交换机已经属于一个集群A,则不能再加入另一个集群B,并且不成为集 群B的候选交换机。 成员加入过程分为支持认证方式与不认证方式两种。在认证方式下,如果鉴权不通过则候选 交换机拒绝加入集群,在成员加入过程中,通过超时重传机制来处理异常。 1)认证方式: 如果候选交换机上配置了密码,则相应的命令交换机向它发加入请求时,需 要通过身份鉴权。过程如下所示: 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 10 请求加入报文(Requet_Add) Challege报文(Response_Chanllege) 鉴权报文(Request_Auth) 加入确认报文(Response_ACK) 配置信息报文(Request_Config) 加入结束报文(Response_Join) 命令交换机 侯选交换机 /成员交换 机 图4 认证方式的成员加入过程 对于认证的方式,说明如下:对鉴权报文中的密码,以及需要加密的配置信息报文中的配置 信息,加密采用MD5加密算法。在加入过程中,实行超时重传机制,无论是命令交换机还是候 选交换机,如果在指定时间内没有收到相应的响应报文,都假设报文在链路上被丢失,重发报文。 重发最大次数缺省为3次,可根据情况修改;如果重发次数超过最大次数,仍然没有收到响应报 文,则停止加入处理,该候选交换机的加入过程失败。 2)不认证方式:如果候选交换机没有配置密码,则相应的命令交换机在向它发加入请求时, 候选交换机不需要进行身份鉴权。 不认证方式的成员加入过程与认证方式的相似,不同的只是在候选交换机收到命令交换机的 加入请求后,不是返回 Challenge 报文,而是直接返回加入确认报文。命令交换机判断候选交换 机确认同意加入后,向候选交换机下发配置信息,对下发的配置信息不做加密处理。 删除成员交换机,由命令交换机发起,执行删除操作时,命令交换机将删除保留的成员交换 机的信息,并向成员交换机发删除请求报文,并等待成员交换机的确认。如果等待删除确认超时, 则在有限次数内进行重发;删除命令交换机时,命令交换机向各成员发送删除请求报文。 在成员交换机或命令交换机重启,或者通讯中断超过规定时间后恢复时,相应的成员交换机 要进行重新加入处理。 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 11 1)当通信中断时,命令交换机与成员交换机将对故障状态进行记录,如果中断在规定时间 内(用户可设置)恢复,则把状态迁移回正常。 2)命令交换机一旦发现中断在超出规定时间后恢复,如收到拓扑更新信息,将向相应的成 员交换机发加入请求,重新进行成员加入处理。 3)成员交换机在中断在超出规定时间后恢复,如收到命令交换机下发的业务报文等,将会 根据记录的命令交换机的信息自动向命令交换机发送恢复请求报文,要求重新加入集群。命令交 换机收到恢复请求后下发请求加入报文,开始成员的加入过程处理。成员交换机的恢复请求将实 行超时重传机制,如果连续发送N次(缺省为3次)后,没有收到命令交换机下发的加入请求报 文,将停止发送。 在HGMP中,通过状态机来维护成员交换机当前在集群中的状态。 3.5 集群内部的通讯 在集群内部,成员交换机与成员交换机的实时通讯是通过定时握手报文来维系的,并监视集 群内各成员的状态;同时,发现拓扑改变时,成员交换机也会通过握手报文上报命令交换机来处 理,但拓扑改变不直接影响集群的组成。 在集群的拓扑结构发生变化时,与状态异常的成员交换机相邻的成员交换机会首先发现(通 过定时传送的NDP报文)。成员交换机在发现现邻居的成员交换机的异常后,向命令交换机发 送的握手报文中将携带上相关信息,命令交换机在解析出拓扑变化信息后,开始重新收集拓扑信 息;同时通过向网管发送TRAP报文,从而触发网管更新网络的拓扑状态。如果相邻设备不是集 群成员,则需要依赖定时拓扑收集。 拓扑的变化不影响集群的组成,即拓扑发生变化后,并不引起集群的自动变化,新发现的候 选交换机不能够自动加入到集群中,需要通过手工操作完成新发现候选交换机加入集群的过程, 链路状态发生异常引起的拓扑变化也不会导致集群中成员交换机被自动删除,删除操作也必须通 过手工操作完成。拓扑收集除了随机的局部收集之外,还需要定期进行全局收集拓扑,来防止局 部收集不能放映出来的拓扑的全部变化。 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 12 3.6 命令交换机对集群状态的监控 命令交换机和成员交换机会定时相互发送握手报文,已保持他们之间的连接状态。如果三次 接收不到握手报文,再过一段保留时间(用户可设置,默认为60s),交换机会将对方的状态设 置为DOWN,同时也会发出TRAP信息通知网管。状态变为DOWN的成员交换机需要重新加入集 群,重新加入的操作由成员交换机主动发起。 在支持集群即插即用功能中,成员交换机如果发现命令交换机DOWN了,自己会自动退出 集群,等待其他命令交换机将其加入到集群中。 命令交换机可以PING成员交换机的私有IP地址来检测网络连接状态,成员交换机无法PING 通集群外公网上的IP地址。 命令交换机可以监控成员交换机获取/备份配置文件、升级app的状态,显示说明如下: Load APP :该成员正在下载app Wait APP:该成员等待下载app Load CFG:该成员正在从FTP Server上获取执行配置文件 Save CFG:该成员正在将自己当前的配置备份到FTP Server上 下载app的超时时间为1000s,备份和恢复配置文件的超时时间为500s,用户可以通过察看 成员详细信息获得剩余的时间。备份恢复配置文件和下载app等动作的结果,将以SYSLOG的形 式通报给用户。 3.7 成员交换机的即插即用(零配置) 将一台新的交换机,不需做任何配置,放入已建立好集群的网络中,就能被自动发现,并加 入到集群中,用户可直接远程管理。 即插即用的目的宗旨是任何空配置或者其他配置的设备,只要其集群特性和NDP、NTDP特 性是使能的,就能够加入到所在的集群中,并且能够远程进行进一步的管理。即插即用不能影响 设备的业务,即保证业务是可通的。 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 13 3.8 集群的各种管理应用 集群对外部提供的各个管理维护的应用,包括SNMP网管,命令行,程序和数据的加载,日 志、告警上报等,这些应用的实现需要由命令交换机把应用协议的报文转发给成员交换机。 集群管理中大部分应用协议的代理转发通过NAT方式实现,这种方法和给每种应用单独做代 理的方法比较起来开发工作量较小,而且标准的NAT有利于通过硬件实现转发处理来减轻命令交 换机的处理开销。 命令交换机上需要有NAT模块,这个NAT模块要支持PAT功能,而且其端口号映射表要支持 静态指配,NAT模块的防火墙需要能够支持应用协议使用非知名的端口号。业务通道上的带内网 管报文能够由NAT模块处理,这里指的NAT模块可以由纯软件实现也可以由硬件辅助完成。 对于需要从集群内部的多个Client通过NAT访问公网上的多个Server的应用协议,按照标准 的NAT处理,NAT模块自己产生动态的转换表项。对于需要从公网上的多个Client通过NAT访问 集群内部的多个Server 的应用协议,转换表是由集群管理模块指配的,NAT模块要支持由外部 模块增加、删除、修改转换表项的接口。对于某些需要动态协商端口号的应用协议,例如FTP, 需要能够通过应用协议的ALG来实现对动态建立临时端口号的转换。 NAT功能分为两类:NAT和PAT,NAT只转换IP地址,而PAT则既转换IP地址也转换四层端 口号。在集群管理中使用标准的NAT实现内部私网的Client访问公网的Server,这时NAT自动维 护一张动态表。从公网的Client访问集群内部的Server通过PAT方式实现,需要维护一个静态表。 此外,集群管理用于用户管理模块静态分配的四层协议端口范围从49152~65535(用16进 制表示为c000~ffff),为了避免端口号的重复使用,这段范围内的端口号专门保留给集群管理 协议使用,其他的应用协议和NAT动态分配时都不允许使用这段范围内的端口号。 在这段保留的端口号中,为了处理方便,端口号按照二进制位域划分,14~15bits最高2位 固定为11,11~13bit 标识不同的应用协议服务器的类型(注意:只有Server才需要静态分配端 口号,Client的端口号是临时分配的,具体细节请看NAT处理举例),最多可以标识8种不同的 应用协议服务器,其中000:SNMP agent;001: HTTP Server;010:FTP Server;其他值保 留以后使用。0~10bit标识不同的设备序列号,最多可以标识2048个设备; 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 14 3.8.1 集中网管通过 SNMP 管理集群 网管通过SNMP管理集群成员的过程定义如下: (1)配置集群的命令交换机,命令交换机发现拓朴。 (2)网管从命令交换机的MIB中获得拓朴数据(具体的MIB参考MIB规范NTDP协议部分)。 (3)指定的成员交换机加入集群,命令交换机给其分配序号、名称、私有IP地址,同时根 据上节描述的四层端口号分配原则给成员分配8个端口号用于区分不同的应用协议每种应用的 Server提供服务,用于SNMP也有一个唯一的端口号,并把“端口-私有IP地址” 的多到一映射 关系配置到NAT模块;成员交换机提供服务的端口号不变(仍然使用161端口),命令交换机完 成“私有IP+SNMP 协议的知名端口”与“成员交换机公网IP+保留端口号”间的转换。 (4)网管从命令交换机的MIB中获得 序号-成员交换机设备标识的映射表,并根据此映射 关系计算出每个成员交换机对应的目的端口号。 (5)网管每次给指定的成员交换机发送SNMP管理报文,其目的IP地址都填写命令交换机 的公网管理IP,而目的端口号填写该成员交换机对应的端口号。而网管管理命令交换机本身,则 填写SNMP协议的知名端口号。 (6)网管的SNMP报文发送到命令交换机后,命令交换机根据目的端口号确定是发给本机 的还是需要转发给成员的,如果目的端口号的最高位是11,则是需要转发给成员的,交给NAT 模块处理。NAT模块根据端口和私有IP 的映射表把目的IP由公网管理IP转换为成员对应的私网 IP,目的端口号变换为SNMP协议的知名端口号。 集群成员设备发送所有的TRAP报文都要在告警域中增加设备标识,网管依靠设备标识区分 不同成员交换机发来的TRAP报文。如果网管客户端在SNMP报文的payload中包含IP地址或者四 层端口号,则需要通过专门的ALG转换。 3.8.2 通过 Telnet 管理集群 Telnet不采用NAT的方法实现,而是需要先登录到命令交换机上,然后输入“Cluster switch-to 成员编号”,登录到成员交换机上,实际上cluster switch-to操作完成的是一个成员名 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 15 称到其私有管理IP地址的转换并启动一个Telnet连接。成员交换机加入集群时命令交换机用自己 的特权用户密码覆盖了成员交换机的特权用户密码。 要求进行cluster switch-to操作时成员交换机必须存在一条空闲的vty line,用户从命令交换 机通过cluster switch-to命令登录成员交换机时,需要在建立Telnet连接的协商过程中增加一个鉴 权的处理,这个过程中用于鉴权的密码必选是密文的方式发送,用于鉴权的密码是集群的密码(即 命令交换机的特权用户密码)。 在通过cluster switch-to登录成员交换机时,登录的用户级别等于当前用户在命令交换机上 的用户级别。如果命令交换机在普通用户模式下cluster switch-to 到成员交换机,则也在普通用 户模式下,必选在输入特权用户密码才能进而特权模式;如果命令交换机在特权用户模式下 cluster switch-to 到成员交换机,则直接进入特权用户模式。 3.8.3 通过 WEB 网管管理集群 WEB网管的实现采用JAVA+SNMPv3的设计模式,其协议栈模型如下: 图5 WEB网管软件运行环境示意图 WEB网管客户端通过标准HTTP存取被管理设备的网页和Java applet,通过标准SNMPv3 协议接入。因为WEB网管的所有网页和java程序都要存放在设备中,出于简化考虑,同时为了 保证各个成员设备本身的WEB网管的独立性,WEB网管即使支持集群管理也不依赖一种特定的 设备作为管理中心。 WEB网管支持集群管理的方式是通过一个独立JAVA软件包作为集群管理的用户操作界面, 用户在这个界面中处理拓扑和成员管理的任务,而对一个集群成员进行管理维护时直接调用集群 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 16 成员单机的WEB网管页面。只要一个设备具有成为命令交换机的能力,则这个设备就可以通过 增加一个JAVA包来支持WEB网管的集群管理。 WEB网管实现集群的管理需要支持标准的HTTP协议和SNMP协议的代理转发,因为它们都 是Client从公网访问集群内部的Server的方式,因此需要通过命令交换机给每个成员交换机的 HTTP Server和SNMP Agent分配保留端口号, HTTP Client在访问成员交换机的页面时需要在URL中指定访问这个成员交换机时使用的端 口号,命令交换机利用该端口号将“命令交换机公网IP+该端口号”转换为“成员交换机私网IP +HTTP协议知名端口号”。 WEB网管要能够从命令交换机获取 序号-成员交换机设备扩展标识的映射表,并根据此映 射关系计算出访问每个成员交换机的HTTP Server和SNMP Agent时WEB网管使用的端口号。成 员交换机仍然使用HTTP和SNMP协议的知名端口号提供服务,命令交换机完成端口号的转换。 WEB网管管理成员交换机的过程定义如下:用支持JAVA的浏览器访问命令交换机WEB网管 的主页面;下载集群管理软件支持包,并进入集群管理页面,同时初始化SNMP协议栈和命令交 换机的agent通信。如果集群未建立,建立集群,收集拓扑并加入成员交换机;如果集群已建立, 通过访问命令交换机上的MIB获取成员信息和成员序列号。在拓扑图界面上显示出集群的成员设 备和候选设备、设备之间的链路状态。在成员管理界面上显示出集群所有的成员,可以采用面板 的方式显示。选择拓扑图或者成员管理界面上的成员设备并配置它,则WEB网管客户端自动通 过HTTP重定向到成员交换机本地WEB Server下载成员交换机的WEB页面和相关的java applet 包。这样WEB网管客户端就可以通过SNMP协议对成员交换机进行维护管理。 3.8.4 程序和数据的逐个和批量加载 FTP(TFTP)应用通过在成员交换机的标准的FTP(TFTP) Client发起,FTP(TFTP) Server可 以在命令交换机上或者集群外的公网上,如果Server在公网上,则需要用标准的NAT方式进行地 址转换。批量加载通过在命令交换机上用批处理命令的方式实现,命令交换机把批处理的命令解 释后,通过集群管理协议的配置消息通知指定的成员交换机向指定FTP(TFTP) Server 发起加载。 1)配置备份功能 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 17 保存设备的配置到FTP服务器,以便设备更换后,可以根据原有设备的配置来恢复配置,以 减少人工再次配置。配置保存和恢复是指当前的配置,不是指FLASH中的配置文件。 配置备份的基本过程是:命令交换机发送单播报文通知指定的成员交换机备份配置,如果是 保存所有成员配置的命令,则命令交换机依次给各个成员交换机发送单播备份通知报文。此通知 报文中,携带该成员交换机配置文件在服务器上对应的目录名(按成员的拓扑位置给出)、登陆 FTP服务器的用户名和密码。成员交换机收到自己命令交换机发送过来的备份配置通知报文后, 延时指定时间间隔后,自动建立与FTP服务器的连接,并根据命令交换机下发的用户名密码登陆, 登陆后,检查是否有本台设备的相应目录,如果没有则创建,然后保存本地的配置文件,将新保 存的配置文件上传到FTP服务器。如果成员交换机在上传过程中出现问题,如连接不上,或用户 名密码不正确等错误时,则关闭FTP连接,并发送单播报文通知命令交换机备份失败的原因。命 令交换机收到此报文后,以SYSLOG的形式在屏幕上显示,发送到日志主机。 在配置备份中,FTP服务器上,对于每台设备的目录的命令规则目录的命名和保存于FTP服 务器的基准拓扑必须保持一致。 2)配置恢复功能 更换设备后可以通过此命令来实现配置的恢复。配置恢复的基本过程: 命令交换机发送单播报文通知指定的成员交换机恢复配置,如果是恢复多个成员配置的命 令,则命令交换机依次给各个成员交换机发送单播备份通知报文。命令交换机需判断此成员是否 是标准拓扑中的设备,如果是标准拓扑中的设备,则在报文中给出按位置保存的配置文件所在目 录名,并给出按设备类型的公有配置文件所在目录名,以防用户没有按位置保存时,仍能下发公 有配置文件。如果不是标准拓扑中的设备,等待管理员认证,认证如果没通过,将其剔出集群, 并加入黑名单,如果认证通过,给出按设备类型保存的公有配置文件的目录名、登陆FTP服务器 的用户名和密码。 成员交换机收到自己命令交换机发送过来的恢复配置通知报文后,延时指定的时间间隔后, 自动建立与FTP服务器的连接,并根据命令交换机下发的用户名密码登陆。如果通知报文中按位 置保存配置文件的目录名非空,则先到此目录下去备份的配置,如果获取失败,根据公有配置的 目录名取公有配置;如果通知报文中按位置保存配置文件的目录名非空,则直接根据公有配置的 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 18 目录名取公有配置。如果成员交换机在下载过程中出现问题,如连接不上,或用户名密码不正确 等错误时,则关闭FTP连接,并发送单播报文通知命令交换机恢复失败的原因。命令交换机收到 此报文后,以SYSLOG的形式在屏幕上显示,发送到日志主机,并通过TRAP通知网管。 成员交换机获取配置成功后,以命令行执行的方式,将此配置文件执行一遍,并发送报文通 知命令交换机获取配置成功。 3)应用程序升级功能 应用程序升级的基本过程: 命令交换机发送单播报文通知指定的成员交换机升级app,如果是升级所有成员app的命令, 则命令交换机依次给各个成员交换机发送单播升级app通知报文,升级app令牌一共有3个,同时 只能有3台成员交换机升级app,其余的成员在app的wait list中。在通知报文中,携带该成员交 换机app文件在服务器上对应的目录名(按成员的设备类型给出),登陆FTP服务器的用户名和 密码,另外,还有该成员交换机在建立FTP连接之前需要延时的时间间隔。延时时间间隔根据上 次发送报文的时间和已发出多少个报文确定,确保每台设备依次登陆FTP Server。 成员交换机收到自己命令交换机发送过来的恢复配置通知报文后,延时指定的时间间隔后, 自动建立与FTP服务器的连接,并根据命令交换机下发的用户名密码登陆,到指定目录下获取第 一个app文件(如果该目录下没有app文件,将会获取第一个bin文件),获取成功后,关闭连接。 如果成员交换机在下载app的过程中出现问题,如连接不上,或用户名密码不正确等错误时,则 关闭FTP连接,并发送单播报文通知命令交换机获取app失败的原因,命令交换机收到此报文后, 以SYSLOG的形式在屏幕上显示,发送到日志主机。 该过程中,无论成功失败,成员交换机都要发送报文通知命令交换机运行的结果。命令交换 机收到此报文后,以SYSLOG和TRAP通知用户。如果成员交换机将新的app文件写入FLASH成 功,发送重启通知报文通知命令交换机后,无需等待命令交换机的响应,立即重启。命令交换机 收到成员重启通知报文后,设置定时器进行等待,如果一定时间后,此成员没有重新加入到集群 中,通知用户升级失败。 4)成员交换机加入集群时自动获取配置文件 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 19 设备在加入集群之后,主动获取服务器上的相关设备类型的配置文件进行配置下发。其基本 过程是: 命令交换机通过拓扑收集得知有新的成员加入时,发送单播报文通知指定的成员交换机获取 配置,如果是获取多个成员配置的命令,则命令交换机依次给各个成员交换机发送单播备份通知 报文。 命令交换机需判断此成员是否是标准拓扑中的设备,如果是标准拓扑中的设备,则在报文中 给出按位置保存的配置文件所在目录名,并给出按设备类型的公有配置文件所在目录名,以防用 户没有按位置保存时,仍能下发公有配置文件。如果不是标准拓扑中的设备,等待管理员认证, 认证如果没通过,将其剔出集群,并加入黑名单,如果认证通过,给出按设备类型保存的公有配 置文件的目录名。 成员交换机收到自己命令交换机发送过来的恢复配置通知报文后,延时指定的时间间隔后, 自动建立与FTP服务器的连接,并根据命令交换机下发的用户名密码登陆。如果成员交换机在下 载过程中出现问题,如连接不上,或用户名密码不正确等错误时,则关闭FTP连接,并发送单播 报文通知命令交换机恢复失败的原因。命令交换机收到此报文后,以SYSLOG的形式在屏幕上 显示,发送到日志主机,并通过TRAP通知网管。成员交换机获取配置成功后,以命令行执行的 方式,将此配置文件执行一遍,并发送报文通知命令交换机获取配置成功。 4 典型应用 集群管理可以在接入、银行、电力、学校、企业内部管理等不同场合得到应用,它最大可支 持255个成员。其典型应用组网图如下图所示: 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 20 图6 集群管理典型组网图 下面通过典型的组网情况介绍一下集群管理的使用方式和实施步骤: 1)建立集群: 选择命令交换机,为命令交换机配置公网管理IP,配置集群的私有IP Pool。然后在命令交 换机上建立集群,建立集群必须指定集群名称。 2)成员加入: 对于支持成员即插即用功能的设备,无需用户手动添加,默认情况下(120s内),可将收 集范围内的候选交换机自动加入集群。 如果不支持即插即用,建立集群后,可以通过网管界面查看到网络拓扑信息和以及拓扑收集 范围内的候选交换机;通过网管界面可以将候选交换机加入集群成为成员;也可以通过命令行界 面用auto-build 命令将收集范围内的所有候选交换机加入集群。对于不在收集范围内的候选交换 机可以通过其桥MAC地址直接加入,加入过程中如果设备有密码,则必须通过鉴权才能把设备 加入集群;成员加入过程中命令交换机会为新加入的设备分配私有IP地址及其它配置信息。 3)成员管理: 集群管理技术白皮书 http://www.huawei.com/cn/products/datacomm Copyright ©2007 华为技术有限公司 版权所有,侵权必究 21 设备加入集群后,用户就可以通过命令行对它进行直接配置,或通过网管方式对它进行相应 的管理。在用户将这些设备通过拓扑认证后,可做更新配置/文件下载/批量等操作。 4)集群状态的维护: 用户可以对集群进行维护,按需要添加/删除成员等; 集群中对成员状态进行实时维护,成 员状态信息还可以反映在网管中的拓扑图中。下载/保存配置文件,app升级的状态也可以查看, 在成员的详细信息中,还有剩余的超时时间显示。 5 结束语 随着宽带用户的迅速发展,接入层设备量大而分散,设备告警、故障定位困难,设备配置、 升级、更换等过程同样麻烦,这些都使得运营商的运维成本大大增加。HGMP通过新设备自动发 现、批量模式/即时模式的集群配置,可以使得用户终端实现即插即用和零配置;一个网管IP地 址完成多达256台的集群拓扑收集和管理,可以实现集中维护,远程故障定位和恢复。所有这些 特性为运营商对于接入网的维护和管理提供很大的方便,大大降低了网络的运营和维护成本,可 以在城域网的宽带接入网中广泛部署。 附录A 缩略语 英文缩写 英文全称 中文解释 NDP Neighbor Discovery Protocol 邻居发现协议 NTDP Network Topology Discovery Protocol 邻居拓扑发现协议 HGMP Huawei Group Management Protocol 华为集群管理协议 SNMP Simple Network Management Protocol 简单网络管理协议 FTP File Transfer Protocol 文件传输协议
还剩22页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

108439162

贡献于2012-02-20

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf