gbase 8a mpp cluster gcmonit与集群启停工具使用手册


南大通用数据技术有限公司 - 1 - GBase 8a MPP Cluster (集群) GCMonit 与集群启停工具使用手册 V8.5.1.2 GBase 8a MPP Cluster GCMonit 与集群启停工具使用手册,南大通用数据技术股份有限 公司 GBase 版权所有©2004-2015,保留所有权利。 版权声明 本文档所涉及的软件著作权、版权和知识产权已依法进行了相关注册、登记,由南大通用数 据技术股份有限公司合法拥有,受《中华人民共和国著作权法》、《计算机软件保护条例》、 《知识产权保护条例》和相关国际版权条约、法律、法规以及其它知识产权法律和条约的保 护。未经授权许可,不得非法使用。 免责声明 本文档包含的南大通用公司的版权信息由南大通用公司合法拥有,受法律的保护,南大通用 公司对本文档可能涉及到的非南大通用公司的信息不承担任何责任。在法律允许的范围内, 您可以查阅,并仅能够在《中华人民共和国著作权法》规定的合法范围内复制和打印本文档。 任何单位和个人未经南大通用公司书面授权许可,不得使用、修改、再发布本文档的任何部 分和内容,否则将视为侵权,南大通用公司具有依法追究其责任的权利。 本文档中包含的信息如有更新,恕不另行通知。您对本文档的任何问题,可直接向南大通用 数据技术股份有限公司告知或查询。 未经本公司明确授予的任何权利均予保留。 通讯方式 南大通用数据技术股份有限公司 天津华苑产业区海泰发展六道 6 号海泰绿色产业基地 J 座(300384) 电话:400-817-9696 邮箱:info@gbase.cn 商标声明 是南大通用数据技术股份有限公司向中华人民共和国国家商标局申请注册的注 册商标,注册商标专用权由南大通用公司合法拥有,受法律保护。未经南大通用公司书面许 可,任何单位及个人不得以任何方式或理由对该商标的任何部分进行使用、复制、修改、传 播、抄录或与其它产品捆绑使用销售。凡侵犯南大通用公司商标权的,南大通用公司将依法 追究其法律责任。 GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 I 目 录 前言 ............................................................. 1 手册简介 ..................................................... 1 公约 ......................................................... 1 1 GCMonit ...................................................... 2 1.1 背景信息 ............................................... 2 1.2 功能介绍 ............................................... 2 1.3 注意事项 ............................................... 3 1.4 GCMonit 配置文件 ........................................ 3 1.4.1 gcmonit 配置文件 .................................. 3 1.4.2 gcmmonit 配置文件 ................................. 6 1.5 GCMonit 日志文件 ........................................ 7 1.6 命令格式 ............................................... 7 1.7 命令示例 ............................................... 7 1.7.1 启动 GCMonit ...................................... 7 1.7.2 关闭 GCMonit ...................................... 8 1.7.3 重启 GCMonit ...................................... 8 1.7.4 查询 GCMonit 状态 .................................. 8 2 集群启停工具 ................................................ 11 2.1 工具介绍 .............................................. 11 2.2 命令格式 .............................................. 11 2.3 命令示例 .............................................. 12 2.3.1 集群所有服务启停 ................................. 12 2.3.2 gclusterd 服务启停 ............................... 13 2.3.3 gbase 服务启停 ................................... 13 2.3.4 gcmetarecover 服务启停 ........................... 14 2.3.5 gcdatarecover 服务启停 ........................... 14 2.3.6 syncserver 服务启停 .............................. 15 GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 1 前言 手册简介 本手册介绍如何使用 GCMonit 工具监控集群的各种服务程序,以及集群启 停工具的使用方法。 公约 下面的文本约定用于本文档: 约 定 说 明 加粗字体 表示文档标题 大写英文(SELECT) 表示 GBase 8a MPP Cluster 关键字 等宽字体 表示代码示例 … 表示被省略的内容。 GCMonit 与集群启停工具使用手册 - 2 - 南大通用数据技术股份有限公司 1 GCMonit 1.1 背景信息 在客户的业务场景中,GBase8a 集群产品的运行过程需要在系统中启动若 干服务程序,如 gbased,gclusterd 等。这些服务程序在某些特殊情况下(如 系统异常,资源占用过量,程序运行异常等),其进程会结束或被系统强行关闭。 手工重启这些服务程序,既繁琐,又不能保证及时性和有效性,严重影响 了 GBase8a 产品的功能性和可用性。 为此,GBase 8a产品改进了系统Monit 功能,用于监控GBase 8a MPP Cluster 中的各个服务程序,一旦发现某个服务程序的进程不存在,Monit 就自动通过 预先配置好的内容来重新启动该服务程序。 由于 Monit 是开源工具,在某些 unix 或 linux 系统中运行会存在一定程度 的兼容性问题(suse 系统中会出现不能监控进程的问题),另外,被监控进程 还需要提供相应的 pid 文件给 Monit,它本身也不支持高可用运行模式。 因此我们依照 GBase 8a产品自身需求和Monit工具的基本功能,研发 GBase 8a GCMonit 来满足多 unix(或 linux)系统的运行需求。 GCMonit 进程监控程序为集群中的每个组件提供各自的启停脚本,提供的 总脚本可以一次性启停所有模块的服务。 1.2 功能介绍 GCMonit 的主要功能就是定期监测 GBase 8a 集群服务程序的运行状态 (running or stoped)。 1) 实时监控 GBase 8a 集群服务程序(目前主要包括 gbased,gclusterd, gcdatarecover,gcmetarecover 和 gc_sync_server)的运行状况,一 旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内 GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 3 容来执行相应的命令。 2) 提供用户指定的配置文件,可配置内容包括:需要监控的服务程序名 称,服务进程状态变化时所要执行的方法,检测服务程序的时间间隔, 日志文件路径和名称等。 3) 记录日志信息。 4) 实现 GBase 8a GCMonit 的高可用性。 1.3 注意事项 GCMonit 的启动和停止,必须保证在同一用户下进行。即使用哪个用户启 动 GCMonit,就需要哪个用户来停止。不同用户之间的启动和停止操作互不影 响。目前默认的操作用户为 gbase。 1.4 GCMonit 配置文件 gcmonit 与 gcmmonit 实现的功能完全一致,配置文件的格式也完全一致。 只是它们的监测范围不同,gcmonit负责监测GBase8a各个服务程序和 gcmmonit 程序的运行状况;而 gcmmonit 只负责监测 gcmonit 程序的运行状况。因此,它 们的配置文件内容存在差异。 1.4.1 gcmonit 配置文件 GCMonit 配置文件名为 gcmonit.conf。 配置文件路径:$GCLUSTER_BASE/config/。其中$GCLUSTER_BASE 是集群环 境变量。 gcmonit.conf 配置文件的具体格式如下: [common] GCMonit 与集群启停工具使用手册 - 4 - 南大通用数据技术股份有限公司 log_file=/opt/gcluster/log/gcluster/gcmonit.log interval=5 retry_times=10 log_flag=1 #gcmmonit is the HA Daemon of gcmonit [gcmmonit] prog_name="gcmmonit" ok2fail_trigger_cmd="/opt/gcluster/server/bin/gcmmonit --start" fail2ok_trigger_cmd="" [gbased] prog_name="gbased" ok2fail_trigger_cmd="sh /opt/gcluster/server/bin/gcluster_services gbase start" fail2ok_trigger_cmd="" [gclusterd] prog_name="gclusterd" ok2fail_trigger_cmd="sh /opt/gcluster/server/bin/gcluster_services gcluster start" fail2ok_trigger_cmd="" [gcsync] prog_name="gc_sync_server" ok2fail_trigger_cmd="sh /opt/gcluster/server/bin/gcluster_services syncserver start" fail2ok_trigger_cmd="" [gcmetarecover] prog_name="gcmetarecover" ok2fail_trigger_cmd="sh /opt/gcluster/server/bin/gcluster_services gcmetarecover start" fail2ok_trigger_cmd="" [gcdatarecover] prog_name="gcdatarecover" GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 5 ok2fail_trigger_cmd="sh /opt/gcluster/server/bin/gcluster_services gcdatarecover start" fail2ok_trigger_cmd="" [gcware] prog_name="corosync" ok2fail_trigger_cmd="" fail2ok_trigger_cmd="" global="1" 参数说明如下: common 下的 log_file:指定 gcmonit 的日志文件名称和所在目录,如果没 有指定,程序将报错退出 common 下的 interval:指定 gcmonit 的检测服务程序的时间间隔,设置内 容为正整数。单位为秒。最小值为 1,最大值为 3600。如果没有指定,或者指 定值越界,程序将报错退出 common 下的 retry_times:指定 gcmonit 启动被监测程序的连续失败次数, 设置内容为非负整数。最小值为 0,代表无限重试;最大值为 64。如果没有指 定,或者指定值越界,程序将报错退出 common 下的 log_flag:指定 gcmonit 程序启动过程中是否生成 log 文件。 1 表示生成 log 信息;0 表示不生成 log 信息。默认值为 1 除 common 以外,其它方括号标题均以固定字符串来指代集群服务程序。目 前主要包括:gcmmonit,gbased,gclusterd,gcsync,gcmetarecover 和 gcdatarecover。 prog_name 指定了集群服务程序对应的具体进程名称。 ok2fail_trigger_cmd 指定了被监测程序由 running 到 stoped 状态后,或 者是在 retry_times 内的 stoped 到 stoped,需要执行的命令行方法。 GCMonit 与集群启停工具使用手册 - 6 - 南大通用数据技术股份有限公司 fail2ok_trigger_cmd 指定了被监测程序由 stoped 到 running 状态后需要 执行的命令行方法。 global 指定了被监控程序的监控范围。0 表示只对当前系统用户启动的进 程进行监控;非 0 表示对系统中所有进程进行监控。默认值为 0。 prog_name 必须在配置文件中指定。如果没有指定,gcmonit 程序将报错退 出。 gcmonit 和 gcmmonit 程序的 global 设置值固定为 0(无论用户是否设置), 即仅对当前系统用户启动的 gcmonit 和 gcmmonit 程序进行监控; ok2fail_trigger_cmd,fail2ok_trigger_cmd 和 global 为可选设置项, 用户可以依照需求来进行设置。如果发现设置存在异常(如重复设置,设置值 有误等),gcmonit 程序将报错退出; 如果修改了配置文件,需要重新启动 GCMonit 方可起效。 GCMonit 仅以 gcmonit.conf 中的 sharemem_offset 参数为准。在修改 sharemem_offset 参数时,需要先将 GCMonit 服务停止,修改参数后,再启动, 方可生效。 说明: 配置文件支持注释功能,通过行首的“#”符号来注释该行信息。“#”注释 符只在行首生效,其余位置一律无效。 配置文件不支持配置信息换行。 1.4.2 gcmmonit 配置文件 gcmmonit 程序的配置文件名为 gcmmonit.conf。 配置文件路径:$GCLUSTER_BASE/config/。其中$GCLUSTER_BASE 是集群环 境变量。 GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 7 gcmonit.conf配置文件的具体格式如下: [common] log_file=/opt/gcluster/log/gcluster/gcmmonit.log interval=5 retry_times=10 log_flag=1 [gcmonit] prog_name="gcmonit" ok2fail_trigger_cmd="/opt/gcluster/server/bin/gcmonit --start" fail2ok_trigger_cmd="echo gcmonit started again" 1.5 GCMonit 日志文件 gcmonit 和 gcmmonit 日志文件的名称和所在路径在配置文件中设置。用户 必须对其进行指定,无默认值。 1.6 命令格式 gcmonit.sh 其中,prog_name 表示可以监控的程序名。 1.7 命令示例 1.7.1 启动 GCMonit $ $GCLUSTE_BASE/server/bin/gcmonit.sh start Starting GCMonit success! GCMonit 与集群启停工具使用手册 - 8 - 南大通用数据技术股份有限公司 1.7.2 关闭 GCMonit $ $GCLUSTE_BASE/server/bin/gcmonit.sh stop Stopping GCMonit success! 1.7.3 重启 GCMonit $ $GCLUSTE_BASE/server/bin/gcmonit.sh restart Stopping GCMonit success! Starting GCMonit success! 1.7.4 查询 GCMonit 状态 $ gcmonit.sh status +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID | +-------------------------------------------------------------------------+ |gcmmonit gcmmonit Running 2064| |gbased gbased Running 1906| |gclusterd gclusterd Running 1937| |gcsync gc_sync_server Running 1976| |gcmetarecover gcmetarecover Running 1999| |gcdatarecover gcdatarecover Running 2030| |gcware corosync Running 1881| +-------------------------------------------------------------------------+ $ gcmonit.sh status gcmmonit +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID | +-------------------------------------------------------------------------+ |gcmmonit gcmmonit Running 16999| +-------------------------------------------------------------------------+ GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 9 $ gcmonit.sh status gbased +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID| +-------------------------------------------------------------------------+ |gbased gbased Running 1906| +-------------------------------------------------------------------------+ $ gcmonit.sh status gclusterd +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID | +-------------------------------------------------------------------------+ |gclusterd gclusterd Running 1922| +-------------------------------------------------------------------------+ $ gcmonit.sh status gc_sync_server +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID | +-------------------------------------------------------------------------+ |gcsync gc_sync_server Running 16934| +-------------------------------------------------------------------------+ $ gcmonit.sh status gcmetarecover +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID | +-------------------------------------------------------------------------+ |gcmetarecover gcmetarecover Running 16789| +-------------------------------------------------------------------------+ $ gcmonit.sh status gcdatarecover +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID | +-------------------------------------------------------------------------+ |gcdatarecover gcdatarecover Running 16864| +-------------------------------------------------------------------------+ GCMonit 与集群启停工具使用手册 - 10 - 南大通用数据技术股份有限公司 $ gcmonit.sh status corosync +-------------------------------------------------------------------------+ |SEG_NAME PROG_NAME STATUS PID | +-------------------------------------------------------------------------+ |gcware corosync Running 1868| +-------------------------------------------------------------------------+ GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 11 2 集群启停工具 2.1 工具介绍 工具名称:gcluster_services 工具存放路径:/opt/gcluster/server/bin 功能:用于一次性启停集群所有相关服务。 包括:  gclusterd  gbased  syncserver  gcmetarecover  gcdatarecover  以上所有服务 2.2 命令格式 gcluster_services gcluster_services help 参数说明如下: force:用于服务无法停止时,内部用 kill -9 即 kill -KILL 的方式强制 停止服务进程。因此--force 选项仅当无法停止服务时方可使用,且仅可用于 stop 和 restart 操作。 GCMonit 与集群启停工具使用手册 - 12 - 南大通用数据技术股份有限公司 2.3 命令示例 2.3.1 集群所有服务启停 开启所有服务: # sh gcluster_services all start Starting gbase : [ OK ] Starting gcluster : [ OK ] Starting gcrecover : [ OK ] Starting syncserver : [ OK ] 停止所有服务: # sh gcluster_services all stop Stopping gbase : [ OK ] Stopping gcluster : [ OK ] Stopping gcrecover: [ OK ] Stopping syncserver : [ OK ] 重新开启所有服务: # sh gcluster_services all restart Stopping gbase : [ OK ] Stopping gcluster : [ OK ] Stopping gcrecover: [ OK ] Stopping syncserver : [ OK ] Starting gbase : [ OK ] Starting gcluster : [ OK ] Starting gcrecover: [ OK ] Starting syncserver : [ OK ] 查看当前所有服务执行状态信息: # sh gcluster_services all info gbase is running GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 13 gcluster is running gcmetarecover is running gcdatarecover is running syncserver is running 2.3.2 gclusterd 服务启停 启动 gclusterd 服务: # sh gcluster_services gcluster start Starting gcluster : [ OK ] 停止 gclusterd 服务: # sh gcluster_services gcluster stop Stopping gcluster : [ OK ] 重启 gclusterd 服务: $ sh gcluster_services gcluster restart Stopping gcluster : [ OK ] Starting gcluster : [ OK ] 2.3.3 gbase 服务启停 启动 gbase 服务: $ ./gcluster_services gbase start Starting gbase : [ OK ] 停止 gbase 服务: $ ./gcluster_services gbase stop Stopping gbase : [ OK ] GCMonit 与集群启停工具使用手册 - 14 - 南大通用数据技术股份有限公司 重启 gbase 服务: $ ./gcluster_services gbase restart Stopping gbase : [ OK ] Starting gbase : [ OK ] 2.3.4 gcmetarecover 服务启停 启动 gcmetarecover 服务: $ ./gcluster_services gcmetarecover start Starting gcmetarecover : [ OK ] 停止 gcmetarecover 服务: $ ./gcluster_services gcmetarecover stop Stopping gcmetarecover : [ OK ] 重启 gcmetarecover 服务: $ ./gcluster_services gcmetarecover restart Stopping gcmetarecover : [ OK ] Starting gcmetarecover : [ OK ] 2.3.5 gcdatarecover 服务启停 启动 gcdatarecover 服务: $ ./gcluster_services gcdatarecover start Starting gcdatarecover : [ OK ] 停止 gcdatarecover 服务: $ ./gcluster_services gcdatarecover stop Stopping gcdatarecover : [ OK ] GCMonit 与集群启停工具使用手册 南大通用数据技术股份有限公司 15 重启 gcdatarecover 服务: $ ./gcluster_services gcdatarecover restart Stopping gcdatarecover : [ OK ] Starting gcdatarecover : [ OK ] 2.3.6 syncserver 服务启停 启动 syncserver 服务: $ ./gcluster_services syncserver start Starting syncserver : [ OK ] 停止 syncserver 服务: $ ./gcluster_services syncserver stop Stopping syncserver : [ OK ] 重启 syncserver 服务: $ ./gcluster_services syncserver restart Stopping syncserver : [ OK ] Starting syncserver : [ OK ] - 2 - 南大通用数据技术股份有限公司
还剩19页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

xu2002261

贡献于2017-02-24

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf