Mesos Mr-Redis 沙箱试用到上线

qfmg6921 7年前
   <p>Mr-Redis 是华为基于mesos开发的一个redis framework , 方便管理 redis 实例和集群 (github url: <a href="/misc/goto?guid=4959751902747006354" rel="nofollow,noindex">https://github.com/mesos/mr-redis</a> )。Mr-Redis 可以创建单个实例,也可以创建主从实例,并实现了高可用, 这比使用 redis-sentinel 来实现 redis 高可用架构上简单很多。下面是我从测试 Mr-Redis 到上线过程中遇到的问题,希望对正在打算使用和调研 Mr-Redis 的同学有所帮助...</p>    <h2>Mr-Redis特点</h2>    <ul>     <li>充分使用数据中心的资源</li>     <li>创建一个redis实例的时间为秒级</li>     <li>failover 的时间为秒级<br> (在沙箱测试failover时把 redis 容器stop, 几秒种内会启动一个新的redis容器,ip和端口可能会发生变化,没有做主从的 redis 数据会丢失,做了主从的数据不会丢失)</li>    </ul>    <h2>Mr-Redis 解决了客服系统中哪些问题</h2>    <ul>     <li>每个微服务都拥有自己的 redis , 所以随着业务增长,微服务的拆分, redis 实例会不断的增长,通过 Mr-Redis 统一管理可以简化运维工作量</li>     <li>Mr-Redis 提供了 redis 的高可用,解决线上 redis 单点的问题</li>    </ul>    <h2>部署架构</h2>    <p><img src="https://simg.open-open.com/show/d2d5bb06682577c1befabd0ea8b2c027.png"></p>    <h2>使用 Mr-Redis 遇到的问题</h2>    <ul>     <li><strong>通过 Mr-Redis 部署的 redis 性能会损失多少 </strong><br> 和作者 Dhilip Kumar 聊过,他说 redis 性能会损失 30% 左右,当时不确定性能是在哪里损失掉的,经过沙箱测试发现性能是损失在proxy转发上面了,我的压测结果显示go-proxy损失了30-40%的性能,以后会逐步分析这个proxy是不是有改进的空间。`如果服务对 redis qps 要求特别高,建议考虑其他集群方案`**</li>     <li>redis 实例 failover 后, 客户端如何发现新的redis 地址<br> <strong>为了解决这个问题,我们做了如下改进:</strong>      <ul>       <li>redis 信息储存在 zk 里, 去掉 config.json 这个依赖, 初始化还有同步操作都从zk中读取</li>       <li>每个 mesos slave 机器上的 proxy 所代理的 redis 在本地的转发端口是一致的 (利用zk的一致性实现的)        <ol>         <li>最开始考虑的做法是想根据redis name hash成一个固定并且唯一的 在6100 - 6300区间的一个端口号, 不过这种方式可能冲突几率比较大</li>         <li>本地proxy每次启动的时候都去zk读取本地监听的端口号 (eg: 6166)</li>         <li>新建redis,随机选取6100 ~ 6300 之间的一个端口号 并且在zk里不存在,然后存在zk</li>         <li>采用轮询方式,proxy 会定时去获取 zk 中 redis 相关信息<br> 之前准备用zk的事件通知机制来处理, 不过由于 Mr-Redis 在 zk 中的数据结构复杂, 不能 通过childrenW 简单的实现, 所以只好折衷选择了轮训的方式来获取 proxy 代理的 redis 信息</li>        </ol> </li>      </ul> </li>     <li>scheduler 重启之后不会从zk中load redis信息,dashboard上不会显示任何redis实例,但是redis实例确实还在运行。<br> 这个问题可以通过一个 tricky 的方式来解决,在 zk 中查询出所有运行中的 redis 实例名称(eg. redis_name), 对每一个实例执行 curl <scheduler_ip>:5656/v1/STATUS/redis_name, 执行完这个命令, dashboard 上就会显示所有运行的 redis 实例</li>     <li>在 dashboard 中创建 redis 实例,dashboard 上不会自动更新<br> 可以手动刷新,如果有时间可以帮忙解一下这个bug</li>     <li>MrRedisExecutor 运行过程中 docker pull 拉取 redis 镜像的时候会连接外网,如果没有外网会报错。为了解决这个问题可以在内网环境里可以为 dockerd 配置代理 也可以在内网里搭建自己的 docker registry<br> https://docs.docker.com/engine/admin/systemd/#httphttps-proxy<br> 错误信息: <pre>  dockerd: time="2017-08-29T12:19:16.361567332+08:00" level=error msg="Not   continuing with pull after error: Network timed out while trying to    connect to https://index.docker.io/v1/repositories/library/redis/images. You may want to check your internet connection or if you are behind a proxy."</pre> </li>     <li>mr-redis scheduler 配置文件中不支持写多zk地址, 导致 zk 会成为单点<br> 提了一个pr https://github.com/mesos/mr-redis/pull/70<br> 需要重新编译 scheduler 和 MrRedisExecutor.</li>     <li>Mr-Redis scheduler 高可用 不能像 marathon 那样实现 failover (3个实例,一个 leader, 另外2个 follower, 当 leader 挂掉的时候,follower会自动选举出leader), scheduler 的 leader 挂掉后,另外2个 follower 没有得到通知。 解决方法: 通过 marathon 只起一个 scheduler 实例, constrains 配置为 hostname:UNIQUE, 这样配置如果 scheduler 所在服务器宕机, 会在其他机器重新启动一个scheduler, 并重新连接master。经过多种 redis 破坏性测试,redis 都是可以 failover的。</li>    </ul>    <p>需要改进的地方</p>    <ul>     <li>查看本地 redis 代理监听端口列表需要通过api调用,可以考虑加到dashboard上方便查看</li>     <li>提供 proxy 转发性能, 减少 redis qps 损耗</li>     <li>redis 内存弹性扩容</li>    </ul>    <p> </p>    <p>来自:http://dockone.io/article/2658</p>    <p> </p>