美团点评的Atlas实践

KennyWheat 8年前
   <p>本文整理自美团点评技术沙龙第10期:数据库技术架构与实践。</p>    <p>美团点评技术沙龙由美团点评技术团队主办,每月一期,每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。</p>    <p>本次沙龙主要围绕数据库相关的主题,内容包括美团数据库自动化运维系统构建、点评侧MySQL自动化服务平台RDS、美团数据库中间件、和小米高级DBA带来的Redis Cluster的大规模运维实践。</p>    <h2>概述</h2>    <p>这次分享的主要内容包括6个部分:</p>    <ul>     <li>第一是我的简单介绍一下美团点评Atlas;</li>     <li>第二部分,会介绍一下美团点评Atlas的整体架构;</li>     <li>第三个是美团点评Atlas的主要模块,主要模块介绍我们美团点评在上面的主要工作;</li>     <li>第四个部分是上线的现状;</li>     <li>第五个部分是我们后续的一些安排,未来的计划;</li>     <li>最后是QA的部分。</li>    </ul>    <p><img src="https://simg.open-open.com/show/c50a019f34d3340c408d32fa1f49b57e.png"></p>    <h2><strong>MTAtlas的优点</strong></h2>    <p>首先介绍一下为什么要使用Atlas:</p>    <ul>     <li>使用Atlas之后,应用程序只需要在连接串中设置Atlas的地址,不需要关注整个数据库集群的结点;</li>     <li>Atlas内部实现负载均衡,读写分离;</li>     <li>Slave上下线的操作由DBA在自动化运营系统上点一下鼠标就能够完成。</li>    </ul>    <p>这样极大的减轻了DBA和应用开发人员的工作;而没有Atlas的情况下,这些工作是由RD来实现的,引入Atlas对于系统的可管理性和便利性都有非常大的帮助。</p>    <p><img src="https://simg.open-open.com/show/b353bc2dc69609f70e6926a08e509a7f.png"></p>    <h2><strong>MTAtlas的软件模块</strong></h2>    <p>介绍Atlas的软件模块。软件模块分三层:</p>    <ul>     <li>第一层是一个访问控制,包括用户处理,IP过滤等等的功能;</li>     <li>中间层是一个SQL处理的过程,包括SQL解析,SQL重写,和SQL执行;</li>     <li>第三层就是一个主要和DBA连接相关的一个模块,像读写分离,负载均衡,连接池;</li>     <li>另外还有三个模块是贯穿整个三层的: 第一是连接的管理,负责管理收发数据的底层连接;第二是日志的管理,第三个是监控管理。</li>    </ul>    <p><img src="https://simg.open-open.com/show/9c97c84a87b720cd11113031ceee4708.png"></p>    <h2><strong>MTAtlas连接改进</strong></h2>    <p>首先介绍一下连接的管理:根据我们链路比较长的特点,着重添加了对于连接异常的检测和处理,包括:</p>    <ul>     <li>Atlas上游和MGW交互的连接检测;</li>     <li>Atlas下游和MySQL连接的检测;</li>     <li>Atlas所在机器的连接检测。</li>    </ul>    <p><img src="https://simg.open-open.com/show/4aa6b3826d06ef6cf3c5243ac06746b8.png"></p>    <h2><strong>MTAltas SESSION级变量</strong></h2>    <p>SQL处理模块中增加了SESSION参数的功能: 客户端分配一个DB连接的时候,如果二者SESSION级参数不一样时,首先做一个校正,校正之后才会真正执行查询。</p>    <p><img src="https://simg.open-open.com/show/31df358fb37ca6305354f86673fbe2ee.png"></p>    <h2><strong>MTAtlas连接池改进</strong></h2>    <p>连接池的管理中做了这样的修改:将链表改成Hash表,其中Hash键是用户名,Hash值是以用户身份建立的连接的一个链表。如下图把连接按用户来分,client分别会分到各自user建立的db连接,二者互不影响,既保证了查询的正确性,又保证了较高的性能。</p>    <p><img src="https://simg.open-open.com/show/69be5137f440d8310c5aad1b1f8b1bd6.png"></p>    <p>#MTAtlas访问控制</p>    <p>下面讲一下访问控制模块,是在我们整个软件模型的第一层。</p>    <ul>     <li>第一个是增加了一个SQL过滤的功能:      <ul>       <li>该功能由黑名单的方式实现,黑名单的形式是如下边两个语句;</li>       <li>黑名单可以根据执行的频率,执行的时间来自动的添加,其中频率时间,都是可以根据自己的需求动态修改的,另外我们也提供了一个手动添加黑名单的功能。</li>      </ul> </li>     <li>第二个个是根据后台db的thread running进行负载均衡,每当分配到一个后台的连接的时候,先检查后台的Thread running数,直到有一个thread running数在我阈值之内的时候才真正去分配。</li>     <li>第三个就是用户IP限制,我们限制了用户的host地址,相当于进行一个权限的控制。</li>     <li>最后一个就是从库流量配置,我可以指定某一个用户只能访问某几个从库,或者反过来说某几个从库只允许某几个用户访问,这样可能在一个更细的力度上对数据库的资源进行分配。</li>    </ul>    <p><img src="https://simg.open-open.com/show/b66dd6d248a81916b76adca0c29c89b4.png"></p>    <h2><strong>MTAtlas监控模块</strong></h2>    <p>MTAtlas的监控体系实现了一个从无到有的过程,目前主要监控一些Atlas内部运行相关的一些参数:</p>    <p><img src="https://simg.open-open.com/show/aa8b874d6b6a034d8c4b286114b6a1bc.png"></p>    <h2><strong>MTAtlas Sharding改进</strong></h2>    <p>对于sharding版本,做了如下的改进:</p>    <ul>     <li>首先我们把分库变成分库分表,并且提供了5种分库分表的方式;</li>     <li>第二个是改进了Lemon基本上兼容MySQL语法;</li>     <li>第三个是有限支持单个库内部的JOIN,经过Lemon解析后,发现涉及的表都是在同一个库,那么表的JOIN是支持的;</li>     <li>同样的道理,单库的事务也是支持的。</li>     <li>最后一个就是增加错误处理:在一个库上面执行出错的时候,会相应有一些rollback的机制,来处理一些异常情况导致的执行失败。</li>    </ul>    <p><img src="https://simg.open-open.com/show/47158643f406e14c11baa2819f2aa801.png"></p>    <p>Q:这方面能大概讲一下怎么去改进的?</p>    <p>A:首先是一个语法的支持,我们就是把中间不支持语法的支持,这样的话有些复杂的查询,我们可以通过这个语法来进行一些,比如说where条件的分析,可以知道分布分表的情况,然后就是表的替换。</p>    <h2><strong>MTAtlas上线现状</strong></h2>    <p>和大家分享一下上线的现状:从2015.5上线第一个版本后到现在已经有87%的服务组接入了MTAtlas, MTAtlas也已经经历了5个版本的迭代。</p>    <p><img src="https://simg.open-open.com/show/217a737146976ce00d059065bc231dc8.png"></p>    <p>#MTAtlas未来计划</p>    <p>最后讲一下未来的计划:</p>    <ul>     <li>第一个就是更强大的SQL处理:      <ul>       <li>增加一些SQL优化,Row cache的功能;</li>       <li>分库分表全面的SQL支持,如聚集,排序;</li>       <li>更全面的连接上下文信息;</li>      </ul> </li>     <li>第二:监控管理要结合自动故障处理,真正把监控的信息智能化;</li>     <li>第三:下一个是和我们美团点评自己的MHA融合,支持自动故障切换;</li>     <li>第四:支持分布式事务。</li>    </ul>    <p><img src="https://simg.open-open.com/show/58c368024db16af28a936f6ebb02bae3.png"></p>    <p> </p>    <p>来自:http://tech.meituan.com/atlas-introduction.html</p>    <p> </p>