Reddit如何使用Memcached来存储3TB的缓存数据

mgvf9874 9年前
   <p><a href="/misc/goto?guid=4958961622640783532" rel="nofollow,noindex">Reddit</a> 是著名的社交新闻网站，光是在2012年，它的独立访客就达到了4000万，页面浏览量达到了370亿次。几年过去了，网站用户有增无减，而随着用户的增多，网站的响应速度却一直在改进。这要得益于Reddit使用了大量的缓存。而随着网站规模不断增长，缓存数量也随着增加，那么Reddit是如何做到在增大缓存规模的同时又能保证它们的响应速度的？</p>    <p>我们知道，缓存的命中率越高，整体速度就越快，因为不需要重新从数据源加载数据。除此之外，如何管理缓存，比如缓存的过期时间，新旧缓存的交换，以及缓存的设计等等，它们对缓存的整体性能都有很大影响。来自Reddit的工程师Daniel Ellis在Reddit官方博客上分享了他们是如何使用 <a href="/misc/goto?guid=4959009425415754267" rel="nofollow,noindex">Memcached</a> 集群来存储网站的缓存数据的。</p>    <p>Reddit的缓存规模和基本策略</p>    <p><img src="https://simg.open-open.com/show/ca1407f1a61c163a291a624c3bcb8325.jpg"></p>    <p>Reddit目前使用了54个规格为 <a href="/misc/goto?guid=4958978763149458050" rel="nofollow,noindex">r3.2xlarge</a> 的AWS EC2实例，每个实例拥有61GB内存，也就是说总的缓存大小差不多是3.3TB，而且这些缓存并不包括应用程序的本地缓存。Reddit的缓存包含了多种类型的数据，包括数据库对象、查询结果集、函数调用，还有一些看起来不太像缓存的东西，比如限定速率、分布式锁等等。如何管理这么大规模的缓存是一件很挑战性的事情，Reddit采用的是“不要把所有鸡蛋放在同一个篮子里”的基本策略。也就是说，他们并不是把3.3TB的内存看成一个总的大缓存池，而是按照负载类型对缓存进行分类，每种类型占用一定数量的缓存空间。这样做有几个好处：</p>    <p>首先，按照负载类型对缓存进行分区，每种类型的缓存可以独立地伸缩。例如，对于数据库缓存来说，如果它的命中率降低，交换率变高，同时数据库变慢，那么就要考虑对数据库缓存进行扩展，而它的扩展不会影响到其它类型的缓存。</p>    <p>其次，按照负载类型对缓存进行分区，可以有针对性地对某种类型的缓存进行负载测试，从而预测该类型缓存的使用规模，并作出权衡。</p>    <p>第三个好处跟Memcached的内存分配模型有关系。Memcached按照板块（ <a href="/misc/goto?guid=4959658211753136490" rel="nofollow,noindex">slab</a> ）来分配内存，例如，1至96字节的对象可能被放到板块1，97至120字节的对象被放到板块2，并依此类推。这样做可以避免出现内存碎片。不过，Memcached的这种分配机制不能动态变化，也就是说一旦设定好了这种模式就不能对其进行修改。如果一开始设定了用来存储1KB的对象，但后来想用它来存储500KB的对象，那么交换率就会变得很高。而按照负载类型来区分缓存，那么就可以根据实际数据类型的大小类设定板块大小。</p>    <p>新版本的Memcached可能支持 <a href="/misc/goto?guid=4959735674105212320" rel="nofollow,noindex">slab_automove</a> 功能，不过这是后话了。</p>    <p>Reddit的缓存类型</p>    <p>接下来我们来看看Reddit的几种缓存类型。</p>    <p>数据库对象缓存（thing-cache）</p>    <table cellspacing="0">     <tbody>      <tr>       <td><strong>Instances</strong></td>       <td><strong>16 r3.2xlarge</strong></td>      </tr>      <tr>       <td>Memcached Version</td>       <td> <p>1.4.30</p> </td>      </tr>      <tr>       <td>Total RAM</td>       <td>976 GB</td>      </tr>      <tr>       <td>Get Rate</td>       <td>~800k/s</td>      </tr>      <tr>       <td>Set Rate</td>       <td>~13k/s</td>      </tr>      <tr>       <td>Miss %</td>       <td>1.2-2%</td>      </tr>      <tr>       <td>Typical Object Size</td>       <td>384-1184 bytes</td>      </tr>     </tbody>    </table>    <p>数据库对象缓存是Reddit最大的缓存池。这些对象是 <a href="/misc/goto?guid=4959735674187270665" rel="nofollow,noindex">无schema</a> 的，开发人员可以很容易地对这些对象添加新属性，而无需对数据库schema进行变更。这些对象包括用户评论、链接和账户等等。该类型缓存是Reddit最繁忙也最有用的缓存，命中率高达99%。</p>    <p>主缓存（cache-main）</p>    <table cellspacing="0">     <tbody>      <tr>       <td><strong>Instances</strong></td>       <td>11 r3.2xlarge</td>      </tr>      <tr>       <td>Memcached Version</td>       <td> <p>1.4.30</p> </td>      </tr>      <tr>       <td>Total RAM</td>       <td> <p>671 GB</p> </td>      </tr>      <tr>       <td>Get Rate</td>       <td> <p>~82k/s</p> </td>      </tr>      <tr>       <td>Set Rate</td>       <td>~10k/s</td>      </tr>      <tr>       <td>Miss %</td>       <td> <p>~75%</p> </td>      </tr>      <tr>       <td>Typical Object Size</td>       <td><96 bytes</td>      </tr>     </tbody>    </table>    <p>主缓存是Reddit第二大缓存池。这个缓存是一般性的缓存，里面存放的所有用来展示 <a href="/misc/goto?guid=4959735674266793618" rel="nofollow,noindex">/r/all</a> 的结果集。不过从表格中可以看到，这个缓存的命中率并不高，大概只有25%左右。</p>    <p>渲染缓存（cache-render）</p>    <table cellspacing="0">     <tbody>      <tr>       <td><strong>Instances</strong></td>       <td>8 r3.2xlarge</td>      </tr>      <tr>       <td>Memcached Version</td>       <td> <p>1.4.30</p> </td>      </tr>      <tr>       <td>Total RAM</td>       <td> <p>488 GB</p> </td>      </tr>      <tr>       <td>Get Rate</td>       <td> <p>~224k/s</p> </td>      </tr>      <tr>       <td>Set Rate</td>       <td>~103k/s</td>      </tr>      <tr>       <td>Miss %</td>       <td> <p>~45-55%</p> </td>      </tr>      <tr>       <td>Typical Object Size</td>       <td>240-2320 bytes</td>      </tr>     </tbody>    </table>    <p>第三大缓存用来存放渲染过的页面模板或页面片段。这个缓存相对安全，就算发生失效，也不会对系统造成太大影响。它的命中率只有大概50%左右，毕竟页面信息需要不断更新，所以渲染过的页面模板或片段也需要更新。再则，就算这个缓存失效，也不会给数据库负载带来多大影响，因为用来渲染页面的上下文内容已经在其它独立的缓存中加载过了。不过，因为缓存的key是基于上下文内容生成的，如果key发生变化，模板就需要重新缓存，这个需要消耗额外的CPU，也会使页面响应时间变长。</p>    <p>持久缓存（cache-perma）</p>    <table cellspacing="0">     <tbody>      <tr>       <td><strong>Instances</strong></td>       <td>6 r3.2xlarge</td>      </tr>      <tr>       <td>Memcached Version</td>       <td>1.4.17</td>      </tr>      <tr>       <td>Total RAM</td>       <td> <p>366 GB</p> </td>      </tr>      <tr>       <td>Get Rate</td>       <td> <p>24k/s</p> </td>      </tr>      <tr>       <td>Set Rate</td>       <td>4k/s</td>      </tr>      <tr>       <td>Miss %</td>       <td><1%</td>      </tr>      <tr>       <td>Typical Object Size</td>       <td>96-120 bytes</td>      </tr>     </tbody>    </table>    <p>最后一个要细说的缓存，也是命中率最高的缓存——持久缓存，它的命中率超过了99%。这个缓存用来存放数据库的查询结果，还有用户评论和链接。为什么管这个缓存叫持久缓存，因为他们使用了 <strong>读-改-写（read-modify-write）</strong> 的模式。例如，在用户新增一个评论时，他们会同时更新缓存和后端的数据库（Cassandra），而不是简单地让缓存失效，这样就避免了需要再次从数据库加载数据。</p>    <p>非缓存对象池</p>    <p>之前提过，除了上述的几种缓存，Reddit还使用了速率限定和分布式锁。</p>    <p>对于一个并发量很大的网站来说，采取速率限定是很重要的一个措施，它可以避免用户无限制地消耗网站的资源。他们按照时间段把不同的key存放在不同的bucket里，每个key的TTL会随着每次调用逐步增加。通过检查这些TTL就可以确保它们不会超出限定的范围。因为一旦超过限定范围，该用户就无法再做任何操作。</p>    <p>另一方面，得益于Memcached的“add”原子操作命令，他们可以实现分布式锁。因为“add”命令每次会产生一个新的key，只要这个key原先不存在，那么就相当于获得了一把锁。锁用完了就会被移除，下一次调用“add”会生成新的锁。这个操作保证同时只有一个进程可以获得这个锁。不过这也是他们的痛点之一。因为这里存在单点故障问题，一旦需要做迁移或维护，会让整个网站不可用。Reddit团队计划在未来逐步减少甚至避免使用这种锁。</p>    <p>其它缓存池</p>    <p>除了上述几种缓存，Reddit还有一些小型的缓存池，比如对象关系的缓存、函数调用结果的缓存等等。因为这些缓存都不大，这里不一一赘述。</p>    <p>mcrouter</p>    <p>上面介绍了Reddit的缓存分区策略，以及各种缓存类型的特点。接下来，我们来看看Reddit是如何使用 <a href="/misc/goto?guid=4959661893591917054" rel="nofollow,noindex">mcrouter</a> 来满足各种复杂的使用场景的。</p>    <p>mcrouter是由非死book开源的Memcached连接池。为什么要用连接池？就像访问数据库要使用数据库连接池一样，使用连接池可以对连接进行重用和管理，避免了重复创建和销毁连接的开销。Reddit有很多应用服务器，每个服务器上面运行着多个工作进程，如果这些进程独自向缓存集群发起连接，那么连接数量会暴增。无法重用连接是一种资源浪费，同时会给缓存集群带来更大压力。通过在应用服务器上使用mcrouter，当前服务器上所有进程到缓存集群的连接可以形成一个连接池，并通过mcrouter这个唯一的出口连接到相应的缓存上。</p>    <p>除了作为连接池，mcrouter还能处理很多复杂的场景。mcrouter提供了 <a href="/misc/goto?guid=4959735674388412917" rel="nofollow,noindex">多种路由类型</a> ，比如 <a href="/misc/goto?guid=4959735674471223209" rel="nofollow,noindex">PrefixSelectorRoute</a> ，它通过匹配key的前缀来决定应该到哪个缓存上获取数据。这样就可以把特定功能的操作路由到特定的缓存上。</p>    <p>如果要往缓存集群里增加新的缓存实例，那么可以使用 <a href="/misc/goto?guid=4959735674547972494" rel="nofollow,noindex">WarmUpRoute</a> 。新加入的缓存实例被称为“冷”缓存，而原先的实例叫作“热”缓存。WarmUpRoute的工作原理是说，把所有写操作路由到“冷”缓存上，而把未命中的读操作路由到“热”缓存上，然后把在“热”缓存上命中的缓存结果异步地更新到“冷”缓存上，那么下次同样的读操作就也可以在“冷”缓存上命中。通过拷贝“热”缓存里的数据可以避免操作数据库，保证性能不会受到影响。</p>    <p>mcrouter还提供了 <a href="/misc/goto?guid=4959735674628474531" rel="nofollow,noindex">FailoverRoute</a> ，顾名思义，这个特性可以避免缓存的单点故障，因为它会为一种类型的缓存创建多个缓存池，如果其中一个失效了，请求会被路由到另一个备份的缓存实例上。</p>    <p>Reddit还使用了影子缓存。不同于WarmUpRoute，WarmUpRoute只是把未命中的读操作拷贝到新实例上，而影子缓存会把读操作和写操作都拷贝一份到新的实例上，但前提是不改变数据源。通过影子缓存，他们可以对缓存的负载情况进行观察，因为新加的实例作为旧实例的“影子”而存在，在不影响旧实例的前提下可以看到整个缓存的工作情况。</p>    <p>mcrouter还支持 <a href="/misc/goto?guid=4959735674713286249" rel="nofollow,noindex">数据复制</a> ，这个功能不仅为缓存提供了高可用性，同时防止出现缓存热点。</p>    <p>自定义监控</p>    <p>缓存有时候会变成一个黑盒，所以对它们进行监控是很有必要的。GitHub上有一个叫做 <a href="/misc/goto?guid=4959735674799774336" rel="nofollow,noindex">Diamond</a> 的Python脚本可以收集Memcached的基本统计信息，比如对象的交换和命中率等等。不过这些信息还太简单，Reddit团队需要知道在发生对象交换时，缓存内部还发生了其它什么状况。因为通过Memcached的“stats slabs”命令可以看到板块的度量指标，于是他们基于这些命令自己写了一个追踪板块度量指标的 <a href="/misc/goto?guid=4959735674881487862" rel="nofollow,noindex">工具</a> 。他们还开发了一个简陋的可视化仪表盘：</p>    <p><img src="https://simg.open-open.com/show/b0cb1c75412c2580d0664551e1b8e7a9.jpg"></p>    <p>Reddit团队还开发了另外一个工具，叫作 <a href="/misc/goto?guid=4959735674969860263" rel="nofollow,noindex">mcsauna</a> 。这个工具被部署在每个缓存服务器上，它可以检测网络流量，并根据配置规则把不同的key保存在不同的bucket里，然后把结果输出到文件上。 <a href="/misc/goto?guid=4959735675048195739" rel="nofollow,noindex">FilesCollector</a> 会收集这些文件，分析里面的key，并以图形化的方式呈现出来。从这些图形上可以看出那些热点的key。</p>    <p><img src="https://simg.open-open.com/show/bd60af030bd026121d185e3a68f633c8.jpg"></p>    <p>展望</p>    <p>缓存为提升网站的响应速度做出了不可磨灭的贡献。而在如何使用缓存方面，Reddit还有很长的路要走。接下来，他们可能要想着如何通过服务发现来对配置进行自动化，从而实现缓存的自动扩展，而不需要人工的介入。而随着Memcached版本的不断改进，他们也要针对现有系统进行调整，从而最大化缓存的性能。</p>    <p>  </p>   <p>来自：http://www.infoq.com/cn/news/2017/01/Reddit-Memcached-3TB</p>    <p></p>    <p> </p>
Reddit如何使用Memcached来存储3TB的缓存数据

相关经验

目录