Empire：一个基于Docker和亚马逊ECS的开源PaaS平台

jopen 11年前

Heroku已经能很好的满足很多人的需求，但当我们不断壮大，问题和瓶颈频现，为此我们开始寻求解决之道，首先关注的是开源社区中支持Docker的平台，如Flynn、Deis、CoreOS、Kubernetes等，但都不理想，后通过使用亚马逊ECS，最后确定了Empire，用Empire完成从Heroku到亚马逊ECS的无痛迁移，过程与挑战都在文中做了说明。

Remind是一个适用于师生及家长的通讯应用。老师可以通过它给学生和家长群发信息，高效传达信息的同时，让家长更多地参与教学。目前，Remind已经有约100万名教师用户和1700万家长及学生用户，建立起了强大的通讯网络。在8月份返校季期间，每天有20万-30万名学生下载这款应用，在苹果应用商店中排名第三，领先于WhatsApp 和推ter，排在第三位。

今天，Remind开源了我们自托管的PaaS系统： Empire。 Empire能为你提供一个基于Docker容器的集群，符合 12因子应用规范，基于强大的亚马逊EC2 Container Service（ECS，EC2 容器服务）构造而来，具有功能完善的的命令行界面。

已经有了Heroku，且Heroku已经能很好的满足很多人的需求，为什么我们还需要自己造一套Empire这样的东西？这篇文章讲述了为什么我们决定从Heroku迁移出来，我们遇到了哪些挑战，以及我们怎么用Empire完成从Heroku到亚马逊ECS的无痛迁移。

讲讲一点历史

在2011年的时候，Remind还是一个托管在Heroku的一个整体单一的Rails应用。那个时候一切都很简单：一个应用使用几个 dynos已经足以应付当时不大的流量。当时我们选择Heroku因为它让我们能专注于开发产品而无需关心基础设施（infrastructure），对于一个当时不到十个人的团队来说，这很重要。回想过去，这无疑是我们做的最好决策之一。

但我们开始壮大

而在今天，事情变得有点不同了。我们有超过50个员工，2500万客户，50多个后端服务支撑着产品 - 其中有些是产品的核心部分，其它则是不同团队开发出来用来满足各种需求的。为了满足这种规模，我们用了超过250个Dyno。

我们慢慢发现，我们的发展模式在很多方面看来是独一无二的。我们打造的是一个给老师使用的产品，在学生的返校季业务会迅速增长 - 每天有多达35万的新用户，超过500万条的消息，每30分钟系统就会出现一次峰值（heavy spike）。

我们开始意识到，如果想有一个能够满足我们业务增长的基础设施，Heroku可能无法完成这一目标。我们遇到的主要问题有：

缺乏对安全的控制。我们十分推崇微服务/SOA的架构，然后我们有一大堆内部的服务。在Heroku中，每一个服务都暴露在外网，这些服务本身难免有自己的弱点（nasties），因而需要身份认证，DoS防御（DoS mitigation），不断的打安全补丁等。这跟我们想象的有很大不同。
缺乏可见性（visibility）：我们需要对我们的应用的性能有更加透的认识。尽管Heroku提供了这种可能，却跟我们想象中的仍有距离，我们需要知道在操作系统和主机的层面都发生了什么。
缺乏灵活性：我们需要构建性能更加强大，不仅仅只是受HTTP管控的服务。我们无法控制路由层（routing layer），因而实现一些中间件如限制速率，添加常见的认证和将路由某路径的请求到不同的上游服务器等超过了其本应有的难度。

我们的寻道之路

大约半年前，我们开始谈论如何才能从Heroku迁出。我们列出了必须满足的条件和要达到的目标：

AWS：我们当时已经使用了很多亚马逊的服务，如Redshift和DynamoDB，因而能直接运行在EC2上是必须的要求。这也能让我们把这些数据存储锁定到特定的安全组（security groups）。
简易化运维（Operational Simplicity）：Heroku在让运维的过程（如部署、扩展、配置更新）简易化方面做的十分出色。我们也希望迁移后仍然能够保持这个水准。我们不愿意看到部署新应用的时运维人员必须到场，并且我们希望部署能遵循共同的模式。
Docker：这不是一个硬性的要求，但是我们还是想继续使用容器来作为部署的单元，因为：
- 容器能隔离依赖，封装的包移植性高，易于发布，很类似Go的包。
- 容器提供了更好的开发环境，因为开发和生产环境的相似度（dev/prod parity）更高。
- 容器能限制我们部署的时候那些不确定的部分。基础设施（Imutability in infrastructure）中的不可变性有很大的好处。
- 容器能更有效地利用资源，降低成本。
</li>
容错性（Resilience）：我们对宕机这一问题的态度十分严肃。并且我们知道运行着我们应用和服务的平台本身应该健壮且容错性高。同时，无宕机部署也是要求的一部分。

方案一：使用时下时髦的技术（all the Alphas）

方案二：使用亚马逊ECS

这是一个第三方管理（managed service）的服务，因而我们不需要自己运行和维护自己的集群服务。
他集成了AWS的ELB（Elastic Load Balancing），这能解决零宕机，connection draining和通过基于DNS的服务发现。
失效模式（failure mode）的表现的跟我们预期的效果一样。我们可以将机器池的所有主机（entire pool of machines）停止，并且当新的机器启动的时候整个服务又能恢复正常。
我们对AWS的服务更加放心。AWS的服务，发展快而且步履稳定，基于它构建生产级别的PaaS十分完美。

option sets

.empire

http://acme-incc

docker run remind101/router

Kong

Empire能给我带来什么？

运行简单

emp

$ emp deploy remind101/acme-inc:latest

$ emp apps  acme-inc             Jun  4 14:27

$ emp ps -a acme-inc  v2.web.217e2ddd-c80c-41ed-af16-663717b08a3f  128:20.00mb  RUNNING  1m  "acme-inc server”

$ emp scale worker=2 -a acme-inc  $ emp ps -a acme-inc  v2.web.217e2ddd-c80c-41ed-af16-663717b08a3f        256:1.00gb   RUNNING   1m  "acme-inc server"  v2.worker.6905acda-3af8-42da-932d-6978abfba85d     256:1.00gb   RUNNING   1m  "acme-inc worker"  v2.worker.6905acda-3af8-42da-932d-6978abfba85d     256:1.00gb   RUNNING   1m  "acme-inc worker”

$ emp scale worker=1:256:128mb -a acme-inc # 1/4 CPU Share and 128mb of Ram

$ emp releases -a acme-inc  v1    Jun  4 14:27  Deploy remind101/acme-inc:latest  v2    Jun 11 15:43  Deploy remind101/acme-inc:latest

$ emp rollback v1 -a acme-inc  Rolled back acme-inc to v1 as v3.

现在可以上生产环境吗？

我应该使用它吗？

你们为什么不使用XXX？

未来

宏大的计划

原文链接：Introducing Empire: A self-hosted PaaS built on Docker & Amazon ECS（翻译：钟最龙校对：魏小红）

http://dockone.io/article/462