C++11 中的双重检查锁定模式

jopen 10年前

双重检查锁定模式(DCLP)在无锁编程方面是有点儿臭名昭著案例学术研究的味道。直到2004年，使用java开发并没有安全的方式来实现它。在c++11之前，使用便捷式c+开发并没有安全的方式来实现它。由于引起人们关注的缺点模式暴露在这些语言之中，人们开始写它。一组高调的java聚集在一起开发人员并签署了一项声明，题为：“双重检查锁定坏了”。在2004年斯科特、梅尔斯和安德烈、亚历山发表了一篇文章，题为：“c+与双重检查锁定的危险”对于DCLP是什么？这两篇文章都是伟大的引物，为什么呢？在当时看来，这些语言都不足以实现它。

在过去。java现在可以为修订内存模型，为thevolatileeyword注入新的语义，使得它尽可然安全实现DCLP.同样地，c+11有一个全新的内存模型和原子库使得各种各样的便捷式DCLP得以实现。c+11反过来启发Mintomic,一个小型图书馆，我今年早些时候发布的，这使得它尽可能的实现一些较旧的c/c++编译器以及DCLP.

在这篇文章中，我将重点关注c++实现的DCLP.

什么是双重检查锁定？

假设你有一个类，它实现了著名的Singleton 模式，现在你想让它变得线程安全。显然的一个方法就是通过增加一个锁来保证互斥共享。这样的话，如果有两个线程同时调用了Singleton::getInstance，将只有其中之一会创建这个单例。

Singleton* Singleton::getInstance() { Lock lock; // scope-based lock, released automatically when the function returns if (m_instance == NULL) {          m_instance = new Singleton;      } return m_instance;  }

这是完全合法的方法，但是一旦单例被创建，实际上就不再需要锁了。锁不一定慢，但是在高并发的条件下，不具有很好的伸缩性。

双重检查锁定模式避免了在单例已经存在时候的锁定。不过如Meyers-Alexandrescu的论文所显示的，它并不简单。在那篇论文中，作者描述了几个有缺陷的用C++实现DCLP的尝试，并剖析了每种情况为什么是不安全的。最后，在第12页，他们给出了一个安全的实现，但是它依赖于非指定的，特定平台的内存屏障(memory barriers)。

(译注：内存屏障就是一种干预手段. 他们能保证处于内存屏障两边的内存操作满足部分有序)

Singleton* Singleton::getInstance() {      Singleton* tmp = m_instance; ... // insert memory barrier if (tmp == NULL) {          Lock lock;          tmp = m_instance; if (tmp == NULL) {              tmp = new Singleton; ... // insert memory barrier m_instance = tmp;          }      } return tmp;  }

这里，我们可以发现双重检查锁定模式是由此得名的：在单例指针m_instance为NULL的时候，我们仅仅使用了一个锁，这个锁使偶然访问到该单例的第一组线程继续下去。而在锁的内部，m_instance被再次检查，这样就只有第一个线程可以创建这个单例了。

这与可运行的实现非常相近。只是在突出显示的几行漏掉了某种内存屏障。在作者写这篇论文的时候，还没有填补此项空白的轻便的C/C++函数。现在，C++11已经有了。

用 C++11 获得与释放屏障

你可以用获得与释放屏障安全的完成上述实现，在我以前的文章中我已经详细的解释过这个主题。不过，为了让代码真正的具有可移植性，你还必须要将m_instance包装成原子类型，并且用放松的原子操作（译注：即非原子操作）来操作它。这里给出的是结果代码，获取与释放屏障部分高亮了。

std::atomic Singleton::m_instance;  std::mutex Singleton::m_mutex;    Singleton* Singleton::getInstance() {      Singleton* tmp = m_instance.load(std::memory_order_relaxed); std::atomic_thread_fence(std::memory_order_acquire); if (tmp == nullptr) {          std::lock_guard lock(m_mutex);          tmp = m_instance.load(std::memory_order_relaxed); if (tmp == nullptr) {              tmp = new Singleton; std::atomic_thread_fence(std::memory_order_release); m_instance.store(tmp, std::memory_order_relaxed);          }      } return tmp;  }

即使是在多核系统上，它也可以令人信赖的工作，因为内存屏障在创建单例的线程与其后任何跳过这个锁的线程之间，创建了一种同步的关系。Singleton::m_instance充当警卫变量，而单例本身的内容充当有效载荷。

C++11 中的双重检查锁定模式

所有那些有缺陷的DCLP实现都忽视了这一点：如果没有同步的关系，将无法保证第一个线程的所有写操作——特别是，那些在单例构造器中执行的写操作——可以对第二个线程可见，虽然m_instance指针本身是可见的！第一个线程具有的锁也对此无能为力，因为第二个线程不必获得任何锁，因此它能并发的运行。

如果你想更深入的理解这些屏障为什么以及如何使得DCLP具有可信赖性，在我以前的文章中有一些背景信息，就像这个博客早前的文章一样。

使用 Mintomic 屏障

Mintomic 是一个小型的C语言的库，它提供了C++11原子库的一个功能子集，其中包含有获取与释放屏障，而且它是运行于更老的编译器之上的。Mintomic依赖于这样的假设，即C++11的内存模型——特殊的是，其中包括无中生有的存储 ——因为它不被更老的编译器支持，不过这已经是我们不通过C++11能做到的最佳程度了。记住这些东西可是若干年来我们在写多线程C++代码时的环境。无中生有的存储（Out-of-thin-air stores）已被时间证明是不流行的，而且好的编译器也基本上不会这么做。

这里有一个DCLP的实现，就是用Mintomic来获取与释放屏障的。和前面使用C++11获取和释放屏障的例子比起来，它基本上是等效的。

mint_atomicPtr_t Singleton::m_instance = { 0 };  mint_mutex_t Singleton::m_mutex;    Singleton* Singleton::getInstance() {      Singleton* tmp = (Singleton*) mint_load_ptr_relaxed(&m_instance); mint_thread_fence_acquire(); if (tmp == NULL) {          mint_mutex_lock(&m_mutex);          tmp = (Singleton*) mint_load_ptr_relaxed(&m_instance); if (tmp == NULL) {              tmp = new Singleton; mint_thread_fence_release(); mint_store_ptr_relaxed(&m_instance, tmp);          }          mint_mutex_unlock(&m_mutex);      } return tmp;  }

为了实现获取与释放屏障，Mintomic试图在所有它所支持的平台上，生成最有效的机器代码。举个例子，这里是Xbox 360上的机器代码结果，Xbox 360是基于PowerPC的。在这个平台上，单行的lwsync是一条最精简的指令，它既可以获取也可以释放屏障。

C++11 中的双重检查锁定模式

如果启用了优化，之前基于C++11的例子也可以（理想情况下将会）生成完全相同的PowerPC机器代码。可惜的是，我并没有找来兼容C++11的PowerPC编译器来证明它。

使用c++ 11低级排序约束

C++11的获取与释放屏障可以正确的实现DCLP，而且应该能够针对当今大多数的多核设备，生成优化的机器代码（就像Mintomic做的那样），但是它们似乎不是非常时髦。在C++11中获得同等效果的首选方法，应该是使用基于低级排序约束的原子操作。正如我先前所说，一条写释放(write-release)可以同步于一条读获取(read-acquire)。

std::atomic Singleton::m_instance;  std::mutex Singleton::m_mutex;    Singleton* Singleton::getInstance() { Singleton* tmp = m_instance.load(std::memory_order_acquire); if (tmp == nullptr) {          std::lock_guard lock(m_mutex);          tmp = m_instance.load(std::memory_order_relaxed); if (tmp == nullptr) {              tmp = new Singleton; m_instance.store(tmp, std::memory_order_release); }      } return tmp;  }

从技术上说，这种无锁的同步形式，比使用独立屏障的形式，要不那么严格；上面的操作只是意味着阻止它们自己周围的内存重新排序，这与独立的屏障不同，后者意味着阻止所有相邻的操作的特定类型的内存重排序。尽管如此，在x86/64, ARMv6/v7,以及 PowerPC架构上，对于这两种形式,可能的最好代码都是相同的。例如，在一篇早前文章中，我演示了在ARMv7编译器上，C++11低级排序约束是如何发送dmb指令的，而这也正是你在使用独立屏障时所期待的同样事情。

这两种形式有可能会生成不同机器代码的一个平台是Itanium。Itanium可以使用一条单独的CPU指令，ld.acq来实现C++11的load(memory_order_acquire)，并可以使用st.rel来实现store(tmp, memory_order_release)。我很想研究一下这些指令与独立屏障之间的性能差异，可是我找不到可用的Itanium机器。

另一个这样的平台是最近出现的ARMv8架构。ARMv8提供了ldar和stlr指令，除了它们也增强了stlr指令以及任何后续的ldar指令之间的存储加载排序以外，其它的都与Itanium的ld.acq和st.rel指令很相似。事实上，ARMv8的这些新指令意在实现C++11的SC原子操作，这在后面会讲到。

使用 C++11的顺序一致原子

C++11提供了一种完全不同的方法来写无锁代码。（我们可以认为在某些特定的代码路径上DCLP是“无锁”的，因为并不是所有的线程都具有锁。）如果在所有原子库函数上，你忽略了可选的std::memory_order参数，那么默认值std::memory_order_seq_cst就会将所有的原子变量转变为顺序一致的(sequentially consistent) (SC)原子。通过SC原子，只要不存在数据竞争，整个算法就可以保证是顺序一致的。SC原子Java 5+中的volatile变量非常相似。

这里是使用SC原子的一个DCLP实现。如之前所有例子一样，一旦单例被创建，第二行高亮将与第一行同步。

std::atomic Singleton::m_instance;  std::mutex Singleton::m_mutex;    Singleton* Singleton::getInstance() { Singleton* tmp = m_instance.load(); if (tmp == nullptr) {          std::lock_guard lock(m_mutex);          tmp = m_instance.load(); if (tmp == nullptr) {              tmp = new Singleton; m_instance.store(tmp); }      } return tmp;  }

SC原子被认为可以使程序员更容易思考。其代价是生成的机器代码似乎比之前的例子效率要低。例如，这里有有一些关于上面代码清单的x64机器代码，由Clang 3.3在启用代码优化的条件下生成：

C++11 中的双重检查锁定模式

由于我们使用了SC原子，保存到m_instance是由xchg指令实现的，在x64上它具有内存屏障作用。这比x64中DCLP实际需要的指令更强。只需一条简单的mov指令就可以做这项工作。不过这并不十分要紧，因为在单例首次创建的代码路径上，xchg指令只下发一次。

另一方面，如果你给PowerPC 或 ARMv6/v7编译SC原子指令，你十有八九会得到糟糕的机器代码。其中的细节，请看Herb Sutter的atomic<> 武器说话,第 2部分的00:44:25 - 00:49:16段落。

使用 C++11 的数据相关性排序

在上面所有我给出的例子中，在创建单例的那个线程，与其后任何越过锁的线程之间，有一种同步的关系。警卫变量就是单例指针，有效载荷是单例自身的内容。在本例中，有效载荷被认为是警卫指针的一个相关性数据。

人们后来发现，当存在数据相关性时，上面所有例子中都用到的读获取（read-acquire）操作，将极富杀伤力！我们用消费操作（consume operation）来替代它要好一点。消费操作很酷，因为它们消除了PowerPC中的一条lwsync指令，以及ARMv7中的一条dmb指令。在将来的一篇文章中，我将更多的谈论到有关数据相关性和消费操作的内容。

使用C++11中的静态初始化器

有些读者已经知道这篇文章的妙语：如果你想得到一个线程安全的实例，C++11不允许你跳过以上的所有步骤。你可以简单使用一个静态初始化器。

Singleton& Singleton::getInstance() {       static Singleton instance; return instance;  }

让我们回到6.7.6节查看C++11的标准：

如果控制进入申明同时变量将被初始化的时候，那么并发执行将会等到初始化的完成。

由编译器来临时代替实现的细节，DCLP明显是一个不错的选择。不能保证编译器将会使用DCLP,但一些（也许更多）却碰巧发生了。使用the-std=c++0x选项对ARM进行编译,生成了下面的一些机器码，这些机器码是由GCC 4.6生成的。

C++11 中的双重检查锁定模式

由于单例创建于固定地址，为了同步的目的，编译器引进了一个独立的警卫变量。特别需要注意的是，在最初读到这个警卫变量之后，并没有现成的dmb指令可以用来获取内存屏障。警卫变量是指向单例的指针，因此编译器可以利用数据相关性，省略掉这种dmb指令。__cxa_guard_release对警卫变量执行了一个写释放（write-release）操作，这样只要警卫变量已设置，在读消费（read-consume）之前就建立了依赖顺序，就像前面所有例子里那样，基于对内存的重新排序，整个事情开始变得有弹性。

如你所见，我们已伴随C++11走过了一段漫长的道路。双重检查锁定是一种稳定的模式，而且还远不止此！

就个人而言，我常常想，如果是需要初始化一个单例，最好是在程序启动的时候做这个事情。但是显然DCLP可以拯救你于泥潭。而且在实际的使用中，你还可以用DCLP来将任意数值类型存储到一个无锁的哈希表。在以后的文章中会有更多关于它的论述。

本文地址：http://www.oschina.net/translate/double-checked-locking-is-fixed-in-cpp11

原文地址：http://preshing.com/20130930/double-checked-locking-is-fixed-in-cpp11/

C++11 中的双重检查锁定模式

什么是双重检查锁定？

用 C++11 获得与释放屏障

使用 Mintomic 屏障

使用c++ 11低级排序约束

使用 C++11的顺序一致原子

使用 C++11 的数据相关性排序

使用C++11中的静态初始化器

相关经验

目录