你真的了解HTTP缓存吗

frank123 9年前
   <p>有时，HTTP中的缓存可能会非常让人头疼。按照文档正确地使用 HTTP 并不是那么困难，但事实上，不同的浏览器和 HTTP版本常常困扰着我们。而我们自己或是不必或是没有时间去钻研所有的边缘的情况。</p>    <p>这里总结的实用并速记的规则，希望对大家有所帮助</p>    <p><strong>静态资源</strong></p>    <p>永远不会修改的内容：JS 和 CSS 文件，图片，和任何类型的二进制文件都属于这个类目。</p>    <p>永远，我确实说的是永远。为静态资源指定版本号是很通用的做法。它们无论什么时候改动了，它们的 URL 就改变了。</p>    <p>这里是一些针对静态资源的简单的规则：</p>    <p>在文件或者路径中嵌入指纹。避免为指纹使用查询字符串。另外，确保生成的URL长度超过8个不同的字符。</p>    <p>使用这些 HTTP 头：</p>    <pre>  Cache-Control: public, max-age=31536000  Expires: (一年后的今天)  ETag: (基于内容生成)  Last-Modified: (过去某个时间)  Vary: Accept-Encoding</pre>    <p>针对静态资源的设置就是那么简单。</p>    <p><strong>动态资源</strong></p>    <p>针对应用程序私密性和新鲜度方面需求的不同，我们应该使用不同的缓存控制设置。</p>    <p>对于非私密性和经常性变动的资源（想像一下股票信息），我们应该使用下面这些：</p>    <pre>  Cache-Control: public, max-age=0  Expires: (当前时间)  ETag: (基于内容生成)  Last-Modified: (过去某个时间)  Vary: Accept-Encoding</pre>    <p>这些设置的效果是：这些资源可以被公开地（通过浏览器和代理服务器）缓存起来。每一次在浏览器使用这些资源之前，浏览器或者代理服务器会检查这些资源是否有更新的版本，如果有，就把它们下载下来。</p>    <p>这样的设置需要注意，浏览器在重新检查资源时效性方面有一定的灵活性。典型的是，当用户点击了「返回／前进」按钮时，浏览器不会重新检查这些资源文件，而是直接使用缓存的版本。你如果需要更严格的控制，需要告知浏览器即使当用户点击了「返回／前进」按钮，也需要重新检查这些资源文件，那么可以使用：</p>    <pre>  Cache-Control: public, no-cache, no-store</pre>    <p>不是所有的动态资源都会马上变成过时的资源。如果它们可以保持至少5分钟的时效，可以使用：</p>    <pre>  Cache-Control: public, max-age=300</pre>    <p>经过这样的设置，浏览器只会在5分钟之后才重新检查。在这之前，缓存的内容会被直接使用。如果在5分钟后，这些过时的内容需要严格控制，你可以添加 must-revalidate 字段：</p>    <pre>  Cache-Control: public, max-age=300, must-revalidate</pre>    <p>对于私密或者针对用户的内容，需要把 public 替换为 private 以避免内容被代理缓存。</p>    <pre>  Cache-Control: private, …</pre>    <p>Cache-Control 和 Expires</p>    <p>当同时使用 Cache-Control 和 Expires 时，Cache-Control 获得优先权。</p>    <p>同时使用 Cache-Control 和 Expires 意味着得到更广泛的支持（被不同的浏览器和版本）。当然，它们两个应该被配置成相同的时效值，以避免引起困惑。</p>    <p>参考 <a href="/misc/goto?guid=4959746055070869879" rel="nofollow,noindex">Expires: vs. Cache-Control: max-age</a></p>    <p><strong>ETag 和 Last-Modified</strong></p>    <p>这两个头在浏览器对资源做重新检查验证的时候会使用到。大致来说，浏览器只是盲目地存储这两个来自于服务器的头的值，然后在需要检查验证的时候，浏览器根据请求条件，把这两个指发送给服务器（分别通过 If-None-Match 和 If-Modified-Since）。</p>    <p>注意只有在资源过期的情况下，检查验证才会发生。</p>    <p>在有条件的请求下，If-None-Match 和 If-Modified-Since 头的出现取决于服务器。然而，由于是服务器生成的 ETag 和（或） Last-Modified，所以实际上，这没有什么大问题。大多数的浏览器在可能的情况下都会把着两者都发送给服务器。</p>    <p>参考 <a href="/misc/goto?guid=4959746055161077681" rel="nofollow,noindex">What takes precedence: the ETag or Last-Modified HTTP header?</a></p>    <p>一个通常的建议是：避免使用 ETag。这不是一个总是有用的建议。ETag 在判断内容是否真的改动方面确实提供了更为精确的控制。针对生成的 ETag，默认的Apache方法需要把文件的索引节（inode），大小（size）和最后修改时间作为输入求值得到。这会导致在负载均衡的环境中，生成的 ETag 值变得毫无用处，因为每个服务器都会针对相同的文件生成一个不同的 Etag 值。这个可能就是唯一的问题导致很多人完全禁用 ETag，其实只要精确地针对一个匹配的文件生成一个独一无二的 ETag 值，就没有必要禁用 ETag 了。</p>    <p><strong>手动按下 Ctrl-R</strong></p>    <p>当按下 Ctrl-R 时，浏览器会携带下面的请求，以检查是否需要更新缓存内容：</p>    <pre>  Cache-Control: max-age=0  If-None-Match: …  If-Modifed-Since: …</pre>    <p>注意这并不只是和原服务器建立连接，其同样适用于代理服务器。本质上，它只是重新检查验证内容。如果服务器回应了一个304，浏览器将会使用缓存的内容。</p>    <p><strong>Vary: Accept-Encoding</strong></p>    <p>这个头对于一些人来说可能比较陌生。</p>    <p>当一个资源启用了 gzip 压缩，并且被代理服务器缓存，客户端如果不支持 gzip 压缩，那么在这样的情况下将会得到不正确的数据（也就是，压缩过的数据）。这将会使代理服务器缓存两个版本的资源：一个是压缩过的，一个是没压缩过的。正确版本的资源将在请求头发送之后进行传输。</p>    <p>还有一个现实的原因：IE 浏览器不缓存任何带有 Vary 头但值不为 Accept-Encoding 和 User-Agent 的资源。所以通过这种方式添加这个头，才能确保这些资源在 IE 下被缓存。</p>    <p> </p>    <p> </p>    <p>来自：http://www.helloweba.com/view-blog-414.html</p>    <p> </p>
你真的了解HTTP缓存吗

相关经验

目录