用Squid缓存Google Earth/Map数据

其实我本不想写这个标题,我的本意是缓存yupoo api的查询数据,这个过程中找到了参考方法(Caching Google Earth with Squid)。呵呵,所以偶也来一回标题党。

这篇参考流传非常广,Digg上也被提过,我也不知道原出处是哪里了。

可是。。。。你按照它的指示设置,它并不能正确工作!!

话说回来,先说说我的需求。

最近yupoo的访问速度很慢,我有一堆api请求经常无法完成,猜测要么对方限制了同一ip的连接数,要么是yupoo又遇到了新一轮的流量瓶颈。跟Yupoo的zola联系后,确认是他们的负荷太高引起的,并没有限制连接数。所以我要想办法在我这边做一些缓存了。

因为我这边本身就是用squid代理来解决Ajax中调用API的跨域问题的,所以自然是目标瞄准了squid的配置文件。

yupoo api的请求地址是 www.yupoo.com/api/rest/?method=xx&xxxxxxx...

大家都知道squid会自动缓存静态文件,可对于这种动态网页怎么让它也缓存起来呢,所以在google上找啊找,找到上面提得那片缓存Google Earth的博客文章。
他的方法是:

acl QUERY urlpath_regex cgi-bin \? intranet
acl forcecache url_regex -i kh.google keyhole.com
no_cache allow forcecache
no_cache deny QUERY

# ----
refresh_pattern -i kh.google 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload

refresh_pattern -i keyhole.com 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload

原理就是用 no_cache allow 和 refresh_pattern 来设定一些缓存规则,将google earth的请求强行缓存起来。

此文一出,自然早有人去验证,可是没人成功,原作者也音讯全无 :( ... squid的邮件列表里也提到。 ( 看标题进来的朋友,不要急,继续往下读,不会让你空手而回的 :) )

我也没在意,估计人家功力问题 :P 。先试着用改写一下解决yupoo api的缓存问题。

acl QUERY urlpath_regex cgi-bin \?
acl forcecache url_regex -i yupoo\.com
no_cache allow forcecache
no_cache deny QUERY

refresh_pattern -i yupoo\.com 1440 50% 10080 override-expire override-lastmod reload-into-ims ignore-reload

嘿,果然nnd毫无用处,访问记录里还是 一坨坨 TCP_MISS

于是翻来覆去看文档,找资料,发现是squid的bug惹得祸,不过早已经修正(严格来说是功能扩展补丁)。

我的squid是2.6.13,翻了一下源代码,确实已经打好补丁了。

解决这个问题需要refresh_pattern的几个扩展参数(ignore-no-cache ignore-private),这几个参数在squid的文档和配置例子中均没有提到,看来squid还不够与时俱进。

下面讲一下问题所在。

先看看yupoo api返回的HTTP头部信息(cache 相关部分)

Cache-Control: no-cache, must-revalidate
Pragma: no-cache

这两行是控制浏览器的缓存行为的,指示浏览器不得缓存。squid也是遵循RFC的,正常情况下自然不会去缓存这些页面。override-expire override-lastmod reload-into-ims ignore-reload 统统不能对付它。

而那个补丁正是对付这两个Cache-Control:no-cache 和 Pragma: no-cache的。

因此把 refresh_pattern那句要改写成

refresh_pattern -i yupoo\.com 1440 50% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private

这样就大功告成了, squid -k reconfigure 看看 access.log ,这回里面终于出现
TCP_HIT/200 TCP_MEM_HIT/200 了,说明缓存规则确实起作用了,那个激动啊 555~~~~

====================
补充:
后来我看了一下google earth 服务器 hk1.google.com的HTTP头部,只有

Expires: Wed, 02 Jul 2008 20:56:20 GMT
Last-Modified: Fri, 17 Dec 2004 04:58:08 GMT

,这么看来照理不需ignore-no-cache ignore-private也能工作,可能是作者这里写错了
kh.google 应该是 kh.\.google才对。

最后总结一下,缓存Google Earth/Map的正确的配置应该是

acl QUERY urlpath_regex cgi-bin \? intranet
acl forcecache url_regex -i kh.\.google mt.\.google mapgoogle\.mapabc keyhole.com
no_cache allow forcecache
no_cache deny QUERY

# ----
refresh_pattern -i kh.\.google 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private
refresh_pattern -i mt.\.google 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private
refresh_pattern -i mapgoogle\.mapabc 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private

refresh_pattern -i keyhole.com 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private

注:
khX.google.com 是google earth的图片服务器
mtX.google.com 是google map 的图片服务器
mapgoogle.mapabc.com 是google ditu的图片服务器

5 条评论 »

  1. qiqi said,

    2007/12/28 @ 15:26

    真是太崇拜你了 我在squid wifi上找得如何处理动态链接 根本不管用

    按照你说的就没问题拉 tnnd 搞死我了

  2. Nukq said,

    2007/12/28 @ 17:21

    此文一直无人问津,今天终于对人有帮助了 哈哈

  3. dd_macle said,

    2008/2/13 @ 21:35

    Nukq你好,我按照你文中所说的配置了squid,但日志里还是一堆miss,就是不行,怎么办啊。。。

  4. Nukq said,

    2008/2/14 @ 19:03

    dd_macle,你先看看它的http返回头部。
    如果需要的话看看这个patch
    http://nukq.malmam.com/archives/18

  5. haha said,

    2008/9/23 @ 18:42

    是否可以缓存视频

RSS feed for comments on this post · TrackBack URI

发表看法

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Click to hear an audio file of the anti-spam word