没有一家天气预报预报最近会有龙卷风,园子最近却遭遇多次龙卷风袭击,而且风力飓大,很是无奈。
春天来了,万物复苏,连爬虫们也复苏了。根据我们目前的排查,龙卷风可能与爬虫有关,而且不是普通的爬虫,是战斗力极强的爬虫集团军,为爬虫们买服务器付带宽费,很是郁闷。
自上周五下午下班前龙卷风首次来袭,园子又被龙卷风袭击了3次,分别是
- 3月12日(周六)中午11:55-12:05(10分钟)
- 3月14日(周一)上午10:16-10:20(5分钟)
- 3月14日(周一)上午11:16-11:17(1分钟)
这3次袭击,园子的服务器们进行了顽强抵抗,相比首次袭击,大幅缩减了故障时间,尤其是今天 11:16,当时的风力是正常时期的2倍。
在龙卷风的闪电突袭之下,失守的是前线阵地——服务器们的CPU,我们会继续加固 CPU 防线。
龙卷风袭击时,有一个奇怪情况,Google的雷达(google analytics)能发现,百度的雷达(百度统计)不能发现。两者都能发现或都不能发现,才是正常情况。如果都能发现(记入访问统计),那说明不是爬虫或者隐形爬虫(隐身技术高超的爬虫)。如果都不能发现(没有记入访问统计),那说明是正常爬虫。而现在是 GA 识别出不是爬虫,百度统计识别出是爬虫,情况就变得蹊跷,百度知道这是爬虫,google 却不知道。这是龙卷风背后的重要线索,有待进一步排查。
(注:访问统计软件会排除爬虫的访问,如果识别次出是爬虫就不会出现在统计结果中,既雷达没有发现)
非常抱歉,龙卷风的袭击给大家带来了麻烦,请大家谅解!
以下是龙卷风袭击期间数据库服务器的连接数监控图