以便我们稍后可以运行数

4. 清除顶级目录的页面/文件列，据透视表并查看 Google 抓取最多的部分。 5. 由于我们将参数保留在 URL 中以检查抓取路径，因此我们需要在此处将其删除，以便数据包含在我们在数据透视表中执行的顶级目录分析中。 URL 参数始终是“?”以开头，所以这就是我们想要在 Excel 中找到的内容。

这有点棘手因为

用问号字符作为通配符。要告诉 Excel 问号是字面意思，请使用前面的波中东手机号码清单形符，如下所示：“~?” 6. 现在可以在数据透视表中分析数据（数据 > 数据透视表）。与目录关联的数字是 Googlebot 在日志的时间范围内（在本例中为一天）请求文件的总次数。

Google 是否正确分配抓取预算

我们可以在这里更深入地研究几个不同的数据： Google 超过 70% 的抓六月特色汇总取预算集中在这三个细分市场，而超过 50% 则用于 /qa/ 和 /users/。 Moz 应该查看来自 Google Analytics 的搜索推荐数据，以确定这些部分提供了多少自然搜索价值。

如果它过低，则应考虑抓取管理策略或页面优化改进。该数据的另一个可能的洞察是，/page-strength/（用于为 Moz 工具发布数据的 URL）被抓取了大约 1,000 次。这些爬网很可能是由指向 Moz 工具结果的外部链接触发的。建议使用 robots.txt 排除此目录。

另一方面了解很少被爬网的

目录也很重要。是否有部分内容未被充分抓取？让我们看一下 Moz 的一廣告庫些内容：在此示例中，目录 /webinars 会弹出，因为 Google 没有得到足够的关注。事实上，只有顶层目录被爬行，而实际的网络研讨会内容页面被跳过。

这些只是可以在服务器日志中找到的爬网资源问题的几个示例。需要注意的一些其他问题包括：蜘蛛是否会抓取 robots.txt 排除的页面？是否有应该通过 robots.txt 排除的蜘蛛爬行页面？某些部分是否使用了过多的带宽？某个部分爬取的页面数量与所需带宽量的比率是多少？作为奖励，我截屏了上述格式化和分析 Google 机器人抓取的过程。

这有点棘手因为

Google 是否正确分配抓取预算

另一方面了解很少被爬网的

相關文章