4. 清除顶级目录的页面/文件列,据透视表并查看 Google 抓取最多的部分。 5. 由于我们将参数保留在 URL 中以检查抓取路径,因此我们需要在此处将其删除,以便数据包含在我们在数据透视表中执行的顶级目录分析中。 URL 参数始终是“?”以 开头,所以这就是我们想要在 Excel 中找到的内容。
这有点棘手因为
用问号字符作为通配符。要告诉 Excel 问号是字面意思,请使用前面的波 中东手机号码清单 形符,如下所示:“~?” 6. 现在可以在数据透视表中分析数据(数据 > 数据透视表)。与目录关联的数字是 Googlebot 在日志的时间范围内(在本例中为一天)请求文件的总次数。
Google 是否正确分配抓取预算
我们可以在这里更深入地研究几个不同的数据: Google 超过 70% 的抓 六月特色汇总 取预算集中在这三个细分市场,而超过 50% 则用于 /qa/ 和 /users/。 Moz 应该查看来自 Google Analytics 的搜索推荐数据,以确定这些部分提供了多少自然搜索价值。
如果它过低,则应考虑抓取管理策略或页面优化改进。 该数据的另一个可能的洞察是,/page-strength/(用于为 Moz 工具发布数据的 URL)被抓取了大约 1,000 次。这些爬网很可能是由指向 Moz 工具结果的外部链接触发的。建议使用 robots.txt 排除此目录。
另一方面了解很少被爬网的
目录也很重要。是否有部分内容未被充分抓取?让我们看一下 Moz 的一 廣告庫 些内容: 在此示例中,目录 /webinars 会弹出,因为 Google 没有得到足够的关注。事实上,只有顶层目录被爬行,而实际的网络研讨会内容页面被跳过。
这些只是可以在服务器日志中找到的爬网资源问题的几个示例。需要注意的一些其他问题包括: 蜘蛛是否会抓取 robots.txt 排除的页面? 是否有应该通过 robots.txt 排除的蜘蛛爬行页面? 某些部分是否使用了过多的带宽?某个部分爬取的页面数量与所需带宽量的比率是多少? 作为奖励,我截屏了上述格式化和分析 Google 机器人抓取的过程。