Home » 工具包的重要组成部分的一

工具包的重要组成部分的一

这是我几个月前写的一篇文章的后续内容,该文章涵盖了为什么服务器日志文件是技术 SEO 些基础知识。在这篇文章中,我提供了有关如何在 Excel 中设置数据格式以查找和分析 Google 机器人抓取优化机会的更多详细信息。

在深入研究日志之前

了解 Googlebot 如何抓取您的网站非常重要。 Googlebot 考虑了三 欧洲手机号码列表 个主要因素。第一个是应该抓取哪些页面。它由指向页面的反向链接数量、网站的内部链接结构、指向该页面的内部链接的数量和强度以及其他内部信号(例如站点地图)等因素决定。

接下来,Google 机器人

会确定要抓取的页面数量。这通常称为“抓取预算”。分配抓取预算时 简单的电子邮件营销 最有可能考虑的因素是域权限和信任、性能、加载时间和干净的抓取路径(Googlebot 陷入无休止的边搜索循环会让他们付出金钱)。有关抓取预算的更多详细信息,请参阅 Ian Lowry 关于该主题的帖子。

最后,抓取速度(Google 机器

返回的频率)取决于网站的更新频率、域名权威以及引文、社交提及和链 廣告庫  接的新鲜度。 现在,让我们看一下 Google 机器人如何抓取 Moz.com(注意:我正在分析的数据是在我们的网站从 SEOmoz.org 迁移到 Moz.com 之前的。

我在下面指出的许多潜在问题现在都已解决。哇!)。第一步是将日志数据转换为可执行格式。我在上一篇服务器日志文章中详细解释了如何执行此操作。不过,这次请确保在 URL 中包含参数,以便我们可以解析时髦的爬行路径。只需确保导入日志文件时未选中下面的框即可。 我们想要看到的第一件事是 Google 机器人在网站上的哪些地方花费了时间并投入了最多的资源。

现在您已将日志文件导出为

文件,您需要进行一些数据格式化和清理。 1. 使用 Excel 扩展名保存文件,例如 .xlsx 2. 删除除页面/文件、响应代码和用户代理之外的所有列,它应该如下所示(格式化为包含数据的表格并选择 ^L): 3. 通过创建一个新列并编写在第三列的单元格中搜索“Googlebot”的公式,将 Googlebot 与其他蜘蛛分开。

返回頂端