完整性使我们能够快速抓取网站并列出客户网站上的所有链接。 或者 Xenu Link Sleuth – 如果您是 PC 用户,我认为 Xenu Link Sleuth 会完成与 Integrity 完全相同的工作。基本上,您可以输入 URL 并抓取网站上的每个页面。
然后,您可以导出结果并使用
Excel 对其进行过滤,。 Microsoft Excel – 我多年来从未像本周 特殊数据库 这样在 Excel 上花费如此多的时间。这是一个非常棒的工具,它使我们能够找出开发站点上当前不可用的 URL,表明它们需要实现 301 重定向。
我们从哪里开始… 从逻辑上考虑
们需要保留实时站点上的所有 URL 和开发站点上的所有 URL 的列表,以了解哪 对于拥有两个或更多此类平台的 些 URL 在新站点上不存在。 Mac 版 Integrity 是一款小型应用程序,可让您抓取网站的每个 URL。它允许您设置参数和黑名单/白名单规则,这在与 Magento 等电子商务商店合作时非常棒。
我们开始使用以下设置抓取实时网站
Mac 版完整性 当我们使用 Magento 时,我们基本上是告诉 Integrity 不要显示。其中 URL 中包含“review”、“product_compare”、“productalert”、“cache”等字样。
当我们在不添加黑名单参数的情
况下实际运行它时,我们得到了超过 35,000 个返回链接。 然后,我们 廣告庫 告诉 Integrity 忽略查询字符串,不检查外部 URL,并忽略尾部斜杠。 当报告完成时,我们已经有了实时网站上每个 URL 的列表。简单的! 注意:如果您不知道黑名单规则是什么,您可以随时运行搜索而不添加任何规则,并将完整导出加载到 Microsoft Excel 中。
从这里,您可以使用高级过滤器
过滤信息并输入“product_compare”等关键字,然后删除大量结果。第一次抓取网站时,并不总是清楚可以抓取哪些页面,因此对于大多数人来说这可能是更好的选择。 获得实时 URL 列表后,我们在 Excel 中打开该文件,删除包含不相关信息(状态、显示、链接文本)的所有其他列,并对 URL 应用查找和替换命令 (ctrl + f),以将实时 URL 替换为开发站点的 URL。