Passive parameters - 使 Google 爬虫忽略 URL 中的特定参数

文章目录

    为了跟踪并统计网站流量来源,经常要在 URL 中加上一些参数,例如:

    https://www.sunzhongwei.com/?from=36kr

    但是我又不想让搜索引擎误认为这是两个不同的网页,毕竟对于搜索引擎来说,他很难区分

    https://www.sunzhongwei.com/?id=1024

    类型的有实际意义的 URL 参数。

    以下是具体的解决方案。

    Passive parameters

    Passive - 被动的,消极的。

    Google 称这种不会改变页面内容的 URL 参数为 Passive parameters。

    Passive parameters 并没有固定的 key,这需要你在 Google Search Console 中手动指定。

    进入 Search Console - Crawl - URL Parameters

    Help Google crawl your site more efficiently by indicating how we should handle parameters in your URLs

    添加对应的参数即可,注意,需要选择 No: Doesn’t affect page content (ex: tracks usage)。

    Search Console - Crawl - URL Parameters

    robots.txt

    User-agent: *
    Disallow: /*?from=*
    

    canonical URL

    canonical - 典型,权威

    还有一种方案是增加 rel=“canonical” link 标签,类似于 AMP / MIP 指向原始 PC 页面的方案。

    参考

    https://support.google.com/webmasters/answer/6080550?hl=en

    关于作者 🌱

    我是来自山东烟台的一名开发者,有感兴趣的话题,或者软件开发需求,欢迎加微信 zhongwei 聊聊,或者关注我的个人公众号“大象工具”, 查看更多联系方式