如何在 WordPress Robots.txt 文件中创建和添加规则

如果你想控制搜索引擎对网站的访问,创建 robots.txt 文件是第一步。这是一个 ASCII 文本文件,用于告诉搜索引擎哪些页面可以被索引,哪些页面不应被索引。

正确编辑 robots.txt 文件可以显著影响网站的 SEO,有助于提升网站的可见性,还能保护敏感文件的安全。

图片[1]-如何管理和优化WordPress网站的robots.txt文件:完整指南

什么是 robots.txt 文件?

robots.txt 文件是一种用于搜索引擎爬虫的规则文件,它定义了网站的哪些部分对爬虫开放,哪些部分禁止访问。通过合理设置,可以更好地管理网站的内容索引策略。

如何创建和定制 robots.txt 文件?

1. 了解 robots.txt 文件的基本语法规则。
2. 根据网站的需求,添加允许或禁止的规则。
3.将文件上传到网站的根目录,确保搜索引擎可以正确读取。

什么是robots.txt 文件

robots.txt 是一个简单的文本文件,用于向网络爬虫(例如搜索引擎的机器人)指示网站的哪些部分可以抓取,哪些部分需要隐藏。它可以确保搜索引擎不会索引那些不应该公开的页面或文件,从而保护网站的隐私和内容安全。

在默认情况下,WordPress 会自动生成一个虚拟的 robots.txt 文件,其路径为:www.yourdomain.com/robots.txt。通过创建一个自定义的 robots.txt 文件,你可以替代默认文件,从而更精准地控制哪些文件或页面不被搜索引擎索引。

图片[2]-如何管理和优化WordPress网站的robots.txt文件:完整指南

WordPress 的 robots.txt 文件位置

robots.txt 文件通常位于网站的根目录下。WordPress 会自动生成一个虚拟版本的 robots.txt 文件,但如果您未手动创建,服务器上并不会实际保存该文件。

如何查看网站的 robots.txt 文件?

1. 打开你的浏览器。

2. 在地址栏输入 https://您的域名/robots.txt 并访问。

  • 如果文件存在,浏览器会显示 robots.txt 文件的内容。
图片[3]-如何管理和优化WordPress网站的robots.txt文件:完整指南
  • 如果没有显示内容,则说明网站尚未创建 robots.txt 文件。

可以通过创建一个自定义的 robots.txt 文件来精准管理搜索引擎对网站内容的访问权限。

了解 robots.txt 文件中的规则

robots.txt 文件中的指令定义了网络爬虫(例如搜索引擎机器人)的行为。指令主要由两部分组成:

1. User-agent:指定规则适用于哪个爬虫(如 Googlebot)。

2. Disallow:指定哪些页面或目录不允许被爬取。

例如:

User-agent: *
Disallow: /wp-admin/

这段代码指示所有爬虫禁止爬取 /wp-admin/ 目录,但其他区域可以正常访问。

正确理解并使用 robots.txt 文件中的规则至关重要。不正确的配置可能导致意外后果,例如阻止搜索引擎访问网站的重要页面。

以下是一些常见 robots.txt 规则及其用途的简要说明:

规则说明
User-agent: *指定以下规则适用于所有爬虫。
Disallow: /禁止所有爬虫访问网站的任何页面。
Disallow: /private/禁止所有爬虫访问 /private/ 目录下的所有页面。
Allow: /public/允许所有爬虫访问 /public/ 目录下的所有页面。
Sitemap: https://www.example.com/sitemap.xml指定网站的 Sitemap 文件位置,方便爬虫更好地索引内容。

通过合理配置这些规则,可以更好地管理爬虫行为,提升 SEO 效果,同时保护敏感内容的隐私。

如何创建 WordPress robots.txt 文件

创建 robots.txt 文件可以通过几种方法完成,但在本篇文章中,介绍 2 种简单方法:

方法 1:使用插件编辑 robots.txt 文件

WPCodeVirtual Robots.txt 这样的插件可以无需直接编写代码就能轻松管理 robots.txt 文件。只需安装插件,进入其设置界面,添加自定义规则即可。这种方法操作简单,非常适合新手。

用 WPCode 编辑 robots.txt 文件

1. 在 WordPress 仪表盘的 插件 > 安装插件 页面,搜索并安装 WPCode 插件。

图片[4]-如何管理和优化WordPress网站的robots.txt文件:完整指南

2. 安装完成后,进入 Code Snippets 选项,然后点击 文件编辑器(File Editor)

图片[5]-如何管理和优化WordPress网站的robots.txt文件:完整指南

3. 在 文件编辑器 中,找到 robots.txt 文件选项。

4. 根据需求修改文件内容,保存更改并进行测试。

用 Virtual Robots.txt 编辑 robots.txt 文件

1. 在 插件 > 安装插件 页面,搜索并安装 Virtual Robots.txt 插件。

图片[6]-如何管理和优化WordPress网站的robots.txt文件:完整指南

2. 安装完成后,进入插件的 设置 页面。

图片[7]-如何管理和优化WordPress网站的robots.txt文件:完整指南

3. 查看插件提供的默认规则,或者根据需要添加自定义规则。

4. 保存更改,确保 robots.txt 文件符合你的需求。

图片[8]-如何管理和优化WordPress网站的robots.txt文件:完整指南

使用这些插件,可以更轻松地管理 robots.txt 文件,适应不同网站的需求,同时确保搜索引擎爬虫行为受到正确的控制。

    方法 2:通过 FTP 创建并上传 WordPress 的 robots.txt 文件

    如果想更直接地控制 robots.txt 文件的内容,可以通过文本编辑器创建一个物理文件并使用 FTP 上传。下面是具体步骤:

    创建 robots.txt 文件

    1. 打开一个文本编辑器(例如 Notepad 或其他熟悉的工具)。

    2. 编写需要的规则。例如:

    图片[9]-如何管理和优化WordPress网站的robots.txt文件:完整指南

    3. 将文件保存为 robots.txt

      上传到网站的根目录

      1. 用 FTP 工具(例如 FileZilla)或者控制面板(例如宝塔等)连接到网站服务器。

      2. 导航到网站的根目录(通常是 public_htmlwww 文件夹)。

      图片[10]-如何管理和优化WordPress网站的robots.txt文件:完整指南

      3. 将刚刚创建的 robots.txt 文件上传到根目录。

      完成后, robots.txt 文件将生效,可以通过访问 https://您的域名/robots.txt 来验证文件内容是否正确显示。通过这种方法,可以完全控制文件的内容和规则。

        为 WordPress 的 robots.txt 添加规则

        创建好 robots.txt 文件后,可以根据需求添加各种规则,以实现特定的目标。以下是一些常见的用法和代码示例:

        1. 阻止整个网站被爬取

        robots.txt 文件中添加以下代码,可以阻止搜索引擎爬取整个网站:

        User-agent: *
        Disallow: /

        2. 阻止特定爬虫访问网站

        添加以下代码,可以阻止某个特定爬虫(例如 Dotbot)访问网站:

        User-agent: Dotbot
        Disallow: /

        3. 阻止特定文件夹或文件被爬取

        以下代码可以阻止搜索引擎爬取某个特定文件夹或文件:

        User-agent: *
        Disallow: /private-folder/

        4. 允许所有爬虫访问网站

        以下代码允许所有爬虫访问网站的所有内容:

        User-agent: *
        Disallow:

        5. 允许访问被禁止文件夹中的特定文件

        以下代码允许爬虫访问被禁止文件夹中的特定文件:

        User-agent: *
        Disallow: /private-folder/
        Allow: /private-folder/public-file.html

        6. 阻止爬取 WordPress 搜索结果页面

        以下代码可以阻止爬虫爬取 WordPress 搜索结果页面:

        User-agent: *
        Disallow: /?s=

        7. 为不同爬虫设置不同规则

        以下代码为不同的爬虫设置了不同的规则:

        User-agent: Googlebot
        Disallow: /no-google/
        
        User-agent: Bingbot
        Disallow: /no-bing/

        8. 阻止 GPTBot 爬取网站内容

        以下代码可以阻止 GPTBot 爬取您的网站内容:

        User-agent: GPTBot
        Disallow: /

        这些示例展示了 robots.txt 的规则可以根据网站的 SEO 策略灵活调整,从而更好地管理搜索引擎的行为,保护网站内容并优化搜索排名。

        图片[11]-如何管理和优化WordPress网站的robots.txt文件:完整指南

        在 robots.txt 文件中指定用户代理

        通过在规则中指定用户代理,可以针对特定爬虫设置规则。此外,使用通配符可以帮助更灵活地管理爬虫对网站不同部分的访问。

        1. 在 robots.txt 文件中使用通配符

        通配符可以根据模式设置广泛或特定的规则。

        2. 使用星号(*)通配符

        星号(*)表示任何用户代理,适用于所有爬虫:

        User-agent: *
        Disallow: /private/

        3. 使用美元符号($)通配符

        美元符号($)表示 URL 的结尾,用于匹配特定 URL 模式:

        User-agent: *
        Disallow: /*?*

        如何测试 robots.txt 文件

        在创建或编辑 robots.txt 文件后,立即验证文件的正确性非常重要。可以使用以下工具进行验证:

        1. Google Search Console
        提交 robots.txt 文件并检查是否符合预期规则。

        2. 专用验证工具
        使用像 technicalseo.com 这样的在线工具进行验证。

        验证步骤:

          1. 输入网站的 URL(如 https://yourdomain.com/robots.txt)。

          2. 从下拉菜单中选择您关注的爬虫或用户代理。

          3. 点击 提交 按钮开始验证。

          完成这些步骤后,可以轻松确认 robots.txt 文件的配置是否正确,从而确保爬虫按设置的规则运行。

            图片[12]-如何管理和优化WordPress网站的robots.txt文件:完整指南

            总结

              管理好 robots.txt 文件是优化 WordPress 网站 SEO 的重要环节。通过遵循以上指南,可以创建一个定制化的 robots.txt 文件,既能提升网站的可见性,又能保护网站的敏感区域不被爬取。


              联系我们
              文章看不懂?联系我们为您免费解答!免费助力个人,小企站点!
              电话:020-2206-9892
              QQ咨询:1025174874
              邮件:info@361sale.com
              工作时间:周一至周五,9:30-18:30,节假日休息
              © 转载声明
              本文作者:Banner1
              THE END
              喜欢就支持一下吧
              点赞29 分享
              评论 抢沙发

              请登录后发表评论

                暂无评论内容