如何管理和优化WordPress网站的robots.txt文件：完整指南

如果你想控制搜索引擎对网站的访问，创建 robots.txt 文件是第一步。这是一个 ASCII 文本文件，用于告诉搜索引擎哪些页面可以被索引，哪些页面不应被索引。

正确编辑 robots.txt 文件可以显著影响网站的 SEO，有助于提升网站的可见性，还能保护敏感文件的安全。

图片[1]-如何管理和优化WordPress网站的robots.txt文件：完整指南

什么是 robots.txt 文件？

robots.txt 文件是一种用于搜索引擎爬虫的规则文件，它定义了网站的哪些部分对爬虫开放，哪些部分禁止访问。通过合理设置，可以更好地管理网站的内容索引策略。

如何创建和定制 robots.txt 文件？

1. 了解 robots.txt 文件的基本语法规则。
2. 根据网站的需求，添加允许或禁止的规则。
3.将文件上传到网站的根目录，确保搜索引擎可以正确读取。

什么是robots.txt 文件

robots.txt 是一个简单的文本文件，用于向网络爬虫（例如搜索引擎的机器人）指示网站的哪些部分可以抓取，哪些部分需要隐藏。它可以确保搜索引擎不会索引那些不应该公开的页面或文件，从而保护网站的隐私和内容安全。

在默认情况下，WordPress 会自动生成一个虚拟的 robots.txt 文件，其路径为：www.yourdomain.com/robots.txt。通过创建一个自定义的 robots.txt 文件，你可以替代默认文件，从而更精准地控制哪些文件或页面不被搜索引擎索引。

图片[2]-如何管理和优化WordPress网站的robots.txt文件：完整指南

WordPress 的 robots.txt 文件位置

robots.txt 文件通常位于网站的根目录下。WordPress 会自动生成一个虚拟版本的 robots.txt 文件，但如果您未手动创建，服务器上并不会实际保存该文件。

如何查看网站的 robots.txt 文件？

1. 打开你的浏览器。

2. 在地址栏输入 https://您的域名/robots.txt 并访问。

如果文件存在，浏览器会显示 robots.txt 文件的内容。

图片[3]-如何管理和优化WordPress网站的robots.txt文件：完整指南

如果没有显示内容，则说明网站尚未创建 robots.txt 文件。

可以通过创建一个自定义的 robots.txt 文件来精准管理搜索引擎对网站内容的访问权限。

了解 robots.txt 文件中的规则

robots.txt 文件中的指令定义了网络爬虫（例如搜索引擎机器人）的行为。指令主要由两部分组成：

1. User-agent：指定规则适用于哪个爬虫（如 Googlebot）。

2. Disallow：指定哪些页面或目录不允许被爬取。

例如：


User-agent: *
Disallow: /wp-admin/
User-agent: *
Disallow: /wp-admin/
User-agent: *
Disallow: /wp-admin/

这段代码指示所有爬虫禁止爬取 /wp-admin/ 目录，但其他区域可以正常访问。

正确理解并使用 robots.txt 文件中的规则至关重要。不正确的配置可能导致意外后果，例如阻止搜索引擎访问网站的重要页面。

以下是一些常见 robots.txt 规则及其用途的简要说明：

规则	说明
User-agent: *	指定以下规则适用于所有爬虫。
Disallow: /	禁止所有爬虫访问网站的任何页面。
Disallow: /private/	禁止所有爬虫访问 /private/ 目录下的所有页面。
Allow: /public/	允许所有爬虫访问 /public/ 目录下的所有页面。
Sitemap: https://www.example.com/sitemap.xml	指定网站的 Sitemap 文件位置，方便爬虫更好地索引内容。

通过合理配置这些规则，可以更好地管理爬虫行为，提升 SEO 效果，同时保护敏感内容的隐私。

如何创建 WordPress robots.txt 文件

创建 robots.txt 文件可以通过几种方法完成，但在本篇文章中，介绍 2 种简单方法：

方法 1：使用插件编辑 robots.txt 文件

像 WPCode 和 Virtual Robots.txt 这样的插件可以无需直接编写代码就能轻松管理 robots.txt 文件。只需安装插件，进入其设置界面，添加自定义规则即可。这种方法操作简单，非常适合新手。

用 WPCode 编辑 robots.txt 文件

1. 在 WordPress 仪表盘的 插件 > 安装插件 页面，搜索并安装 WPCode 插件。

图片[4]-如何管理和优化WordPress网站的robots.txt文件：完整指南

2. 安装完成后，进入 Code Snippets 选项，然后点击 文件编辑器（File Editor）。

图片[5]-如何管理和优化WordPress网站的robots.txt文件：完整指南

3. 在 文件编辑器 中，找到 robots.txt 文件选项。

4. 根据需求修改文件内容，保存更改并进行测试。

用 Virtual Robots.txt 编辑 robots.txt 文件

1. 在 插件 > 安装插件 页面，搜索并安装 Virtual Robots.txt 插件。

图片[6]-如何管理和优化WordPress网站的robots.txt文件：完整指南

2. 安装完成后，进入插件的设置页面。

图片[7]-如何管理和优化WordPress网站的robots.txt文件：完整指南

3. 查看插件提供的默认规则，或者根据需要添加自定义规则。

4. 保存更改，确保 robots.txt 文件符合你的需求。

图片[8]-如何管理和优化WordPress网站的robots.txt文件：完整指南

使用这些插件，可以更轻松地管理 robots.txt 文件，适应不同网站的需求，同时确保搜索引擎爬虫行为受到正确的控制。

方法 2：通过 FTP 创建并上传 WordPress 的 robots.txt 文件

如果想更直接地控制 robots.txt 文件的内容，可以通过文本编辑器创建一个物理文件并使用 FTP 上传。下面是具体步骤：

创建 robots.txt 文件

1. 打开一个文本编辑器（例如 Notepad 或其他熟悉的工具）。

2. 编写需要的规则。例如：

图片[9]-如何管理和优化WordPress网站的robots.txt文件：完整指南

3. 将文件保存为 robots.txt。

上传到网站的根目录

1. 用 FTP 工具（例如 FileZilla）或者控制面板（例如宝塔等）连接到网站服务器。

2. 导航到网站的根目录（通常是 public_html 或 www 文件夹）。

图片[10]-如何管理和优化WordPress网站的robots.txt文件：完整指南

3. 将刚刚创建的 robots.txt 文件上传到根目录。

完成后， robots.txt 文件将生效，可以通过访问 https://您的域名/robots.txt 来验证文件内容是否正确显示。通过这种方法，可以完全控制文件的内容和规则。

为 WordPress 的 robots.txt 添加规则

创建好 robots.txt 文件后，可以根据需求添加各种规则，以实现特定的目标。以下是一些常见的用法和代码示例：

1. 阻止整个网站被爬取

在 robots.txt 文件中添加以下代码，可以阻止搜索引擎爬取整个网站：


User-agent: *
Disallow: /
User-agent: *
Disallow: /
User-agent: *
Disallow: /

2. 阻止特定爬虫访问网站

添加以下代码，可以阻止某个特定爬虫（例如 Dotbot）访问网站：


User-agent: Dotbot
Disallow: /
User-agent: Dotbot
Disallow: /
User-agent: Dotbot
Disallow: /

3. 阻止特定文件夹或文件被爬取

以下代码可以阻止搜索引擎爬取某个特定文件夹或文件：

User-agent: *
Disallow: /private-folder/

4. 允许所有爬虫访问网站

以下代码允许所有爬虫访问网站的所有内容：


User-agent: *
Disallow:
User-agent: *
Disallow:
User-agent: *
Disallow:

5. 允许访问被禁止文件夹中的特定文件

以下代码允许爬虫访问被禁止文件夹中的特定文件：

User-agent: *
Disallow: /private-folder/
Allow: /private-folder/public-file.html

6. 阻止爬取 WordPress 搜索结果页面

以下代码可以阻止爬虫爬取 WordPress 搜索结果页面：


User-agent: *
Disallow: /?s=
User-agent: *
Disallow: /?s=
User-agent: *
Disallow: /?s=

7. 为不同爬虫设置不同规则

以下代码为不同的爬虫设置了不同的规则：


User-agent: Googlebot
Disallow: /no-google/
User-agent: Bingbot
Disallow: /no-bing/
User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/
User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/

8. 阻止 GPTBot 爬取网站内容

以下代码可以阻止 GPTBot 爬取您的网站内容：


User-agent: GPTBot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: GPTBot
Disallow: /

这些示例展示了 robots.txt 的规则可以根据网站的 SEO 策略灵活调整，从而更好地管理搜索引擎的行为，保护网站内容并优化搜索排名。

图片[11]-如何管理和优化WordPress网站的robots.txt文件：完整指南

在 robots.txt 文件中指定用户代理

通过在规则中指定用户代理，可以针对特定爬虫设置规则。此外，使用通配符可以帮助更灵活地管理爬虫对网站不同部分的访问。

1. 在 robots.txt 文件中使用通配符

通配符可以根据模式设置广泛或特定的规则。

2. 使用星号（*）通配符

星号（*）表示任何用户代理，适用于所有爬虫：


User-agent: *
Disallow: /private/
User-agent: *
Disallow: /private/
User-agent: *
Disallow: /private/

3. 使用美元符号（$）通配符

美元符号（$）表示 URL 的结尾，用于匹配特定 URL 模式：


User-agent: *
Disallow: /*?*
User-agent: *
Disallow: /*?*
User-agent: *
Disallow: /*?*

如何测试 robots.txt 文件

在创建或编辑 robots.txt 文件后，立即验证文件的正确性非常重要。可以使用以下工具进行验证：

1. Google Search Console
提交 robots.txt 文件并检查是否符合预期规则。

2. 专用验证工具
使用像 technicalseo.com 这样的在线工具进行验证。

验证步骤：

1. 输入网站的 URL（如 https://yourdomain.com/robots.txt）。

2. 从下拉菜单中选择您关注的爬虫或用户代理。

3. 点击提交按钮开始验证。

完成这些步骤后，可以轻松确认 robots.txt 文件的配置是否正确，从而确保爬虫按设置的规则运行。

图片[12]-如何管理和优化WordPress网站的robots.txt文件：完整指南

总结

管理好 robots.txt 文件是优化 WordPress 网站 SEO 的重要环节。通过遵循以上指南，可以创建一个定制化的 robots.txt 文件，既能提升网站的可见性，又能保护网站的敏感区域不被爬取。

联系我们
文章看不懂？联系我们为您免费解答！免费助力个人，小企站点！
① 电话：020-2206-9892
② QQ咨询：1025174874
③ 邮件：info@361sale.com
④ 工作时间：周一至周五，9:30-18:30，节假日休息