如何编写和优化WordPress站点的Robots.txt

129次阅读

共计 2428 个字符，预计需要花费 7 分钟才能阅读完成。

如何编写和优化WordPress站点的Robots.txt插图

要知道 WordPress robots.txt 文件中的“Disallow”命令与页面头部的元描述 noindex 的作用不完全相同。您的 robots.txt 会阻止抓取，但不一定不进行索引，网站文件 (如图片和文档) 除外。如果搜索引擎从其他地方链接，它们仍然可以索引您的“不允许爬取”的页面。

因此，Prevent Direct Access Gold 不再使用 robots.txt 禁止规则阻止您的网站页面进行搜索索引。相反，我们使用 noindex 元标记，这也有助于谷歌和其他搜索引擎正确地在您的网站上为您的内容分发其入站链接值。

Yoast 建议保持 robots.txt 干净，不要阻止包括以下任何内容：

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Disallow: /wp-content/plugins/

Disallow: /wp-includes/

WordPress 也同意说理想的 robots.txt 不应该禁止任何东西。事实上， /wp-content/plugins/ 和 /wp-includes/ 目录包含您的主题和插件可能用于正确显示您的网站的图像，JavaScript 或 CSS 文件。阻止这些目录意味着插件和 WordPress 的所有脚本，样式和图像被阻止，这使得 Google 和其他搜索引擎的抓取工具难以分析和理解您的网站内容。同样，你也不应该阻止你 /wp-content/themes/。

简而言之，禁止你的 WordPress 资源，上传和插件目录，许多人声称可以增强你的网站的安全性，防止任何目标易受攻击的插件被利用，但实际上可能弊大于利，特别是在 SEO 方面。或者，您应该卸载这些不安全的插件更实际些。

这就是我们默认从 robots.txt 中删除这些规则的原因。但是，您可能仍希望将它们包含在 WordPress 的 Robots.txt 内。

建议包含 Sitemap 文件

尽管 Yoast 强烈建议您直接手动将 XML 站点地图提交到 Google Search Console 和 Bing 网站管理员工具，但您仍可将 sitemap 添加到 robots.txt，帮助搜索引擎快速爬取收录你的网站页面。

Sitemap: http://yourdomain.com/post-sitemap.xml

Sitemap: http://yourdomain.com/page-sitemap.xml

Sitemap: http://yourdomain.com/author-sitemap.xml

Sitemap: http://yourdomain.com/offers-sitemap.xml

Robots.txt 的其他规则

出于安全，建议您阻止您的 WordPress 的 readme.html，licence.txt 和 wp-config-sample.php 文件访问，以便未经授权的人员无法检查并查看您正在使用的 WordPress 版本。

User-agent: *

Disallow: /readme.html

Disallow: /licence.txt

Disallow: /wp-config-sample.php

您还可以使用 robots.txt 对不同的搜索引擎爬虫定制不同的爬取规则，如下示例。

# block Googlebot from crawling the entire website

User-agent: Googlebot

Disallow: /

# block Bingbot from crawling refer directory

User-agent: Bingbot

Disallow: /refer/

这是如何阻止蜘蛛抓取 WordPress 搜索结果，强烈建议加入此规则：

User-agent: *

Disallow: /?s=

Disallow: /search/

Host&Crawl-delay 是您可能考虑使用的其他 robots.txt 指令，尽管不太受欢迎。第一个指令允许您指定网站的首选域(www 或非 www)：

User-agent: *

#we prefer non-www domain

host: yourdomain.com

下面的规则是用来告诉搜索引擎蜘蛛在每次抓取之前等待几秒钟。

User-agent: *

#please wait for 8 seconds before the next crawl

crawl-delay: 8

完整的 robots.txt

综上所述，我们建议 WordPress 的 robots.txt 内容编写为：

User-agent: *

Allow: /wp-admin/admin-ajax.php

Disallow: /wp-admin/

Disallow: /wp-login.php

Disallow: /readme.html

Disallow: /licence.txt

Disallow: /wp-config-sample.php

Disallow: /refer/

Disallow: /?s=

Disallow: /search/

#we prefer non-www domain(填入你的网站域名首选域名，一般带 www，请根据实际情况填写，部分搜索引擎不支持此规则，慎重添加)

host: yourdomain.com

#please wait for 8 seconds before the next crawl(填入你希望爬虫爬取页面的延迟秒数)

crawl-delay: 8

Sitemap: http://yourdomain.com/post-sitemap.xml

温馨提示：上述完整的 robots.txt 仅供参考，请各位站长根据自己的实际情况编写内容，其中 User-agent: * 规则即对所有搜索引擎蜘蛛通用;Allow: 规则即允许爬取;Disallow: 规则即不允许爬取;host: 规则用于指定网站首选域;crawl-delay: 规则用于设定爬虫爬取时间间隔;Sitemap: 规则用于设定网站的地图地址。

正文完

关注板板AI免费获得移动AI助手

发表至： SEO优化

2024-05-09

转载说明：

本文由天天资讯网整理发布，转载请注明出处.
版权声明：部分文章内容或图片来源于网络，我们尊重作者的知识产权。如有侵犯,请联系我们在第一时间删除。

阿里版ChatGPT已进入测试！中文聊天截图曝光，达摩院出品

小红书热点怎么追？爆文逻辑轻松学！

个人网站如何挂google adsense谷歌广告?

网站优化SEO优化W3C网页设计规范

深入了解Robots.txt及如何规范地编写

文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
温馨提示：请在上面搜索\| 查找更多免费资源，如需广告位请联系站长QQ 48704478

如何编写和优化WordPress站点的Robots.txt

🎁扫码关注板板AI 免费领取AI资料大礼包

史诗级更新！苹果终于可以通话录音了，网友却吵翻了

iPhone通话录音来了，网友炸了

在单位里，永远不要在同事面前，随便说出以下五句话。

在单位里，办公室里是没有朋友的，不管和同事多熟，都不要说的10句话。

在单位里，回报贵人的最佳方式，不是请客送礼，而是想办法做到这三件事：不辜负、不忘恩、不藏私

判断你的同事到底是人是鬼，就看这四点！

iPhone16e这销量，把我的脸都打肿了！

vivo公认最好的四款手机，配置全面，用户满意度最高

2025换机建议不要跟风，4款近乎“零差评”的手机，用到2030年

为什么要远离话少，不合群的人？看完你就明白

在单位里，贵人提携过你，一定要懂得“抱大腿”的正确方式，请用好这三招：1、找准你的价值锚点；2、懂权力场看不见的；3、构建核心

在单位，年龄45岁以上身体不好的，千万不在这4个位置上待太久：1、办公室主任；2、中层干部；3、财务管理；4、频繁加班的

职场中，要假装不知道的几件事。

“领导对你说“谢谢”，别说“不用谢”，高情商这样回”

不管在哪里上班，要想混得开，永远记住这4件事：1、不要和同事翻脸；2、不要同情任何人；3、多给自己留后路；4、少做事多“做对事”