Loading... 这两天在设置seo,发现蜘蛛爬取的时候老是访问Robots.txt失败,然后发现typecho里没自带Robots.txt,就想着看看自己博客的(印象中没有配置过)。一看果然没有,百度一搜 typecho 默认是没有Robots.txt 的。![](https://cdn.vimin.cc/usr/plugins/Mirages/biaoqing/paopao/E9BB91E7BABF_2x.png) 那就动手配置呗! #### Robots 含义 Robots 协议(也称为爬虫协议、机器人协议等)全称是 “网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots 是站点与 spider 沟通的重要渠道,站点通过 robots 告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守(君子协定![@ 31](https://cdn.vimin.cc/usr/themes/Mirages/usr/biaoqing/@/31.png)) #### robots.txt 如何工作? 搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt 文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。 #### 如何辨别自己网站是否配置了 robots.txt 第一种方法:访问网址 http (s): 你的域名 /robots.txt 即可 第二种方法:通过[百度站长工具](https://ziyuan.baidu.com/robots/ "1111") 来检测 #### 一个正确的 robots.txt 需达到的效果? 要求所有搜索引擎遵循我的这个协议 禁止蜘蛛抓取我的后台地址和 Typecho 的安装路径 指引蜘蛛去抓取我的 Sitemap #### 在网站根目录下新建一个 robots.txt 文件 ``` User-agent: * Disallow: /install/ Disallow: /config.inc.php Disallow: /install.php Disallow: /admin/ Sitemap: https://esxdidi.com/sitemap.xml ``` User-agent 是允许哪些搜索引擎收录,* 代表允许所有搜索引擎收录 (一般不用改)。 Disallow 是禁止搜索引擎收录哪些内容,如 Disallow:/admin/ 代表禁止搜索引擎收录 typecho 博客的后台登录页面,Disallow 可以有多行 (根据自己情况设置)。 Sitemap 是告诉搜索引擎网站站点地图的地址,可以有多行(换成自己的 sitemap 地址)。 最后修改:2023 年 02 月 28 日 © 允许规范转载 打赏 赞赏作者 支付宝微信 赞 0 如果觉得我的文章对你有用,请随意赞赏