一、问题场景
使用typecho搭建的网站,默认没有robots.txt文件,为了可以让搜索引擎更快、更好的收录网站内容,需要我们自己动手添加
二、什么是Robots协议
Robots协议又称爬虫协议,全称是“网络爬虫排除标准”(Robots Exclusion Protocol),robots文件是搜索引擎来抓取网站的第一个文件,通过robots,搜索引擎可以知道哪些页面可以抓取,哪些页面不能抓取。如果网站没有robots文件,搜索引擎爬虫会默认访问网站的所有页面,包括一些不希望被搜索引擎收录的页面,这可能会影响网站的SEO效果。
三、robots.txt文件格式
User-agent: 定义搜索引擎的类型,*表示支持所有搜索引擎爬取
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址
Sitemap:指示蜘蛛去爬取网站的sitemap文件
通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符
四、创建robots.txt文件
在网站根目录下新建一个robots.txt文件,内容如下:
User-agent: *
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php
Disallow: /feed
Sitemap: https://www.anyany.cn/sitemap.xml
Sitemap: https://www.anyany.cn/baidu_sitemap.xml
Sitemap请替换为你自己网站的Sitemap所在路径
好了,现在访问一下 http(s):你的域名/robots.txt 看看效果吧。
体验:https://www.anyany.cn/robots.txt
五、Sitemap
站点地图是一个站点链接集合的页面,为了方便搜索引擎收录。在typecho中可以直接通过安装插件自动生成sitemap,省时省力。但因为不同搜索引擎sitemap的格式不尽相同,这里提供两个插件,分别生成谷歌sitemap和百度sitemap,安装即用。
5.1安装方法
上传两个插件的压缩文件夹到usr/plugins/下,解压缩;
确保文件名分别为Sitemap和BaiduSubmit;
到typecho后台启用插件。BaiduSubmit启用后需要设置插件填写接口调用地址,否则以后在发布文章时会显示api未配置。接口调用地址在百度站长(搜索资源平台)->链接提交->自动提交->主动推送(实时)->推送接口里可以找到;
打开http://yourweb/sitemap.xml 和 http://yourweb/baidu_sitemap.xml,验证是否安装成功。
把sitemap提交给搜索引擎
安装完插件后最后一步就是将Sitemap提交给搜索引擎:
提交百度sitemap:百度站长(搜索资源平台)->链接提交->自动提交->sitemap->输入站点地图网址http://yourweb/baidu_sitemap.xml并提交。
提交谷歌sitemap:谷歌站长(Google Search Console)->站点地图->输入站点地图网站http://yourweb/sitemap.xml并提交。