sitemap(网站地图)是一个网站的概览。搜索引擎在此文件中得到网站上存在的可抓取的网页,提交sitemap有利于搜索引擎的收录。
Sitemap.xml是一个网站的缩影,包含网站的内容地址,是根据网站的结构、框架、内容,生成的导航文件。
Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。
网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站。
Sitemap 0.90 是依据创意公用授权-相同方式共享 (Attribution-ShareAlike Creative Commons License) 的条款提供的,并被广泛采用,受 Google、Yahoo! 和 Microsoft 在内的众多厂商的支持。
网站地图Sitemap分为三种文件格式:xml格式、html格式以及txt格式。xml格式和txt格式一般用于搜索引擎,为搜索引擎蜘蛛程序提供便利的入口到你的网站所有网页;html格式网站地图可以作为一个网页展示给访客,方便用户查看网站内容。本文主要讲解xml格式的网站地图相关内容和生成方法。
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="//www.tripfe.cn/sitemap.xsl"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.tripfe.cn/sitemap-pages.xml</loc>
<lastmod>2019-06-13T00:23:51.990Z</lastmod>
</sitemap>
<sitemap>
<loc>https://www.tripfe.cn/sitemap-posts.xml</loc>
<lastmod>2019-06-13T05:12:44.989Z</lastmod>
</sitemap>
<sitemap>
<loc>https://www.tripfe.cn/sitemap-authors.xml</loc>
<lastmod>2019-06-13T05:56:43.049Z</lastmod>
</sitemap>
<sitemap>
<loc>https://www.tripfe.cn/sitemap-tags.xml</loc>
<lastmod>2019-06-13T04:55:17.701Z</lastmod>
</sitemap>
</sitemapindex>
sitemap有两个比较重要的限制:
- 单个文件内URL数量 <= 50,000 URLs
- 单个sitemap.xml大小需 <= 50MB
如果数量或者大小超过限制,可以使用sitemap index,包含多个sitemap子文件:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
网站地图制作提交步骤:
1、生成网站地图:
网页版:http://www.xml-sitemaps.com/
2、下载生成的地图文件sitemap.xml并上传至网站根目录
3、到站长平台提交网站地图。
生成网站地图:http://www.xml-sitemaps.com/
change frequency:指的是频率,地图的自动更新频率,默认每天(daily);
last modification:是网站地图最后修改时间,默认使用服务器的响应(Use server's response);
priority:权重-可自动计算。
点击start开始生产。自动跳转到生成页面,稍等一段时间便可生成(时间和网站内容多少有关)。
它提供多种格式的网站地图文件下载(xml、xml.gz、ror.xml、html等),看你所提交的搜索引擎需要哪种格式的地图文件,就下载哪一个,或者直接打包全下载。
各搜索引擎推荐网站地图格式:
Google:建议使用xml格式的网站地图
地图提交地址:https://search.google.com/search-console
Yahoo: 建议使用Txt格式的网站地图
Yahoo地图提交地址 :http://sitemap.cn.yahoo.com/
Baidu: 建议使用robots.txt提交html格式的网站地图
https://ziyuan.baidu.com/site/index
Bing:
提交地址:https://www.bing.com/toolbox/webmaster/
在robots.txt添加sitemap声明
sitemap:https://www.tripfe.cn/sitemap.xml
注意,sitemap声明地址必须是绝对地址,同时它google专有的,其它不一定支持。
爬虫协议写法参见:SEO之robots.txt爬虫协议
评论