SEO,即搜索引擎优化,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
当今世界主要的搜索引擎有:Google,Yahoo,Bing,Yandex等。他们与互联网相伴而生,随着信息技术的爆发,这些公司成功占据了互联网的入口,成为了互联网的头部公司,他们既互相竞争,同时也紧密合作。像爬虫协议(robots.txt)、站点地图(sitemap.xml)、网页数据格式(scheme.org)皆有他们的贡献,本文将对这些搜索引擎基本要素作简要阐述。
robots.txt
robots.txt 文件中规定的某个抓取工具或一组抓取工具适用的一系列准则。
robots.txt 文件必须位于主机的顶级目录中,可通过适当的协议和端口号进行访问。robots.txt(以及用于抓取网站)的通用协议为“http”和“https”。在 http 和 https 上,robots.txt 文件是使用 HTTP 无条件 GET 请求抓取的。
Robots.txt文件格式
user-agent(组起始)
disallow(仅在作为组成员记录时有效)
allow(仅在作为组成员记录时有效)
sitemap(非组内容记录)
Robots [path]规则
- RFC标准是前向匹配
- Google、Ask、Bing、Yahoo支持有限通配符
- * 表示任何有效字符的 0 个或多个实例。
- $ 表示网址结束。
robots.txt示例
User-agent: *
Sitemap: https://www.trip.com.com/sitemap.xml
Disallow: /admin/
Disallow: /post/$
Allow: /
每个抓取工具都会设定robots.txt文件大小的上限,并忽略超过该上限的内容。Google 目前强制执行的文件大小上限为 500 KB。
sitemap.xml
Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。
网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站。
Sitemap 0.90 是依据创意公用授权-相同方式共享 (Attribution-ShareAlike Creative Commons License) 的条款提供的,并被广泛采用,受 Google、Yahoo! 和 Microsoft 在内的众多厂商的支持。
sitemap.xml主要字段
<urlset>
: 必须<url>
: 必须<loc>
: 必须,页面链接<lastmod>
: 可选,上次更新时间<changefreq>
: 可选,更新频率,值范围 [always ,hourly, daily, weekly, monthly, yearly, never]<priority>
: 可选,权重,值范围0~1,越大越高
Sitemap限制
- <= 50,000 URLs (单个文件)
- <= 50MB (52,428,800 bytes) (单个文件)
当我的sitemap文件过大时,我们可以通过sitemap index的方式对sitemap做聚合
Sitemap提交
通常我们会将生成好的sitemap.xml文件放在站点的目录下,并将链接提交给各大搜索引擎
Schema.org
Schema.org 提供了一份共享的词汇表,站长可以使用它来标记网页,而这些标记则被主要的搜索引擎: Google, Microsoft, Yandex 和 Yahoo! 所支持。
很多网站都以结构化数据为基础搭建而成,数据存储在数据库里。当这些数据生成为 HTML 页面后,想从中提取出信息结构就变得很困难了。 标记于 HTML 页面上的 schemas 标记,能帮助搜索引擎理解网页上的信息,从而让搜索结果内容更丰富,用户搜索到的页面也就更精准。
这个世界有7000多种语言,作为搜索引擎是非常困难的去识别他们及其想要表达的意思,结合Shema.org可以使得这一事情变得容易,同时能让搜索结果更丰富,提升用户点击率,如图,当我搜索avatar时,google的搜索结果中会多出几行字,这就是添加了schema的效果:
Schema.org主要形式
- Microdata
- RDFa
- JSON-LD
具体使用方法参考文末文档链接
“从排名上我们可以看到对结构化数据进行了优化的网站在各关键词的平均排名要先于未进行优化的网站4个名次(21 vs 25)。另外,36%的谷歌查询包含至少一个富文本结果” —— SearchMetrics
SEO插件(Chrome)
参考文章
- https://www.robotstxt.org/
- https://developers.google.com/search/reference/robots_txt
- https://schema.org/
- https://www.sitemaps.org/index.html
- https://json-ld.org/
- https://www.w3.org/TR/rdfa-in-html/
- http://xmlns.com/foaf/spec/
- https://www.w3.org/TR/html5/index.html
- https://news.netcraft.com/
- https://www.ethnologue.com/
评论