如何设置SEO关键词当然重要,但SEO优化技术如果只是机械式的说该做什麽不做什麽,而涉及的步骤又非常死板,例如:将焦点关键词设定放在标题一,关键词在首段重覆出现三次等等 ,会是何等枯燥乏味。
过去二十年搜索引擎优化是围绕关键词为基础,理由是计算机无法有效分析自然语言输入,从而理解搜索用户的目的,退而求其次依赖搜索用户输入简单词组作为导向,就是所谓关键词。关键词研究 Keyword Research 是指利用工具,例如 :Google Adwords Planner 分析个别关键字的搜索量和竞争度。由于传统搜索引擎优化是以关键字为对象,关键字研究得出来的一篮子关键字会根据和内容的相关性被分配到网站内不同网页用作所瞄准的关键字。
关键字在网页出现的频率就是 TF (Term Frequency)。如果关键字 K 在网页出现 4 次, TF 值看似应该是4。
问题是如果A页的内容长度是 B页的两倍,某关键字 K 在A页的出现次数是B页两倍时就不能断言关键字 K 与A页更相关。所以 TF 被修正为 出现次数 / 长度。例如,出现 4 次文件章度为 100 个字:
问题是例如一编介绍 “网上生意” 文章的描述中,有些字像 “客户”,”网上” 的 TF 就显然要比 “网上生意” 的 TF 为高。但说该文章跟 “网上” 或 “生意” 的相关性较 “网上生意” 为高,明显违反常识。当文章是谈论 “网上生意”,”云端运算”,”网上缴费”,”网上教学”等等时 “网上” 都很可能被提及。结论是 “网上” 一词是一般文章中更普及出现。单纯利用 TF 计算相关性会出现以上的偏差。
解决的方法是对愈普及的关键字给出愈低的权重 Weight,倒如在 10,000 文章中关键字 “网上” 出现 100 次,权重变成倒数 (所以叫 IDF 或 Inverse Document Frequency) 10,000/100 = 100 , 如关键字 “网上推广” 在 10,000 文章中出现一次,权重变成 10,000/1 = 10,000. 为了令这权重值变化不要不急,所以以 log base 10 计算。
“网上” IDF 值 = log (10,000 / 100) = 2
“网上推广” IDF 值 = log (10,000 / 1) = 5
将 TF 乘以 IDF 就是相关性的评分。当然今天的搜索引擎采用的 TF-IDF 更复杂,但原理是一样。今天搜索引擎已经进化到非常复杂,除了 Google 内部从事 SEO 研究的资深工程师外,外面从事SEO优化的人只能根据一些如专利申请和Google人员不同埸合的阐述等符尝试理解其中的精萃。Google 搜索引擎计算关键字相关性的算法是以 TF-IDF 为基础,但已经进化到更为先进。
长尾关键字
长尾关键字 Long tail keyword 指基于通用关键字在前或在后或同时在前后加入更多字眼作更精准标示所要找的产品、服务或信息,长尾关键字 IDF 值高。例如:“大码衣服婚礼用”,“防敏感化妆品”等等。长尾关键字特色是搜索量小,但同时提供和该关键字相关的产品、服务或信息的网站亦小,所以该长尾关键字的搜索排名竞争亦小,更容易获得高搜索排名。
关键字有同义词 Synonyms。例如:教员,教师,老师代表非常接近甚至完全相同的概念或事物。当网页或网站和关键字A的相关性高,而关键字B是关键字A的同义词时,就间接引证该网页或网站和关键字B的相关性亦高。但由于是间接相关,所以网页对搜索输入关键字B的排名评分会略低于对直接相关的关键字A。
焦点关键字
焦点关键字 Focus Keyword 指网页内容是以该关键字为争取排名目标,焦点关键字 IDF 值低。所以在页内重要的元素中会加入该焦点关键字以便通知搜索引擎网页内容和焦点关键字的相关性。SEO 优化工具如 Yoast SEO, SEOpressor 的排名优化建议都需要先设定焦点关键字。一般网页内容只应瞄准一两个焦点关键字,否则可能造成文理不通,降低可读性。
SEO关键字 – 基本概念