SEO算法:中文分词技术原理及应用!比如,我们作为一个用户看到一篇叫做我父亲的文章,对于用户来说,你最直观的感觉就是页面文章的核心关键字是父亲,绝对不是我,或者这种感觉的原因是因为所谓的用户认为,父亲是一个名词,我是一个代词,它是一个副词。但是对于搜索引擎本身来说,不可能像人脑一样思考这个页面的核心主题。
对于汉语来说,语义分析和词性分析是搜索引擎识别网页核心词的主要手段。例如,我们都知道汉语有名词、形容词、动词等等。介词、副词等。不同的词类具有不同的含义和功能,搜索引擎如何利用词类来确定关键词的核心主题?如果我们广义地讲,一个网页的主题包含很多关键词,但是真正有价值的关键词实际上是几个,这些有价值的词我们暂时称为核心关键词。
这些有价值的词大多是以词性为基础的名词。如果你不知道词性是什么,你可以通过语义分析系统(http://ictclas.nlpir.org/nlpir/)来识别它,或者你可以比较网站上的关键词。核心词是绝对名词性的。一般来说,核心关键词定位大多是名词+动词,或名词+形容词,如小明跑步,对于用户来说,都知道核心关键词是小明,没有小明跑步就没有价值。但是对于搜索引擎当然是不理解的,从上面提到的分词原理,我们可以看出这个词的核心是小明,因为小明是一个名词,跑步是一个动词,也叫名+动词。
当然,定位核心关键词的首要前提是词性的频率必须等于名词的优先级来定位核心关键词,如美丽的美丽同义词的美丽意义。名词,因为同一频率将是名词定位的核心词,不同频率优先将是最大频率的关键词定位核心关键词。