搜索引擎关键字隐含语义索引解说

搜索引擎隐性语义索引

Latent Semantic Indexing-隐性语义索引,也可译为隐含语义索引,是近年来渐渐兴起的不同于关键字检索的搜索引擎解决方法,其检索结果的实质成效更接近于人的自然 语言,在一定量上提升检索结果的有关性,现在已被渐渐的应用到图书馆、数据库和搜索引擎的算法当中。谷歌|Baidu就是典型的代表。

其实就是大家今天要讲的一个原理,叫做LSI(Latent Semantic Index)翻译成中文的意思就是隐含语义索引。

隐含语义索引工作原理:

当蜘蛛爬取并下载站点页面后,隐藏语义索引(以下大家检查LSI)把下载网页的所有单词制作成一个列表,然后就是将一些没语义的单词过滤(譬如停 用词,过滤词等),然后再将站点所有些页面都做出单词列表。然后借助这类列表就能做一个以页面(文档)为X轴,单词为Y轴的巨型矩阵。假如一个单词出现 在某个页面,那样对于的页面地方大家标为1,反之就为0。如此就能非常明确的看到每一个单词在整站页面出现的频率。
当然只是靠如此是不可以准确的技术的,那样LSI将引入一个关键字网站权重。1.关键字在页面出现的频率越高这个关键字在这个页面的网站权重就越高。2.就是整站关键字频率高的网站权重越低。

LSI非常重要的是可以算出站点某个关键字的有关关键字在其他内页的出现的频率。如此有哪些好处就是即便你的某个站点页面未出现你搜索的关键字,也会将 有关的页面搜索出来。所以假如你做某个关键词排名优化还是把你所有些反向链接都用该关键字作为锚文本的话,那样你的反向链接的水平度会降低,就是LSI的作 用。还有就是你站点页面做有关的长尾关键字相互提高其竞争优势,就是由于他们的有关性。所以假如你还是用以前的办法来做优化,不做长尾关键字,不做有关性的话,那样你的站点关键字是非常难获得非常不错的排名的。

从上面的叙述的原理大家不难看出,为何搜索引擎可以表现出这么好的智能,虽然LSI并非理解某个单词的意思,但他通过计算一个页面包括的关键字,并且参考其他网页所包括的关键字组成。所以LSI会得出一个结论,具备不少关键字相同的网页,他们的页面内容也是接近的。所以这就是为何搜索引擎能 够不少的判断伪原创和采集的页面的文章,所以你不要由于你改改标题,改改某些段落搜索引擎就不了解了。其实LSI就可以非常不错的判断。这就是LSI的智能结果。