新闻动态
行业资讯
签约信息
公司信息

何为倒排索引?斑驴互联小编告诉你

 发布时间:2018-10-30     浏览次数:2.2k     作者:斑驴互联

       网站建设从业人员对于网站建设后期的SEO优化,肯定不会陌生。然而,SEO优化必定会涉及到搜索引擎的算法,因为这一系列算法会直接影响到网站的排序结果,而seoer苦苦追求的就是网站排名,靠前必定能为网站带来可观的流量,有效提升网站的转化率。虽然说网站建设初期的网页设计、页面布局、内容规划这些关涉到用户体验,是企业形象品牌形象传播的关键,但是了解搜索引擎背后的算法规则,做好网站建设后期的SEO优化维护同样重要。作为网站建设首选的互联网应用供应商斑驴互联当然对SEO也有一定的研究,今天就由小编给大家说说SEO算法的倒序索引。

      说的通俗一点,其实搜索引擎的索引好比是我们平时看书时的目录,为了让大家更快找到适合自己的东西,比如导航站其实就是互联网上小型索引的结构案例。上面会有一些分类比如新闻、电影、小说、图片等等板块,让用户快速的找到自己所需。索引是搜索引擎中最为核心的技术之一,因为在大量的网页中,怎样才能更快、更精准的找到用户查询这个词的搜索意图。

     先给大家说几个概念,为了下面的讲述中,大家都能看得懂。

     1、文档:我们是以网页的形式看到互联网页面的,而网页中包含很多的东西,比如:TXT、EXCEL、PDF等等很多各式各样的文件都被成为文档。

     2、文档集合:由很多的文档组成一个集合,称为文档集合。

     3、文档编号:互联网上每一个文档都有各自且独一无二的编号。

     4、单词编号:每个单词都有各自的唯一编号,用编号来代表这个单词或、短语者句子。

     5、倒排索引:是在搜索引起的索引库中,以单词对应网页的一种存储的形式,可以根据单词快速的获取相关的文档。

     其实倒排索引非常的简单,下面就结合一些特征案例来渐渐深入的分析这个算法,大家先了解一些基本的思路即可。


https://www.banlvit.com/storage/uploads/20181030/fa31337a18d8df5a50df1f10547265d6.jpg


       上图是每个文档编号对应的不同文档,如编号“1”对应“小明吃早饭”,编号“2”对应“小明早上吃了什么”,以此类推。另外由于中文和英文的文化属性不相同,中文的汉字之间没有明显像英文单词那样的分隔符,索引首先对中文要进行一下分词(下面举例中暂时不去掉停止词),这样就把一句话变成了一个个的词组,如下图。


https://www.banlvit.com/storage/uploads/20181030/e57f6e1c8244c2aa06bc19d0daf997c3.png


      上图单词的ID记录了每个单词的编号,第二列是编号所对应的单词,第三列是哪几个文档中包含了这个单词。比如单词“小明”,其其单词编号为“1”,倒排列表“1,2,4,5”,表示这几个文档集合中都包含了这个单词。实际上搜索引擎更为复杂,不仅仅记录了单词的文档编号,还记录了单词的频率(TF,什么意思呢?很多seo从业者都在说关键词的密度,

市面上计算页面中关键词密度的计算公式有三个:

 ·  公式一: 关键词次数/页面总字数 x100%

 ·  公式二: 关键词次数/页面总字数/关键词字数 x 100%

 ·  公式三: 关键词次数/页面分词数量 x 100%

      先不讨论哪个公式的计算方式更加精准,我们发现公式中都出现了关键词的次数,那这个TF就是该单词在页面中出现的次数)。这个TF在搜索引擎计算搜索结果排序时,分析查询词和文档库中哪个文档更为相关的一个参考因素。


https://www.banlvit.com/storage/uploads/20181030/ba4e811de2df966ce8e819ce4b5db0fd.jpg


      上图是比较复杂的,我们来看看文档频率为多个文档包含这个单词,如:“小明”在“ 4 个文档”中出现了。“吃”在“ 4 个文档”中出现了,后面的以此类推。倒排列表小明 (1;1

       实战应用,在纸上谈的再多,不如通过实战去验证这个论点,是否对排名有帮助。下面就来看看。

      以首页自然排名的 10 个网站的网页类型和标题为例:

  ·  首页,排名第一,“早点培训_早餐培训班_早点培训学校【免费吃住】”

  ·  首页,排名第二,“早餐培训_早餐培训班_早餐培训学校【免费加盟】”

  ·  首页,排名第三,“上海顶正小吃培训学校_早点培训_生煎包培训_烧烤培训全国最专.....”

  ·  首页,排名第四,“上海早点培训|重庆小面培训|山东杂粮饼培训|卤菜培训|小吃培训.......”

  ·  首页,排名第五,“小吃培训_特色小吃_小吃项目加盟-老灶台特色小吃培训学校”

  ·  内页,排名第六,“早点培训 正规早点培训班-培训通”

  ·  首页,排名第七,“艺尚食代-早餐早点培训”

  ·  首页,排名第八,“小吃培训,早点培训,上海面点培训,上海德志厨艺美食培训中心021-...”

  ·  首页,排名第九,“早餐店加盟_营养早餐加盟_特色早点加盟店_早餐店连锁加盟培训_开...”

  ·  内页,排名第十,“早点培训班 正宗早点培训中心-培训通”

      分析得出:早点培训在这个 10 个网站中基本上都出现了 2 词,大家有没有发现早点和早餐是近义词,(比如:我早点吃了什么,我早餐吃了什么。这两句话表达的是同一个意思。)等于是增加了一遍词频,也就是 3 次了,在这里提醒大家关键词千万不要堆砌,要保持一个自然性。

      另外通过之前的实验数据得出标题最左边的词权重最高,仅仅结合这两点,排名第一的网站标题做的比其他的网站标题都到位。另外标题结尾处“【免费吃住】”这是一个吸引用户点击的营销点,所以标题是技术与艺术的结合。

      下图是网站从上线到目前的收录和权重的部分截图:


https://www.banlvit.com/storage/uploads/20181030/5cd59caafc2d8e5891bc961a11cf349e.jpg


      从上面的两张图片我们可以看出,这个网站的权重从 2017 年 12 月 11 日的站长权重是0, 4 天后权重到达1,还是比较轻松的。而且后来站内文章到投稿为止已经 5 个月没有更新了,为什么有些seoer天天更新文章,网站排名却做不起来?有小伙伴说如果不写文章,那么每天都不知道做些什么。

      在我看来这个不是影响排名的重要因素,因为前期网站信任度做好可以节省后期的很多事情(PS:这就是佛系SEO,让网站自己让排名)。


https://www.banlvit.com/storage/uploads/20181030/0547de28596d853f6c46b77001e868ea.jpg


      通过上图发现早点培训这个词一直在首页第一,非常的稳定。所以通过算法来优化网站还是非常靠谱的。搜索引擎是这个世界上最复杂的程序之一,公开的算法不胜其数,有兴趣的小伙伴们可以看看搜索引擎公司他们申请专利的一个文档,文档中也会涉及到高等数学等等知识,如果你能坚持的去看并且结合实践的话,那么你优化网站不用再靠猜排名了。

 

标签: 南昌网站建设公司/南昌做网站的公司/南昌微信小程序/南昌APP开发/—斑驴互联

分享本文
每个作品都是一次思维与灵魂的碰撞
斑驴互联在南昌一直向着“做业内一流互联网设计团队”这一愿景努力,不断提升对网站高端设计,微信公众号/小程序开发等产品的用户体验
400 0791 158