逆索引原理与过程(倒排索引原理和过程)

SEO 2020-02-04 20:54未知admin

该索引表中的每个条目都包含一个属性值以及具有该属性值的每个记录的地址。属性值不是由记录确定的,但是记录的位置是由属性值确定的,因此这称为反向索引。反向文件称为反向索引文件。

一、倒排索引介绍


反向索引(英文:反向索引)是全文搜索系统中Word文档映射结构的常用索引方法。现代搜索引擎中的大多数索引都是基于反向索引构建的,因为在实际应用中,当用户使用搜索引擎查找信息时,他们仅在与某些用户相同的信息中输入某些属性关键字。我不记得歌名了输入歌词以查找歌曲标题,输入节目内容以查找节目,等等。

为了满足面对大量信息数据的用户需求并顺应信息时代信息快速访问的趋势,精明的开发人员在开发搜索引擎并开发“关键字——文档”时会重新计算此信息数据。我做到了当使用项目属性信息映射项目时,它通过允许用户快速找到目标信息的映射结构大大降低了获取信息的难度。反向索引也称为反向索引,是一种反向操作,是现代信息检索领域中最有效的索引结构。



二、倒排索引信息

搜索引擎通常会搜索场景。如果您有几个关键字,请查找包含关键字的文档。


搜索的关键是如何快速查找包含特定关键字的文档。这里使用术语——。


通过此模型,可以轻松知道文档中包含哪些关键字,哪个特定关键字中包含哪些文档。


单词文档矩阵的特定数据结构可以是倒排索引,签名文件,后缀树等。


倒排索引来自您需要基于属性值查找记录的事实。 Lucene基于倒排索引。


该索引表中的每个条目都包含一个属性值以及具有该属性值的每个记录的地址。


属性值不是由记录确定的,但是记录的位置是由属性值确定的,因此这称为反向索引。


具有反向索引的文件称为反向索引文件或反向文件。


反向索引通常由关键字表示,其后是Internet上的频率(出现次数),位置(文章或网页的显示位置及其相关日期,作者等)。数十亿页都被索引了,就像书的目录和标签一样。读者希望查看与本章相关的主题,并可以直接根据目录查找相关页面。您不再需要逐页搜索。

倒排索引概述:

在关系数据库系统中,索引编制是检索数据的最有效方法,但是对于搜索引擎而言,它不满足任何特殊要求。

1、海量数据:搜索引擎面临大量数据,大型商业搜索引擎索引(例如Google和百度)中有数十亿或数十亿个网页。难以有效管理


2、数据操作很简单:搜索引擎使用的数据操作很简单,但是通常仅需要添加,删除,修改和验证一些功能,并且数据具有特定的格式。使您可以为这些应用程序设计简单有效的应用程序的过程。通用数据库系统支持大型综合功能,而不会损失速度和空间。毕竟,搜索引擎面临着众多用户搜索需求,因此搜索引擎需要每秒设计搜索程序,因此在编制索引时要尽可能多地完成大量计算工作,以最大程度地减少搜索工作量。典型的数据库系统不能容忍如此大量的用户请求,并且不如专门为搜索响应时间和搜索并发设计的索引系统那么好。


四、反向索引由两部分组成:单词词典和反向文件。


(1)。倒档


所有单词的反向列表按顺序存储在磁盘上的特定文件中,该文件称为反向文件,反向文件是存储反向索引的实际文件。


(2)。单词词典

单词词典是由出现在文档集中的所有单词组成的字符串的集合,其中单词词典中的每个索引条目都记录有关单词本身的信息以及指向“反向列表”的指针。

单词词典是倒排索引的一个非常重要的部分,用于保留文档集中所有单词的相关信息,并在倒排文件中记录与单词相对应的倒排列表的位置信息。如果支持您的搜索,则它将转到单词字典并获得其反向列表,具体取决于用户的搜索词单词。

许多文档集合可以包含数十万或数百万个其他单词。

快速查找单词决定了您的搜索响应速度,因此您需要一个非常有效的数据结构来构建和搜索单词词典。

常见的数据结构包括哈希加链表和树字典结构。