[lucene]倒排笔记

news/2024/7/8 6:25:58 标签: lucene, 算法, 百度

lucene的倒排算法相关笔记:

·计算文章中关键字出现的位置以及出现频率,以便于精准定位。

·百度的定义:用记录的非主属性查找记录而组织的文件,叫倒排文件,或者 倒排索引,次索引

·lucene不使用B树,按照字母排序,所以使用二分法快速定位,效率高。

·lucene 有字典文件,频率文件,位置文件,其中字典文件保存有指向频率文件和位置文件的指针,可以以此找到频率信息和坐标信息。

·索引结构:

【关键字】 【文章号】/【出现频率】 【出现位置】

 

出现频率即出现次数;

出现位置从1开始计数,是当前文章的所有关键字的顺序计数的数字,出现多次以此排列展示位置,如 1,3,7 多个文件也一样,如第一个文章中出现2次分别 2,4,第二篇文章出现1次 2,则位置为:2,2,4。以此排列。

 

索引文件采用压缩,压缩格式 <前缀长度,后缀> ,前一个是 阿拉伯,后一个是阿拉伯语,压缩后后面一个是 <3,语>

数字压缩仅记录与前面数字的差值。

 

仅此简单记录一下。


http://www.niftyadmin.cn/n/1639123.html

相关文章

[ElasticSearch]Java API 之 滚动搜索(Scroll API)

一般搜索请求都是返回一"页"数据&#xff0c;无论数据量多大都一起返回给用户&#xff0c;Scroll API可以允许我们检索大量数据&#xff08;甚至全部数据&#xff09;。Scroll API允许我们做一个初始阶段搜索并且持续批量从Elasticsearch里拉取结果直到没有结果剩下。…

mysql数据实时同步到Elasticsearch

业务需要把mysql的数据实时同步到ES&#xff0c;实现低延迟的检索到ES中的数据或者进行其它数据分析处理。本文给出以同步mysql binlog的方式实时同步数据到ES的思路, 实践并验证该方式的可行性&#xff0c;以供参考。 mysql binlog日志 mysql的binlog日志主要用于数据库的主…

[拦截器]关于拦截方法调用其他内部方法无法被拦截问题的解决

拦截器的实现原理很简单&#xff0c;就是动态代理&#xff0c;实现AOP机制。当外部调用被拦截bean的拦截方法时&#xff0c;可以选择在拦截之前或者之后等条件执行拦截方法之外的逻辑&#xff0c;比如特殊权限验证&#xff0c;参数修正等操作。但是如果现在一个需求是&#xff…

使用Logstash来实时同步MySQL数据到ES

本篇我们来实战从MYSQL里直接同步数据 一、首先下载和你的ES对应的logstash版本&#xff0c;本篇我们使用的都是6.1.1 下载后使用logstash-plugin install logstash-input-jdbc 命令安装jdbc的数据连接插件 二、新增mysqltoes.conf文件&#xff0c;配置Input和output参数如下&…

[lucene第三季]Lucene那点事儿-总结篇

前面两篇文章&#xff0c;简单尝试了lucene的一些应用&#xff0c;还是再回头想想我们的需求吧&#xff0c;我们希望能够开发一个淘宝一样的针对商品的搜索服务&#xff0c;提供多种条件的组合搜索&#xff0c;并且对于性能提出了一定的要求。同时我们希望这个小型的搜索引擎具…

CentOS7下安装部署ES及head插件安装

1&#xff0e;新建一个用户elasticsearch,当然也可以不创建用户,直接用系统用户来安装和运行elasticserach [rootlocalhost ~]#useradd elasticsearch 接下来修改系统配置,这里不修改的话es运行会报错: max file descriptors [4096] for elasticsearch process is too low,…

[lucene那点事儿]想说爱你很容易

内容提要&#xff1a; ---------------------目录开始-------------------- 1、索引精确刷新问题 2、利用缓存提高索引批量更新拦截器的性能 3、针对不同的数据来源建立不同的索引并分域存放 4、引入xml配置文件的方式实现索引建立的动态配置 5、单值搜索、组合条件搜索等…

[lucene异常]why am I getting a TooManyClause exception

异常情况&#xff1a; org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024 at org.apache.lucene.search.BooleanQuery.add(BooleanQuery.java:165) at org.apache.lucene.search.BooleanQuery.add(BooleanQuery.java:156) at org.apache.…