全球旧事资料 分类
信息理论,文档
出现的次数越少,每一篇文档的信息量就会越大。所以匹配的文档数越少,得分就越高。而索引库中文档总数越多,找到一篇目标文档难度越大,相应的信息量也会比较大。5,长度因子,每个索引词汇在域中的总体长度决定的,这个参数在
索引建立时确定。数值根据文档中实际具有的索引项个数确定。检索词长度在文档总长度中占的比例越大,长度因子的数值也越大。
之结果排序(操作篇)Luce
e30之结果排序(操作篇)
1、Luce
e相关排序流程
2、Luce
e相关类①Query类:一个抽象类,Luce
e检索结果最终评分的总控制中心。其它评分有关的类和对
象都是由Query类来管理和生产。②Weight类接口:定义Query权重计算的一个实现接口,可以被重用。Weight类可以用来
生成Scorer类,也可以解析评分的详细信息,另外还定义了获取Query权值的方法。③Scorer类:Luce
e评分机制的核心类。类的定义是抽象类,提供的一些抽象基本的计分
功能方法提供所有的评分类实现,同时还定义了评分的详细解析方法,Scorer类内部有一个Similarity对象,用来指明计算公式。
f④
Scorer类:Luce
e相似度计算的核心抽象类。Similarity类主要处理评分计算,系统
缺省使用类DefaultSimilarity类对象3、排序控制
使用Sort对象定制排序,通过改变文档Boost值来改变排序结果以及使用自定义的Similarity方法更改排序
4、文档Boost加权排序①Boost是指索引建立过程中,给整篇文档或者文档的某一特定域设定的权值因子,在检索
时,优先返回分数高的。
Docume
t和Field两重Boosti
g参数。通过Docume
t对象的setBoost方法和Field对象的setBoost方法。不同在于前者对文档中每一个域都修改了参数,而后者只针对指定域进行修改。文档加权Docume
tboosti
gFieldboosti
g,默认情况下为1,一般不做修改。
②Sort对象检索排序
Sort使用时通过实例化对象作为参数,通过Searcher类的search接口来实现。Sort支持的排序功能以文档当中的域为单位,通过这种方法,可以实现一个或者多个不同域的多形式的值排序。实际使用排序对象Sort进行排序。主要有两种模式,一种是以字符串表示文档域的名称作为参数指定域排序,一种是直接以排序域的包装域的包装类作为参数进行排序。Sort对象使用比较简单,只需要在对文档索引进行检索时,在检索器的Search方法中带Sort对象作为参数即可。
1Sort对象相关性排序
按照相关性排序时最基本的结果排序方法,使用Sort对象无参数构造函数完成的排序效果相当于Luce
e默认的按相关性降序排序r
好听全球资料 返回顶部