当前位置:首页 > 资讯 > 正文

词项的分别管理编辑

词项的分别管理编辑

在查询字符串中的词项可以分为更重要(低频词)和次重要(高频词)这两类。 只与次重要词项匹配的文档很有可能不太相关。实际上,我们想要文档能尽可能多的匹配那些更重要的词项。

查询接受一个参数 ,从而可以让它将查询字符串里的词项分为低频和高频两组。 低频组(更重要的词项)组成 大量查询条件,而高频组(次重要的词项)只会用来评分,而不参与匹配过程。通过对这两组词的区分处理,我们可以在之前慢查询的基础上获得巨大的速度提升。

领域相关的停用词(Domain-Specific Stopwords)

以下面查询为例:

此查询通过 配置,将查询条件划分为低频组( , )和高频组( , )。然后,此查询会被重写为以下的 查询: