基于要素提取的相似案件检索方法

文档序号:32789653发布日期:2023-01-03 20:36阅读:33来源:国知局

1.本发明涉及一种基于要素提取的相似案件检索方法及装置。


背景技术:

2.案件文件信息是信息社会的重要信息资源,传统的文件数据检索方法主要是基于位置和关键字的检索,针对文件关系如文件位置、文件篇幅、文件属性等的研究较多,但这些方法没有考虑案件要素的形状对相似性的影响,很难表达复杂的文件相似聚类关系,而且在检索结果的相似性打分、排序上没有成熟的解决方案。


技术实现要素:

3.本发明的主要目的是提出一种基于要素提取的相似案件检索方法,旨在在于提高案件检索的准确性,为实现上述目的,本发明提出的基于要素提取的相似案件检索方法,包括:获取待检索的案件要素;按照预定编码方法对待检索的案件要素进行编码,得到待检索的编码序列;将所述待检索的编码序列与多个文件对象对应的编码序列进行比对,以确定与所述待检索的案件要素相匹配的案件要素,所述多个文件对象对应的编码序列为根据所述预定编码方法进行编码得到的编码序列;其中,所述预定编码方法为基于案件要素元数据和文件位置联合哈希的文件对象编码方法,所述编码序列为案件要素的元数据编码和不同层级的位置编码序列组合的码值序列,元数据编码至少包括元数据特征编码。
4.可选地,将所述待检索的编码序列与多个文件对象对应的编码序列进行比对,以确定与所述待检索的案件要素相匹配的案件要素包括:获取数据库中多个文件对象对应的目标编码序列;逐一对比所述待检索的编码序列与所述目标编码序列中的元数据特征编码,提取具有相同元数据特征编码的目标编码序列;对比所提取的目标编码序列与所述待检索的编码序列中的位置编码序列,将具有相同预定位数位置编码序列的目标编码序列所对应的文件对象确定为与所述待检索的案件要素相匹配的案件要素;可选地,在将所述待检索的编码序列与多个文件对象对应的编码序列进行比对之前,该方法还包括:对多个文件对象逐一按照所述预定编码方法进行编码,得到对应的编码序列可选地,对多个文件对象逐一按照所述预定编码方法进行编码,得到对应的编码序列包括:获取文件对象的元数据特征以及文件位置;按照第一编码规则对所述元数据特征进行编码,得到元数据特征编码;按照预定的文件位置分形规则采用逐层递归裂变的方式将所述文件位置进行分
形划分,一次划分为一层级,每一层级中的网格成指数级增长;对每一层级中的网格进行编码,确定所述文件对象在不同层级中所经过网格的层级编码序列;按照由高到低的层级裂变顺序,将不同层级的层级编码序列组合作为所述文件对象的位置编码序列,不同层级的层级编码序列之间通过第一分隔符号进行分割;将元数据特征编码和位置编码序列进行组合得到文件对象对应的编码序列可选地,所述元数据还包括元数据值,对多个文件对象逐一按照所述预定编码方法进行编码,得到对应的编码序列还包括:获取所述文件对象的元数据值;按照第二编码规则对所述元数据值进行编码,得到元数据值编码;将元数据特征编码和位置编码序列以及元数据值编码进行组合排列得到文件对象对应的编码序列。
5.本发明提供的要素提取的相似案件检索方法,基于案件要素元数据和文件位置联合对数据库中的空间对象以及待检索的案件要素进行编码,使得案件对象以及待检索文件要素变换为一个包含元数据编码和位置数据编码组合的码值序列,由于相似的案件要素,其预定的编码是相同的,将待检索案件要素的编码与数据库中文件对象的编码进行比对,确定与待检索的案件要素相匹配的文件对象,使得检索出的文件对象更为准确。
具体实施方式
6.需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
7.另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
8.本发明提出一种基于要素提取的相似案件检索方法。
9.在本发明实施例中,该基于要素提取的相似案件检索方法包括:获取待检索的案件要素;按照预定编码方法对待检索的案件要素进行编码,得到待检索的编码序列;将所述待检索的编码序列与多个文件对象对应的编码序列进行比对,以确定与所述待检索的案件要素相匹配的案件要素,所述多个文件对象对应的编码序列为根据所述预定编码方法进行编码得到的编码序列;其中,所述预定编码方法为基于案件要素元数据和文件位置联合哈希的文件对象编码方法,所述编码序列为案件要素的元数据编码和不同层级的位置编码序列组合的码值序列,元数据编码至少包括元数据特征编码。
10.本发明提供的要素提取的相似案件检索方法,基于案件要素元数据和文件位置联
合对数据库中的空间对象以及待检索的案件要素进行编码,使得案件对象以及待检索文件要素变换为一个包含元数据编码和位置数据编码组合的码值序列,由于相似的案件要素,其预定的编码是相同的,将待检索案件要素的编码与数据库中文件对象的编码进行比对,确定与待检索的案件要素相匹配的文件对象,使得检索出的文件对象更为准确。
11.可选地,将所述待检索的编码序列与多个文件对象对应的编码序列进行比对,以确定与所述待检索的案件要素相匹配的案件要素包括:获取数据库中多个文件对象对应的目标编码序列;逐一对比所述待检索的编码序列与所述目标编码序列中的元数据特征编码,提取具有相同元数据特征编码的目标编码序列;对比所提取的目标编码序列与所述待检索的编码序列中的位置编码序列,将具有相同预定位数位置编码序列的目标编码序列所对应的文件对象确定为与所述待检索的案件要素相匹配的案件要素;可选地,在将所述待检索的编码序列与多个文件对象对应的编码序列进行比对之前,该方法还包括:对多个文件对象逐一按照所述预定编码方法进行编码,得到对应的编码序列可选地,对多个文件对象逐一按照所述预定编码方法进行编码,得到对应的编码序列包括:获取文件对象的元数据特征以及文件位置;按照第一编码规则对所述元数据特征进行编码,得到元数据特征编码;按照预定的文件位置分形规则采用逐层递归裂变的方式将所述文件位置进行分形划分,一次划分为一层级,每一层级中的网格成指数级增长;对每一层级中的网格进行编码,确定所述文件对象在不同层级中所经过网格的层级编码序列;按照由高到低的层级裂变顺序,将不同层级的层级编码序列组合作为所述文件对象的位置编码序列,不同层级的层级编码序列之间通过第一分隔符号进行分割;将元数据特征编码和位置编码序列进行组合得到文件对象对应的编码序列可选地,所述元数据还包括元数据值,对多个文件对象逐一按照所述预定编码方法进行编码,得到对应的编码序列还包括:获取所述文件对象的元数据值;按照第二编码规则对所述元数据值进行编码,得到元数据值编码;将元数据特征编码和位置编码序列以及元数据值编码进行组合排列得到文件对象对应的编码序列。
12.以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1