一种文本数据的内链词提取匹配方法及装置与流程

文档序号:28446846发布日期:2022-01-12 03:51阅读:来源:国知局

技术特征:
1.一种文本数据的内链词提取匹配方法,其特征在于,包括:对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词;计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。2.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词,具体包括:从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。3.根据权利要求2所述的一种文本数据的内链词提取匹配方法,其特征在于,所述将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理,具体包括:构建内链词的正式池、预备池和无意池;其中,所述正式池为使用中的内链词集合,所述正式池中的内链词是通过权重计算得出的优质内链词;所述预备池为新增内链词的临时中转词集合;所述无意池为被淘汰的内链词集合,所述无意池中的内链词是通过权重计算出的低质内链词;将所有所述目标内链词分别投放到所述正式池、所述预备池和所述无意池中,以进行匹配处理。4.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列,具体包括:将所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词投放到字典池内,以对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,进而得到所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;所述字典池为存
储有多个特征类型词的数据集合;所述字典池中的特征类型词分为行业特征词、领域特征词和属性特征词。5.根据权利要求2所述的一种文本数据的内链词提取匹配方法,其特征在于,所述基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,具体包括:按照最小特征词逐级比对原则,将所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列分别与所述候补内链词的特征词序列进行对比,以得到每个所述候补内链词的正式内链词匹配结果、预备内链词匹配结果和无意内链词匹配结果;所述正式内链词匹配结果和所述预备内链词匹配结果为增益值,所述无意内链词匹配结果为负面值;所述最小特征词逐级比对原则为按照行业特征词、领域特征词和属性特征词的先后顺序依次进行比对的原则;确定所述正式池中与所述候补内链词的特征词序列匹配的内链词数量x、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量y和所述无意池中与候补内链词的特征词序列匹配的内链词数量z;基于所述正式池中与所述候补内链词的特征词序列匹配的内链词数量x、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量y和所述无意池中与候补内链词的特征词序列匹配的内链词数量z,计算每个所述候补内链词的的正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值;根据所述候补内链词的正式内链词匹配结果、预备内链词匹配结果、无意内链词匹配结果、正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值,计算每个所述候补内链词的权重系数值。6.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述根据所述候补内链词的权重系数值,更改每个所述候补内链词,具体包括:依次判断每个所述候补内链词的权重系数值是否大于或者等于第一阈值,得到第一判断结果;若所述第一判断结果表示是,则将权重系数值大于或者等于所述第一阈值的候补内链词更改为正式内链词;若所述第一判断结果表示否,则判断标定候补内链词的权重系数值是否大于或者等于第二阈值,得到第二判断结果;所述标定候补内链词为权重系数值小于所述第一阈值的候补内链词;若所述第二判断结果表示是,则将权重系数值大于或者等于所述第二阈值的候补内链词更改为预备内链词;若所述第二判断结果表示否,则将权重系数值小于所述第二阈值的候补内链词更改为无意内链词;其中,所述第一阈值大于所述第二阈值。7.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述计算每个标记预备内链词的用户行为权重系数,具体包括:对所述标记预备内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数、点击系数和深度系数;对所述标记正式内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数
加权值、点击系数加权值和深度系数加权值;所述标记正式内链词为对目标文本中的内链词进行提取分配处理后得到的正式内链词或者更改所述候补内链词后所确定的正式内链词;根据所述标记预备内链词的曝光系数、点击系数、深度系数、曝光系数加权值、点击系数加权值和深度系数加权值,计算每个标记预备内链词的用户行为权重系数。8.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词,具体包括:依次判断每个所述标记预备内链词的用户行为权重系数是否大于或者等于第三阈值;若是,则将所述标记预备内链词更改为正式内链词;若否,则将所述标记预备内链词更改为无意内链词。9.一种文本数据的内链词提取匹配装置,其特征在于,包括:提取匹配模块,用于对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;目标特征词序列确定模块,用于对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;第一更改模块,用于基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词;第二更改模块,用于计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。10.根据权利要求9所述的一种文本数据的内链词提取匹配装置,其特征在于,所述提取匹配模块,具体包括:提取单元,用于从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;匹配单元,用于将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。

技术总结
本发明公开了一种文本数据的内链词提取匹配方法及装置,涉及自然语言处理技术和数据处理技术领域,首先对目标文本中的内链词进行提取分配处理,得到正式内链词、预备内链词、无意内链词以及候补内链词;其次对上述内链词分别进行特征类型词标注,以得到目标特征词序列;然后基于目标特征词序列,计算每个候补内链词的权重系数值,并根据权重系数值,更改每个候补内链词;接着计算每个标记预备内链词的用户行为权重系数,并根据用户行为权重系数,更改每个标记预备内链词,确定最终的目标文本中的正式内链词和无意内链词,达到提高提取精准度和提高匹配准确度的目的。准度和提高匹配准确度的目的。准度和提高匹配准确度的目的。


技术研发人员:朱春华 王涛 程晓梅 王艳娜 逄晓刚 曾繁诚
受保护的技术使用者:山东捷瑞数字科技股份有限公司
技术研发日:2021.12.14
技术公布日:2022/1/11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1