同义标签判断方法、装置、计算机设备和存储介质与流程

文档序号:30511644发布日期:2022-06-25 02:04阅读:111来源:国知局
同义标签判断方法、装置、计算机设备和存储介质与流程

1.本技术涉及计算机技术领域,特别是涉及一种同义标签判断方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着计算机技术的发展,出现了各种各样的标签。在海量的标签中,有些标签虽然词语不同但是词语表达的含义是相同的,这样的标签可以称为同义标签。
3.传统技术中,通常是将两个标签输入模型,由模型来预测这两个标签是否为同义标签。然而,将不同的标签输入模型来直接判断是否为同义标签,对模型的要求太高,难以训练出判断准确性高的模型,从而导致同义标签的判断准确性较低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高同义标签的判断准确性的同义标签判断方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.一种同义标签判断方法,所述方法包括:
6.获取包含第一标签的第一标题和包含第二标签的第二标题;所述第一标题和所述第二标题为关联数据对应的标题,所述第一标签和所述第二标签存在匹配关系;
7.将所述第一标题、所述第二标题、所述第一标签和所述第二标签输入目标同义标签判断模型;
8.基于所述第一标签在所述第一标题中的位置信息和所述第一标签在所述第一标题中的上下文信息,得到所述第一标签对应的第一标签特征,基于所述第二标签在所述第二标题中的位置信息和所述第二标签在所述第二标题中的上下文信息,得到所述第二标签对应的第二标签特征;
9.基于所述第一标签特征和所述第二标签特征输出所述第一标签和所述第二标签之间的同义标签判断结果。
10.一种同义标签判断装置。所述装置包括:
11.标题获取模块,用于获取包含第一标签的第一标题和包含第二标签的第二标题;所述第一标题和所述第二标题为关联数据对应的标题,所述第一标签和所述第二标签存在匹配关系;
12.数据输入模块,用于将所述第一标题、所述第二标题、所述第一标签和所述第二标签输入目标同义标签判断模型;
13.标签特征确定模块,用于基于所述第一标签在所述第一标题中的位置信息和所述第一标签在所述第一标题中的上下文信息,得到所述第一标签对应的第一标签特征,基于所述第二标签在所述第二标题中的位置信息和所述第二标签在所述第二标题中的上下文信息,得到所述第二标签对应的第二标签特征;
14.同义标签判断结果确定模块,用于基于所述第一标签特征和所述第二标签特征输
出所述第一标签和所述第二标签之间的同义标签判断结果。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述同义标签判断方法所述的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述同义标签判断方法所述的步骤。
17.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述同义标签判断方法所述的步骤。
18.上述同义标签判断方法、装置、计算机设备、存储介质和计算机程序产品,通过获取包含第一标签的第一标题和包含第二标签的第二标题,第一标题和第二标题为关联数据对应的标题,第一标签和第二标签存在匹配关系,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型,基于第一标签在第一标题中的位置信息和第一标签在第一标题中的上下文信息,得到第一标签对应的第一标签特征,基于第二标签在第二标题中的位置信息和第二标签在第二标题中的上下文信息,得到第二标签对应的第二标签特征,基于第一标签特征和第二标签特征输出第一标签和第二标签之间的同义标签判断结果。这样,用于判断是否为同义标签的第一标签和第二标签存在匹配关系,保障了第一标签和第二标签具有一定的匹配度,可以有效避免后续数据处理的无用功,然后获取包含第一标签的第一标题和包含第二标签的第二标题,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型预测第一标签和第二标签是否为同义标签,在模型输入数据中显示地增加了第一标签和第二标签的上下文文本,可以更准确的识别出第一标签和第二标签是否为同义标签,提高同义标签的判断准确性。
附图说明
19.图1为一个实施例中同义标签判断方法的应用环境图;
20.图2为一个实施例中同义标签判断方法的流程示意图;
21.图3为一个实施例中对象画像标签归一化的示意图;
22.图4为一个实施例中文章标签归一化的流程示意图;
23.图5为一个实施例中确定推荐系数的流程示意图;
24.图6为一个实施例中信息流文章场景下同义标签判断方法的流程示意图;
25.图7为一个实施例中同义标签判断装置的结构框图;
26.图8为另一个实施例中同义标签判断装置的结构框图;
27.图9为一个实施例中计算机设备的内部结构图;
28.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
29.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
30.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
31.本技术实施例提供的方案涉及人工智能的自然语言处理技术、机器学习等技术,具体通过如下实施例进行说明:
32.本技术实施例提供的同义标签判断方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
33.终端102和服务器104均可单独用于执行本技术实施例中提供的同义标签判断方法。
34.例如,终端获取包含第一标签的第一标题和包含第二标签的第二标题,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型,在模型中,基于第一标签在第一标题中的位置信息和第一标签在第一标题中的上下文信息,得到第一标签对应的第一标签特征,基于第二标签在第二标题中的位置信息和第二标签在第二标题中的上下文信息,得到第二标签对应的第二标签特征,基于第一标签特征和第二标签特征模型输出第一标签和第二标签之间的同义标签判断结果。其中,第一标题和第二标题为关联数据对应的标题,第一标签和第二标签存在匹配关系。
35.终端102和服务器104也可协同用于执行本技术实施例中提供的同义标签判断方法。
36.例如,服务器可以从终端获取第一标签和第二标签,获取包含第一标签的第一标题和包含第二标签的第二标题。服务器将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型,在模型中,基于第一标签在第一标题中的位置信息和第一标签在第一标题中的上下文信息,得到第一标签对应的第一标签特征,基于第二标签在第二标题中的位置信息和第二标签在第二标题中的上下文信息,得到第二标签对应的第二标签特征,基于第一标签特征和第二标签特征模型输出第一标签和第二标签之间的同义标签判断结果。服务器可以将同义标签判断结果发送至终端。
37.在一个实施例中,如图2所示,提供了一种同义标签判断方法,以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端102或服务器104。参考图2,同义标签判断方法包括以下步骤:
38.步骤s202,获取包含第一标签的第一标题和包含第二标签的第二标题;第一标题和第二标题为关联数据对应的标题,第一标签和第二标签存在匹配关系。
39.其中,标签用于对数据进行描述和分类。标签可以是由数据中的关键字组成,也可以是对数据进行归纳、分析、总结得到的。第一标签和第二标签是不同的标签,但是第一标签和第二标签存在匹配关系,第一标签和第二标签之间的匹配度大于预设阈值。计算机设备可以随机获取两个标签作为候选标签,计算两个候选标签之间的匹配度,若匹配度大于预设阈值,则将这两个候选标签作为第一标签和第二标签。计算机设备可以基于标签之间
的匹配信息计算标签之间的匹配度。匹配信息可以反映不同标签在至少一个数据层面上的信息相似程度,例如,匹配信息可以包括向量相似度、分布相似度、转换操作信息中的至少一种,向量相似度反映不同标签在语义层面上的信息相似程度,分布相似度反映不同标签在数据分布层面上的信息相似程度,转换操作信息反映不同标签在字粒度层面上的信息相似程度。通过匹配度进行标签过滤,可以把一些匹配程度较低的候选标签对过滤掉,得到高质量的目标标签对,避免出现极端错误的目标标签对,从而有效节约后续模型处理的计算资源消耗。可以理解,可以认为第一标题和第二标签组成目标标签对。
40.第一标题是指标题内容中包含第一标签的标题,第二标题是指标题内容中包含第二标签的标题。第一标题和第二标题为关联数据对应的标题。可以基于数据的数据类型和对象行为信息中的至少一种信息来确定关联数据。在一个实施例中,可以将数据类型相同的数据作为关联数据,例如,第一标题和第二标题都是文本数据对应的标题,第一标题和第二标题都是图像数据对应的标题,第一标题和第二标题都是视频数据对应的标题。数据类型具体可以包括语音、图像、视频、文字等类型。在一个实施例中,可以基于对象的搜索行为来确定关联数据,将同一对象的搜索数据和对应的搜索结果中目标操作状态的召回数据作为关联数据,例如,将某一对象的搜索语句和对应的搜索结果中被该对象点击的召回文本作为关联数据,将某一对象的搜索语句和对应的搜索结果中被该对象评论的召回视频作为关联数据。
41.具体地,计算机设备可以从海量的标签中确定存在匹配关系的第一标签和第二标签,从关联数据中获取包含第一标签的第一标题和包含第二标签的第二标题,基于第一标题和第二标题对第一标签和第二标签进行同义标签判断,确定第一标签和第二标签之间的同义标签判断结果。
42.可以理解,标题是标明数据内容的简短语句,可以表明数据的主要内容和主旨,包含比较精炼的信息。利用包含标签的标题来进行同义标签判断在提高判断准确性的同时又不会增加判断压力,也不会干扰模型的建模能力。
43.步骤s204,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型。
44.其中,目标同义标签判断模型是指已训练的同义标签判断模型。同义标签判断模型用于输出标签之间的同义标签判断结果。同义标签判断结果包括标签同义和标签不同义。标签同义表示两个标签是语义相同的标签,两个标签是同义标签。标签不同义表示两个标签是语义不同的标签,两个标签不是同义标签。同义标签判断模型的输入数据包括待判断是否同义的标签对和标签对中各个标签分别对应的标题。
45.具体地,计算机设备可以将第一标签、第一标签对应的第一标题、第二标签和第二标签对应的第二标题输入目标同义标签判断模型,通过模型的内部数据处理,目标同义标签判断模型最终输出第一标签和第二标签之间的同义标签判断结果。
46.可以理解,第一标题可以有至少一个,第二标题可以有至少一个。
47.步骤s206,基于第一标签在第一标题中的位置信息和第一标签在第一标题中的上下文信息,得到第一标签对应的第一标签特征,基于第二标签在第二标题中的位置信息和第二标签在第二标题中的上下文信息,得到第二标签对应的第二标签特征。
48.步骤s208,基于第一标签特征和第二标签特征输出第一标签和第二标签之间的同
义标签判断结果。
49.其中,标签的位置信息用于标识标签在标题中的位置。位置信息有助于模型判断标签的词性。标签的上下文信息包括标签的上文信息和标签的下文信息,标签的上文信息是指标题中在标签之前的文本,标签的下文信息是指标题中在标签之后的文本。上下文信息有助于模型判断标签的词义。标签特征融合有标签的浅层和深层语义信息。
50.具体地,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型后,目标同义标签判断模型可以基于第一标签在第一标题中的位置信息和第一标签在第一标题中的上下文信息计算第一标签对应的第一标签特征,基于第二标签在第二标题中的位置信息和第二标签在第二标题中的上下文信息计算第二标签对应的第二标签特征,最终基于第一标签特征和第二标签特征输出第一标签和第二标签之间的同义标签判断结果。
51.在一个实施例中,模型在接收到输入数据后,可以将第一标签对应的各个第一标题进行拼接处理后输入第一特征提取层,将第二标签对应的各个第二标题进行拼接处理后输入第二特征提取层,通过第一特征提取层和第二特征提取层对数据进行浅层语义、深层语义的交互,得到第一标签对应的第一标签特征,第二标签对应的第二标签特征,将第一标签特征和第二标签特征拼接得到目标特征,基于目标特征预测第一标签和第二标签之间的同义标签判断结果。在一个实施例中,第一特征提取层和第二特征提取层可以包括多层transformer。
52.在一个实施例中,以第一标签为例,模型基于第一标签在第一标题中的位置信息得到初始位置特征,基于第一标签在第一标题中的上文信息得到初始上文特征,基于第一标签在第一标题中的下文信息得到初始下文特征,对初始位置特征、初始上文特征和初始下文特征进行特征交互,得到第一标签特征。通过特征交互可以充分进行语义交互,得到语义表达更强的第一标签特征。对初始位置特征、初始上文特征和初始下文特征进行特征交互可以是基于初始位置特征对初始上文特征进行注意力分配,得到目标上文特征,基于初始位置特征对初始下文特征进行注意力分配,得到目标下文特征,融合目标上文特征和目标下文特征得到第一标签特征。
53.上述同义标签判断方法中,通过获取包含第一标签的第一标题和包含第二标签的第二标题,第一标题和第二标题为关联数据对应的标题,第一标签和第二标签存在匹配关系,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型,基于第一标签在第一标题中的位置信息和第一标签在第一标题中的上下文信息,得到第一标签对应的第一标签特征,基于第二标签在第二标题中的位置信息和第二标签在第二标题中的上下文信息,得到第二标签对应的第二标签特征,基于第一标签特征和第二标签特征输出第一标签和第二标签之间的同义标签判断结果。这样,用于判断是否为同义标签的第一标签和第二标签存在匹配关系,保障了第一标签和第二标签具有一定的匹配度,可以有效避免后续数据处理的无用功,然后获取包含第一标签的第一标题和包含第二标签的第二标题,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型预测第一标签和第二标签是否为同义标签,在模型输入数据中显示地增加了第一标签和第二标签的上下文文本,可以更准确的识别出第一标签和第二标签是否为同义标签,提高同义标签的判断准确性。
54.在一个实施例中,获取包含第一标签的第一标题和包含第二标签的第二标题之
前,方法还包括:
55.从标签库中获取标签统计信息大于预设统计信息的标签作为候选标签,得到多个候选标签;标签统计信息包括标题出现频率和内容出现频率中的至少一种;将各个候选标签进行两两组合,得到多个候选标签对;从各个候选标签对中确定目标标签对;目标标签对中的标签之间存在匹配关系;基于目标标签对确定第一标签和第二标签。
56.其中,标签库包括多个标签,各个标签存在对应的标签统计信息。标签统计信息包括标题出现频率和内容出现频率中的至少一种。标题出现频率是指标签在数据标题中的出现频率。内容出现频率是指标签在数据内容中的出现频率。预设统计信息可以根据实际需要进行设置,并且,标题出现频率和内容出现频率可以对应相同的预设统计信息,也可以对应不同的预设统计信息。
57.具体地,计算机设备可以从标签库中进行标签挖掘来得到第一标签和第二标签。计算机设备可以获取标签库中的各个标签分别对应的标签统计信息,将标签库中标签统计信息大于预设统计信息的标签作为候选标签,得到多个候选标签。例如,可以获取标题出现频率大于预设概率的标签作为候选标签,获取标题出现频率和内容出现频率均大于预设概率的标签作为候选标签。基于标签统计信息进行标签的初步筛选,可以过滤生僻、不常用的标签,减轻后续的处理压力。接着,计算机设备可以将各个候选标签进行两两组合得到多个候选标签对,再从各个候选标签对中确定目标标签对,计算各个候选标签对分别对应的匹配度,基于匹配度从各个候选标签对中确定目标标签对,目标标签对中的标签之间存在匹配关系。计算机设备可以将目标标签对中的标签作为第一标签和第二标签,进而获取包含第一标签的第一标题和包含第二标签的第二标题输入模型来预测第一标签和第二标签是否为同义标签。
58.可以理解,从各个候选标签对中可以确定至少一个目标标签对,计算机设备可以分别确定各个目标标签对中的标签是否为同义标签。
59.上述实施例中,获取标签统计信息大于预设统计信息的标签作为候选标签来生成候选标签对,再从候选标签对中确定目标标签对,能够提高目标标签对的质量,减轻后续数据处理的处理压力。
60.在一个实施例中,从各个候选标签对中确定目标标签对,包括:
61.获取候选标签对中各个候选标签分别对应的目标词向量;基于同一候选标签对中各个候选标签分别对应的目标词向量计算候选标签之间的向量相似度,得到各个候选标签对分别对应的向量相似度;从各个候选标签对中,基于向量相似度大于预设第一相似度的候选标签对得到目标标签对。
62.具体地,匹配度具体可以是向量相似度。计算机设备可以计算各个候选标签对分别对应的向量相似度,基于向量相似度从各个候选标签对中确定目标标签对。计算机设备可以获取候选标签对中各个候选标签分别对应的目标词向量,基于同一候选标签对中各个候选标签分别对应的目标词向量计算候选标签之间的向量相似度,从而得到各个候选标签对分别对应的向量相似度。例如,将某一候选标签对中候选标签a对应的目标词向量和候选标签b对应的目标词向量之间的欧式距离作为候选标签a和候选标签b之间的向量相似度,作为该候选标签对所对应的向量相似度。计算机设备可以基于向量相似度对候选标签对进行筛选,从各个候选标签对中获取向量相似度大于预设第一相似度的候选标签对。最终,计
算机设备基于向量相似度大于预设第一相似度的候选标签对得到目标标签对,例如,计算机设备可以将向量相似度大于预设第一相似度的候选标签对直接作为目标标签对,也可以进一步结合其他信息从向量相似度大于预设第一相似度的候选标签对中确定目标标签对。
63.其中,计算机设备可以基于现有的公式或算法提取各个候选标签分别对应的目标词向量,也可以基于自定义公式或算法提取各个候选标签分别对应的目标词向量。预设第一相似度可以根据实际需要进行设置。
64.上述实施例中,从各个候选标签对中,基于向量相似度大于预设第一相似度的候选标签对得到目标标签对,能够基于向量相似度过滤掉不相似的候选标签对,提高目标标签对的质量,减轻后续数据处理的处理压力。
65.在一个实施例中,获取候选标签对中各个候选标签分别对应的目标词向量,包括:
66.获取当前候选标签对中各个候选标签分别对应的初始词向量;分别将当前候选标签对所对应的各个初始词向量和目标词语处理模型中的目标输入权重矩阵进行融合,得到当前候选标签对中各个候选标签分别对应的目标词向量;
67.目标词语处理模型的训练过程如下:获取训练词语和训练词语对应的关联词语,将关联词语对应的初始词向量输入初始词语处理模型;训练词语存在对应的训练词向量;将关联词语对应的初始词向量和初始词语处理模型中的初始输入权重矩阵进行融合,得到中间矩阵;将中间矩阵和初始词语处理模型中的初始输出权重矩阵进行融合,得到训练词语对应的预测词向量;基于训练词语对应的训练词向量和预测词向量之间的差异,调整初始词语处理模型的模型参数,直至满足第一收敛条件,得到目标词语处理模型。
68.其中,初始词向量可以是将词语经过one-hot编码处理得到的词向量。one-hot编码是指使用n位状态寄存器来对n个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,只有其中一位有效。词语的one-hot编码可以是使用n位数据来对n个词语进行编码,每个词语都有它独立的数据位,并且在任意时候,只有其中一位有效。例如,词汇表包括100个词语,可以用100位的二进制向量来表示每个词语的初始词向量,二进制向量中每一个数据位存在对应的词语,在用二进制向量表示一个词语时,该词语对应的数据位上的数据为1,其他数据位为上的数据为0。词汇表中的第一个词语的初始词向量中第一位的数据为1,其他位的数据为0,词汇表中的第二个词语的初始词向量中第二位的数据为1,其他位的数据为0,词汇表中的第三个词语的初始词向量中第三位的数据为1,其他位的数据为0,以此类推,词汇表中的第一百个词语的初始词向量中第一百位的数据为1,其他位的数据为0。
69.训练词语和关联词语是从同一语句中获取到的。具体可以从一个语句中随机选取一个词语作为训练词语,将训练词语周围的预设数目个词语作为训练词语对应的关联词语。例如,一个语句由4个词语组成,该语句表示为w1-w2-w3-w4,可以将w3作为训练词语,将w1、w2和w4作为w3对应的关联词语。词语处理模型用于基于w1、w2和w4预测w3。
70.初始词语处理模型是指未训练的词语处理模型,目标词语处理模型是指已训练的词语处理模型。词语处理模型处理的任务是给定某一中心词的一定邻域半径内的词语,预测输出词语为该中心词的概率。在模型训练时,词语处理模型的输入数据为关联词语对应的初始词向量,输出数据是预测词语对应的预测词向量,基于预测词向量可以确定预测词语具体是哪个词语。模型输出的预测词向量和初始词向量的数据维度是一致的,预测词向
量中的每个数据位上的数据表示预测词语为对应词语的预测概率。模型的训练目标是让预测词向量中训练词语所对应的数据位上的预测概率在所有预测概率中最大。训练词语对应的训练词向量是基于训练词语对应的初始词向量得到的,可以将训练词语对应的初始词向量作为训练词语对应的训练词向量,那么在训练词向量中训练词语对应的数据位上的数据数值最大。因此,模型的训练目标具体可以是让训练词语对应的预测词向量和训练词向量越接近越好,预测词向量和训练词向量越接近,自然而然,预测词向量中训练词语所对应的数据位上的预测概率在所有预测概率中最大。
71.词语处理模型包括输入权重矩阵和输出权重矩阵,将关联词语对应的初始词向量输入词语处理模型后,先将关联词语对应的初始词向量和输入权重矩阵进行融合得到中间矩阵,再将中间矩阵和初始词语处理模型中的初始输出权重矩阵进行融合得到预测词向量,最后输出预测词向量。
72.初始输入权重矩阵是指初始的输入权重矩阵,初始输入权重矩阵需要基于训练数据进行调整。初始输出权重矩阵是指初始的输出权重矩阵,初始输出权重矩阵也需要基于训练数据进行调整。目标输入权重矩阵是指最终的输入权重矩阵,模型参数不再调整后,最终得到的输入权重矩阵。
73.具体地,计算机设备可以训练一个词语处理模型来提取各个候选标签分别对应的目标词向量。在模型训练时,计算机设备可以从同一语句中确定训练词语和训练词语对应的关联词语,获取关联词语对应的初始词向量,将关联词语对应的初始词向量输入初始词语处理模型,初始词语处理模型将关联词语对应的初始词向量和模型中的初始输入权重矩阵进行融合,得到中间矩阵,将中间矩阵和模型中的初始输出权重矩阵进行融合,得到训练词语对应的预测词向量。计算机设备获取训练词语对应的训练词向量,基于训练词语对应的训练词向量和预测词向量之间的差异生成训练损失,将训练损失进行反向传播来调整初始词语处理模型的模型参数,直至满足第一收敛条件,得到目标词语处理模型。
74.其中,第一收敛条件可以是模型迭代次数大于预设迭代次数,训练损失小于预设损失中的至少一种。可以理解,模型可以获取多组训练数据,基于多组训练数据对初始词语处理模型进行迭代训练,一组训练数据包括训练词语和训练词语对应的关联词语。模型可以从多组训练数据中确定当前训练数据,基于当前训练数据对初始词语处理模型进行训练,得到中间词语处理模型,将下一组训练数据作为新的当前训练数据,将中间词语处理模型作为新的初始词语处理模型,返回基于当前训练数据对初始词语处理模型进行训练,得到中间词语处理模型的步骤执行,直至满足第一收敛条件,得到目标词语处理模型。在调整模型参数时,可以采用梯度下降算法更新初始输入权重矩阵和初始输出权重矩阵。
75.通过模型训练得到目标词语处理模型后,计算机设备可以将目标词语处理模型进行存储,从而计算机设备在计算候选标签对所对应的向量相似度时可以获取目标词语处理模型来提取候选标签对应的目标词向量。当然,计算机设备也可以预先基于目标词语处理模型提取标签库中各个标签分别对应的目标词向量。
76.在提取目标词向量时,计算机设备可以获取当前候选标签对中各个候选标签分别对应的初始词向量,获取目标词语处理模型中的目标输入权重矩阵,分别将当前候选标签对所对应的各个初始词向量和目标输入权重矩阵进行融合,从而得到当前候选标签对中各个候选标签分别对应的目标词向量。由于目标输出权重矩阵主要用于确定词语对应的预测
概率,因此只需要将候选标签对应的初始词向量和目标输入权重矩阵的融合结果作为候选标签对应的目标词向量。
77.在一个实施例中,将各个关联词语对应的初始词向量分别和初始词语处理模型中的初始输入权重矩阵进行融合得到各个关联词语分别对应的中间词向量,将各个中间词向量相加求平均得到中间矩阵,将中间矩阵和初始词语处理模型中的初始输出权重矩阵进行融合得到目标矩阵,对目标矩阵进行归一化处理最终得到预测词向量。
78.上述实施例中,通过训练词语和关联词语对应的初始词向量可以训练得到用于提取目标词向量的目标输入权重矩阵,将候选标签对应的初始词向量和目标输入权重矩阵进行融合可以快速得到候选标签对应的目标词向量。
79.在一个实施例中,从各个候选标签对中确定目标标签对,包括:
80.获取候选标签对中各个候选标签分别对应的数据分布信息;基于同一候选标签对中各个候选标签分别对应的数据分布信息计算候选标签之间的分布相似度,得到各个候选标签对分别对应的分布相似度;从各个候选标签对中,基于分布相似度大于预设第二相似度的候选标签对得到目标标签对。
81.其中,数据分布信息是指标签对应的各个数据在不同数据主题下的分布情况。例如,针对文本类型数据,标签a对应的数据分布信息为在包含标签a的文章中,有70%的文章为娱乐主题,30%的文章为游戏主题。标签对应的各个数据可以是数据标题包含标签的数据,也可以是具体内容包含标签的数据。
82.具体地,匹配度具体可以是分布相似度。计算机设备可以计算各个候选标签对分别对应的分布相似度,基于分布相似度从各个候选标签对中确定目标标签对。计算机设备可以对候选标签对中任意一个候选标签对应的各个数据在不同数据主题下的分布情况进行统计,从而得到候选标签对中各个候选标签分别对应的数据分布信息。接着,计算机设备可以基于同一候选标签对中各个候选标签分别对应的数据分布信息计算候选标签之间的分布相似度,从而得到各个候选标签对分别对应的分布相似度。例如,可以基于候选标签对应的数据分布信息生成数据分布向量,计算同一候选标签对中各个候选标签分别对应的数据分布向量之间的距离得到分布相似度。最终,计算机设备可以基于分布相似度大于预设第二相似度的候选标签对得到目标标签对,例如,计算机设备可以将分布相似度大于预设第二相似度的候选标签对直接作为目标标签对,也可以进一步结合其他信息从分布相似度大于预设第二相似度的候选标签对中确定目标标签对。其中,预设第二相似度可以根据实际需要进行设置。
83.上述实施例中,从各个候选标签对中,基于分布相似度大于预设第二相似度的候选标签对得到目标标签对,能够基于分布相似度过滤掉不相似的候选标签对,提高目标标签对的质量,减轻后续数据处理的处理压力。
84.在一个实施例中,从各个候选标签对中确定目标标签对,包括:
85.对将同一候选标签对中的第一候选标签转换为第二候选标签的转换操作进行统计,得到各个候选标签对分别对应的转换操作信息;从各个候选标签对中,基于转换操作信息小于预设操作信息的候选标签对得到目标标签对。
86.其中,转换操作包括插入操作、替换操作和删除操作中的至少一种操作。转换操作信息是指从第一候选标签转换为第二候选标签需要经过的转换操作次数。
87.具体地,匹配度具体可以是转换操作信息。计算机设备可以计算各个候选标签对分别对应的转换操作信息,基于转换操作信息从各个候选标签对中确定目标标签对。计算机设备可以对从同一候选标签对中的第一候选标签转换为第二候选标签的转换操作进行统计,统计从第一候选标签转换为第二候选标签需要经过的转换操作次数,从而得到各个候选标签对分别对应的转换操作信息。例如,假设某一候选标签对包括候选标签a和候选标签b,候选标签a用字符串a表示,候选标签b用字符串b表示,统计从字符串a最少经过多少次插入、删除、替换操作才可以变换为字符串b,统计的转换操作次数可以表示字符串a和字符串b之间的词语距离,统计的转换操作次数即为转换操作信息。最终,计算机设备可以基于转换操作信息小于预设操作信息的候选标签对得到目标标签对,例如,计算机设备可以将转换操作信息小于预设操作信息的候选标签对直接得到目标标签对,也可以进一步结合其他信息从转换操作信息小于预设操作信息的候选标签对中确定目标标签对。
88.上述实施例中,从各个候选标签对中,基于转换操作信息小于预设操作信息的候选标签对得到目标标签对,能够基于转换操作信息过滤掉不相似的候选标签对,提高目标标签对的质量,减轻后续数据处理的处理压力。
89.在一个实施例中,获取包含第一标签的第一标题和包含第二标签的第二标题,包括:
90.将第一标签和第二标签分别作为数据标题关键词在目标类型的数据库中进行检索,得到第一标题和第二标题。
91.具体地,第一标题和第二标题可以是同类型数据对应的标题。计算机设备可以将第一标签和第二标签分别作为数据标题关键词在目标类型的数据库中进行检索,在包括同一类型数据的数据库中进行检索,查找包含第一标签的数据标题,将包含第一标签的数据标题作为第一标题,查找包含第二标签的数据标题,将包含第二标签的数据标题作为第二标题。
92.在一个实施例中,计算机设备还可以进一步结合数据的目标操作热度来进行检索。以第一标签为例,计算机设备可以先从目标类型的数据库中获取数据标题包含第一标签的数据作为候选数据,再获取各个候选数据分别对应的目标操作热度,将目标操作热度大于预设热度的候选数据所对应的数据标题作为第一标题。其中,数据的目标操作热度是通过统计对象作用于数据的目标操作行为得到的。目标操作行为包括点击行为、点赞行为、评论行为、分享行为、浏览行为等至少一种对象行为。例如,可以对针对文章a的点击行为进行统计得到文章a对应的点击频率,将点击频率作为文章a的点击热度。点击热度越高,表明文章a的关注度越高,文章a的标题包含比较准确、丰富、清楚的语义信息,将文章a的标题作为模型输入数据可以提高同义标签的判断准确性。
93.上述实施例中,将第一标签和第二标签分别作为数据标题关键词在目标类型的数据库中进行检索,得到第一标题和第二标题,第一标题和第二标题可以是同类型数据对应的标题。
94.在一个实施例中,获取包含第一标签的第一标题和包含第二标签的第二标题,包括:
95.将第一标签作为搜索标题关键词在搜索日志库中进行检索,得到搜索标题包含第一标签的目标搜索日志;将目标搜索日志对应的搜索标题作为第一标题;从目标搜索日志
对应的搜索结果中,获取数据标题包含第二标签、且目标操作状态对应的召回数据作为目标召回数据,将目标召回数据对应的数据标题作为第二标题。
96.其中,搜索标题是指对象在搜索时使用的搜索语句。搜索标题可以是对象输入的搜索文本,也可以是对对象输入的搜索语音进行语音识别得到的搜索文本。
97.具体地,第一标题和第二标题还可以是基于对象的搜索行为确定的。计算机设备可以将第一标签作为搜索标题关键词在搜索日志库中进行检索,查找搜索标题包含第一标签的目标搜索日志,将目标搜索日志对应的搜索标题作为第一标题。目标搜索日志包括搜索标题和对应的搜索结果。计算机设备可以进一步从目标搜索日志对应的搜索结果中获取包含第二标签的第二标题。目标搜索日志中的搜索结果包括向对象展示的各个召回数据和对象作用于召回数据的操作信息,计算机设备可以基于对象作用于召回数据的操作信息确定召回数据对应的操作状态。计算机设备可以从目标搜索日志对应的搜索结果中,获取数据标题包含第二标签、且目标操作状态对应的召回数据作为目标召回数据,将目标召回数据对应的数据标题作为第二标题。
98.可以理解,基于对象的搜索行为确定的第一标题和第二标题可以是同类型数据对应的标题,也可以是不同类型数据对应的标题。例如,第一标题为文本类型数据对应的标题,第二标题为图像类型数据对应的标题。
99.在一个实施例中,可以将目标操作行为对应的召回数据的操作状态确定为目标操作状态。例如,可以将点击行为对应的召回数据的操作状态确定为目标操作状态,也就是,将被对象点击的召回数据对应的操作状态确定为目标操作状态,将没有被对象点击的召回数据对应的操作状态确定为非目标操作状态。基于目标操作行为对包含第一标签的数据和包含第二标签的数据进行对齐,可以保障第一标题和第二标题存在一定的语义相关性,避免同义标签在完全语义无关的标题中而难以被识别。还可以将目标操作行为对应的、且操作信息中包含第一标签的召回数据的操作状态确定为目标操作状态。例如,可以将评论行为对应的、且评论信息包含第一标签的召回数据的操作状态确定为目标操作状态,也就是,将被对象评论、且评论信息包含第一标签的召回数据对应的操作状态确定为目标操作状态,将其他召回数据对应的操作状态确定为非目标操作状态。
100.上述实施例中,基于搜索日志确定第一标题和第二标题,将包含第一标签的搜索标题作为第一标题,将数据标题包含第二标签、目标操作状态对应的召回数据作为目标召回数据,将目标召回数据作为第二标题。这样,基于对象的搜索行为确定第一标题和第二标题,可以保障第一标题和第二标题存在一定的语义相关性,将这样的第一标题和第二标题输入模型可以提高同义标签的判断准确性。并且,在模型训练时,同样可以基于对象的搜索行为确定训练数据,基于这样的训练数据进行模型训练可以提高模型判别能力,提高模型的收敛速度。
101.在一个实施例中,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型之前,方法还包括:
102.获取训练标签对、训练标签对所对应的训练标题和训练标签对所对应的训练同义标签判断结果;将训练标签对和训练标题输入初始同义标签判断模型,得到训练标签对所对应的预测同义标签判断结果;基于训练同义标签判断结果和预测同义标签判断结果之间的差异,调整初始同义标签判断模型的模型参数,直至满足第二收敛条件,得到目标同义标
签判断模型。
103.其中,初始同义标签判断模型是指待训练的同义标签判断模型。训练标签对所对应的训练标题包括训练标签对中各个训练标签分别对应的训练标题。训练标题的获取方式可以参照第一标题和第二标题的获取方式,此处不再赘述。训练同义标签判断结果是指训练标签对所对应的监督信号。若训练标签对包括的训练标签为同义标签,则训练同义标签判断结果为标签同义。若训练标签对包括的训练标签不是同义标签,则训练同义标签判断结果为标签不同义。预测同义标签判断结果是指模型的预测结果。
104.具体地,计算机设备可以通过有监督的训练方式对初始同义标签判断模型进行模型训练,从而训练得到目标同义标签判断模型。在模型训练时,计算机设备可以获取训练标签对、训练标签对所对应的训练标题和训练标签对所对应的训练同义标签判断结果,将训练标签对和训练标题输入初始同义标签判断模型,通过模型的内部数据处理,得到训练标签对所对应的预测同义标签判断结果。计算机设备可以基于训练同义标签判断结果和预测同义标签判断结果之间的差异生成损失信息,基于损失信息进行反向传播调整初始同义标签判断模型的模型参数,直至满足第二收敛条件,得到目标同义标签判断模型。
105.其中,第二收敛条件可以是模型迭代次数大于预设迭代次数,损失信息小于预设信息中的至少一种。可以理解,模型可以获取多组训练数据,基于多组训练数据对初始同义标签判断模型进行迭代训练,一组训练数据包括训练标签对、训练标签对所对应的训练标题和训练标签对所对应的训练同义标签判断结果。模型可以从多组训练数据中确定当前训练数据,基于当前训练数据对初始同义标签判断模型进行训练,得到中间同义标签判断模型,将下一组训练数据作为新的当前训练数据,将中间同义标签判断模型作为新的初始同义标签判断模型,返回基于当前训练数据对初始同义标签判断模型进行训练,得到中间同义标签判断模型的步骤执行,直至满足第二收敛条件,得到目标同义标签判断模型。
106.上述实施例中,可以通过有监督的训练方式对初始同义标签判断模型进行模型训练,从而快速训练得到高质量的目标同义标签判断模型。
107.在一个实施例中,所述方法还包括:
108.当同义标签判断结果为标签同义时,基于第一标签和第二标签对应的标签权重,从第一标签和第二标签中确定目标标签和参考标签;获取目标数据对应的初始标签信息;初始标签信息包含参考标签;将初始标签信息中的参考标签转换为目标标签,得到目标数据对应的目标标签信息。
109.其中,标签权重用于表示标签的重要性。标签权重可以是基于标签统计信息、对象行为信息、标签字符信息等至少一种信息得到的。标签权重越高,表示标签更重要,使用更广泛,对象对该标签对应的数据更感兴趣。
110.具体地,在得到同义标签判断结果后,同义标签判断结果可以用于标签归一化。若第一标签和第二标签之间的同义标签判断结果为标签同义,计算机设备可以对第一标签和第二标签进行标签归一化,将第一标签和第二标签合并为一个标签。在进行标签归一化时,可以将第一标签和第二标签合并为任意一个标签,也可以获取第一标签和第二标签分别对应的标签权重,将第一标签和第二标签合并为标签权重更大的标签。在第一标签和第二标签中,将标签权重更大的标签作为目标标签,将标签权重更小的标签作为参考标签,将第一标签和第二标签合并为目标标签。计算机设备可以获取目标数据对应的初始标签信息,初
始标签信息包含参考标签,将初始标签信息中的参考标签转换为目标标签,从而得到目标数据对应的目标标签信息。
111.举例说明,参考图3,某一对象的对象画像标签包括标签a、标签b、标签c和标签d,各个标签存在对应的标签权重,标签权重是基于对象行为信息确定的,标签权重越高,表示该对象对该标签对应的数据更感兴趣。经过同义标签判断后,标签b和标签c为同义标签,标签b的标签权重更大,标签b为对象更感兴趣的标签,那么可以对对象画像标签进行标签归一化,将标签b和标签c合并为标签b,将标签权重也一并合并。
112.在进行标签归一化的时候,也可以获取第一标签和第二标签的字符长度,将字符长度更大的标签作为目标标签,将第一标签和第二标签合并为目标标签。这样,可以避免合并后的标签为缩写标签,保障标签的可读性、可懂性。
113.在一个实施例中,可以预先对标签库中的标签进行同义标签判断,得到标签库中的同义标签,然后,基于标签库中的同义标签对打过标签的数据进行标签归一化,更新数据对应的标签信息。参考图4,对标签库中的标签进行同义标签判断后,标签b和标签e为同义标签,标签e为标签权重更高的标签。若文章1的标签包括标签a、标签b和标签c,那么可以对文章1的标签进行标签归一化,将标签b转换为标签e。也可以在需要基于标签信息对某一数据进行数据分析时,获取该数据对应的标签信息,从标签信息中确定第一标签和第二标签,对第一标签和第二标签进行同义标签判断,基于同义标签判断结果对该数据的标签信息进行更新。
114.上述实施例中,基于标签权重进行标签归一化可以保障归一化后的标签为更重要的标签,保障标签的准确性、可靠性。
115.在一个实施例中,如图5所示,获取包含第一标签的第一标题和包含第二标签的第二标题之前,所述方法还包括:
116.步骤s502,获取目标对象标识对应的初始对象标签信息,获取候选召回数据对应的初始数据标签信息。
117.步骤s504,从初始对象标签信息中确定第一标签,从初始数据标签信息中确定第二标签。
118.其中,对象标识是一种标识,用于唯一标识对象,具体可以包括字母、数字和符号中至少一种字符的字符串,例如,可以将对象账号作为对象标识。目标对象标识是指目标对象对应的对象标识。
119.候选召回数据是指待确定是否推荐给目标对象标识的召回数据。召回数据可以是基于目标对象的搜索语句确定的召回结果,召回数据也可以是基于目标对象的历史浏览数据、当前时间段的热门浏览数据等信息确定的召回结果。
120.初始对象标签信息是指标签归一化前目标对象标识对应的对象标签信息。初始数据标签信息是指标签归一化前候选召回数据对应的数据标签信息。可以理解,对象标签信息包括至少一个对象标签,数据标签信息包括至少一个数据标签。
121.具体地,在进行数据推荐时,可以计算目标对象标识对应的对象标签信息和候选召回数据对应的数据标签信息之间的匹配度,基于匹配度确定向目标对象标识推荐候选召回数据的推荐系数。匹配度越大,推荐系数越大,表示候选召回数据和目标对象越匹配,候选召回数据为目标对象越感兴趣的数据。基于推荐系数向目标对象标识进行数据推荐可以
提高推荐准确性、有效性。
122.可以理解,数据推荐可以是主动向目标对象标识推荐数据,例如,主动向目标对象标识推荐每日资讯。数据推荐也可以是被动向目标对象标识推荐数据,例如,基于目标对象的搜索语句进行数据推荐,向目标对象标识推荐搜索结果。
123.在进行数据推荐前,计算机设备可以从初始对象标签信息中确定第一标签,从初始数据标签信息中确定第二标签,对第一标签和第二标签进行同义标签判断,根据同义标签判断结果对初始对象标签信息和初始数据标签信息进行标签归一化,得到目标对象标签信息和目标数据标签信息。相比于将初始对象标签信息和初始数据标签信息进行匹配,将目标对象标签信息和目标统计信息进行匹配可以提高匹配度的准确性,得到更准确的推荐系数,进一步提高推荐准确性、有效性。
124.可以理解,第一标签和第二标签的确定过程可以参照前述各个相关实施例的内容,此处不再赘述。
125.所述方法还包括:
126.步骤s506,基于同义标签判断结果,对初始对象标签信息和初始数据标签信息进行标签归一化,得到目标对象标签信息和目标数据标签信息。
127.步骤s508,基于目标对象标签信息和目标数据标签信息,得到目标对象标识和候选召回数据的匹配度。
128.步骤s510,基于匹配度,确定向目标对象标识推荐候选召回数据的推荐系数。
129.具体地,从初始对象标签信息和初始数据标签信息中确定第一标签和第二标签后,计算机设备可以获取包含第一标签的第一标题和包含第二标签的第二标题,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型,经过模型的数据处理,得到第一标签和第二标签之间的同义标签判断结果。进而,计算机设备可以基于同义标签判断结果,对初始对象标签信息和初始数据标签信息进行标签归一化,将初始对象标签信息和初始数据标签信息中的同义标签进行合并,从而得到目标对象标签信息和目标数据标签信息。计算机设备可以基于目标对象标签信息和目标数据标签信息计算目标对象标识和候选召回数据的匹配度,基于匹配度确定向目标对象标识推荐候选召回数据的推荐系数。
130.进一步的,可以设置预设系数,将推荐系数大于或等于预设系数的候选召回数据发送给目标对象标识对应的终端,将推荐系数小于预设系数的候选召回数据不发送给目标对象标识对应的终端。此外,在主动向目标对象标识推荐数据时,目标对象可以在终端上拒绝或可以便捷拒绝数据推送信息。
131.若候选召回数据有多个,可以按照推荐系数从大到小将各个候选召回数据进行排序得到召回结果,将召回结果发送给目标对象标识对应的终端。
132.在一个实施例中,可以将目标对象标签信息和目标数据标签信息输入已训练的信息匹配模型,通过模型的数据处理,信息匹配模型输出目标对象标识和候选召回数据的匹配度。
133.在一个实施例中,还可以结合候选召回数据的其他信息来确定目标对象标识和候选召回数据的匹配度。例如,除了目标数据标签信息,还可以获取候选召回数据的数据质量信息、数据发布时间、数据简介信息等信息来和目标对象标签信息进行匹配以计算匹配度。
134.上述实施例中,在向目标对象进行数据推荐时,可以先对目标对象标识对应的初
始对象标签信息和候选召回数据对应的初始数据标签信息进行标签归一化,减少对象标签信息和数据标签信息中的冗余信息、干扰信息,得到目标对象标签信息和目标数据标签信息,基于目标对象标签信息和目标数据标签信息可以得到更准确的匹配度,基于匹配度可以确定更准确的推荐系数,从而基于推荐系数可以进行更准确、更有效的数据推荐。
135.在一个具体的实施例中,本技术的同义标签判断方法可以应用于信息流文章场景下。参考图6,基于标签库进行标签组合得到多个候选标签对,例如,由标签a和标签b组成的候选标签对。通过向量相似度、词语距离、分布相似度等方法设计阈值,从候选标签对中挖掘出目标标签对,例如,标签a&标签c,标签f&标签x。对于每一个目标标签对,经过信息流文章索引找到目标标签对中各个标签分别对应的文章标题,将文章标题拼接后作为输入送入到同义标签判别模型中,判断目标标签对是否为同义标签。
136.标签库:由大量的信息流文章标签组成,信息流文章标签可通过大规模文章语料得到。将标签库中的标签两两组合可以得到候选标签对。
137.向量相似度:离线使用大规模文章语料训练词语处理模型,通过词语处理模型得到标签的向量表示,即标签的目标词向量。计算候选标签对中两个候选标签的目标词向量之间的余弦相似度得到候选标签对的向量相似度,将向量相似度低于阈值的候选标签对直接过滤掉。
138.词语距离:统计从候选标签对中任意一个标签最少经过多少次插入、删除、替换操作才可以转换为另一个标签,统计得到的操作次数即为候选标签对中不同候选标签之间的词语距离,将词语距离低于阈值的候选标签对直接过滤掉。
139.分布相似度:统计候选标签对中各个候选标签分别对应的文章分布信息,计算候选标签对中不同候选标签之间文章分布信息的距离或相似度得到分布相似度,将分布相似度低于阈值的候选标签对直接过滤掉。
140.通过向量相似度、词语距离和分布相似度进行标签过滤,可以把一些匹配度较低的标签对过滤掉,这样一方面可以节约模型性能,也可以避免出现极端错误的标签对。
141.信息流文章索引库用于通过标签找到相关的文章,索引库构建时可以通过文章标签建立倒排索引,或可直接通过文章标题包括标签即加入索引。目标标签对可通过信息流文章索引库分别找到与其相关的文章。比如《标签a、标签c》的索引文章为doc1-6,其中doc1、doc2、doc3为“标签a”检索出的文章,doc4、doc5、doc6为“标签c”检索出的文章。
142.将目标标签对中的标签各自检索出的文章标题作为下一步模型的输入,模型输入数据的格式为“[cls]标签a|doc1|doc2|doc3[sep]标签b|doc4|doc5|doc6”,模型预测目标标签对中的标签是否为同义标签,输出同义标签判断结果。其中,模型可以包括12层transformer。
[0143]
通过本技术的同义标签判断方法,不仅通过语义相似度、词语距离、分布相似度保证了挖掘出的同义标签在语义层面、字粒度层面、数据分布层面有着非常高的相似性,而且通过模型预测的方法,在模型的输入数据中显示地增加了标签的上下文文本,可以更好地对标签的语义进行建模,可以更准确的识别出信息流场景下的同义标签。
[0144]
通过实验比对,本技术的同义标签判断方法相比现有方案从离线自动评估、人工评估的效果上得到了明显提升,可以更准确、更丰富的挖掘出信息流文章中的同义标签,基于同义标签可以进一步对信息流文章的文章标签进行标签归一化、对象画像侧的画像标签
进行标签归一化,通过标签归一化后的文章标签和画像标签可以更好地提升推荐的准确性。
[0145]
可以理解,本技术的同义标签判断方法除了应用于信息流文章场景下,还可以应用于语音、图片、视频等场景下,对各种类型数据的标签进行标签归一化。
[0146]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0147]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的同义标签判断方法的同义标签判断装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个同义标签判断装置实施例中的具体限定可以参见上文中对于同义标签判断方法的限定,在此不再赘述。
[0148]
在一个实施例中,如图7所示,提供了一种同义标签判断装置,包括:标题获取模块702、数据输入模块704、标签特征确定模块706和同义标签判断结果确定模块708,其中:
[0149]
标题获取模块702,用于获取包含第一标签的第一标题和包含第二标签的第二标题;第一标题和第二标题为关联数据对应的标题,第一标签和第二标签存在匹配关系。
[0150]
数据输入模块704,用于将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型。
[0151]
标签特征确定模块706,用于基于第一标签在第一标题中的位置信息和第一标签在第一标题中的上下文信息,得到第一标签对应的第一标签特征,基于第二标签在第二标题中的位置信息和第二标签在第二标题中的上下文信息,得到第二标签对应的第二标签特征。
[0152]
同义标签判断结果确定模块708,用于基于第一标签特征和第二标签特征输出第一标签和第二标签之间的同义标签判断结果。
[0153]
上述同义标签判断装置,用于判断是否为同义标签的第一标签和第二标签存在匹配关系,保障了第一标签和第二标签具有一定的匹配度,可以有效避免后续数据处理的无用功,然后获取包含第一标签的第一标题和包含第二标签的第二标题,将第一标题、第二标题、第一标签和第二标签输入目标同义标签判断模型预测第一标签和第二标签是否为同义标签,在模型输入数据中显示地增加了第一标签和第二标签的上下文文本,可以更准确的识别出第一标签和第二标签是否为同义标签,提高同义标签的判断准确性。
[0154]
在一个实施例中,如图8所示,所述装置还包括:
[0155]
标签确定模块701,用于从标签库中获取标签统计信息大于预设统计信息的标签作为候选标签,得到多个候选标签;标签统计信息包括标题出现频率和内容出现频率中的至少一种;将各个候选标签进行两两组合,得到多个候选标签对;从各个候选标签对中确定目标标签对;目标标签对中的标签之间存在匹配关系;基于目标标签对确定第一标签和第二标签。
[0156]
在一个实施例中,标签确定模块还用于获取候选标签对中各个候选标签分别对应的目标词向量;基于同一候选标签对中各个候选标签分别对应的目标词向量计算候选标签之间的向量相似度,得到各个候选标签对分别对应的向量相似度;从各个候选标签对中,基于向量相似度大于预设第一相似度的候选标签对得到目标标签对。
[0157]
在一个实施例中,标签确定模块还用于获取当前候选标签对中各个候选标签分别对应的初始词向量;分别将当前候选标签对所对应的各个初始词向量和目标词语处理模型中的目标输入权重矩阵进行融合,得到当前候选标签对中各个候选标签分别对应的目标词向量。目标词语处理模型的训练过程如下:获取训练词语和训练词语对应的关联词语,将关联词语对应的初始词向量输入初始词语处理模型;训练词语存在对应的训练词向量;将关联词语对应的初始词向量和初始词语处理模型中的初始输入权重矩阵进行融合,得到中间矩阵;将中间矩阵和初始词语处理模型中的初始输出权重矩阵进行融合,得到训练词语对应的预测词向量;基于训练词语对应的训练词向量和预测词向量之间的差异,调整初始词语处理模型的模型参数,直至满足第一收敛条件,得到目标词语处理模型。
[0158]
在一个实施例中,标签确定模块还用于获取候选标签对中各个候选标签分别对应的数据分布信息;基于同一候选标签对中各个候选标签分别对应的数据分布信息计算候选标签之间的分布相似度,得到各个候选标签对分别对应的分布相似度;从各个候选标签对中,基于分布相似度大于预设第二相似度的候选标签对得到目标标签对。
[0159]
在一个实施例中,标签确定模块还用于对将同一候选标签对中的第一候选标签转换为第二候选标签的转换操作进行统计,得到各个候选标签对分别对应的转换操作信息;从各个候选标签对中,基于转换操作信息小于预设操作信息的候选标签对得到目标标签对。
[0160]
在一个实施例中,标题获取模块还用于将第一标签和第二标签分别作为数据标题关键词在目标类型的数据库中进行检索,得到第一标题和第二标题。
[0161]
在一个实施例中,标题获取模块还用于将第一标签作为搜索标题关键词在搜索日志库中进行检索,得到搜索标题包含第一标签的目标搜索日志;将目标搜索日志对应的搜索标题作为第一标题;从目标搜索日志对应的搜索结果中,获取数据标题包含第二标签、且目标操作状态对应的召回数据作为目标召回数据,将目标召回数据对应的数据标题作为第二标题。
[0162]
在一个实施例中,如图8所示,所述装置还包括:
[0163]
模型训练模块700,用于获取训练标签对、训练标签对所对应的训练标题和训练标签对所对应的训练同义标签判断结果;将训练标签对和训练标题输入初始同义标签判断模型,得到训练标签对所对应的预测同义标签判断结果;基于训练同义标签判断结果和预测同义标签判断结果之间的差异,调整初始同义标签判断模型的模型参数,直至满足第二收敛条件,得到目标同义标签判断模型。
[0164]
在一个实施例中,如图8所示,所述装置还包括:
[0165]
标签归一化模块709,用于当同义标签判断结果为标签同义时,基于第一标签和第二标签对应的标签权重,从第一标签和第二标签中确定目标标签和参考标签;获取目标数据对应的初始标签信息;初始标签信息包含参考标签;将初始标签信息中的参考标签转换为目标标签,得到目标数据对应的目标标签信息。
[0166]
在一个实施例中,标签确定模块还用于获取目标对象标识对应的初始对象标签信息,获取候选召回数据对应的初始数据标签信息;从初始对象标签信息中确定第一标签,从初始数据标签信息中确定第二标签。
[0167]
如图8所示,所述装置还包括:
[0168]
信息匹配模块710,用于基于同义标签判断结果,对初始对象标签信息和初始数据标签信息进行标签归一化,得到目标对象标签信息和目标数据标签信息;基于目标对象标签信息和目标数据标签信息,得到目标对象标识和候选召回数据的匹配度;基于匹配度,确定向目标对象标识推荐候选召回数据的推荐系数。
[0169]
上述同义标签判断装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0170]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标签库、目标同义标签判断模型等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种同义标签判断方法。
[0171]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种同义标签判断方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0172]
本领域技术人员可以理解,图9、10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0173]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储
有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0174]
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0175]
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
[0176]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0177]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0178]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0179]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1