1.本公开涉及数据处理技术领域,尤其涉及搜索推荐技术领域,具体涉及一种信息推荐方法、装置及电子设备。
背景技术:2.随着科学技术和互联网技术的发展,电子商务平台快速崛起,电子商务平台能够给用户提供各种各样的网络服务,给生产生活带来了极大地便利。
3.在电子商务平台上,当用户进入站点进行商品搜索时,通常需要在搜索栏上输入搜索信息,相应的,平台可以根据用户的搜索信息的输入情况进行信息推荐。
4.目前,信息推荐方式通常是从日志数据中提取与用户输入的搜索信息相关的历史搜索信息进行信息推荐。
技术实现要素:5.本公开提供了一种信息推荐方法、装置及电子设备。
6.根据本公开的第一方面,提供了一种信息推荐方法,包括:
7.从日志数据中获取与用户输入的目标搜索信息匹配的n个历史搜索信息,n为正整数;
8.确定所述n个历史搜索信息中词语的近义词列表;
9.在所述n个历史搜索信息中包括第一历史搜索信息的情况下,删除所述n个历史搜索信息中的所述第一历史搜索信息,得到第一候选推荐信息,所述第一历史搜索信息包括第一词语,所述第一词语的近义词列表与第二词语的近义词列表存在交集,所述第二词语包括以下至少一项:所述第一历史搜索信息的词语、所述n个历史搜索信息中第二历史搜索信息的与所述第一词语对应的词语、所述目标搜索信息的与所述第一词语对应的词语;
10.基于所述第一候选推荐信息进行信息推荐。
11.根据本公开的第二方面,提供了一种信息推荐装置,包括:
12.第一获取模块,用于从日志数据中获取与用户输入的目标搜索信息匹配的n个历史搜索信息,n为正整数;
13.第一确定模块,用于确定所述n个历史搜索信息中词语的近义词列表;
14.删除模块,用于在所述n个历史搜索信息中包括第一历史搜索信息的情况下,删除所述n个历史搜索信息中的所述第一历史搜索信息,得到第一候选推荐信息,所述第一历史搜索信息包括第一词语,所述第一词语的近义词列表与第二词语的近义词列表存在交集,所述第二词语包括以下至少一项:所述第一历史搜索信息的词语、所述n个历史搜索信息中第二历史搜索信息的与所述第一词语对应的词语、所述目标搜索信息的与所述第一词语对应的词语;
15.推荐模块,用于基于所述第一候选推荐信息进行信息推荐。
16.根据本公开的第三方面,提供了一种电子设备,包括:
17.至少一个处理器;以及
18.与至少一个处理器通信连接的存储器;其中,
19.存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法。
20.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法。
21.根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现第一方面中的任一项方法。
22.根据本公开的技术解决了信息推荐效果比较差的问题,提高了信息推荐的效果。
23.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
24.附图用于更好地理解本方案,不构成对本公开的限定。其中:
25.图1是根据本公开第一实施例的信息推荐方法的流程示意图;
26.图2是根据本公开第二实施例的信息推荐装置的结构示意图;
27.图3是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
28.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
29.第一实施例
30.如图1所示,本公开提供一种信息推荐方法,包括如下步骤:
31.步骤s101:从日志数据中获取与用户输入的目标搜索信息匹配的n个历史搜索信息。
32.其中,n为正整数。
33.本实施例中,信息推荐方法涉及数据处理技术领域,尤其涉及搜索推荐技术领域,其可以广泛应用于商品采购场景下。本公开实施例的信息推荐方法,可以由本公开实施例的信息推荐装置执行。本公开实施例的信息推荐装置可以配置在任意电子设备中,以执行本公开实施例的信息推荐方法。该电子设备可以为服务器,也可以为终端设备,这里不进行具体限定。
34.本实施例可以应用于tob采购场景,也可以应用于toc采购场景,这里不进行具体限定。其中,tob采购场景和toc采购场景的区别在于电子商务平台面向的用户不同,对于tob采购场景,其通常面向的是群体,如社区、团体或单位等,而对于toc采购场景,其通常面向的是个人。
35.目标搜索信息可以是用户在搜索输入框输入的信息,如用户在电子商务平台上输入目标搜索信息“笔记本”。
36.当信息推荐装置检测到用户在搜索输入框中正在执行输入时,可以实时或周期获取用户在搜索输入框中输入的目标搜索信息,基于该目标搜索信息进行信息推荐。信息推荐装置可以基于该目标搜索信息预测用户可能需要的搜索信息,并可以将预测得到的搜索信息在搜索输入框中以下拉菜单的方式进行显示,以进行信息推荐,从而可以给用户提供更加精确的需求表达,同时帮助用户快速定位到想要搜索的内容,节约用户的打字时长。
37.在获取到用户输入的目标搜索信息的情况下,信息推荐装置可以将该目标搜索信息与日志数据中的历史搜索信息进行匹配,以从日志数据中获取与目标搜索信息匹配的n个历史搜索信息,n为正整数。
38.在匹配之前,可以对日志数据中的历史搜索信息进行过滤,或者在匹配之后,可以对与目标搜索信息匹配的多个历史搜索信息进行过滤,以在信息推荐之前对搜索信息进行质量控制,得到n个历史搜索信息。
39.质量控制可以包括:1)利用预先建立的搜索信息黑名单列表来过滤历史搜索信息,即过滤掉搜索信息黑名单列表中的历史搜索信息,以及过滤掉包含有搜索信息黑名单列表中词语的历史搜索信息;2)过滤掉字数长度过短以及字数长度过长的历史搜索信息;3)过滤掉检索结果数量太少或者与商品对象相关性低的历史搜索信息。
40.历史搜索信息与目标搜索信息匹配可以指的是历史搜索信息与目标搜索信息语义匹配,也可以指的是历史搜索信息对应的类目与目标搜索信息对应的类目匹配,还可以指的是历史搜索信息中的核心词与目标搜索信息的核心词匹配,这里不进行具体限定。
41.相应的,将该目标搜索信息与日志数据中的历史搜索信息进行匹配的方式包括但不限于语义匹配、类目匹配和核心词匹配等。
42.步骤s102:确定所述n个历史搜索信息中词语的近义词列表。
43.该步骤中,n个历史搜索信息中每个历史搜索信息均包括至少一个词语,历史搜索信息可以包括名词、形容词或动词等,比如,历史搜索信息为“小型的笔记本”,则该历史搜索信息中可以包括形容词和名词,又比如,历史搜索信息为“折叠飞机”,则该历史搜索信息中可以包括动词和名词。
44.可以确定n个历史搜索信息中词语的近义词列表,在一可选实施方式中,可以针对每个历史搜索信息,基于预先训练的模型对该历史搜索信息进行分词和查询处理,得到该历史搜索信息的目标结果,该目标结果可以包括该历史搜索信息的至少一个词语,以及每个词语的近义词列表。
45.词语的近义词列表可以包括与该词语具备同义关系的词语,比如,词语“定做”的近义词列表可以包括“定制”、“制作”等词语。
46.步骤s103:在所述n个历史搜索信息中包括第一历史搜索信息的情况下,删除所述n个历史搜索信息中的所述第一历史搜索信息,得到第一候选推荐信息,所述第一历史搜索信息包括第一词语,所述第一词语的近义词列表与第二词语的近义词列表存在交集,所述第二词语包括以下至少一项:所述第一历史搜索信息的词语、所述n个历史搜索信息中第二历史搜索信息的与所述第一词语对应的词语、所述目标搜索信息的与所述第一词语对应的词语。
47.第一历史搜索信息可以为信息内部存在语义重复的历史搜索信息,比如,历史搜索信息“笔记本记事本小型”,信息内部两个词语“笔记本”和“记事本”存在重复。
48.第一历史搜索信息也可以为与n个历史搜索信息中其他历史搜索信息存在语义重复的历史搜索信息,比如,第一历史搜索信息“笔记本定做”与其他历史搜索信息“笔记本定制”存在信息间的语义重复。
49.第一历史搜索信息还可以为与目标搜索信息存在信息间语义重复的历史搜索信息。
50.可以通过将两个词语的近义词列表进行交叉验证的方式,来确定n个历史搜索信息中是否存在语义重复的第一历史搜索信息。在进行信息内部存在语义重复的历史搜索信息的确定时,可以将历史搜索信息中两个词语的近义词列表进行交叉验证,若两个词语的近义词列表存在交集,则该历史搜索信息存在信息内部语义重复,为第一历史搜索信息。此时,第一词语和第二词语均为一个历史搜索信息中的两个词语。
51.比如,历史搜索信息“笔记本记事本小型”,第一词语“笔记本”的近义词列表和第二词语“记事本”的近义词列表存在交集,其为第一历史搜索信息。
52.在进行信息间存在语义重复的历史搜索信息的确定时,可以将两个历史搜索信息中相互对应的两个词语的近义词列表进行交叉验证,若相互对应的每两个词语的近义词列表存在交集,则这两个历史搜索信息存在信息间语义重复,这两个历史搜索信息中的其中之一为第一历史搜索信息。此时,第一词语和第二词语分别为这两个历史搜索信息中相互对应的两个词语。
53.比如,一历史搜索信息为“笔记本定做”和另一历史搜索信息为“笔记本定制”,第一词语“定做”的近义词列表和与第一词语对应的第二词语“定制”的近义词列表存在交集,这两个历史搜索信息存在信息间语义重复。
54.另外,目标搜索信息与历史搜索信息是否存在信息间语义重复,其确定方式可以与进行信息间存在语义重复的历史搜索信息的确定方式相同,这里不进行赘述。此时,第一词语为历史搜索信息中的词语,第二词语可以为目标搜索信息中与第一词语对应的词语。
55.其中,不同搜索信息中的两个词语对应可以包括但不限于位置对应、词性对应等。
56.在n个历史搜索信息中包括第一历史搜索信息的情况下,可以删除n个历史搜索信息中的第一历史搜索信息,得到第一候选推荐信息,第一候选推荐信息可以包括n个历史搜索信息中删除第一历史搜索信息后的历史搜索信息。第一候选推荐信息中的历史搜索信息可以作为待推荐搜索信息进行信息推荐。
57.步骤s104:基于所述第一候选推荐信息进行信息推荐。
58.该步骤中,第一候选推荐信息中可以包括一个、两个或多个待推荐搜索信息,可以确定每个待推荐搜索信息的推荐权重,在一可选实施方式中,可以基于待推荐搜索信息与目标搜索信息的匹配程度来确定待推荐搜索信息的推荐权重,按照推荐权重从大到小对待推荐搜索信息进行排序,将推荐权重排序在前的待推荐搜索信息推荐给该用户。
59.本实施例中,在基于历史搜索信息进行待推荐搜索信息的确定时,可以通过将两个词语的近义词列表进行交叉验证的方式,来确定是否存在语义重复的历史搜索信息,并将语义重复的历史搜索信息进行删除,从而可以优化待推荐搜索信息,进而可以提高信息推荐的效果。
60.可选的,所述步骤s103之前,所述方法还包括以下至少一项:
61.针对所述n个历史搜索信息中每个历史搜索信息,在所述历史搜索信息中任两个
词语的近义词列表存在交集的情况下,确定所述历史搜索信息为所述第一历史搜索信息;
62.在所述n个历史搜索信息中存在第一目标历史搜索信息的情况下,确定所述第一目标历史搜索信息为所述第一历史搜索信息,针对所述第一目标历史搜索信息中每个词语,在所述目标搜索信息中均存在与所述词语对应的词语,且所述第一目标历史搜索信息和所述目标搜索信息中,每两个对应的词语的近义词列表均存在交集;
63.在n大于1的情况下,针对所述n个历史搜索信息中每两个历史搜索信息,若所述两个历史搜索信息中每两个对应的词语的近义词列表均存在交集,确定所述两个历史搜索信息中其中之一的历史搜索信息为所述第一历史搜索信息,所述两个历史搜索信息中两个对应的词语分别来自所述两个历史搜索信息。
64.本实施方式中,可以针对n个历史搜索信息中每个历史搜索信息,进行信息内部存在语义重复的检测,在该历史搜索信息中包括至少两个词语的情况下,可以将历史搜索信息中每两个词语的近义词列表进行交叉验证,若任两个词语的近义词列表存在交集,则该历史搜索信息存在信息内部语义重复,为第一历史搜索信息。
65.可以针对目标搜索信息和n个历史搜索信息中每个历史搜索信息,进行信息间存在语义重复的检测,在历史搜索信息与目标搜索信息存在信息间语义重复的情况下,目标搜索信息的词语数量通常大于或等于该历史搜索信息中的词语数量。
66.因此,可以针对该历史搜索信息中每个词语,确定目标搜索信息中是否存在与该词语对应的词语,若存在,则确定相互对应的每两个词语的近义词列表是否存在交集,若均存在交集,则可以确定该历史搜索信息与目标搜索信息存在信息间语义重复。
67.当n大于1时,可以针对n个历史搜索信息中每两个历史搜索信息,进行信息间存在语义重复的检测,可以将这两个历史搜索信息中相互对应的两个词语的近义词列表进行交叉验证,若相互对应的每两个词语的近义词列表存在交集,则这两个历史搜索信息存在信息间语义重复,这两个历史搜索信息中的其中之一为第一历史搜索信息。
68.在进行信息间存在语义重复的检测时,如果只使用相互对应的任两个词语的近义词列表的包含关系进行去重,可能会导致多个搜索信息中都包含核心词而被认定是同义关系。比如,目标搜索信息“笔记本”、一历史搜索信息“笔记本定做”、另一历史搜索信息“笔记本定制”,由于均包含核心词“笔记本”,可能会被认定三者均是同义关系。
69.因此,在实际应用时,可以去除历史搜索信息中与目标搜索信息的核心词的近义词列表有包含关系的词语,使用剩余的词语进行近义词列表的交叉验证,如果相互对应的每两个词语的近义词列表均存在交集,则确定两个搜索信息存在信息间语义重复。这样可以减少计算量。
70.比如,目标搜索信息为“笔记本”,一历史搜索信息为“笔记本定做”和另一历史搜索信息为“笔记本定制”,可以将这两个历史搜索信息中的词语“笔记本”去除,将剩下的相互对应的两个词语“定做”和“定制”的近义词列表进行交叉验证,若这两个词语的近义词列表存在交集,则确定这两个历史搜索信息存在信息间语义重复。
71.本实施方式中,通过将两个词语的近义词列表进行交叉验证的方式,可以实现n个历史搜索信息中对于信息内部存在语义重复以及信息间存在语义重复的第一历史搜索信息的检测。
72.可选的,所述步骤s103之前,所述方法还包括:
73.在所述n个历史搜索信息中存在第二目标历史搜索信息的情况下,确定所述第二目标历史搜索信息为所述第一历史搜索信息,所述目标搜索信息包括所述第二目标历史搜索信息。
74.本实施方式中,可以针对n个历史搜索信息中每个历史搜索信息,确定目标搜索信息与该历史搜索信息是否为信息包含关系,在目标搜索信息包括该历史搜索信息的情况下,可以确定该历史搜索信息为第一历史搜索信息。
75.目标搜索信息包括历史搜索信息可以指的是目标搜索信息中存在与历史搜索信息相同的内容。比如,目标搜索信息为“硬壳笔记本”,一历史搜索信息为“笔记本”,则目标搜索信息包括该历史搜索信息。
76.目标搜索信息包括历史搜索信息也可以指的是目标搜索信息中存在与历史搜索信息语义相同的内容。比如,目标搜索信息为“大型台式电脑”,一历史搜索信息为“computer”,则目标搜索信息包括该历史搜索信息。
77.本实施方式中,通过对目标搜索信息与该历史搜索信息的信息包含关系的检测,可以实现n个历史搜索信息中对于与目标搜索信息之间存在信息间语义重复的第一历史搜索信息的检测。
78.可选的,所述目标搜索信息包括m个词语,所述步骤s104之前,所述方法还包括:
79.确定所述m个词语中的第一核心词;
80.获取数据库中所述第一核心词关联的描述词,所述数据库关联存储有核心词与描述词;
81.将所述第一核心词与所述第一核心词关联的描述词拼接得到第二候选推荐信息;
82.所述基于所述第一候选推荐信息进行信息推荐,包括:
83.基于所述第一候选推荐信息和所述第二候选推荐信息进行信息推荐。
84.本实施方式中,该目标搜索信息可以包括m个词语,m为正整数。该m个词语可以包括名词、形容词或动词等,比如,目标搜索信息为“小型的笔记本”,则该目标搜索信息中可以包括形容词和名词,又比如,目标搜索信息为“折叠飞机”,则该目标搜索信息中可以包括动词和名词。
85.在一可选实施方式中,若用户输入目标搜索信息时在不同词语之间通过空格隔开,则信息推荐装置可以通过检测空格来划分词语,得到m个词语。
86.在另一可选实施方式中,信息推荐装置可以通过预先训练的分词模型如jieba分词工具来对目标搜索信息进行分词,得到m个词语以及每个词语的分词权重。在分词之前,可以使用预先存储的停用词列表中的词语过滤掉目标搜索信息的无用字符,之后再进行分词,这样可以提高分词的准确性。
87.m个词语中的第一核心词可以指的是m个词语中的关键词,该关键词可以为名词,指的是目标搜索信息中最能表达用户搜索需求的词语,比如,目标搜索信息为“硬壳笔记本”,则该目标搜索信息的关键词为笔记本。
88.第一核心词的确定方式也可以包括多种,比如,可以确定m个词语中的词语是否与关键词库中的词语匹配,将m个词语中与关键词库匹配的词语确定为第一核心词。
89.又比如,可以针对m个词语中每个词语,对所述词语进行类目解析,得到所述词语对应的类目信息;从m个词语中确定至少一个候选词语,每个候选词语对应的类目信息与对
目标搜索信息进行类目解析得到的类目信息存在交集;从至少一个候选词语中确定第一核心词。
90.在该实施方式中,数据库关联存储有核心词与描述词,且一个核心词可以关联存储有一个、两个或多个描述词,可以获取该数据库中与第一核心词关联的描述词,并将该第一核心词分别与该第一核心词关联的描述词拼接,得到第二候选推荐信息。
91.比如,第一核心词为笔记本,数据库中第一核心词关联的描述词包括硬壳、小型、超厚等,将第一核心词分别与每一个描述词拼接,可以得到第二候选推荐信息,包括拼接得到的搜索信息“硬壳笔记本”、“小型笔记本”和“超厚笔记本”。
92.其中,在信息推荐之前,可以预先确定日志数据中的历史搜索信息中的核心词,将历史搜索信息中除核心词之外的词语确定为描述词,并将核心词与描述词关联存储至该数据库中,以下再对其进行详细说明。
93.得到第二候选推荐信息之后,可以基于所述第一候选推荐信息和所述第二候选推荐信息进行信息推荐。在一可选实施方式中,可以将第一候选推荐信息和第二候选推荐信息进行汇总,汇总之后,由于第一候选推荐信息和第二候选推荐信息可能存在交集,即可能存在重复的待推荐搜索信息,在该种情况下,可以进行去重,保存存在重复的待推荐搜索信息中的其中一个即可。
94.在该实施方式中,可以确定每个待推荐搜索信息的推荐权重,按照推荐权重从大到小对待推荐搜索信息进行排序,将推荐权重排序在前的待推荐搜索信息推荐给该用户。
95.若待推荐搜索信息为第一候选推荐信息中的待推荐搜索信息,可以基于待推荐搜索信息与目标搜索信息的匹配程度来确定待推荐搜索信息的推荐权重。
96.若待推荐搜索信息为第二候选推荐信息中的待推荐搜索信息,可以基于该待推荐搜索信息中描述词对应的权重确定,比如,可以将该待推荐搜索信息中描述词对应的权重确定为该待推荐搜索信息的推荐权重。其中,数据库中,一个核心词关联的每个描述词均可以对应一个权重,权重越大,则该描述词与该核心词的关联程度越紧密。
97.若待推荐搜索信息为第一候选推荐信息和第二候选推荐信息的交集中的待推荐搜索信息,在该种情况下,可以基于该待推荐搜索信息对应的权重确定和该待推荐搜索信息中描述词对应的权重综合确定,比如,可以将该待推荐搜索信息对应的权重确定和该待推荐搜索信息中描述词对应的权重的平均值确定为该待推荐搜索信息的推荐权重。
98.在另一可选实施方式中,可以基于预设的第一通道权重,确定所述第一候选推荐信息中的历史搜索信息的第一推荐权重;基于预设的第二通道权重,确定所述第二候选推荐信息中所述第一核心词与所述第一核心词关联的描述词拼接得到的信息的第二推荐权重;基于所述第一推荐权重和所述第二推荐权重,从所述第一候选推荐信息和所述第二候选推荐信息中确定目标推荐信息;基于所述目标推荐信息进行信息推荐。如此,可以结合日志数据和核心词这两个通道分别进行搜索引导的推荐,从而可以进一步提高信息推荐的效果。
99.在该实施方式中,第一通道权重可以为基于日志数据进行信息推荐的通道,第二通道权重可以为基于核心词进行信息推荐的通道,第一通道权重和第二通道权重均可以预先设置,比如,第一通道权重可以设置为0.7,第二通道权重可以设置为0.3。
100.相应的,第一推荐权重可以基于第一通道权重和第一候选推荐信息中的历史搜索
信息即待推荐搜索信息对应的权重综合确定,第二推荐权重可以基于第二通道权重和第二候选推荐信息中的待推荐搜索信息中描述词对应的权重综合确定。比如,可以将两个权重进行相乘,得到待推荐搜索信息的推荐权重。
101.在一可能的实现方式中,可以按照第一推荐权重从大到小对第一候选推荐信息中的待推荐搜索信息进行排序,将第一推荐权重排序在前的待推荐搜索信息确定为目标推荐信息。也可以按照第二推荐权重从大到小对第二候选推荐信息中的待推荐搜索信息进行排序,将第二推荐权重排序在前的待推荐搜索信息确定为目标推荐信息。
102.基于确定的目标推荐信息进行信息推荐时,若确定的目标推荐信息中存在重复的搜索信息,则可以进行去重处理,之后将目标推荐信息推荐给该用户。
103.本实施方式中,通过结合第一候选推荐信息和第二候选推荐信息进行信息推荐,可以有效扩充和丰富推荐信息,进一步提高信息推荐的效果。
104.可选的,m大于1,所述确定所述m个词语中的第一核心词,包括:
105.针对所述m个词语中每个词语,对所述词语进行类目解析,得到所述词语对应的类目信息;
106.从所述m个词语中确定至少一个候选词语,每个候选词语对应的类目信息与对所述目标搜索信息进行类目解析得到的类目信息存在交集;
107.从所述至少一个候选词语中确定所述第一核心词。
108.本实施方式中,可以采用预先训练的类目解析模型对目标搜索信息进行类目解析,得到目标搜索信息对应的类目信息。并针对m个词语中每个词语,也可以采用该类目解析模型对该词语进行类目解析,得到该词语对应的类目信息。
109.其中,类目解析模型可以使用第三级类目作为解析目标,即解析得到的类目信息中的类目为第三级类目,解析得到的类目信息中可以包括至少一个类目以及每个类目对应的权重。
110.词语对应的类目信息可以包括至少一个类目以及每个类目对应的权重,可以从m个词语中确定至少一个候选词语,其确定方式可以为,针对m个词语中每个词语,可以确定该词语对应的类目信息是否与目标搜索信息对应的类目信息存在交集,若存在交集,则可以将该词语确定为候选词语。
111.之后,可以从至少一个候选词语中确定所述第一核心词。具体的,可以确定每个候选词语的目标权重,在一可选实施方式中,可以将候选词语的分词权重与位置权重进行相乘,得到该候选词语的目标权重,其中,候选词语的位置权重可以根据候选词语在目标搜索信息的位置进行赋权,位置越靠前,位置权重可以越大。相应的,可以将至少一个候选词语中目标权重最大的候选词语确定为第一核心词。
112.本实施方式中,通过结合类目的方式来确定目标搜索信息中的第一核心词,如此可以提高核心词的确定准确性,从而可以进一步提高信息推荐的效果。
113.需要说明的是,对于数据库中的核心词,也可以采用上述第一核心词的确定方式来确定,具体的,可以获取日志数据,该日志数据可以包括历史搜索信息,可以利用预先建立的搜索信息黑名单列表来过滤日志数据中的历史搜索信息,并可以利用预先建立的类目黑名单列表来过滤日志数据中的历史搜索信息,比如,可以过滤掉日志数据中与类目黑名单列表存在交集的类目信息对应的历史搜索信息。同时,还可以利用预先存储的停用词列
表中的词语过滤掉历史搜索信息的无用字符。
114.针对过滤后的日志数据,可以使用分词模型将日志数据中的历史搜索信息进行分词处理,得到分词结果以及分词权重。如果分词结果只有一个,则将该分词结果确定为核心词,如果分词结果有多个,将每个分词结果的类目信息与历史搜索信息的类目信息进行类目交叉检验,得到候选词语。如果候选词语只有一个,则该候选词语为核心词,如果候选词语有多个,则候选词语按照出现在历史搜索信息中的位置顺序赋权,候选词语的目标权重=分词权重*位置比例,取目标权重最大的候选词语作为核心词,历史搜索信息剩下的分词结果作为描述词。
115.之后,若日志数据中不同历史搜索信息的核心词相同,则可以将该核心词关联的描述词进行聚类,最终可以得到一个核心词关联有多个描述词,且将核心词和描述词关联存储至数据库中。并且,可以根据描述词的分词权重和位置比例确定描述词的权重,也可以将该权重对应存储至数据库中。
116.另外,信息推荐装置还可以结合第三候选推荐信息进行信息推荐,第三候选推荐信息可以包括该用户搜索过的历史搜索信息,体现该用户的个性化偏好。可以基于该用户的当日历史搜索数据和往日历史搜索数据,对该用户的个性化偏好进行挖掘,具体的,当日用户搜索过的历史搜索数据最能表达用户当前可能的搜索偏好,因此,如果目标搜索信息被包含在当日历史搜索数据中,则按照时间顺序取最近的历史搜索信息作为第三候选推荐信息,且优先将该历史搜索信息推荐给该用户。如果目标搜索信息被包含在往日历史搜索数据中,则按照该目标搜索信息的历史点击次数进行排序,补充到第三候选推荐信息中。
117.第二实施例
118.如图2所示,本公开提供一种信息推荐装置200,包括:
119.第一获取模块201,用于从日志数据中获取与用户输入的目标搜索信息匹配的n个历史搜索信息,n为正整数;
120.第一确定模块202,用于确定所述n个历史搜索信息中词语的近义词列表;
121.删除模块203,用于在所述n个历史搜索信息中包括第一历史搜索信息的情况下,删除所述n个历史搜索信息中的所述第一历史搜索信息,得到第一候选推荐信息,所述第一历史搜索信息包括第一词语,所述第一词语的近义词列表与第二词语的近义词列表存在交集,所述第二词语包括以下至少一项:所述第一历史搜索信息的词语、所述n个历史搜索信息中第二历史搜索信息的与所述第一词语对应的词语、所述目标搜索信息的与所述第一词语对应的词语;
122.推荐模块204,用于基于所述第一候选推荐信息进行信息推荐。
123.可选的,所述装置还包括:
124.第二确定模块,用于针对所述n个历史搜索信息中每个历史搜索信息,在所述历史搜索信息中任两个词语的近义词列表存在交集的情况下,确定所述历史搜索信息为所述第一历史搜索信息;
125.第三确定模块,用于在所述n个历史搜索信息中存在第一目标历史搜索信息的情况下,确定所述第一目标历史搜索信息为所述第一历史搜索信息,针对所述第一目标历史搜索信息中每个词语,在所述目标搜索信息中均存在与所述词语对应的词语,且所述第一目标历史搜索信息和所述目标搜索信息中,每两个对应的词语的近义词列表均存在交集;
126.第四确定模块,用于在n大于1的情况下,针对所述n个历史搜索信息中每两个历史搜索信息,若所述两个历史搜索信息中每两个对应的词语的近义词列表均存在交集,确定所述两个历史搜索信息中其中之一的历史搜索信息为所述第一历史搜索信息,所述两个历史搜索信息中两个对应的词语分别来自所述两个历史搜索信息。
127.可选的,所述装置还包括:
128.第五确定模块,用于在所述n个历史搜索信息中存在第二目标历史搜索信息的情况下,确定所述第二目标历史搜索信息为所述第一历史搜索信息,所述目标搜索信息包括所述第二目标历史搜索信息。
129.可选的,所述目标搜索信息包括m个词语,所述装置还包括:
130.第六确定模块,用于确定所述m个词语中的第一核心词;
131.第二获取模块,用于获取数据库中所述第一核心词关联的描述词,所述数据库关联存储有核心词与描述词;
132.拼接模块,用于将所述第一核心词与所述第一核心词关联的描述词拼接得到第二候选推荐信息;
133.所述推荐模块204,具体用于基于所述第一候选推荐信息和所述第二候选推荐信息进行信息推荐。
134.可选的,m大于1,所述第六确定模块,具体用于:
135.针对所述m个词语中每个词语,对所述词语进行类目解析,得到所述词语对应的类目信息;
136.从所述m个词语中确定至少一个候选词语,每个候选词语对应的类目信息与对所述目标搜索信息进行类目解析得到的类目信息存在交集;
137.从所述至少一个候选词语中确定所述第一核心词。
138.可选的,所述推荐模块204,具体用于:
139.基于预设的第一通道权重,确定所述第一候选推荐信息中的历史搜索信息的第一推荐权重;
140.基于预设的第二通道权重,确定所述第二候选推荐信息中所述第一核心词与所述第一核心词关联的描述词拼接得到的信息的第二推荐权重;
141.基于所述第一推荐权重和所述第二推荐权重,从所述第一候选推荐信息和所述第二候选推荐信息中确定目标推荐信息;
142.基于所述目标推荐信息进行信息推荐。
143.本公开提供的信息推荐装置200能够实现信息推荐方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
144.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
145.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
146.图3示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形
式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
147.如图3所示,设备300包括计算单元301,其可以根据存储在只读存储器(rom)302中的计算机程序或者从存储单元308加载到随机访问存储器(ram)303中的计算机程序,来执行各种适当的动作和处理。在ram 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、rom 302以及ram 303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。
148.设备300中的多个部件连接至i/o接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
149.计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如信息推荐方法。例如,在一些实施例中,信息推荐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由rom 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到ram 303并由计算单元301执行时,可以执行上文描述的信息推荐方法的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息推荐方法。
150.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
151.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
152.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
153.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
154.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
155.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
156.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
157.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。