1.本说明书涉及文本处理技术领域,特别涉及文本焦点分析方法和系统。
背景技术:2.对于文本,例如会议记录文本、学术资料文本等,可以包含大量的内容信息。在对包含大量内容信息的文本进行理解或分析时,可以通过获取文本的关键信息,例如获取文本的关注焦点,以及对关键信息进行分析如对关注焦点进行分析,从而帮助更好地理解文本、分析文本等。
3.因此,亟需文本焦点分析方法和系统。
技术实现要素:4.本说明书一个方面提供一种文本焦点分析方法,包括:获取一个或多个文本;确定所述一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将所述单词替换为对应的所述焦点词,得到所述一个或多个文本对应的一个或多个处理后文本;获取多个主题类别对应的多个主题表示,所述多个主题表示中的每一个表示多个单词在对应主题类别中的概率分布,所述多个单词至少包括所述至少一个焦点词;获取每个所述处理后文本关于所述多个主题类别的主题概率分布;基于所述主题概率分布和所述多个主题表示,得到每个所述文本关于至少一个文本焦点的文本焦点分布,其中,以所述至少一个焦点词作为所述至少一个文本焦点。
5.本说明书另一个方面提供一种文本焦点分析系统,包括:第一获取模块,用于获取一个或多个文本;文本处理模块,用于确定所述一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将所述单词替换为对应的所述焦点词,得到所述一个或多个文本对应的一个或多个处理后文本;主题获取模块,用于获取多个主题类别对应的多个主题表示,所述多个主题表示中的每一个表示多个单词在对应主题类别中的概率分布,所述多个单词至少包括所述至少一个焦点词,以及获取每个所述处理后文本关于所述多个主题类别的主题概率分布;文本焦点分布确定模块,用于基于所述主题概率分布和所述多个主题表示,得到每个所述文本关于至少一个文本焦点的文本焦点分布,其中,以所述至少一个焦点词作为所述至少一个文本焦点。
6.本说明书另一个方面提供一种文本焦点分析装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现所述的文本焦点分析方法。
附图说明
7.本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
8.图1是根据本说明书一些实施例所示的一种文本焦点分析系统的应用场景示意图;
9.图2是根据本说明书一些实施例所示的一种文本焦点分析系统的框图;
10.图3是根据本说明书一些实施例所示的一种文本焦点分析方法的示例性流程图;
11.图4是根据本说明书一些实施例所示的一种通过主题模型处理至少一个训练文本,得到多个主题对应的多个主题表示的示例性流程图;
12.图5是根据本说明书一些实施例所示的一种将文本中单词替换为对应的焦点词的示意图;
13.图6是根据本说明书一些实施例所示的一种主题表示、主题分布和文本的文本焦点分布的示意图。
具体实施方式
14.为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
15.应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
16.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
17.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
18.图1是根据本说明书的一个或多个实施例所示的文本焦点分析系统的应用场景示意图。
19.本说明书提出的文本焦点分析系统可以应用在各种文本处理和文本分析的相关场景中,例如,可以应用在对会议记录、学术资料等文本进行文本焦点分析,得到会议、学术领域的文本焦点分布和历史关注焦点变化的场景,还可以应用在对用户信息、知识数据等信息文本进行文本焦点分析,以更快地找到用户信息、知识数据等信息文本的关键内容如在文本中占比大的文本焦点,从而更迅速地获取所需信息或进行关键信息提取等场景。
20.文本是指用于表达含义的多个单词的组合,可以理解,文本包括多个单词。文本可以具有多个文本焦点,文本焦点是指文本内容的关注焦点/关注话题。对于文本,其中的单词与文本焦点具有相关性,在一些实施例中,可以通过对文本包括的单词进行处理和分析,从而得到文本焦点在文本中的分布情况。
21.有鉴于此,本说明一些实施例提供了一种文本焦点分析方法,对于获取的一个或多个文本,将其中的单词替换为对应的焦点词,从而将关注的文本焦点即焦点词的语义信息嵌入文本中,得到包括至少一个焦点词的一个或多个处理后文本。进一步的,获取得到与多个主题类别对应的包括至少一个焦点词的概率分布的多个主题表示和各个处理后文本关于多个主题类别的主题概率分布,再进一步的,基于获取的主题概率分布和多个主题表示,可以将至少一个焦点词在主题类别中的概率分布映射到主题类别在处理后文本中的概率分布中,从而得到至少一个焦点词作为至少一个文本焦点在文本中的分布情况。实现了对文本进行准确且有针对性的文本焦点分析。
22.如图1所示,文本焦点分析系统的应用场景100可以包括服务器110,文本120和服务器110得到的每个文本关于至少一个文本焦点的文本焦点分布130。
23.服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,服务器110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如,服务器110可以是分布式系统),可以是专用的也可以由其他设备或系统同时提供服务。在一些实施例中,服务器110可以是区域的或者远程的。在一些实施例中,服务器110可以在云平台上实施,或者以虚拟方式提供。
24.在一些实施例中,服务器110可以获取和存储各种文本数据,例如至少一个焦点词、文本120(可以包括一个或多个文本120
‑
1、120
‑
2、120
‑3…
)、一个或多个处理后文本、至少一个文本语料、至少一个训练文本、多个主题类别对应的多个主题表示、一个或多个处理后文本的一个或多个主题概率分布、文本120的文本焦点分布等。
25.服务器110可以包括处理器112。处理器112可以处理从服务器110、其他设备或系统组成部分中获得的数据和/或信息。处理器可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本说明书中描述的功能。例如,处理器112可以确定文本120中的单词对应的焦点词,并将单词替换为对应的焦点词得到对应的一个或多个处理后文本,还可以确定至少一个文本语料中的单词对应的焦点词,并将单词替换为对应的焦点词替换得到对应的至少一个训练文本,还可以基于一个或多个处理后文本,通过主题模型得到每个处理后文本关于多个主题类别的主题概率分布,还可以基于至少一个训练文本,通过主题模型得到多个主题类别对应的多个主题表示,还可以基于主题分布和主题表示得到文本120关于至少一个文本焦点的文本焦点分布130并输出。
26.图2是根据本说明书一些实施例所示的一种文本焦点分析系统的框图。
27.在一些实施例中,文本焦点分析系统200可以实现于服务器110上或处理器112上。其可以包括第一获取模块210、文本处理模块220、主题获取模块230和文本焦点分布确定模块240。在一些实施例中,文本焦点分析系统200还可以包括第二获取模块250。
28.在一些实施例中,第一获取模块210可以用于获取一个或多个文本。
29.在一些实施例中,文本处理模块220可以用于确定所述一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将所述单词替换为对应的所述焦点词,得到所述一个或多个文本对应的一个或多个处理后文本。在一些实施例中,文本处理模块220还可以用于确定所述单词与所述至少一个焦点词的相似度,基于所述相似度确定与所述单词对应的所述焦点词。
30.在一些实施例中,主题获取模块230可以用于获取多个主题类别对应的多个主题
表示,所述多个主题表示中的每一个表示多个单词在对应主题类别中的概率分布,所述多个单词至少包括所述至少一个焦点词;以及获取每个所述处理后文本关于所述多个主题类别的主题概率分布。在一些实施例中,所述主题概率分布基于主题先验分布确定,所述主题先验分布为狄利克雷(dirichlet)分布。在一些实施例中,所述主题表示基于词先验分布确定,所述词先验分布为狄利克雷(dirichlet)分布。在一些实施例中,所述主题获取模块230还可以用于:基于所述一个或多个处理后文本,通过主题模型得到所述多个主题类别对应的多个主题表示和每个所述处理后文本关于所述多个主题类别的所述主题概率分布。在一些实施例中,所述主题获取模块230还可以用于:基于至少一个训练文本,通过主题模型得到所述多个主题类别对应的多个主题表示;基于所述一个或多个处理后文本和获取的所述多个主题表示,通过主题模型得到每个所述处理后文本关于所述多个主题类别的所述主题概率分布。
31.在一些实施例中,文本焦点分布确定模块240可以用于基于所述主题概率分布和所述多个主题表示,得到每个所述文本关于至少一个文本焦点的文本焦点分布,其中,以所述至少一个焦点词作为所述至少一个文本焦点。在一些实施例中,文本焦点分布确定模块240还可以用于对于一个所述焦点词:基于所述焦点词的多个参考概率之和确定所述焦点词作为所述文本焦点在一个所述文本中的概率;其中,所述多个参考概率与所述多个主题类别对应,每一个所述参考概率基于第一概率和第二概率的乘积确定;所述第一概率为所述文本对应的所述处理后文本的所述主题概率分布中对应主题类别的概率;所述第二概率为对应所述主题类别对应的所述主题表示中所述焦点词的概率。
32.在一些实施例中,第二获取模块250可以用于获取至少一个文本语料;将所述至少一个文本语料中的至少部分单词替换为对应的所述焦点词,得到包括所述至少一个焦点词的所述至少一个训练文本。在一些实施例中,第二获取模块250还可以用于确定所述单词与所述至少一个焦点词的相似度,基于所述相似度确定与所述单词对应的所述焦点词。
33.应当理解,所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd
‑
rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
34.需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。
35.图3是根据本说明书一些实施例所示的一种文本焦点分析方法的示例性流程图。
36.在一些实施例中,方法300可以由处理器112执行。在一些实施例中,方法300可以
由部署于处理器112的文本焦点分析系统200实现。
37.如图3所示,该方法300可以包括:
38.步骤310,获取一个或多个文本。
39.在一些实施例中,该步骤310可以由第一获取模块210执行。
40.如前所述,文本是指用于表达含义的多个单词的组合。其中,单词可以是各类自然语言的单词,例如中文单词、英文单词等。文本可以是句子、段落或者篇章/文档。
41.文本可以是各个行业或领域中产生的文本,包括但不限于金融、保险、互联网、汽车、餐饮、电信、能源、娱乐、体育、物流、医疗、行业等。
42.在一些实施例中,可以通过各种文本获取方式生成或获取文本。
43.在一些实施例中,还可以对获取的一个或多个文本进行大小写统一、去除停用词(指无含义的词,如“is”、“our”、“the”、“这个”、“那个”等词)等文本清洗的预处理,并将经过预处理后的一个或多个文本作为所需的一个或多个文本,以继续进行后续方法/步骤。
44.步骤320,确定所述一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将所述单词替换为对应的所述焦点词,得到所述一个或多个文本对应的一个或多个处理后文本。
45.在一些实施例中,该步骤320可以由文本处理模块220执行。
46.焦点词是指用于表达文本关注焦点/关注话题的词,也可以是用于表示文本中单词、段落、篇章等所属文本焦点类别的词。例如,焦点词可以包括“货币政策”、“贸易”、“出口”、“就业”等表达文本关注焦点/关注话题的词。又例如,焦点词还可以包括“其它”、“其余”等用于表示文本中单词、段落、篇章等属于其它或其余文本焦点类别的单词。在一些实施例中,其它或其余文本焦点类别可以是指未知或未关注的文本焦点类别。在一些实施例中,焦点词可以是单个单词,也可以是多个单词的组合构成的词组。
47.在一些实施例中,可以确定多个焦点词(如2个、3个、4个等),并对文本中的单词在多个焦点词中确定与之对应的焦点词。
48.在一些实施例中,焦点词可以根据文本的相关信息(如文本涉及的行业或领域)确定,或者根据文本分析目标等实际需求确定。例如,一个或多个文本涉及金融领域,可以确定多个焦点词为“货币政策”、“贸易”、“出口”、“就业”以及“其它”。又例如,需要对特定的关注焦点“股市”、“基金”在文本中的分布情况进行分析和获取,则可以确定多个焦点词为“股市”、“基金”以及“其它”。
49.在一些实施例中,可以对一个或多个文本进行分词得到一个或多个文本中包括的所有单词。
50.在一些实施例中,可以基于单词的语义和多个焦点词中各个焦点词的语义来确定单词对应的焦点词。在一些实施例中,可以将与单词语义相似或语义相匹配的焦点词作为与之对应的焦点词。
51.在一些实施例中,单词的语义可以结合单词在文本中的上下文确定,以令单词在文本中的语义更加准确,从而令确定的对应的焦点词更加准确。例如,可以通过bert模型确定包含有上下文信息的代表单词的表示向量。
52.在一些实施例中,可以确定单词与至少一个焦点词的相似度,基于相似度确定与单词对应的焦点词。
53.在一些实施例中,可以将相似度满足预设条件的焦点词,作为与单词对应的焦点词。其中,预设条件可以是指相似度排名最高或者相似度大于预设阈值(例如大于0.7)。例如,多个焦点词包括“货币政策”、“贸易”、“出口”、“就业”,对于文本中的单词“银行”,确定“银行”与前述各个焦点词的相似度分别为0.8、0.5、0.5、0.2、0.3,则将相似度0.8对应的“货币政策”作为“银行”对应的焦点词。
54.在一些实施例中,若单词与至少一个焦点词的相似度都小于预设阈值(例如小于0.7),则可以将“其它”或“其余”等表示未知或未关注的主题类别的焦点词确定为与之对应的焦点词。继续以前述多个焦点词为例,对于文本中的单词“幼儿园”,与前述各个焦点词的相似度都低于0.7,则将焦点词“其它”确定为与之对应的焦点词。
55.在一些实施例中,可以获取单词对应的编码向量和焦点词对应的特征向量如编码向量,基于单词对应的特征向量和焦点词对应的特征向量来确定单词与至少一个焦点词的相似度。
56.在一些实施例中,可以通过word2vec模型、tf
‑
idf(term frequency
–
inverse document frequency,词频
‑
逆向文件频率)模型等词嵌入模型,或者bert、bilstm等深度语义编码的模型来获取单词和焦点词对应的编码向量。以bert模型为例,将文本的单词或焦点词输入bert模型,bert模型可以对单词或焦点词进行编码,输出得到单词或焦点词对应的编码向量。
57.在一些实施例中,可以基于单词在文本中的上下文例如上文和下文的一个或连续多个单词,通过前述方法来得到单词的编码向量(如将单词和其上下文输入bert模型,得到结合了上下文语义的单词编码向量),以令得到的单词的编码向量表达的语义更加准确。
58.在一些实施例中,可以通过计算单词编码向量与焦点词编码向量之间的余弦相似度、欧式距离、曼哈顿距离等向量间相似度度量来确定单词与焦点词的相似度。
59.在一些实施例中,还可以基于机器学习模型(例如nn、cnn、rnn等神经网络模型)来确定单词与至少一个焦点词的相似度。例如,可以将单词和焦点词输入已经训练好的机器学习模型,输出得到单词和焦点词的相似度。其中,可以基于多个训练样本(包括单词样本、焦点词样本以及对应的样本标签如相似度取值)对初始模型进行训练,对模型参数进行迭代更新,得到所需的机器学习模型。
60.在一些实施例中,还可以基于单词与焦点词的映射表来查找单词对应的焦点词。
61.在一些实施例中,一个或多个文本中的每个单词都可以在多个焦点词中确定与之对应的焦点词。
62.在一些实施例中,一个或多个文本中的部分单词可以在多个焦点词中确定与之对应的焦点词。
63.将文本中的单词替换为对应的焦点词后得到的文本,在本说明书中称为处理后文本。得到的处理后文本中的单词包括至少一个焦点词。
64.在一些实施例中,处理后文本可以是将文本中所有单词都替换为对应的焦点词后得到的包括至少一个焦点词的文本。例如,如图5所示,由多个单词构成的一个文本可以表示为所包含单词的序列{“债券”,“融资”,“银行”,“压降”,“结构性”,“人员”,“商品”,“幼儿园
”…
},将文本中的所有单词替换为对应的焦点词后,得到的处理后文本为词序列{“货币政策”,“货币政策”,“货币政策”,“货币政策”,“货币政策”,“就业”,“贸易”,“其它
”…
}。
65.在一些实施例中,处理后文本可以是将一个或多个文本中的部分单词替换为对应的主题词后,得到的包括至少一个焦点词以及至少一个其它词的文本。例如,将一个或多个文本中的部分单词替换为对应的主题词后,得到的处理后文本中的单词包括至少一个焦点词和其它未被替换的原有单词。
66.步骤330,获取多个主题类别对应的多个主题表示,以及获取每个所述处理后文本关于所述多个主题类别的主题概率分布。
67.在一些实施例中,该步骤330可以由主题获取模块230执行。
68.主题类别是在对文本分析中产生的一种分类,不一定有显性的含义,可以是所使用的文本分析方法对于文本中主题、分类等方面信息的一种标识,一个主题类别可以对应文本的一个方面。一个文本可以分析得到对应的一个或多个主题类别,主题类别的个数可以在进行文本分析时预先设定,例如基于实际需求或文本分析方法的评价参数进行设定。
69.在一些实施例中,基于文本分析具体方法和设定的主题类别个数的不同,可以产生不同的主题类别以及与主题类别相关的其他分析结果(如主题类别对应的主题表示)。
70.主题表示是指文本分析产生的主题类别对应在文本所包括单词上的一种表示,每一个主题类别对应一个主题表示。一个主题表示可以表示文本(例如一个或多个处理后文本)所包括的多个单词在对应主题类别中的概率分布(也可以称为词分布),多个单词在对应主题类别中的概率分布包括多个单词中每个单词在对应主题类别中的概率/权重,例如{“大学
”‑
0.4,“老师
”‑
0.3,“课程
”‑
0.2},其中单词“大学”、“老师”、“课程”对应的概率/权重分别为0.4、0.3、0.2。
71.文本分析产生的多个主题类别对应多个不同的主题表示,其中不同主题表示所表示的多个单词的概率分布不同。例如主题1对应的主题表示所表示的概率分布为{“大学
”‑
0.4,“老师
”‑
0.3,“课程
”‑
0.2},主题2对应的主题表示所表示的概率分布为{“大学
”‑
0.2,“老师
”‑
0.5,“课程
”‑
0.3}。
72.在本说明书中,获取的多个主题类别对应的多个主题表示中,对于每一个主题表示所表示的多个单词在对应主题类别中的概率分布,其中多个单词至少包括至少一个焦点词。
73.在一些实施例中,多个主题表示中的每一个,可以表示至少一个焦点词(如5个焦点词“货币政策”、“贸易”、“出口”、“就业”、“其它”)在对应主题类别中的概率分布。
74.在一些实施例中,多个主题表示中的每一个,可以表示至少一个焦点词和其它至少一个单词(如5个焦点词“货币政策”、“贸易”、“出口”、“就业”、“其它”和其它两个单词“幼儿园”、“中学”)在对应主题类别中的概率分布。
75.对于多个主题类别,可以分析其在文本中的概率分布。在本说明书中,多个主题类别在处理后文本中的概率分布可以称为主题概率分布,也可以称为处理后文本关于多个主题类别的主题概率分布。多个主题类别在处理后文本中的概率分布包括多个主题类别中每个主题类别在处理后文本中的概率/权重。
76.在本说明书中,主题概率分布中所指的多个主题类别,与获取的多个主题表示对应的多个主题类别相应,即获取了5个主题类别对应的5个主题表示,相应的,获取的处理后文本的主题概率分布,其表示该5个主题类别在处理后文本中的概率分布。
77.在一些实施例中,可以通过各种对文本进行主题类别、主题类别对应的主题表示
分析的文本分析方法,获取得到多个主题类别对应的多个主题表示,以及获取得到每个处理后文本关于多个主题类别的主题概率分布。例如,可以基于主题概率分布和多个主题类别对应的多个主题表示得出文本(如处理后文本、训练文本)的生成方式为:每次以一定的概率(可以表示为p(z|d),d表示文本,z表示主题也即主题类别)在多个主题中选择一个主题(p(z|d)即为文本d的主题概率分布中主题/主题类别z对应的概率/权重,本说明书一些实施例中,主题概率分布可以用θ表示);进一步在选择的这个主题/主题类别z下,再以一定的概率(可以表示为p(w|z),w表示单词)在该主题/主题类别z包括的多个单词中选择一个单词(p(w|z)即为主题/主题类别z对应的主题表示中单词w对应的概率,本说明书一些实施例中,主题表示可以用表示),不断重复这个过程可以形成文本,基于已知的文本(如处理后文本、训练文本)和文本中的单词,可以基于前述生成方式计算多个主题类别对应的多个主题表示、关于多个主题类别的主题概率分布。
78.在一些实施例中,前述文本生成方式可以通过构建第m个文本d
m
的文本生成概率表达,文本生成概率可以通过如下联合概率表达:
79.其中,表示文本d
m
包括的n个单词的集合,z取1~k表示第1~k个主题/主题类别。
80.在一些实施例中,p(w|w)与属于主题z的词w的个数相关,p(z|d
m
)与文本d
m
中属于主题z的词的个数相关。
81.主题模型是指对文本进行主题类别、主题类别对应的主题表示分析的模型。可以包括机器学习模型(如概率潜在语义分析(plsa)模型、潜在狄利克雷分配(lda)模型等)、神经网络模型(如进行主题类别、主题类别对应的主题表示分析的nn、cnn、rnn等)等。
82.在一些实施例中,得到一个或多个处理后文本后,可以基于一个或多个处理后文本,通过主题模型处理一个或多个处理后文本,得到各个处理后文本的主题概率分布和多个主题类别对应的多个主题表示(至少包括至少一个焦点词的多个单词的概率分布)。
83.在一些实施例中,可以确定主题模型的主题类别个数,例如为k个(k取正整数,如4、5等),基于主题模型处理一个或多个处理后文本,得到k个主题类别在文本中的主题概率分布、多单词分别在k个主题类别中的概率分布(k个主题类别对应的k个主题表示)。作为示例,通过主题模型处理m个处理后文本,可以得到对应的m个主题分布,如图6所示,示出了得到的处理后文本m对应的主题分布。在图6中,主题分布由一个柱状图a来表示,其横向上的编号0、1、2、3、4表示主题编号,每一个主题分布中可以包括多个主题类别如主题0、主题1、主题2、主题3、主题4在对应处理后文本中的多个概率值。
84.在一些实施例中,多个主题类别对应的多个主题表示(即至少包括至少一个焦点词的多个单词的概率分布)还可以预先基于训练文本来获取。在一些实施例中,可以获取至少一个训练文本,基于至少一个训练文本,通过主题模型得到多个主题类别对应的多个主题表示,其中,至少一个训练文本包括多个单词,多个单词中至少包括至少一个焦点词。关于获取训练文本来获取多个主题类别对应的多个主题表示的更多内容可以参见图4及其相关说明,此处不再赘述。
85.在一些实施例中,预先基于训练文本来获取得到多个主题类别对应的多个主题表
示(即至少包括至少一个焦点词的多个单词的概率分布)后,可以基于一个或多个处理后文本和获取的所述多个主题表示,通过主题模型得到每个处理后文本的主题概率分布。
86.在一些实施例中,预先基于训练文本获取多个主题类别对应的多个主题表示后,在主题模型中,多个主题类别对应的多个主题表示被固定为常量,从已经获取的多个主题类别对应的多个主题表示中确定。在通过主题模型处理一个或多个处理后文本时,也就不必再对多个主题类别对应的多个主题表示进行计算或学习,只计算或学习多个主题类别在处理后文本中的主题概率分布。
87.作为示例,如图6所示,展示了多个主题表示,在图6中,一个多个主题表示由柱状图中的一个方柱如b0来表示,图中的方柱b0、b1、b2、b3、b4分别表示5个主题类别对应的5个主题表示,其中编号0、1、2、4表示主题类别编号。“货币政策”、“贸易”、“出口”、“就业”、“其它”为焦点词,每一个主题表示所表示的概率分布中包括5个焦点词“货币政策”、“贸易”、“出口”、“就业”、“其它”在对应主题类别中的概率值。
88.在一些实施例中,文本中的每个单词都确定有与之对应的焦点词时,将单词替换为焦点词得到的处理后文本中,只包括至少一个焦点词对应的至少一个表述。基于只包括该至少一个表述的一个或多个处理后文本,得到的多个主题类别对应的多个主题表示的单词维度是确定的,例如确定的至少一个焦点词为5个,得到的主题表示即为5个焦点词的概率分布。
89.通过本说明书一些实施例,得到的一个或多个处理后文本的主题概率分布和多个主题类别对应的多个主题表示(即至少包括至少一个焦点词的多个单词的概率分布)并非是概率平均的,是更加接近于实际或真实的主题分布和主题表示,可以令后续确定的至少一个焦点词作为至少一个文本焦点在各个文本中的文本焦点分布更加准确,或者说更接近于实际或真实的分布。
90.在一些实施例中,得到的每个所述处理后文本的主题概率分布以及多个主题类别对应的多个主题表示都为多项式分布。例如,主题模型包括概率潜在语义分析(plsa)模型,或者主题模型包括潜在狄利克雷分配(lda)模型,在概率潜在语义分析(plsa)模型、潜在狄利克雷分配(lda)模型中,主题概率分布以及多个主题类别对应的多个主题表示都可以为多项式分布。
91.在一些实施例中,在前述方法或模型中,主题概率分布可以基于主题先验分布确定。在一些实施例中,当主题概率分布为多项式分布时,主题先验分布可以为与多项式分布共轭的狄利克雷(dirichlet)分布,例如主题模型包括潜在狄利克雷分配(lda)模型,在潜在狄利克雷分配(lda)模型中,主题概率分布基于狄利克雷(dirichlet)分布确定。
92.在一些实施例中,在前述方法或模型中,主题表示可以基于词先验分布确定。在一些实施例中,当主题表示为多项式分布式,词先验分布可以为与多项式分布共轭的狄利克雷(dirichlet)分布,例如主题模型包括潜在狄利克雷分配(lda)模型,在潜在狄利克雷分配(lda)模型中,主题表示基于狄利克雷(dirichlet)分布确定。
93.其中,先验分布是指对概率分布预先确定的分布函数,在分布函数中,概率分布(如主题概率分布和主题表示)可以被看作变量,即概率分布并非固定不变。在一些实施例中,通过主题先验分布、词先验分布确定主题概率分布、主题表示,进一步考虑了主题概率分布、主题表示的随机性,令确定的主题概率分布、主题表示进一步地更加接近于实际或真
实的主题分布、主题表示。
94.以主题模型包括潜在狄利克雷分配(lda)模型为例,可以确定主题模型中的主题类别个数,例如为k个,通过主题模型处理文本(如一个或多个处理后文本、至少一个训练文本),可以通过变分推断、随机采样(如吉布斯采样方法、马尔可夫链脸蒙特卡罗方法等)等计算或训练方法来得到多个主题类别对应的多个主题表示、处理后文本的主题概率分布。
95.以采用吉布斯采样方法为例,通过主题模型处理一个或多个处理后文本,对一个或多个处理后文本的主题概率分布和多个主题类别对应的多个主题表示进行计算或学习可以包括:随机确定一个或多个处理后文本中的每一个单词(包括至少一个焦点词,以及还可以包括其它的至少一个单词)对应的主题类别编号;然后基于吉布斯采样方法更新每一个单词的主题类别编号,直至一个或多个处理后文本中各个主题类别编号包括的词个数稳定;然后统计词的主题类别编号,根据对每一个单词统计的词频n
k
(主题k下,词的词频)和n
m
(处理后文本m中,分配给各个主题的词数),得到每个处理后文本的主题概率分布和多个主题类别对应的多个主题表示。
96.以采用吉布斯采样方法为例,通过主题模型处理至少一个训练文本(包括多个单词,多个单词至少包括至少一个焦点词)可以采用与通过主题模型处理一个或多个处理后文本类似的方法,最后得到多个主题类别对应的多个主题表示。
97.以采用吉布斯采样方法为例,多个主题类别对应的多个主题表示预先基于训练文本获取后,通过主题模型处理一个或多个处理后文本来得到各个处理后文本的主题概率分布可以包括:随机确定一个或多个处理后文本中的每一个单词(包括至少一个焦点词,以及还可以包括其它的至少一个单词)对应的主题类别编号;然后基于吉布斯采样方法更新每一个单词的主题类别编号,直至一个或多个处理后文本中各个主题类别编号包括的词个数稳定,在基于吉布斯采样方法更新的过程中,多个主题类别对应的多个主题表示概率固定不变且为预先获取的值。然后统计词的主题编号,根据统计的n
m
(处理后文本m中,分配给各个主题的词数),得到每一个处理后文本的主题概率分布。
98.步骤340,基于所述主题分布和所述多个主题表示,得到所述至少一个焦点词在每个所述文本中的分布。
99.在一些实施例中,该步骤340可以由文本焦点分布确定模块240执行。
100.在一些实施例中,得到每个处理后文本的主题概率分布和多个主题表示(即至少包括至少一个焦点词的多个单词的概率分布)后,可以通过将多个主题类别对应的多个主题表示中至少一个焦点词的概率映射到主题概率分布中的对应主题类别,从而得到至少一个焦点词在与处理后文本对应文本中的分布,如图6中分布c所示,即为至少一个焦点词在与处理后文本对应文本中的分布。
101.在一些实施例中,以确定的至少一个焦点词作为需要分析的至少一个文本焦点,至少一个焦点词在与处理后文本对应文本中的分布可以至少一个焦点词在与处理后文本对应文本中的概率分布来表示,其中包括至少一个焦点词作为至少一个文本焦点在与处理后文本对应文本中的概率/权重。
102.对于所述至少一个焦点词中的一个焦点词:可以基于该焦点词的多个参考概率之和确定该焦点词作为文本焦点在文本中的概率/权重。例如,直接将该焦点词的多个参考概率之和作为该焦点词在对应文本中的概率/权重,或者对多个参考概率之和进行小数去除、
偏差修正等处理,并将处理后得到的值作为该焦点词在对应文本中的概率/权重。
103.其中,多个参考概率与多个主题类别对应,每一个参考概率可以基于第一概率和第二概率的乘积确定。例如,直接将前述乘积作为参考概率,或者对前述乘积进行小数去除、偏差修正等处理,并将处理后得到的值作为参考概率。其中,第一概率是指文本对应的处理后文本的主题概率分布中对应主题类别的概率/权重,第二概率是指对应主题类别对应的主题表示中焦点词的概率/权重。
104.作为示例,如图6所示,在多个主题类别对应的多个主题表示b0、b1、b2、b3、b4中,焦点词“货币政策”在主题0、主题1、主题2、主题3、主题4中的概率即第二概率分别为0.23、0.44、0.32、0.12、0.15,在文本m对应的主题概率分布a中,主题0、主题1、主题2、主题3、主题4的概率即第一概率分别为0.13、0.14、0.28、0.22、0.3,基于文本m对应的主题概率分布a中对应主题类别对应的概率即第一概率与该主题类别对应的主题表示中焦点词“货币政策”的概率即第二概率的乘积,得到焦点词“货币政策”的5个参考概率为0.23*0.13=0.0299、0.44*0.14=0.0616、0.32*0.28=0.0896、0.12*0.22=0.0264、0.15*0.3=0.045,得到5个参考概率之和为0.2525,以0.2525作为焦点词“货币政策”在文本m中的概率。类似地,对于其它焦点词“贸易”、“出口”、“就业”、“其它”,也对应得到焦点词在文本m中的概率。
105.图4是根据本说明书一些实施例所示的一种通过主题模型处理至少一个训练文本,得到多个主题对应的多个词分布的示例性流程图。
106.在一些实施例中,方法400可以由处理器112执行。在一些实施例中,方法400可以由部署于服务器110上或处理器112的文本焦点分析系统200实现。
107.如图4所示,该方法400可以包括:
108.步骤410,获取至少一个文本语料。
109.在一些实施例中,该步骤410可以由第二获取模块250执行。
110.文本语料是指作为语料的文本,例如一篇或多篇文章。
111.在一些实施例中,可以通过各种可以得到文本语料的方法获取至少一个文本语料,例如从语料库中获取。
112.获取的文本语料中的至少部分单词可以确定与之对应的焦点词,即文本语料中的至少部分单词有对应的至少一个焦点词,该至少一个焦点词即为前述一个或多个文本中至少部分单词对应的至少一个焦点词。
113.可以理解,在一些实施例中,获取的文本语料与待进行焦点分析的一个或多个文本可以涉及相同的行业/领域,或者获取的文本语料与待进行焦点分析的一个或多个文本的主题是相关的。
114.步骤420,将所述至少一个文本语料中的至少部分单词替换为对应的所述焦点词,得到包括所述至少一个焦点词的所述至少一个训练文本。
115.在一些实施例中,该步骤420可以由第二获取模块250执行。
116.在一些实施例中,文本语料中的至少部分单词确定与之对应的焦点词后,将单词替换为对应的焦点词后得到的文本,在本说明书中可以称为训练文本。经过焦点词替换后的至少一个训练文本所包括的单词中,至少包括了前述至少一个焦点词。
117.在一些实施例中,确定文本语料中的单词对应的焦点词可以采用与确定文本中的单词对应的焦点词类似的方法,更多具体内容可以参见步骤320及其相关说明,此处不再赘
述。
118.步骤430,基于所述至少一个训练文本,通过主题模型得到所述多个主题类别对应的多个主题表示。
119.在一些实施例中,该步骤430可以由主题获取模块230执行。
120.基于至少一个训练文本,通过主题模型可以计算或学习得到至少一个训练文本包括的多个单词(至少包括至少一个焦点词)对应在多个主题类别中的多个概率分布,并将得到的多个概率分布作为所需的多个主题类别对应的多个主题表示。基于至少一个训练文本,通过主题模型得到多个主题类别对应的多个主题表示的更多具体内容可以参见步骤330及其相关描述,此处不再赘述。
121.可以理解,至少一个训练文本中包括的至少一个焦点词的词个数较多,基于至少一个训练文本,通过主题模型得到所需的多个主题类别对应的多个主题表示可以是趋于稳定的多个概率分布,可以直接应用于后续对于新文本如获取的一个或多个文本的文本焦点分析。
122.在一些实施例中,文本语料中的每个单词都确定有与之对应的焦点词时,将单词替换为焦点词得到的至少一个训练文本中,可以只包括至少一个焦点词对应的至少一个表述。通过本实施例,基于只包括该至少一个表述的至少一个训练文本,得到的多个主题类别对应的多个主题表示的单词维度是确定的,例如确定的至少一个焦点词为5个,得到的主题表示即为5个焦点词的概率分布。
123.应当理解,所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd
‑
rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
124.需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。
125.本说明书实施例还提供一种文本焦点分析装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现所述的文本焦点分析方法。所述方法可以包括:获取一个或多个文本;确定所述一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将所述单词替换为对应的所述焦点词,得到所述一个或多个文本对应的一个或多个处理后文本;获取多个主题类别对应的多个主题表示,所述多个主题表示中的每一个表示多个单词在对应主题类别中的概率分布,所述多个单词至少包括所述至少一个焦点词;以及获取每个所述处理后
文本关于所述多个主题类别的主题概率分布;基于所述主题概率分布和所述多个主题表示,得到每个所述文本关于至少一个文本焦点的文本焦点分布,其中,以所述至少一个焦点词作为所述至少一个文本焦点。
126.本说明书实施例可能带来的有益效果包括但不限于:(1)通过将获取一个或多个文本中的单词替换为对应的焦点词,从而将关注的文本焦点即焦点词的语义信息嵌入文本中,进一步的,获取得到与多个主题类别对应的包括至少一个焦点词的概率分布的多个主题表示和各个处理后文本关于多个主题类别的主题概率分布,再进一步的,基于获取的主题概率分布和多个主题表示,可以将至少一个焦点词在主题类别中的概率分布映射到主题类别在处理后文本中的概率分布中,从而得到至少一个焦点词作为至少一个文本焦点在文本中的分布情况;(2)进一步地基于主题先验分布和词先验分布确定主题概率分布和主题表示,令主题类别的概率分布和焦点词的概率分布其更加准确和贴近真实分布,令得到的至少一个焦点词作为至少一个文本焦点在文本中的文本焦点分布也更加准确和贴近真实;(3)将单词替换为焦点词得到的至少一个训练文本或处理后文本中,只包括至少一个焦点词对应的至少一个表述时,可以令确定得到的主题表示中包括的单词数可控,即得到的多个主题类别对应的多个主题表示的单词维度是确定的,为至少一个焦点词,避免了基于包括不可控的多个单词的文本中直接计算主题表示造成的单词维度随机性。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
127.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
128.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
129.此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
130.计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线
电、电缆、光纤电缆、rf、或类似介质,或任何上述介质的组合。
131.本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c++、c#、vb.net、python等,常规程序化编程语言如c语言、visual basic、fortran2003、perl、cobol2002、php、abap,动态编程语言如python、ruby和groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(saas)。
132.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
133.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
134.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
135.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
136.最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。