用于处理文档的方法、装置、设备和存储介质与流程

文档序号:17861691发布日期:2019-06-11 22:54阅读:121来源:国知局
用于处理文档的方法、装置、设备和存储介质与流程
本公开内容的实现方式概括地涉及文档处理,并且更具体地,涉及用于确定一组文档在指定方面下的主题的方法、装置、设备和计算机存储介质。
背景技术
:随着计算机技术的发展,目前已经出现了越来越多类型的文档。尤其是,随着社交网络、电子商务网络进入人们的生活,这使得人们可以经由这些网络平台来编辑文档、发布自己的评论等。面临来自网络或者其他媒体的海量文档,如何以更为准确的方式从海量文档中挖掘文档所涉及的主题成为一个技术难题。技术实现要素:根据本公开内容的示例实现方式,提供了一种用于文档处理的方案。在本公开内容的第一方面中,提供了一种文档处理方法。在该方法中,获取一组文档中包括一组词语。基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系。基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布。基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。在本公开内容的第二方面中,提供了一种文档处理装置。该装置包括:获取模块,配置用于获取一组文档中包括一组词语;生成模块,配置用于基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系;确定模块,配置用于基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布;以及主题模块,配置用于基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。在本公开内容的第三方面中,提供了一种设备。该设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开内容的第一方面的方法。在本公开内容的第四方面中,提供了一种其上存储有计算机程序的计算机可读介质,该程序在被处理器执行时实现根据本公开内容的第一方面的方法。应当理解,
发明内容部分中所描述的内容并非旨在限定本公开内容的实现方式的关键或重要特征,亦非用于限制本公开内容的范围。本公开内容的其他特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开内容的各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示意性示出了文档、词语和主题之间的关系的示意图;图2示意性示出了特定文档、该特定文档所包括的词语和主题之间的关系的示意图;图3示意性示出了根据本公开内容的示例性实现方式的用于文档处理的技术方案的框图;图4示意性示出了根据本公开内容的示例性实现方式的用于文档处理的方法的流程图;图5a和图5b分别示意性示出了根据本公开内容的示例性实现方式的基于滑动窗口来确定词语的共同出现的框图;图6示意性示出了根据本公开内容的示例性实现方式的伪文档的格式的框图;图7示意性示出了根据本公开内容的示例性实现方式的基于概率分布模型来确定一组伪文档中包括的词语与关键字之间的关联的概率分布的框图;图8示意性示出了根据本公开内容的示例性实现方式的概率分布模型中的各个参数的框图;图9示意性示出了根据本公开内容的示例性实现方式的文档处理装置的框图;以及图10示出了能够实施本公开内容的多个实现方式的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开内容的实现方式。虽然附图中显示了本公开内容的某些实现方式,然而应当理解的是,本公开内容可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实现方式,相反提供这些实现方式是为了更加透彻和完整地理解本公开内容。应当理解的是,本公开内容的附图及实现方式仅用于示例性作用,并非用于限制本公开内容的保护范围。在本公开内容的实现方式的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。目前已经出现了用于确定一组文档的主题的多种方案。例如,目前已经提出了主题模型的概念,可以基于主题模型来确定一组文档所涉及的主题。然而,主题模型涉及面向所有的方面的对文档的全部文本进行全分析,以便挖掘所有的主题。首先参见图1描述文档、词语和主题之间的关系。图1示意性示出了文档、词语和主题之间的关系的示意图100。图1示出了一组文档110,在此的一组文档110例如可以是来自网络或者其他媒体的文章、论坛中各个用户的评论等。一组文档110中的每个文档可以包括不同数量的词语130、132、……、以及134等。在此,主题是指文档中的词语所表示的语义结构的主题,也即文档中包括的词语所讨论的话题。如图1所示,一组文档110可以涉及多个主题,例如,主题120、……、以及主题122等。进一步,各个主题120、……、以及主题122可以分别涉及不同的词语。例如,主题120可以涉及词语130、132和134,而主题122可以涉及主题130和132。在下文中,将参见图2详细介绍文档、主题和词语的更多细节。图2示意性示出了特定文档、该特定文档所包括的词语和主题之间的关系的示意图200。图2示意性示出了特定文档210,该文档210包括文本:“尼康(nikon)和佳能(canon)两家照相机厂商在市场中处于竞争地位,两家厂商的产品各具优势。例如,对于照相机屏幕而言,清晰度……”。目前已经提出了主题模型的概念,基于主题模型来分析文档210,可以获得该文档210所涉及的多个主题220、222和224。例如,文档210可以涉及如下三个主题:主题220“尼康”、主题222“佳能”和主题224“屏幕”。进一步,基于主题模型还可以确定与各个主题相关联的词语。例如,主题220涉及词语:尼康、nikon等,主题222涉及词语佳能、canon等,而主题224涉及词语:屏幕、清晰度等。然而,主题模型涉及面向所有方面来对文档的全部词语进行全分析,以便挖掘所有的主题。如果期望获得给定目标方面的主题,则需要在挖掘到的全部主题中寻找与目标方面相关的主题。因而,基于主题模型获得的主题是粗糙的,并不能详尽地描述目标方面。例如,如果期望分析有关照相机的一组文档中的目标方面“屏幕”下的更多主题,则需要首先获得一组文档所涉及的全部方面,继而在全部方面中基于“屏幕”进行过滤。此时,如何以更为细化的粒度来处理文档以获得在指定目标方面下的(一个或多个)主题,成为一个有待解决的问题。为了至少部分地解决上述技术方案中的不足,根据本公开的示例性实现,提供了一种文档处理以便确定文档所涉及的目标方面下的主题的技术方案。将会理解,不同于传统的基于主题模型来确定文档主题的技术方案,在此的主题是指预定的目标方面下的主题。在此,主题是指文档中的词语所表示的语义结构的主题,也即表示词语的多项概率分布,一个主题下的具有较高概率词语可以表达这个主题语义上的含义。在下文中,将参见图3概括描述本公开的示例性实现。图3示意性示出了根据本公开内容的示例性实现方式的用于文档处理的技术方案的框图300。如图3所示,首先确定一组文档110中包括的一组词语310。将会理解,在此的一组词语310是一组文档110中的全部文档中包括的全部词语。在此示例性实现方式中,提出了伪文档的概念,可以基于一组文档110生成一组伪文档320。在此的一组伪文档320中的一个伪文档描述一组词语310中的一个词语与一组词语310中的其他词语之间的关联关系。进一步,可以基于一组伪文档320与指定目标方面的关键字330来确定一组伪文档320中的各个词语与关键字330之间的关联关系的概率分布340。在此,关键字330是指定目标方面的关键字。在此关键字330指定期望确定一组文档110中包括的主题所属于的方面。例如,如果一组文档110是讨论照相机相关内容的文档,并且期望确定一组文档110中的与照相机的“屏幕”相关的主题,则此时关键字可以是“屏幕”。又例如,如果期望确定一组文档110中的与照相机的“重量”相关的主题,则此时关键字可以是“重量”。继而,可以基于概率分布340,确定一组文档110所涉及的与目标方面相关联的至少一个主题350。具体地,假设目标方面的关键字330为“屏幕”,则可以从一组文档110中确定目标方面下的一个或多个主题。例如,可以确定“屏幕”方面下的主题:图片、菜单、成像。基于概率分布340,确定一组文档110所涉及的与目标方面相关联的至少一个主题。例如,对于目标方面“屏幕”而言,主题例如可以涉及屏幕显示的“图片”、屏幕显示的“菜单”、以及屏幕的“成像”等多个子方面。以此方式,可以以更为准确的方式确定一组文档中在目标方面下的主题。在下文中,将参见图4描述有关文档处理的更多细节。图4示意性示出了根据本公开内容的示例性实现方式的用于文档处理的方法400的流程图。在框410处,确定一组文档110中包括一组词语310。在此的一组文档110(例如,n个文档)表示待分析的一组文档。一组文档110中的每个文档可以包括不同数量的词语,在此的一组词语310是指全部文档中的词语的总和。假设一组文档110中的n个文档中的每个文档分别包括n1、n2、……、以及nn个词语,则此时一组词语310可以包括m个词语,并且m=n1+n2+…+nn。根据本公开的示例性实现方式,可以针对一组文档110中的各个文档执行文本处理,以从一组文档110中提取具有语义的词语以作为一组词语310。将会理解,在此的文本处理可以涉及从文档中过滤掉冗余词语、不具有实际语义的词语或者其他不必要的成分,进而提取具有语义的词语作为一组词语310中的词语。以此方式,可以确保执行文档处理的基础可以真正反映文档内容并且具有实际语义含义。在框420处,基于一组文档110生成一组伪文档310。将会理解,在此一组伪文档320中的伪文档描述一组词语310中的词语与一组词语中的其他词语之间的关联关系。在此一组伪文档320中的伪文档数量与一组词语310中的词语数量相同。换言之,一个词语对应于一个伪文档,因而基于包括m个词语的一组词语310,可以生成总计m个伪文档。根据本公开的示例性实现方式,可以针对一组文档110中的每个词语来逐一生成相应的伪文档。例如,对于一组词语310中的第一词语,可以生成相应的第一伪文档。具体地,可以基于第一词语与一组词语310中的多个其他词语之间的共同出现,确定第一词语与多个其他词语之间的共同出现频率。进一步,可以基于共同出现频率生成一组伪文档110中的与第一词语相关联的伪文档。举例而言,假设词语“图片”为一组词语310中的第一个词语,并且其他词语包括“颜色”、……、“镜头”等。此时可以确定词语“图片”是否与其他词语“颜色”、……、“镜头”共同出现。如果共同出现,则可以增加词语“图片”与其他词语共同出现的频率。例如,假设“图片”与“颜色”共同出现两次,则此时可以将共同出现频率设置为2。如果并未共同出现,则可以将共同出现频率设置为0。可以采用如下文表1所示的数据结构来存储共同出现的频率。表1词语共同出现的频率图片颜色…镜头图片02…1颜色20…1………0…镜头11…0表1包括m+1个行(序号为第0行至第m行),其中第1行至第m行分别表示m个词语中的各个词语。表1包括m+1个列(序号为第0列至第m列),其中第1列至第m列分别表示m个词语中的各个词语。如表1所示,在表中位于第i行、第j列的交叉点处的数值表示m个词语中的第i个词语和第j个词语共同出现的频率。例如,在词语“图片”和“颜色”的交叉点处的数值2表示:词语“图片”和“颜色”共同出现的频率为2。通过针对m个词语中的每个词语执行上文描述的处理,即可获得m个词语中的任意两个词语共同出现的频率,进而确定如表1所示的共同出现频率。将会理解,上文表1仅仅示意性示出了用于存储共同出现频率的一个示例,根据本公开的示例性实现方式,还可以采用其他数据结构来存储共同出现频率。例如,可以采用矩阵或者其他方式进行存储。将会理解,可以基于不同规则来定义“共同出现”的含义。例如,一个规则可以指定如果两个词语同时出现在一个段落中表示共同出现。又例如,一个规则可以指定如果两个词语同时出现在一个句子中表示共同出现。根据本公开的示例性实现方式,还可以指定其他规则来定义共同出现,例如可以基于两个词语之间的距离来确定两个词语是否共同出现。根据本公开的示例性实现方式,共同出现可以指两个词语之间的距离小于预定距离。在此的距离可以是两个词语之间所包括的词语的数量。备选地,距离还可以利用两个词语所在的位置之间的差异来确定。根据本公开的示例性实现方式,可以根据预定距离来设置滑动窗口的长度,并基于滑动窗口来确定共同出现频率。可以基于预定长度的滑动窗口来扫描一组文档110中的各个文档。例如,可以将预定长度设置为10或者其他数值,并利用滑动窗口来逐一扫描n个文档中的每个文档。应当理解,在此的预定长度“10”可以是滑动窗口中包括的词语的数量。尽管每个词语可能包括不同的字数,在滑动窗口的滑动过程中,以词语为单位进行滑动。例如,滑动步长可以设置为一个或多个词语。在下文中,将参见图5a和图5b描述有关滑动窗口的更多细节。可以首先将滑动窗口置于文档210的开始位置,并且向文档210的结尾执行滑动。如果在滑动窗口的当前范围内确定两个词语共同出现,增加这两个词语共同出现频率。参见图5a,该图示意性示出了根据本公开内容的示例性实现方式的基于滑动窗口来确定词语的共同出现的框图500a。在图5a中,示出了滑动窗口510a在经过多次滑动后位于文档210中间位置的情况。在此示例中,词语“屏幕”和“清晰度”同时位于滑动窗口510a内,因而可以将词语“屏幕”和“清晰度”的共同出现频率增加1。采用滑动窗口的方式,可以以更为简单并且高效的方式来确定各个词语共同出现的频率。在已经处理完滑动窗口510a中的各个词语之后,可以将滑动窗口510a移动预定步长(例如,移动1个词语的位置)。例如,可以将滑动窗口510a向后移动1个词语,以到达如图5b所示的位置。图5b示意性示出了根据本公开内容的示例性实现方式的基于滑动窗口来确定词语的共同出现的框图500b。在图5b中,滑动窗口510b仍然包括词语“屏幕”和“清晰度”,此时可以将两个词语的共同出现频率再次增加1。继而,可以将滑动窗口510b向后移动,并以类似方式确定其他词语的共同出现频率。在扫描全部n个文档之后,可以生成m个词语中的任意两个词语的共同出现频率(如上文表1所示)。基于如表1所示的共同出现频率,可以针对一组词语310中的每个词语来生成相应的伪文档,以便生成一组伪文档110。首先参见图6描述伪文档的格式,图6示意性示出了根据本公开内容的示例性实现方式的伪文档的格式的框图600。如图6所示,伪文档可以包括两部分:文档头610和文档体620。该文档头610可以表示伪文档是针对哪个词语生成的,而文档体620可以包括与文档头610中的词语共同出现的一组词语310中的其他词语。以此方式,通过文档头610,可以以简单的方式表示伪文档是针对哪个词语生成的。根据本公开的示例性实现方式,可以向伪文档的文档头610中添加作为比较基础的词语,并且可以向伪文档的文档体620中添加与该词语共同出现的词语。以上文表1中最后一行“镜头”为示例,词语“镜头”是作为比较基础的词语,因而可以向文档头610中添加“镜头”。词语“图片”、“颜色”是与词语“镜头”共同出现的词语,因而可以向文档体620中添加“图片”、“颜色”。以此方式,可以获得如下文表2示意性示出了伪文档。表2针对词语“镜头”的伪文档文档头文档体镜头图片,颜色,…根据本公开的示例性实现方式,在向文档体620中添加词语时,需要考虑词语的共同出现的频率。基于共同出现频率,向文档体620中添加词语。如表1中的第一行所示,“颜色”与“图片”共同出现2次,而“镜头”与“图片”共同出现1次。此时,应当向文档体620中加入2次“颜色”并加入1次“镜头”。因而,针对词语“图片”的伪文档将如下表3所示。表3针对词语“图片”的伪文档文档头文档体图片颜色,颜色,…,镜头根据本公开的示例性实现方式,文档体620中包括的词语是无序的。换言之,文档体是多个词语的集合,而各个词语之间的顺序是无关的。在表2所示的伪文档中,针对词语“镜头”生成的伪文档还可以表示为下文表4所示。表4针对词语“镜头”的伪文档文档头文档体镜头颜色,图片,…在此实现方式中,可以仅考虑各个词语是否共同出现,而并不需要考虑各个词语的先后位置。并且,文档体620中的可以包括多个相同的词语,以指示该词语与文档头610中的词语共同出现了多次。以此方式可以以更为有效的方式确定一组文档110中的与目标方面相关的词语。返回图4,在框430处,基于指定一组文档110的目标方面的关键字330以及一组伪文档320,确定一组词语310中的各个词语与关键字330之间的关联的概率分布340。具体地,根据本公开的示例性实现方式,提出了一种描述词语在由关键字330指定的目标方面下的概率分布的概率分布模型。在此的概率分布模型包括将会对词语和由关键字330指定的目标方面之间的关联关系产生影响的多个参数。以此方式,通过调整各个参数的数值,可以以更为灵活的方式来控制确定主题的过程。在下文中,将参见图6描述有关确定概率分布模型的更多细节。图7示意性示出了根据本公开内容的示例性实现方式的概率分布模型700中的各个参数的框图。在下文中,将参见图7描述概率分布模型700中的各个参数的具体含义。如图7所示,概率分布模型700可以包括多个参数。参数n表示一组文档110中的文档的数量。参数k表示在由关键字330指定的方面下期望获得多少个主题。例如,假设关键字为“屏幕”并且k被设置为数值3,则此时采用概率分布模型700可以获取“屏幕”方面下的3个主题。如图7所示,对于n个文档而言,每个文档d涉及一个伯努利分布πd,该分布由参数为γ的共轭先验beta分布生成,用来表示这个文档和目标方面的相关程度。此外,存在n个多项分布该分布服从参数为α的狄利克雷分布,每个θd表示文档d到目标方面的多项分布。可以一个指示变量r,用于表示输入的词语是否和目标方面相关。当r=1时,表示这个词语和目标方面相关,是由目标方面的关键字的多项分布生成的。当r=0时,表示这个词语和目标方面无关。将会理解,由于本公开的目的在于获取由关键字330指定的目标方面下的主题,因而对于每篇文档中和目标方面不相关的词语,可以由该文档下的文档到词的多项分布生成。此外,引入了一个相关性先验变量x,x=1表示文档d中包含有关键字集合s中的词语,并认为文档d和目标方面完全相关。通过配置多个参数的数值,并将一组伪文档320中的词语和关键字330训练概率分布模型,即可获取一组词语310中的各个词语与关键字330相关联的概率分布。图8示意性示出了根据本公开内容的示例性实现方式的基于概率分布模型700来确定词语与关键字330之间的关联的概率分布的框图800。采用如图8所示的操作,可以获得一组文档110中的一组词语310在由关键字330所指定的目标方面下的概率分布。具体地,可以将一组伪文档320和关键字330作为输入,用于训练图7所示的概率分布模型700,以便获得相应的概率分布340。继续上文的示例,假设关键字330为“屏幕”,基于概率分布模型700可以获得m个词语中的各个词语在“屏幕”这一方面下的概率分布。换言之,m个词中的每个词都具有相应的概率,该概率表示词语与“屏幕”这一方面相关联的可能性。根据本公开的示例性实现方式,还可以预先确定期望确定的主题的数量,上文中的参数k表示主题的数量。如果期望在“屏幕”这一方面下获取3个主题,则可以将参数k设置为3。如果期望在“屏幕”这一方面下获取4个主题,则可以将参数k设置为4。继而,按照上文描述的方法,即可获得词语在由关键字330指定主题下的概率分布。下文表5示意性示出了一个主题中的词语的概率分布的示例:表5词语在一个主题中的概率分布的示例序号词语概率1图片0.0022颜色0.001………m镜头0.0005如表5所示,第一列表示m个词语中的各个词语的序号,第二列表示m个词语中的各个词语,而第三列表示各个词语是一个主题中的概率。尽管表5仅示意性示出了各个词语在一个主题中的概率分布,当k=3时,可以获得3个主题下的3个概率分布,并且每个主题下的概率分布的格式都类似于表5。将会理解,在每个主题下,第三列中所示的概率的具体数值将有所不同。返回图4,在框440处,基于概率分布340,确定一组文档110所涉及的与目标方面相关联的至少一个主题350。具体地,可以基于词语在一个主题下的概率分布来确定一个主题。根据本公开的示例性实现方式,可以基于概率分布340,将多个词语进行排序。继而基于排序的多个词语,确定至少一个主题中的主题。对于如上文表5所示的一个主题下的概率分布而言,可以按照第三列中概率的数值从大到小进行排序,以获得如表6所示的排序后的概率分布。表6排序后的概率分布排名词语概率1图片0.0022颜色0.0013镜头0.0005………如表6所示,表中的第一列表示词语按照概率的高低进行排序的排名,第二列表示m个词语中的词语,而第三列表示词语的相应概率。在表6中按照概率的高低进行排序之后,原本位于表5中最后一行的词语“镜头”被重新排列到排名第3的位置。此时,在该主题下排名最高的3个词语分别是“图片”、“颜色”和“镜头”。因而,此时可以基于排名前几位的词语来确定主题的详细信息。在此示例中,从表6所获得的主题可以涉及图片的颜色和镜头相关的内容。将会理解,由于排名最高的词语与主题的相关性更为紧密,因而以此方式确定的主题将更为准确。将会理解,尽管在表5和表6中仅给出了3个词语的概率的简单示例,在具体应用环境中,一组文档110可以包括成千上万甚至更多的词语。此时按照上文描述的方法所获得的表5和表6中将包括更多的行,并且每行表示m个词语中的一个词语的概率。根据本公开的示例性实现方式,还可以从排序后的概率分布中选择更多数量的词语。例如,可以选择排名位于前10的词语。假设输入的关键字为“屏幕”,并且设置k=3以获得3个主题。下文表7示出了基于概率分布而获得的在目标方面“屏幕”之下的3个主题:图片、菜单、成像。在此仅示出了三个主题中概率大小排在前10位的词语,其中以下划线示出的词语表示与目标方面不相关的词语。表7“屏幕”方面下的三个主题根据本公开的示例性实现方式,针对同一组文档110,假设输入的关键字330为“重量”,并且设置k=3,则可以生成如下文表8所示的3个主题:镜片、电池、携带。在此仅示出了三个主题中概率大小排在前10位的词语,其中以下划线示出的词语表示与目标方面“重量”不相关的词语。表8“重量”方面下的三个主题根据本公开的示例性实现方式,可以充分考虑一组文档110中的各个词语与关键字330之间的关联关系,并且仅生成在由关键字330所指定的目标方面下的一个或多个。以此方式,可以改进现有的主题模型中不能指定目标方面的缺陷。进一步,采用本公开的示例性实现方式,还可以指定主题的数量,通过设置概率分布模型中的k的数值,可以以更为精细的粒度来确定指定目标方面下的一个或多个主题。在上文中已经详细描述了如何处理文档的方法400的多个实现方式。根据本公开的示例性实现方式,还提供了用于处理文档的装置。在下文中,将参见图9详细描述。图9示意性示出了根据本公开内容的示例性实现方式的文档处理装置900的框图。如图9所示,该装置900包括:获取模块910,配置用于获取一组文档中包括一组词语;生成模块920,配置用于基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系;确定模块930,配置用于基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布;以及主题模块940,配置用于基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。根据本公开的示例性实现方式,生成模块920包括:伪文档生成模块,配置用于生成一组文档中的与一组词语中的第一词语相关联的第一伪文档。根据本公开的示例性实现方式,伪文档生成模块包括:频率确定模块,配置用于基于第一词语与一组词语中的多个其他词语之间的共同出现,确定第一词语与多个其他词语之间的共同出现频率;以及建立模块,配置用于基于共同出现频率建立一组伪文档中的与第一词语相关联的第一伪文档。根据本公开的示例性实现方式,确定模块930包括:扫描模块,配置用于基于预定长度的滑动窗口来扫描一组文档中的各个文档;以及增加模块,配置用于响应于确定第一词语在滑动窗口的当前范围内与多个其他词语中的词语共同出现,增加共同出现频率;以及移动模块,配置用于将滑动窗口移动预定步长。根据本公开的示例性实现方式,建立模块包括:文档头生成模块,配置用于向第一伪文档添加第一词语以作为第一伪文档的文档头;以及文档体生成模块,配置用于向第一伪文档添加与第一词语共同出现的第二词语以作为第一伪文档的文档体。根据本公开的示例性实现方式,文档体生成模块包括:添加模块,配置用于基于共同出现频率,向第一伪文档中添加第二词语。根据本公开的示例性实现方式,文档体中包括的词语是无序的。根据本公开的示例性实现方式,确定模块930包括:获取模块,配置用于获取描述词语与关键字之间的关联的概率分布模型;以及训练模块,配置用于基于一组伪文档中的一组词语和关键字训练概率分布模型,以获取一组词语中的各个词语与关键字相关联的概率分布。根据本公开的示例性实现方式,训练模块包括:数量获取模块,配置用于获取与目标方面相关联的至少一个主题的数量;以及基于数量的训练模块,配置用于基于数量和概率分布模型,获取数量的至少一个概率分布。根据本公开的示例性实现方式,主题模块940包括:排序模块,配置用于基于概率分布,将多个词语进行排序;以及标识模块,配置用于基于排序的多个词语,标识至少一个主题中的主题。根据本公开的示例性实现方式,获取模块910包括:文本处理模块,配置用于针对一组文档中的文档执行文本处理,以从一组文档中提取具有语义的词语以作为一组词语。图10示出了能够实施本公开内容的多个实现方式的计算设备1000的框图。设备1000可以用于实现图4描述的方法。如图所示,设备1000包括中央处理单元(cpu)1001,其可以根据存储在只读存储器(rom)1002中的计算机程序指令或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序指令,来执行各种适当的动作和处理。在ram1003中,还可存储设备1000操作所需的各种程序和数据。cpu1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。设备1000中的多个部件连接至i/o接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。处理单元1001执行上文所描述的各个方法和处理,例如方法400。例如,在一些实现方式中,方法400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实现方式中,计算机程序的部分或者全部可以经由rom1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram1003并由cpu1001执行时,可以执行上文描述的方法400的一个或多个步骤。备选地,在其他实现方式中,cpu1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法400。根据本公开内容的示例性实现方式,提供了一种其上存储有计算机程序的计算机可读存储介质。程序被处理器执行时实现本公开所描述的方法。本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。用于实施本公开内容的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。在本公开内容的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开内容的范围的限制。在单独的实现方式的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1