文档的基于命名实体的类别标签添加的制作方法

文档序号:19350645发布日期:2019-12-06 21:21阅读:来源:国知局

技术特征:

1.一种用于代表用户将主题类别归于所收集的文档集合中的文档的计算系统,包括:

处理器;以及

具有内容的存储器,所述内容由所述处理器执行以进行以下操作:

针对所述文档集合中的每个文档,

基于对所述文档的语义分析,识别所述文档的一个或多个直接主题;

将针对所述文档所识别的所述直接主题归于所述文档;

基于跨所述集合中的多个文档的语义分析,识别每个针对所述文档集合的合适子集的一个或多个共同主题;

将每个所识别的共同主题归于所述文档集合中所述共同主题针对其被识别的所述子集中的每个文档;以及

使得标识所述文档集合中的文档的信息与针对被归于所述文档的每个直接类别或共同类别的所述类别的视觉指示一起被显示。

2.根据权利要求1所述的计算系统,其中,所述存储器具有内容,所述内容由所述处理器执行以还进行以下操作:

针对所述文档集合中的每个文档,

识别所述文档所引用的一个或多个命名实体;以及

针对所识别的命名实体中的每个命名实体,获得所识别的命名实体的实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系,并且其中,所获得的实体关系图在对每个文档的所述语义分析和跨所述集合中的所述多个文档的所述语义分析两者中被使用。

3.一种具有被配置为使得计算系统执行一种用于代表用户将主题类别归于所收集的文档集合中的文档的方法的内容的存储器,所述方法包括:

针对所述文档集合中的每个文档,

基于对所述文档的语义分析,识别所述文档的一个或多个直接主题;

将针对所述文档所识别的所述直接主题归于所述文档;

基于跨所述集合中的所述多个文档的语义分析,识别每个针对所述文档集合的合适子集的一个或多个共同主题;

将每个所识别的共同主题归于所述文档集合中所述共同主题针对其被识别的所述子集中的每个文档;以及

使得标识所述文档集合中的文档的信息与针对被归于所述文档的每个直接类别或共同类别的所述类别的视觉指示一起被显示。

4.根据权利要求3所述的存储器,所述方法还包括:

针对所述文档集合中的每个文档,

识别所述文档所引用的一个或多个命名实体;

针对所识别的命名实体中的每个命名实体,获得所识别的命名实体的实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系,并且其中,所获得的实体关系图在对每个文档的所述语义分析和跨所述集合中的所述多个文档的所述语义分析两者中被使用,

所述方法还包括:

将所述实体关系图的集合编译成单个主实体关系图;以及

分析所述主实体关系图以作为用于选择所选择的实体的基础。

5.根据权利要求3所述的存储器,所述方法还包括:

针对所述文档集合中的每个文档,

识别所述文档所引用的一个或多个命名实体;

针对所识别的命名实体中的每个命名实体,获得所识别的命名实体的实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系,并且其中,所获得的实体关系图在对每个文档的所述语义分析和跨所述集合中的所述多个文档的所述语义分析两者中被使用,

其中,所获得的实体关系图中的每个实体关系图具有与在所述文档集合中的文档中所引用的所述命名实体相对应的根以及一个或多个叶,所述方法还包括:

整合在所述集合的所述实体关系图中的每个实体关系图中出现的根到叶路径的集合;以及

分析所述根到叶路径的集合以作为用于选择所选择的实体的基础。

6.根据权利要求3所述的存储器,所述方法还包括:

针对所述文档集合中的每个文档,

识别所述文档所引用的一个或多个命名实体;以及

针对所识别的命名实体中的每个命名实体,获得所识别的命名实体的实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系,并且其中,所获得的实体关系图在对每个文档的所述语义分析和跨所述集合中的所述多个文档的所述语义分析两者中被使用,所述方法还包括:

将所述实体关系图的集合编译成单个主实体关系图,其中,每个实体具有权重,所述权重指示所述实体以相同的实体到叶路径在其中出现的根到叶路径的数量;

从所述主实体关系图编译连通性统计信息,所述连通性统计信息针对所述主图中的每个实体反映所述实体随每个独特父在其中出现的实体到叶路径的数量;以及

分析所述主实体关系图以作为用于选择所选择的实体的基础。

7.根据权利要求3所述的存储器,所述方法还包括:

接收对被归于所述文档集合中的合适集合的类别进行选择的用户输入,所述用户输入选择对所选择的类别的所显示的视觉指示;以及

至少部分地基于所述接收,使得标识所述文档的合适集合中的所述文档的至少一部分的信息被显示。

8.根据权利要求3所述的存储器,所述方法还包括:

接收对被归于所述文档集合中的合适集合的类别进行选择的用户输入,所述用户输入提交与所选择的类别相匹配的查询;以及

至少部分地基于所述接收,使得标识所述文档的合适集合中的所述文档的至少一部分的信息被显示。

9.一种用于代表用户将主题类别归于所收集的文档集合中的文档的计算系统中的方法,所述方法包括:

针对所述文档集合中的每个文档,

识别所述文档所引用的一个或多个命名实体;

针对所识别的命名实体中的每个命名实体,获得实体关系图,所述实体关系图表示所识别的命名实体与直接或间接地关于所识别的命名实体的命名实体之间的关系;

对在针对所述文档所引用的命名实体获得的所述实体关系图中的至少一些实体关系图中出现的实体进行选择;

将所选择的实体作为直接类别归于所述文档;

将所获得的实体关系图添加至实体关系图的集合;

选择在所述实体关系图的所述集合中的所述实体关系图中的至少一些实体关系图中出现的实体;

将所选择的实体归于其实体关系图包含所选择的实体的文档作为共同类别;

接收对被归于所述文档集合中的合适集合的类别进行选择的用户输入;以及

至少部分地基于所述接收,使得标识所述文档的合适集合中的所述文档的至少一部分的信息被显示。

10.根据权利要求9所述的方法,还包括针对所述文档集合的至少一部分中的每个,使得标识所述文档集合中的文档的信息与针对被归于所述文档的每个直接类别或共同类别的所述类别的视觉指示一起被显示。

11.根据权利要求9所述的方法,其中,获得每个实体关系图包括基于每个在一对命名实体之间的个体关系来构建所述实体关系图。

12.根据权利要求9所述的方法,还包括通过以下操作来代表所述用户将文档添加至所收集的文档集合:将所述文档添加至阅读列表、将所述文档添加至书签列表、或者将所述文档添加至历史列表。

13.根据权利要求9所述的方法,还包括:

将所述实体关系图的集合编译成单个主实体关系图;以及

分析所述主实体关系图以作为用于选择所选择的实体的基础。

14.根据权利要求9所述的方法,其中,所获得的实体关系图中的每个实体关系图具有与在所述文档集合中的文档中所引用的所述命名实体相对应的根以及一个或多个叶,所述方法还包括:

整合在所述集合的所述实体关系图中的每个实体关系图中出现的根到叶路径的集合;以及

分析所述根到叶路径的集合以作为用于选择所选择的实体的基础。

15.根据权利要求9所述的方法,其中,所获得的实体关系图中的每个实体关系图具有与在所述文档集合中的文档中所引用的所述命名实体相对应的根以及一个或多个叶,所述方法还包括:

整合在所述集合的所述实体关系图中的每个实体关系图中出现的根到叶路径的集合;

进行以下操作,直到实体被选择为止:

随机地选择所述根到叶路径的集合中的一对根到叶路径;

如果所述一对根到叶路径具有相同的叶实体,则:

如果存在区别的实体,其(a)在这两个根到叶路径中出现,(b)距所述路径的所述叶最远,并且(c)尚未处于归于所述文档集合中的任何文档的实体中,则:

确定所述集合中有多少根到叶路径包含所述区别的实体;

如果所确定的根到叶路径的数量超过阈值,则选择所述区别的实体。


技术总结
描述了一种用于代表用户将主题类别归于所收集文档集合中的文档的工具。针对该文档集合中的每个文档,基于对该文档的语义分析,该工具识别该文档的一个或多个直接主题。该工具将针对该文档所识别的直接主题归于该文档。基于跨该集合的文档的语义分析,该工具识别每个针对该文档集合的合适子集的一个或多个共同主题。该工具将每个所识别的共同主题归于该文档集合中它针对其被识别的子集中的每个文档。

技术研发人员:V·R·格德卡尔;P·纳弥;K·慕克吉
受保护的技术使用者:微软技术许可有限责任公司
技术研发日:2018.04.06
技术公布日:2019.12.06
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1