用于文本相似度计算的分词方法、装置、设备和介质与流程

文档序号：25022839发布日期：2021-05-11 16:47阅读：97来源：国知局

本发明涉及计算机领域，具体而言，涉及一种用于文本相似度计算的分词方法、装置、设备和介质。

背景技术：

目前，在进行文本相似度计算的时候，需要以分词作为基础和前提。分词是将连续的字序列按照一定的规范重新组合成词序列的过程。

现在常用的分词方法有基于字符串匹配的分词方法，采用这种分词方法需要按照预设的扫描方向，以预设的匹配长度对待分词的文本进行扫描，通过遍历整个待分词的文本，得到分词结果。该分词方法是一种通用方法，能够适用于各类应用场景，如适用于机器翻译的应用场景。对于特定的文本相似度计算的场景，未考虑文本相似度计算的需求进行分词，针对性较差，从而导致该分词结果在文本相似度计算中的应用效果不佳。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种用于文本相似度计算的分词方法、装置、设备和介质，以至少提高分词效果。

根据本发明实施例的一个方面，提供了一种用于文本相似度计算的分词的方法，包括：获取用于计算文本相似度的至少两个文本对应的文本领域信息；确定与上述文本领域信息对应的语义树状层次结构，上述语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构；根据上述语义树状层次结构，在上述至少两个文本中确定分词关键信息；基于分词关键信息对上述至少两个文本进行分词操作，得到分词结果。

作为一种可选的实施方式，上述确定与上述文本领域信息对应的语义树状层次结构，包括：确定与上述文本领域信息对应的词语树状层次结构和义原树状层次结构，上述语义树状层次结构至少包括上述词语树状层次结构和上述义原树状层次结构。

作为一种可选的实施方式，上述按照上述语义树状层次结构，在上述至少两个文本中确定分词关键信息，包括：确定与上述词语树状层次结构对应的词语关键信息，以及确定与上述义原树状层次结构对应的义原关键信息；基于上述词语关键信息和上述义原关键信息，在上述至少两个文本中确定分词关键信息。

作为一种可选的实施方式，上述基于分词关键信息对上述至少两个文本进行分词操作，得到分词结果，包括：在上述至少两个文本中确定上述分词关键信息所处的第一文本位置，以及在上述至少两个文本中确定分隔符信息所处的第二文本位置；根据上述第一文本位置和上述第二文本位置对上述至少两个文本进行分词操作，得到分词结果。

作为一种可选的实施方式，在上述基于分词关键信息对上述至少两个文本进行分词操作，得到分词结果之后，上述方法还包括：将上述分词结果中的各组待对比信息进行文本相似度计算，得到各组对应的文本相似度；对上述各组对应的文本相似度进行整合处理，得到目标文本相似度。

根据本发明实施例的另一方面，还提供了一种用于文本相似度计算的分词装置，包括：领域获取单元，用于获取用于计算文本相似度的至少两个文本对应的文本领域信息；结构确定单元，用于确定与上述文本领域信息对应的语义树状层次结构，上述语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构；信息确定单元，用于根据上述语义树状层次结构，在上述至少两个文本中确定分词关键信息；分词操作单元，用于基于分词关键信息对上述至少两个文本进行分词操作，得到分词结果。

作为一种可选的实施方式，上述结构确定单元用于确定与上述文本领域信息对应的语义树状层次结构的方式具体为：确定与上述文本领域信息对应的词语树状层次结构和义原树状层次结构，上述语义树状层次结构至少包括上述词语树状层次结构和上述义原树状层次结构。

作为一种可选的实施方式，上述信息确定单元用于按照上述语义树状层次结构，在上述至少两个文本中确定分词关键信息的方式具体为：确定与上述词语树状层次结构对应的词语关键信息，以及确定与上述义原树状层次结构对应的义原关键信息；基于上述词语关键信息和上述义原关键信息，在上述至少两个文本中确定分词关键信息。

作为一种可选的实施方式，上述分词操作单元用于基于分词关键信息对上述至少两个文本进行分词操作，得到分词结果的方式具体为：在上述至少两个文本中确定上述分词关键信息所处的第一文本位置，以及在上述至少两个文本中确定分隔符信息所处的第二文本位置；根据上述第一文本位置和上述第二文本位置对上述至少两个文本进行分词操作，得到分词结果。

作为一种可选的实施方式，上述装置还包括：相似度计算单元，用于在上述基于分词关键信息对上述至少两个文本进行分词操作，得到分词结果之后，将上述分词结果中的各组待对比信息进行文本相似度计算，得到各组对应的文本相似度；对上述各组对应的文本相似度进行整合处理，得到目标文本相似度。

根据本发明实施例的又一方面，还提供了一种用于文本相似度计算的分词设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的用于文本相似度计算的分词方法。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述用于文本相似度计算的分词方法。

在本发明实施例中，获取用于计算文本相似度的至少两个文本对应的文本领域信息；确定与文本领域信息对应的语义树状层次结构，语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构；根据语义树状层次结构，在至少两个文本中确定分词关键信息；基于分词关键信息对至少两个文本进行分词操作，得到分词结果。这一过程可以在计算文本相似度的场景下，针对需要进行文本相似度计算的文本领域，有针对性地确定分词关键信息，得到适用于当前场景的分词结果，针对性更强，分词效果更好。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的用于文本相似度计算的分词方法的流程图；

图2是根据本发明实施例的另一种可选的用于文本相似度计算的分词方法的流程图；

图3是根据本发明实施例的一种可选的用于文本相似度计算的分词装置的结构示意图；

图4是根据本发明实施例的一种可选的用于文本相似度计算的分词设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种可选的用于文本相似度计算的分词方法，如图1所示，该用于文本相似度计算的分词方法包括：

s101，获取用于计算文本相似度的至少两个文本对应的文本领域信息。

本发明实施例中，执行主体(可以为电子设备或者服务器)在计算文本相似度的场景中，可以先获取用于计算文本相似度的至少两个文本对应的文本领域信息。通常来讲，进行计算文本相似度的至少两个文本应该属于相同或者相似的文本领域。其中，文本领域信息为用于指示文本内容所属领域的信息，文本相似度用于描述文本之间的相似程度。在该至少两个文本所属领域为相似领域的情况下，取其上位的领域信息作为文本领域信息。具体的，获取文本领域信息的方式可以为对文本的摘要、索引或者目录等部分的内容进行文本识别，确定所属领域。可以先根据文本的格式，确定文本的摘要、索引或者目录所处的位置，并对该位置的文本内容进行识别，得到文本领域信息。

s102，确定与文本领域信息对应的语义树状层次结构，语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构。

本发明实施例中，在获取到文本领域信息之后，可以确定与文本领域信息对应的语义树状层次结构。其中，针对不同的文本领域信息，可以对应有不同的语义树状层次结构，可以预先存储在数据库中，在获取到文本领域信息之后，在数据库中查找与文本领域信息对应的语义树状层次结构。其中，语义树状层次结构是通过计算词语语义距离得到词语之间的关联程度，再根据关联程度将各个词语组织在树形结构中计算。同一层级的词语的语义之间相同或者相近，相隔层级越多的词语之间的语义差距越大。

s103，根据语义树状层次结构，在至少两个文本中确定分词关键信息。

本发明实施例中，可以根据语义树状层次结构，在至少两个文本中确定分词关键信息，其中，分词关键信息为用于指示分词位置的词语信息。具体的，可以获取语义树状层次结构中每个层次对应的词语，基于相邻层次之间的词语，确定出相应的分词关键词，将该语义树状层次结构中的各个分词关键词整合，可以得到分词关键信息。

s104，基于分词关键信息对至少两个文本进行分词操作，得到分词结果。

本发明实施例中，可以基于分词关键信息中的多个关键词，对至少两个文本中的每个文本进行文本扫描，确定出该关键词所对应的分词位置，在该分词位置进行分词，将每个文本拆分成多个语句，得到分词结果。其中，分词结果包含至少两个文本中每个文本对应的多个语句。

进一步地，本发明实施例提供了另一种可选的用于文本相似度计算的分词方法，如图2所示，该用于文本相似度计算的分词方法包括：

s201，获取用于计算文本相似度的至少两个文本对应的文本领域信息。

s202，确定与文本领域信息对应的词语树状层次结构和义原树状层次结构。

本发明实施例中，语义树状层次结构至少包括词语树状层次结构和义原树状层次结构，语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构。词语树状层次结构是按照词语的语义划分得到的具有层级关系的结构，义原树状层次结构为按照义原的语义划分得到的具有层级关系的结构。词语树状层次结构是通过计算词语语义距离得到词语之间的关联程度，再根据关联程度将各个词语组织在树形结构中计算。同一层级的词语的语义之间相同或者相近，相隔层级越多的词语之间的语义差距越大。义原树状层次结构是通过计算义原语义距离得到义原之间的关联程度，再根据关联程度将各个义原组织在树形结构中计算。同一层级的义原的语义之间相同或者相近，相隔层级越多的义原之间的语义差距越大。

s203，确定与词语树状层次结构对应的词语关键信息，以及确定与义原树状层次结构对应的义原关键信息。

本发明实施例中，可以获取词语树状层次结构中每个层次对应的词语，基于相邻层次之间的词语，确定出相应的分词关键词，将该词语树状层次结构中的各个词语分词关键词整合，可以得到词语关键信息。以及可以获取义原树状层次结构中每个层次对应的义原，基于相邻层次之间的义原，确定出相应的义原分词关键词，将该义原树状层次结构中的各个分词关键词整合，可以得到义原关键信息。

s204，基于词语关键信息和义原关键信息，在至少两个文本中确定分词关键信息。

本发明实施例中，可以综合词语关键信息和义原关键信息，将词语关键信息中包含的词语分词关键词和义原关键信息中包含的义原分词关键词确定为分词关键信息。

s205，在至少两个文本中确定分词关键信息所处的第一文本位置，以及在至少两个文本中确定分隔符信息所处的第二文本位置。

本发明实施例中，可以在至少两个文本中确定上述的词语分词关键词和义原分词关键词所处的第一文本位置，还可以确定分隔符所处的第二文本位置。分隔符为用于分隔文本的符号，可以包括但不限于逗号、句号、分号等等，本发明实施例中不做限定。

s206，根据第一文本位置和第二文本位置对至少两个文本进行分词操作，得到分词结果。

本发明实施例中，可以在第一文本位置和第二文本位置将文本进行分隔，得到多个语句，从而得到分词结构。

s207，将分词结果中的各组待对比信息进行文本相似度计算，得到各组对应的文本相似度。

本发明实施例中，对于分词结果中各个文本对应的多个语句，可以将文本之间处于相同位置的语句作为一组待对比信息，也即是待对比信息中包含多个文本中的多个语句。在进行文本相似度计算的时候，可以计算每组对应的文本相似度。

s208，对各组对应的文本相似度进行整合处理，得到目标文本相似度。

本发明实施例中，整合处理可以包括但不限于对各个文本相似度直接相加，对各个文本相似度加权求和，本发明实施例中不做限定。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述用于文本相似度计算的分词方法的用于文本相似度计算的分词装置，如图3所示，包括：

领域获取单元301，用于获取用于计算文本相似度的至少两个文本对应的文本领域信息。

本发明实施例中，在计算文本相似度的场景中，可以先获取用于计算文本相似度的至少两个文本对应的文本领域信息。通常来讲，进行计算文本相似度的至少两个文本应该属于相同或者相似的文本领域。其中，文本领域信息为用于指示文本内容所属领域的信息，文本相似度用于描述文本之间的相似程度。在该至少两个文本所属领域为相似领域的情况下，取其上位的领域信息作为文本领域信息。具体的，获取文本领域信息的方式可以为对文本的摘要、索引或者目录等部分的内容进行文本识别，确定所属领域。可以先根据文本的格式，确定文本的摘要、索引或者目录所处的位置，并对该位置的文本内容进行识别，得到文本领域信息。

结构确定单元302，用于确定与文本领域信息对应的语义树状层次结构，语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构。

信息确定单元303，用于根据语义树状层次结构，在至少两个文本中确定分词关键信息。

分词操作单元304，用于基于分词关键信息对至少两个文本进行分词操作，得到分词结果。

作为一种可选的实施方式，上述结构确定单元302用于确定与上述文本领域信息对应的语义树状层次结构的方式具体为：确定与上述文本领域信息对应的词语树状层次结构和义原树状层次结构，上述语义树状层次结构至少包括上述词语树状层次结构和上述义原树状层次结构。

作为一种可选的实施方式，上述信息确定单元303用于按照上述语义树状层次结构，在上述至少两个文本中确定分词关键信息的方式具体为：确定与上述词语树状层次结构对应的词语关键信息，以及确定与上述义原树状层次结构对应的义原关键信息；基于上述词语关键信息和上述义原关键信息，在上述至少两个文本中确定分词关键信息。

进一步的，可以综合词语关键信息和义原关键信息，将词语关键信息中包含的词语分词关键词和义原关键信息中包含的义原分词关键词确定为分词关键信息。

作为一种可选的实施方式，上述分词操作单元304用于基于分词关键信息对上述至少两个文本进行分词操作，得到分词结果的方式具体为：在上述至少两个文本中确定上述分词关键信息所处的第一文本位置，以及在上述至少两个文本中确定分隔符信息所处的第二文本位置；根据上述第一文本位置和上述第二文本位置对上述至少两个文本进行分词操作，得到分词结果。

进一步的，可以在第一文本位置和第二文本位置将文本进行分隔，得到多个语句，从而得到分词结构。

本发明实施例中，对于分词结果中各个文本对应的多个语句，可以将文本之间处于相同位置的语句作为一组待对比信息，也即是待对比信息中包含多个文本中的多个语句。在进行文本相似度计算的时候，可以计算每组对应的文本相似度。整合处理可以包括但不限于对各个文本相似度直接相加，对各个文本相似度加权求和，本发明实施例中不做限定。

根据本发明实施例的又一个方面，还提供了一种用于实施上述用于文本相似度计算的分词方法的用于文本相似度计算的分词设备，如图4所示，该用于文本相似度计算的分词设备包括存储器402和处理器404，该存储器402中存储有计算机程序，该处理器404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述用于文本相似度计算的分词设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

s1，获取用于计算文本相似度的至少两个文本对应的文本领域信息。

s2，确定与文本领域信息对应的语义树状层次结构，语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构。

s3，根据语义树状层次结构，在至少两个文本中确定分词关键信息。

s4，基于分词关键信息对至少两个文本进行分词操作，得到分词结果。

可选地，本领域普通技术人员可以理解，图4所示的结构仅为示意，用于文本相似度计算的分词设备也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices，mid)、pad等终端设备。图4其并不对上述用于文本相似度计算的分词设备的结构造成限定。例如，用于文本相似度计算的分词设备还可包括比图4中所示更多或者更少的组件(如网络接口等)，或者具有与图4所示不同的配置。

其中，存储器402可用于存储软件程序以及模块，如本发明实施例中的用于文本相似度计算的分词方法和装置对应的程序指令/模块，处理器404通过运行存储在存储器402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的用于文本相似度计算的分词方法。存储器402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器402可进一步包括相对于处理器404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器402具体可以但不限于用于存储操作指令等信息。作为一种示例，如图4所示，上述存储器402中可以但不限于包括上述用于文本相似度计算的分词装置中的领域获取单元301、结构确定单元302、信息确定单元303以及分词操作单元304。此外，还可以包括但不限于上述模块构建装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置306包括一个网络适配器(networkinterfacecontroller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置306为射频(radiofrequency，rf)模块，其用于通过无线方式与互联网进行通讯。

此外，上述用于文本相似度计算的分词设备还包括：显示器308，用于显示上述显示内容；和连接总线610，用于连接上述用于文本相似度计算的分词设备中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

s1，获取用于计算文本相似度的至少两个文本对应的文本领域信息。

s2，确定与文本领域信息对应的语义树状层次结构，语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构。

s3，根据语义树状层次结构，在至少两个文本中确定分词关键信息。

s4，基于分词关键信息对至少两个文本进行分词操作，得到分词结果。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-onlymemory，rom)、随机存取器(randomaccessmemory，ram)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李柯;徐立坤;王振乾
技术所有人：南方电网调峰调频发电有限公司信息通信分公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。