文件的分类处理方法、装置、服务器及系统与流程

文档序号:25857690发布日期:2021-07-13 16:11阅读:75来源:国知局
文件的分类处理方法、装置、服务器及系统与流程

本公开涉及专利数据处理的技术领域,尤其涉及一种文件的分类处理方法、装置、服务器及系统。



背景技术:

目前,随着科技的不断创新与进步,专利申请的数量也越来越多。而专利资料的维护对业内专利申请方向、专利发展趋势、专利布局等具有重要的参考价值。

专利代理公司或专利申请、管理、运营等专利关联方(用户)维护专利数据时,通常需要对专利进行分类。目前一些相关技术中,用户一侧可以设定一些专利分类规则,由用户内部不同的研发或专利管理人员基于专利内容的理解对专利进行标引,实现对专利进行类别划分。而不同的研发或专利管理人员等对专利进行标引的方式缺乏统一的审核节点,不同标引人员对专利标引的准确性难以保障,存在管理难度大、分类准确性较低的问题。同时,若将标引转换到分类规则所对应的分类字段时,目前也只能逐条进行转换处理,分类效率较低。



技术实现要素:

本公开提供一种文件的分类处理方法、装置、服务器及系统,以至少解决相关技术中文件分类效率低的技术问题。本公开的技术方案如下:

一种文件的分类处理方法,包括:

识别操作账号的操作权限,所述操作权限包括预先设置的不同账号类型可处理的业务内容;

若所述操作账号具有转换操作权限,则根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合,其中,所述的包含第二字段的文件数据集合中的第二字段,包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息;

响应第二字段的第一转换操作,将所述文件数据集合中的第二字段转换为目标字段类型的分类字段;

展示所述第二字段转换操作后的分类结果。

所述方法的另一个实施例中,所述方法还包括:

响应第二字段的修改操作,对所述文件数据集合中的第二字段进行修改,得到修改后的字段数据。

所述操作账号的操作权限包括采用下述方式设置的账号以及对应的权限:

第一账号类型,具有对文件进行标引的权限、无转换操作的权限;

第二账号类型,对所述第一账号类型中的标引账号对文件进行处理产生的数据信息进行修改,以及具有将待转换字段转换为指定类型的业务字段的权限;

第三账号类型,具有转换操作权限,以及根据预设的匹配规则为所述第二账号类型中的转换账号分配允许所述转换账号将待转换字段转换为的业务字段。

所述方法的另一个实施例中,所述匹配规则包括:

基于所述转换账号的业务领域属性信息为其分配匹配将待转换字段转换为的业务字段。

所述方法的另一个实施例中,所述方法还包括:

若所述操作账号为第二账号类型,待转换字段转换后的分类结果中包括不属于为转换账号分配的业务字段的异常字段,则向所述第三账号类型的分配账号发送通知消息;

响应所述分配账号的重分配操作,将所述异常字段所对应的文件重新分配给的第二账号类型中与所述异常字段匹配的转换账号。

所述方法的另一个实施例中,采用下述方式确定异常字段:

根据所述文件的内容信息和/或标引数据计算所述文件的参考字段;

将所述参考字段与转换后的分类字段进行比较,若所述参考字段与所述转换后的分类字段的差异大于预设条件,则确定差异大于预设条件的分类字段为异常字段。

所述方法的另一个实施例中,所述第二字段包括:

线上对文件进行标引产生的描述信息;

和/或,接收的标引操作对象线下对所述文件进行标引并上传的描述信息。

所述方法的另一个实施例中,所述第二字段还包括:

提取的所述文件中所包括的批复信息,其中,所述批复信息包括下述中的至少一种:

文件中内容的注释信息;

文件中内容的批注信息;

文件中内容的备忘信息;

以及与所述注释信息、批注信息、备忘信息相对应的回复信息。

所述方法的另一个实施例中,所述文件包括专利文件。

所述方法的另一个实施例中,所述方法还包括:响应待转换字段的第二转换操作,将文件对应的待转换字段转换为目标字段类型中的分类字段,其中,

当待转换字段的类型为选项字段时,所述目标字段类型为层级字段和/或文本字段;

当待转换字段的类型为层级字段时,所述目标字段类型为选项字段和/或文本字段;

当待转换字段的类型为文本字段时,所述目标字段类型为选项字段和/或层级字段。

所述方法的另一个实施例中,所述层级字段为以分类字段为节点的树结构数据;

所述展示所述第二字段转换操作后的分类结果包括:展示待转换字段对应在所述树结构中的叶子节点、中间节点、根节点的分类字段,并以预设的符号和/或格式展现出所属分类字段之间的层级关系。

所述方法的另一个实施例中,当所述目标字段类型为层级字段或选项字段时,在转换的过程中,所述方法还包括:

若所述目标字段类型中存在多个与描述信息相匹配的分类字段,则展示所述多个相匹配的分类字段;

基于分类字段的选择操作指令确定所需转换为的分类字段。

所述方法的另一个实施例中,所述目标字段类型中的分类字段包括用户自定义分类设置的分类字段。

所述方法的另一个实施例中,所述方法还包括:

展示匹配结果信息,所述匹配结果信息包括待转换字段的类型、目标字段类型、本次转换的文件的数量、文件转换成功和/或失败的数量。

所述方法的另一个实施例中,采用创建异步任务的方式执行转换处理。

本公开还提供一种文件的分类处理装置,包括:

权限识别模块,用于识别操作账号的操作权限,所述操作权限包括预先设置的不同账号类型可处理的业务内容;

数据获取模块,用于在所述操作账号具有转换操作权限时,根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合,其中,所述的包含第二字段的文件数据集合中的第二字段,包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息;

第一转换模块,用于响应第二字段的第一转换操作,将所述文件数据集合中的第二字段转换为目标字段类型的分类字段;

展示模块,用于展示所述第二字段转换操作后的分类结果。

所述装置的另一个实施例中,所述装置还包括:

修改模块,用于响应第二字段的修改操作,对所述文件数据集合中的第二字段进行修改,得到修改后的字段数据。

所述装置的另一个实施例中,所述操作账号的操作权限包括采用下述方式设置的账号以及对应的权限:

第一账号类型,具有对文件进行标引的权限、无转换操作的权限;

第二账号类型,对所述第一账号类型中的标引账号对文件进行处理产生的数据信息进行修改,以及具有将待转换字段转换为指定类型的业务字段的权限;

第三账号类型,具有转换操作权限,以及根据预设的匹配规则为所述第二账号类型中的转换账号分配允许所述转换账号将待转换字段转换为的业务字段。

所述装置的另一个实施例中,所述匹配规则包括:

基于所述转换账号的业务领域属性信息为其分配匹配将待转换字段转换为的业务字段。

所述装置的另一个实施例中,还包括:

异常通知模块,用于在所述操作账号为第二账号类型,待转换字段转换后的分类结果中包括不属于为转换账号分配的业务字段的异常字段时,向所述第三账号类型的分配账号发送通知消息;

重分配模块,用于响应所述分配账号的重分配操作,将所述异常字段所对应的文件重新分配给的第二账号类型中与所述异常字段匹配的转换账号。

所述装置的另一个实施例中,采用下述方式确定异常字段:

根据文件的内容信息和/或标引数据计算所述文件的参考字段;

将所述参考字段与转换后的分类字段进行比较,若所述参考字段与所述转换后的分类字段的差异大于预设条件,则确定差异大于预设条件的分类字段为异常字段。

所述装置的另一个实施例中,所述第二字段包括:

线上对文件进行标引产生的描述信息;

和/或,接收的标引操作对象线下对所述文件进行标引并上传的描述信息。

所述装置的另一个实施例中,所述第二字段还包括:

提取的所述文件中所包括的批复信息,其中,所述批复信息包括下述中的至少一种:

文件中内容的注释信息;

文件中内容的批注信息;

文件中内容的备忘信息;

以及与所述注释信息、批注信息、备忘信息相对应的回复信息。

所述装置的另一个实施例中,所述文件包括专利文件。

所述装置的另一个实施例中,还包括:

第二转换模块,用于响应待转换字段的第二转换操作,将文件对应的待转换字段转换为目标字段类型中的分类字段,其中,

当待转换字段的类型为选项字段时,所述目标字段类型为层级字段和/或文本字段;

当待转换字段的类型为层级字段时,所述目标字段类型为选项字段和/或文本字段;

当待转换字段的类型为文本字段时,所述目标字段类型为选项字段和/或层级字段。

所述装置的另一个实施例中,所述层级字段为以分类字段为节点的树结构数据;

所述展示所述第二字段转换操作后的分类结果包括:展示待转换字段对应在所述树结构中的叶子节点、中间节点、根节点的分类字段,并以预设的符号和/或格式展现出所属分类字段之间的层级关系。

所述装置的另一个实施例中,所述装置还包括:

重复分类展示模块,用于当所述目标字段类型为层级字段或选项字段时,若所述目标字段类型中存在多个与描述信息相匹配的分类字段,则展示所述多个相匹配的分类字段;

分类选择模块,用于接收分类字段的选择操作指令,确定所需转换为的目标字段。

所述装置的另一个实施例中,所述目标字段类型包括用户自定义分类设置的分类字段。

所述装置的另一个实施例中,所述装置还包括:

匹配结果展示模块,用于转换为目标字段类型之后展示匹配结果信息,所述匹配结果信息包括待转换字段的类型、目标字段类型、本次转换的文件的数量、文件转换成功和/或失败的数量。

所述装置的另一个实施例中,所述第一转换模块或第二转换模块采用创建异步任务的方式对所述待处理字段进行转换。

本公开实施例的另一方面,还提供一种服务器,包括:

至少一个处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现本公开任一项实施例所述的方法。

本公开实施例的另一方面,还提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令被服务器的处理器执行时,使得所述服务器能够执行本公开任一项所述的方法。

本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序被处理器执行时实现本公开任一项实施例所述的方法。

本公开实施例的另一方面,还提供一种专利管理系统,包括本公开任意一个实施例所述的装置,或者,专利管理系统的处理器执行存储器存储的可执行指令时,实现本公开任意一个文件的分类处理方法,或者,所述专利管理系统包括所述的计算机程序产品。

本公开的实施例提供的技术方案至少带来以下有益效果:

本公开实施例方案中,提供了新的文件的分类处理方案。若作业人员对文件进行转换,则可以先确定其具有的操作权限,具有转换操作权限的才可以对文件中的分类字段数据统一进行审核和目标字段类型的转换,不仅大大提高了文件不同分类字段类型的转换处理效率,节省文件的分类处理时间,还可以实现由管理人员集中、统一对分类字段数据进行审核,保障分类字段数据审核质量的一致性和准确性,优化了文件分类管理的流程。利用本公开实施例方案可以对每个具体实施专利标引的标引人员的标引结果进行审核和数据溯源,管理人员可以对标引数据审核处理之后,再集中、统一进行字段的整合转换,保证了协同工作时和专利分类的准确性与高效性。转换后的分类字段可以在作业空间进行展示,使得用户可以更加清晰、全面的查看专利文本所属的分类字段或分类字段的层级关系等情况,提升用户对专利文件的管理服务的使用体验。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种文件的分类处理方法的应用环境示意图;

图2是根据一示例性实施例示出的一种文件的分类处理方法的流程图;

图3是本公开提供的一个标引数据转换为选项字段后的结果示意图;

图4是本公开提供的一个标引数据转换为层级字段后的结果示意图;

图5是本公开的提供的一个预先分类设计的层级字段的层级关系示意图;

图6是根据一示例性实施例示出的一种文件的分类处理方法的流程图;

图7是根据一示例性实施例示出的一种文件的分类处理方法的流程图;

图8是根据一示例性实施例示出的一种文件的分类处理方法的流程图;

图9是本公开提供的一个实施例中包含批复信息的标引数据的场景示意图;

图10是本公开提供的一个实施例中包含回复信息的批复信息的场景示意图;

图11是根据一示例性实施例示出的一种文件的分类处理方法的流程图;

图12是本公开提供的一个存在重复层级节点时提供给用户进行确定目标字段的场景示意图;

图13是根据一示例性实施例示出的一种文件的分类处理方法的场景示意图;

图14是根据一示例性实施例示出的一个文件的分类处理装置结构示意图;

图15是根据一示例性实施例示出的一个文件的分类处理装置结构示意图;

图16是根据一示例性实施例示出的一个文件的分类处理装置结构示意图;

图17是根据一示例性实施例示出的一个文件的分类处理装置结构示意图;

图18是根据一示例性实施例示出的一个文件的分类处理设备s00的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

本公开所提供的一种文件的分类处理方法,可以应用于如图1所示的应用环境中。例如提供给用户的专利管理系统110,专利管理系统110可以构建专利数据库,提供专利管理界面,实现对专利数据的分类、存储、查新、分析、更新。目前的一些专利管理系统中,用户通常只能一个一个对专利文件进行标引,如对某个专利添加文本类型描述信息,或者直接将专利标引为某个分类,如分类“a”。当需要大量专利进行分类时,如对专利管理系统搜索出来的5000条专利进行分类,则目前的处理方式和流程效率低下,无法满足客户需求。而本公开的提供的技术方案可以应用于所述专利管理系统110中,可以提供包括但不限于专利文件的分类处理,不仅在专利分类处理和管理流程上进行了优化,实现不用权限、不同级别的管理,还可以更加高效、准确的实现分类,提高专利管理作业的效率和分类结果的准确性。

本公开一些实施例中所述的待转换字段可以理解为待转换的文件的数据信息,如标引人员自己线上或线下对专利文本分类记录的标引数据,也可以包括本公开提供的选项字段或层级字段。所述的目标字段类型可以理解为需要转换为的分类字段所属的字段类型。本公开提供的字段类型可以包括但不限于文本字段、选项字段、层级字段。所述文本字段可以包括用户输入的对文件的内容、关键技术等进行描述的信息内容。用户通常可以在文本类型中自由输入分类的描述词汇或其他信息(限定非法字段的除外)。所述的选项字段通常包括用户自定义的分类字段,选项字段中的分类字段可以是并列的分类关系,也可以是层级关系。一个文件可以归属于多个选项字段中的分类字段,如某专利文件属于a、b、c、d四个选项字段中的其中的a和b,也可以属于选项字段a和b1,其中a、b、c、d均为一级分类,b1为一级分类b的子分类(二级分类)。所述的层级字段中可以包括不同分类字段的从属或分级关系,例如某个专利文本的标引数据中包括“扫地机器人”、“清洁装置”等关键词,则根据标引数据可以将该专利匹配到层级字段中“扫地机器人”节点下的子节点“清洁装置”的分类字段,那么该专利在本次转换处理中可以被划分到属于“扫地机器人”节点下的“清洁装置”分类中。字段转换后可以更新专利管理系统的专利数据库。本公开实施例中所述的专利管理系统110可以包括但不限于本地或远程的服务器、服务器集群、分布式分系统、云处理平台、包含区块链节点的服务器以及其组合的设备,也可以包括各种个人计算机、笔记本电脑、智能手机、平板电脑、可穿戴设备、车载设备、医疗设备等。

下面以专利文件在专利管理系统的一个作业空间中将对专利文件的标引数据转换为目标字段类型的实施场景对本公开实施例方案进行说明。需要说明的,本公开实施例方案并不限于对专利文件的分类处理,基于本公开的创新思想,本公开的实施例方案还可以用于其他文件类型的分类处理,如对论文、报刊、图书文件资料等。本公开的一些实施例中,所述文件包括可以专利文件。相应的,根据专利文件的实施例描述,下述实施例中所描述的专利词语也可以适应性的调整,如论文管理系统等。图2是根据一示例性实施例示出的一种文件的分类处理方法的流程图,如图2所示,所述方法可以用于前述专利管理系统110中,可以包括以下步骤。

s200:识别操作账号的操作权限,所述操作权限包括预先设置的不同账号类型可处理的业务内容。

本公开实施例中可以预先设置不同账号类型,不同账号类型在专利管理系统或作业空间中有不同的操作权限。例如第一类账号只能对文件进行标引而不能将标引产生的标引数据转换为选项字段或层级字段。第二类账号具有转换操作权限,可以将标引数据转换为目标字段类型,也可以对第三类账号的标引数据进行审核,如进行修改。第三类账号可以具有最高的权限,如可以具有在作业空间或专利管理系统中的所有权限,可以具有按照一定的规则为不同的第二类账号分配一些操作权限的权限,或者对第二类账号的转换结果进行审核、修改等,当然,第三类账号也可以具有转换操作权限及对文件进行标引的权限等待。

具体的可以根据对文件分类管理的需求设置相应的账号类型。本公开还提供一种设置不同权限的账号的实施方法。具体的,所述方法的另一个实施例中,所述操作账号的操作权限包括采用下述方式设置的账号以及对应的权限:

第一账号类型,具有对文件进行标引的权限、无转换操作的权限;

第二账号类型,对所述第一账号类型中的标引账号对文件进行处理产生的数据信息进行修改,以及具有将待转换字段转换为指定类型的业务字段的权限;

第三账号类型,具有转换操作权限,以及根据预设的匹配规则为所述第二账号类型中的转换账号分配允许所述转换账号将待转换字段转换为的业务字段。

所述的第一账号类型可以如同前述的第一类账号,可以提供给具体的对文件进行初始分类处理的人员,如对文件进行标引的作用人员。标引人员使用的账号可以称为标引账号,属于第一账号类型。所述的第二账号类型中账号(可以称为转换账号),参考前述第二类账号,可以对所述第一账号类型中的标引账号对文件进行处理产生的数据信息进行修改,以及具有将待转换字段转换为指定类型的业务字段的权限。第三账号类型参考前述第三类账号,可以为不同的转换账号设置其可以将待转换字段转换为的业务字段。例如属于第三类账号类型的某个分配账号可以设置或分配某个转换账号user33处理电子类的专利文件分类,可以表示user33将标引数据转换后的分类应该是电子类的分类字段。

当然,本公开不限于还有其他的设置不同账号的不同权限的实施方案。

s202:若所述操作账号具有转换操作权限,则根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合,其中,所述的包含第二字段的文件数据集合中的第二字段,包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息。

所述的业务字段通常可以指根据操作账号所属的业务领域或者所处理的专业范围,为操作账号分配的字段。该业务字段通常是操作账号需要将待处理字段转为的目标字段(目标字段类型中的分类字段)。例如,某个操作账号的业务领域是机械,则为该操作账号分配的业务字段可以是属于机械领域的目标字段。

本公开实施例在专利文件分类的应用场景中,所述文件可以包括预先选择或筛选出的一条或多个专利。如可以根据查询条件、过滤条件、空间配置、排序规则等,调用solr(一种搜索应用服务器)查找出此次需要转换的一批专利,可以以专利公开(公告)号列表的方式展示在作业空间界面中。

具有转换操作权限的操作账号,可以是如前述所述的第二账号类型中的转换账号。转换账号在经过权限确定后,可以确定其对应的业务字段,并可以获取分配给转换账号进行字段转换的文件数据集合。其中,文件数据集合中可以包含第二字段。所述的第二字段可以包括多种数据信息,一种在专利文件分类的应用场景中,所述的第二字段可以为标引数据。当然,本公开实施例并不限定第二字段一定是标引数据,其中主要是指第一账号类型中的操作账号对文件进行处理得到数据信息。因此,所述的包含第二字段的文件数据集合中的第二字段,可以包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息。如由多个对专利文件进行标引的作业人员对专利文件进行标引得到的数据信息。

标引的人员通常为一个或多个研发或专利分类处理的人员,也可以包括对专利管理的审核、管理人员等。因此,可以是由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息。

所述文件数据集合中可以包括一个或多个文件的数据信息,通常包括对文件数据进行处理获得的数据信息,如标引数据。所述的标引数据可以包括标引人员对专利整体的分类描述,可以包括研发或专利管理人员输入的对专利分类的文本语言描述。如“该专利是应用在扫地机器人上的清洁装置,可以自动识别障碍物并自动充电”。一些应用场景中,标引数据可以作为使用专利管理系统对专利初次分类的待处理字段。另一些实施场景中,待处理字段也可以为选项字段和/或层级字段。为便于描述,本公开的一些实施例中可以使用专利公开(公告)号来唯一标识专利,描述信息、文本字段、选项字段、层级字段中的全部或部分使用字母表示,如文本字段可以为a、b、c等。

s204:响应第二字段的第一转换操作,将所述文件数据集合中的第二字段转换为目标字段类型的分类字段。

操作账号具有转换操作权限,可以执行不同字段类型之间的字段分类转换。前述所述的第二字段可以是待转换字段的一种实施场景,如第二字段可以是标引数据。待转换字段要转换成的字段类型可以称为目标字段类型,如选项字段或层级字段。各个字段类型下通常由用户预先自定义设置了文件最终要确定下来的多个分类字段。操作账号执行第二字段的转换操作(这里可以成为第一转换操作)时,将所述文件数据集合中的第二字段转换为目标字段类型的分类字段。

确定待处理字段和需要转换成的目标字段类型后,可以采用预设的算法进行转换处理。本实施中,所述的选项字段或层级字段可以存储了预先设置的分类字段,然后可以将第二字段与目标字段类型中分类字段进行匹配。当第二字段的内容与所述分类字段相匹配时,将所述相匹配的分类字段作为与所述第二字段转换的分类字段。一般的,在转换处理中通常需要待处理字段的内容与分类字段达到一定的匹配要求,如待处理字段为a,目标字段类型中的某个分类字段a1包a,则可以a作为待处理字段转换为的分类字段。当然,匹配的过程中还可以包括其他处理,如分词处理、语义分析、相似度计算等。

s206:展示所述第二字段转换操作后的分类结果。

不同类型的字段转换后,可以展示转换操作后的分类结果,以供用户查看。

将本次转换的第二字段转换为相应的目标字段类型的分类字段后,可以在专利文本信息转换的作业空间界面进行展示,当然也可以在专门的展示界面进行展示,以便用户查看转换后的结果。图3是本公开提供的一个标引数据转换为选项字段后的结果示意图。图4是本公开提供的一个标引数据转换为层级字段后的结果示意图。在图3、图4中,文本字段中的标引数据可以为标引人员输入的自己归纳总结的描述语言,不同标引人员对同一个分类可能有不同的描述信息,如“清洁装置”、“清扫装置”。选项字段可以包括多种分类,如a、b、c、d。分级字段可以一级分类的a、b、c、d,也可以包括属于a分类下的二级分类a1、属于b分类下的二级分类b1,属于二级分类a1下的三级分类a11等,以此类推。当然,选项分类中也可以包括二级或三级等子级分类的选项。具体的选项分类或层级分类预先分类设置好,在转换过程中可以按照预先分类好的方式对专利重新标引(确定专利的目标字段),如图5所示。图5是本公开的提供的一个预先分类设计的层级字段的层级关系示意图。

上述实施例提供了新的文件的分类处理方案。若转换操作人员对文件进行转换,则可以先确定其具有的操作权限,具有转换操作权限的才可以对文件中的分类字段数据统一进行审核和目标字段类型的转换,不仅大大提高了文件不同分类字段类型的转换处理效率,节省文件的分类处理时间,还可以实现由管理人员集中、统一对分类字段数据进行审核,保障分类字段数据审核质量的一致性和准确性,优化了文件分类管理的流程。同时,还需要为不同的具有转换操作权限的账号分配器可以转换为的业务字段,细分了转换操作人员各自文件分类的字段,大大提高了转换操作人员各自分类的专业性,提高了分类效率和准确性。

进一步的,本公开所述方法的另一个实施例中,如图6所示,还可以包括:

s602:响应第二字段的修改操作,对所述文件数据集合中的第二字段进行修改,得到修改后的字段数据。相应的,若对第二字段进行了修改,则所述文件数据集合中可以包括所述第二字段修改后的字段数据,那么在转换时,转换的也是修改后的字段数据。

管理人员可以在专利管理系统中对各个标引人员做出的标引数据进行审核。一般的,管理人员需要获取一定的操作权限,以便于安全、集中的对专利标引数据的审核和转换处理。本实施例应用场景中,若发现需要对标引数据进行修改,则管理人员可以在专利管理系统的作业空间中进行修改。如将文本类型的标引数据“清洁装置”修改为“消毒装置”。专利管理系统可以响应标引数据(第二字段的一种数据信息)的修改操作,对需要调整的标引数据进行修改,得到修改后标引数据。

审核人员对标引数据审核或校准之后,可以通过专利管理系统统一进行转换,得到目标字段类型的分类字段。当然,也可以直接进行转换。本实施例中,所述的待转换字段的类型可以是文本类型的标引数据。文本类型中的标引数据可以成为文本字段。其他的实施中所述的待转换字段的类型也可以是文本字段还是选项字段。如之前对专利文件的描述信息的转换处理得到的选项字段。所述的目标字段类型可以表示描述信息所要转换成的类型,如文本字段转换成层级字段。

前述中,第三账号类型可以根据预设的匹配规则为所述第二账号类型中的转换账号分配允许所述转换账号将待转换字段转换为的业务字段。具体的匹配规则可以设置预先根据不同的业务场景和需求进行设置。本公开提供的一种实施例中,所述匹配规则可以包括:

基于所述转换账号的业务领域属性信息为其分配匹配将待转换字段转换为的业务字段。

业务领域属性信息通常可以包括转换账号对应的专业领域,根据其专业领域为其分配对口的业务字段。如机械领域的作业人员,为其分配的业务字段可以包括一个或多个机械领域相关的业务字段,如割草机、扫地机器人等。

一般的,低级别的字段类型可以向更高级的字段类型转换,如级别低的文件字段可以向高一级的选项字段转换,选项字段可以向更高级别的层级字段转换。一些实施例中可以设置层级字段无法向选项字段转换。本公开的所述方法的另一个实施例中,不同级别的字段类型可以相互转换,更加满足对不同分类以及不同分类结果的查看、展示需求。具体的,本公开的另一些实施例中,如图7所述,所述方法还可以包括:

s702:响应待转换字段的第二转换操作,将文件对应的待转换字段转换为目标字段类型中的分类字段,其中,

当待转换字段的类型为选项字段时,所述目标字段类型为层级字段和/或文本字段;

当待转换字段的类型为层级字段时,所述目标字段类型为选项字段和/或文本字段;

当待转换字段的类型为文本字段时,所述目标字段类型为选项字段和/或层级字段。

待转换字段可以在一次转换处理中转换成一个目标字段类型,也可以转换成多个目标字段类型。如标引数据可以同时转换成选项字段和层级字段。本实施例提供了选项字段和层级字段的目标字段类型,可以将描述信息以多种方式更加清晰的展示其分类架构和层级关系,实现专利更加精细化、多元化、更准确的分类。

另一些实施例中,如图8所示,所述方法还可以包括:

s802:若所述操作账号为第二账号类型,待转换字段转换后的分类结果中包括不属于为转换账号分配的业务字段的异常字段,则向所述第三账号类型的分配账号发送通知消息;

s804:响应所述分配账号的重分配操作,将所述异常字段所对应的文件重新分配给的第二账号类型中与所述异常字段匹配的转换账号。

本实施例中,虽然已经预先设置的第二账号类型中的转换账号需要将待转换字段转换为的业务字段,但不排除在一些应用场景中仍然会出现一些文件的转换后的分类结果与分配的业务字段不同的情况。如设置的某个分配账号要转换为的业务字段为电子类型的业务字段,但其在转换过程中由处理器或人员标记出某些文件应属于机械类型的业务字段,并将这些文件转换成了机械类型的分类字段,此时,这些不属于为其分配的电子类型的分转换后的分类字段为异常字段。本公开实施例提供了纠错机制,若出现上述情况,则可以向更高权限的第三账号类型的分配账号发送通知消息。这些,所述分配账号可以核实这些异常字段是否真的出现错误。若确定异常字段确实是出现异常,则可以进行重新分配,将这些异常字段对应的文件重新分配给相应的转换账号进行处理。如上述场景中,将异常字段对的文件重新分配给某个机械类型的字段转换的转换账号。本实施例的方案,可以大大提高文件分类的准确性。

本公开的另一些实施例中,异常字段是否真的是分配错误或存在其他异常情况,可以基于第二账号类型或第三账号类型的主观审核之后确定。本公开提供的另一些实施例中,提供了一种可以自动辅助审核的实施方案,可以由处理器自动计算和识别,给出转换后的分类字段是否是异常字段的输出结果,以供用户进行辅助查看。具体的,所述方法的另一种实施例中,可以采用下述方式确定异常字段:

根据文件的内容信息和/或标引数据计算所述文件的参考字段;

将所述参考字段与转换后的分类字段进行比较,若所述参考字段与所述转换后的分类字段的差异大于预设条件,则确定差异大于预设条件的分类字段为异常字段。

本实施例应用场景中,所述标引数据可以为线上对所述待转换专利进行标引产生的描述信息。所述的线上可以包括在专利管理系统等管理平台中进行的操作,如专利文本描述信息转换的作业空间中对所述待转换专利进行标引产生的描述信息。相对应的,线下可以指在所述专利管理系统等外部进行的操作,如专利的描述信息可以为标引在上传专利管理系统之前提前在excel中录入的文本信息。本公开的实施例方法,不仅支持线上标引录入的描述信息进行转换,也可以支持线下对专利标引录入的描述信息进行转换,适应多种不同的实施场景,满足部分用户线下已经标引好的专利描述信息转换需求。具体的,本公开的提供的另一个实施例中,所述第二字段可以包括:

线上对文件进行标引产生的描述信息;

和/或,接收的标引操作对象线下对所述文件进行标引并上传的描述信息。

本公开提供的所述方法的另一个实施例中,所述第二字段还可以包括:

提取的所述文件中所包括的批复信息,其中,所述批复信息包括下述中的至少一种:

文件中内容的注释信息;

文件中内容的批注信息;

文件中内容的备忘信息;

以及与所述注释信息、批注信息、备忘信息相对应的回复信息。

在本实施例中应用场景中,第二字段可以是标引数据,当然,其他的实施方式中也可以是其他的数据信息或者包括其他的数据信息。具体的,所述的标引数据还可以包括待转换专利中针对专利具体内容所做的注释、批注、备忘等批复信息,这些批复信息可以为一个或多个不同用户添加的信息,如图9所示。不仅如此,标引数据还可以包括对这些注释、批注、备忘等批复信息所做的答复信息,如图10所示中user1对user2批注的回复内容。本公开实施例在对专利分类的标引数据中还可以包括这些批复信息,如有批复信息对应的回复信息还可以进一步包括这些回复信息,扩充了描述信息待处理字段的数据源,可以进一步的更加精确匹配到描述信息的目标字段,实现对专利在目标字段类型中更加准确的分类。

本公开提供的所述方法的另一个实施例中,所述层级字段为以分类字段为节点的树结构数据;

所述展示所述第二字段转换操作后的分类结果包括:展示所述待处理字段对应在所述树结构中的叶子节点、中间节点、根节点的分类字段,并以预设的符号和/或格式展现出所属分类字段之间的层级关系。

如图4所示,当目标字段类型为层级字段时,标引数据可以对应层级字段中的多个层级分类字段(树的深度≥2)。这样,在层级字段的目标字段类型展示中不仅可以展示描述信息对应的一个或多个目标字段,还可以采用预设的一些展示方式展现出所属层级的层级关系。如图4中,标引数据转换到层级字段中对应树形数据结构中的中间节点a1(其叶子节点为a11、21),a1属于根节点a,则在图4中相应的层级字段位置处以倒三角符号和错位的方式展现出分类字段a1和a,以及a1和a的层级关系,用户以常规的识图能力可以清晰的看出a1与a的层级关系,便于用户查阅转换后目标字段在层级字段的关系信息。

图11是根据一示例性实施例示出的一种文件的分类处理方法的流程图。如图11所示,本公开提供的所述方法的另一个实施例中,所当所述目标字段类型为层级字段或选项字段时,在转换的过程中,所述方法还可以包括:

s1102:若所述目标字段类型中存在多个与描述信息相匹配的分类字段,则展示所述多个相匹配的分类字段;

s1104:基于分类字段的选择操作指令确定所需转换为的分类字段。

图12是本公开提供的一个存在重复层级节点时提供给用户进行确定目标字段的场景示意图。在图12中,若根据标引数据进行字段匹配后发现层级字段中有两个相同(相匹配的其中一种情况)名称的分类字段,则可以展示重复的分类字段,由用户自行选择需要将专利划分为哪个字段中。这样,用户可以根据自己的分类需要进行个性化的选择,匹配用户选择的分类字段作为要转换为的目标字段。

另一些实施例中,所述目标字段类型可以包括用户自定义分类设置的分类字段。本公开的另一个创新之处在于,目标字段类型中的分类字段可以是由用户自定义设置的,极大的方便了用户自定义所需转换的分类字段的类型。如,层级字段中根节点、中节点、叶子节点等各个节点分类字段的名称可以由用户自定义根据分类需求进行设置,可以不使用或者部分使用系统自带的分类规则,便于用户灵活的定义分类类型。

图13是根据一示例性实施例示出的一种文件的分类处理方法的场景示意图。如图13所示另一些实施例中,将待转换字段转换为目标字段类型的分类字段之后,所述方法还可以包括:

展示匹配结果信息,所述匹配结果信息包括待转换字段的类型、目标字段类型、本次转换的文件的数量、文件转换成功和/或失败的数量。

将对标引数据或其他类型待处理字段进行转换之后,还可以在展示界面中展示本次转换的匹配结果信息。匹配结果信息中通常可以包括待处理字段类型、目标字段类型、待本次转换的文件的数量,还可以文件转换成功和/或失败的数量,以便用户及时查看到是否全部转换成功、转换的目标字段类型是否正确等信息,如图13所示。当然,一些实施例中,转换成功和转换失败的数量也可以同时进行展示。

本公开提供的所述方法的另一个实施例中,采用创建异步任务的方式执行转换处理。在对标引数据或其他类型的待转换字段进行转换处理时,可以采用创建异步任务的方式进行转换。如专利管理系统的处理器可以分别对每条专利的描述信息创建相应的异步任务,每个异步任务对自己的转换任务进行处理,无论多个任务处理成功和识别可以均不影响其他任务的处理。这样,可以进一步加快转换的处理速度,减少目标字段类型的转换响应时间,提高用户专利管理使用体验。

本公开实施例提供的文件的分类处理方法,提供了新的文件的分类处理方案,具有权限的管理人员可以对标引人员对专利等文件的标引数据统一进行审核和目标字段类型的转换,不仅大大提高了标引数据的转换处理效率,节省文件的分类处理时间,还可以实现由管理人员集中、统一对标引数据进行审核,保障标引数据审核质量的一致性和准确性,优化了文件分类管理的流程。本公开实施例方案可以对每个具体实施专利标引的标引人员的标引结果进行审核和数据溯源,管理人员可以对标引数据审核处理之后,再集中、统一进行字段的整合转换,保证了协同工作时和专利分类的准确性与高效性。转换后的分类字段可以在作业空间进行展示,使得用户可以更加清晰、全面的查看目标专利文本所属的分类字段或分类字段的层级关系等情况,提升用户对专利管理服务的使用体验。

可以理解的是,本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同/相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见其他方法实施例的描述说明即可。

应该理解的是,虽然附图中涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述所述的文件的分类处理方法实施例的描述,本公开还提供一种文件的分类处理装置。所述装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图14是根据一示例性实施例示出的一个文件的分类处理装置结构示意图。所述装置可以为前述所述专利管理系统110,也可以为单独的服务器或服务器集群等。具体的可以参照图14,该装置100可以包括:

权限识别模块1402,可以用于识别操作账号的操作权限,所述操作权限包括预先设置的不同账号类型可处理的业务内容;

数据获取模块1404,可以用于在所述操作账号具有转换操作权限时,根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合,其中,所述的包含第二字段的文件数据集合中的第二字段,包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息;

第一转换模块1406,可以用于响应第二字段的第一转换操作,将所述文件数据集合中的第二字段转换为目标字段类型的分类字段;

展示模块1408,可以用于展示所述第二字段转换操作后的分类结果。

一示例性实施例如图15所示,图15是根据一示例性实施例示出的一个文件的分类处理装置结构示意图。参照图15,本公开提供的所述装置的另一个实施例中,所述装置还可以包括:

修改模块1502,可以用于响应第二字段的修改操作,对所述文件数据集合中的第二字段进行修改,得到修改后的字段数据。

参照前述方法实施例所述,所述装置的另一实施例中,所述操作账号的操作权限包括采用下述方式设置的账号以及对应的权限:

第一账号类型,具有对文件进行标引的权限、无转换操作的权限;

第二账号类型,对所述第一账号类型中的标引账号对文件进行处理产生的数据信息进行修改,以及具有将待转换字段转换为指定类型的业务字段的权限;

第三账号类型,具有转换操作权限,以及根据预设的匹配规则为所述第二账号类型中的转换账号分配允许所述转换账号将待转换字段转换为的业务字段。

参照前述方法实施例所述,所述装置的另一实施例中,所述匹配规则包括:

基于所述转换账号的业务领域属性信息为其分配匹配将待转换字段转换为的业务字段。

一示例性实施例如图16所示,图16是根据一示例性实施例示出的一个文件的分类处理装置结构示意图。参照前述方法实施例所述,所述装置的另一实施例中,还包括:

异常通知模块1602,可以用于在所述操作账号为第二账号类型,待转换字段转换后的分类结果中包括不属于为转换账号分配的业务字段的异常字段时,向所述第三账号类型的分配账号发送通知消息;

重分配模块1604,可以用于响应所述分配账号的重分配操作,将所述异常字段所对应的文件重新分配给的第二账号类型中与所述异常字段匹配的转换账号。

参照前述方法实施例所述,所述装置的另一实施例中,采用下述方式确定异常字段:

根据所述文件的内容信息和/或标引数据计算所述文件的参考字段;

将所述参考字段与转换后的分类字段进行比较,若所述参考字段与所述转换后的分类字段的差异大于预设条件,则确定差异大于预设条件的分类字段为异常字段。

参照前述方法实施例所述,所述装置的另一实施例中,所述第二字段包括:

线上对文件进行标引产生的描述信息;

和/或,接收的标引操作对象线下对所述文件进行标引并上传的描述信息。

参照前述方法实施例所述,所述装置的另一实施例中,所述第二字段还包括:

提取的所述文件中所包括的批复信息,其中,所述批复信息包括下述中的至少一种:

文件中内容的注释信息;

文件中内容的批注信息;

文件中内容的备忘信息;

以及与所述注释信息、批注信息、备忘信息相对应的回复信息。

参照前述方法实施例所述,所述装置的另一实施例中,所述文件包括专利文件。

参照前述方法实施例所述,所述装置的另一实施例中,还包括:

第二转换模块,可以用于响应待转换字段的第二转换操作,将文件对应的待转换字段转换为目标字段类型中的分类字段,其中,

当待转换字段的类型为选项字段时,所述目标字段类型为层级字段和/或文本字段;

当待转换字段的类型为层级字段时,所述目标字段类型为选项字段和/或文本字段;

当待转换字段的类型为文本字段时,所述目标字段类型为选项字段和/或层级字段。

参照前述方法实施例所述,所述装置的另一实施例中,所述层级字段为以分类字段为节点的树结构数据;

所述展示所述第二字段转换操作后的分类结果包括:展示所述待处理数据对应在所述树结构中的叶子节点、中间节点、根节点的分类字段,并以预设的符号和/或格式展现出所属分类字段之间的层级关系。

一示例性实施例如图17所示,图17是根据一示例性实施例示出的一个文件的分类处理装置结构示意图。参照图17,本公开提供的所述装置的另一个实施例中,所述装置还可以包括:

重复分类展示模块1702,可以用于当所述目标字段类型为层级字段或选项字段时,若所述目标字段类型中存在多个与描述信息相匹配的分类字段,则展示所述多个相匹配的分类字段;

分类选择模块1704,可以用于接收分类字段的选择操作指令,确定所需转换为的目标字段。

本公开提供的所述装置的另一个实施例中,所述目标字段类型包括用户自定义分类设置的分类字段。

一示例性实施例如图18所示,图18是根据一示例性实施例示出的一个文件的分类处理装置结构示意图。参照图18,所述装置还可以包括:

匹配结果展示模块1802,可以用于转换为目标字段类型之后展示匹配结果信息,所述匹配结果信息包括待转换字段的类型、目标字段类型、本次转换的文件的数量、文件转换成功和/或失败的数量。

本公开提供的所述装置的另一个实施例中,所述第一转换模块1406或第二转换模块可以采用创建异步任务的方式对所述待处理字段进行转换。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

在示例性实施例中,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本说明书中任一项所述的文件的分类处理方法。

图18是根据一示例性实施例示出的一个文件的分类处理设备s00的结构示意图,设备s00可以如前述所述专利管理系统,具体的可以是服务器、服务器集群、分布式处理服务器、区块链服务器、云计算平台等以及其组合。例如,设备s00可以为一个或多个服务器的组合。参照图18,设备s00包括处理组件s20,其进一步包括一个或多个处理器,以及由存储器s22所代表的存储器资源,用于存储可由处理组件s20的执行的指令,例如应用程序。存储器s22中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件s20被配置为执行指令,以执行上述可以实施于代理服务端一侧的方法。

设备s00还可以包括一个电源组件s24被配置为执行设备s00的电源管理,一个有线或无线网络接口s26被配置为将设备s00连接到网络,和一个输入输出(i/o)接口s28。设备s00可以操作基于存储在存储器s22的操作系统,例如window1212erver,maco12x,unix,linux,freeb12d或类似。

需要说明的是,上述设备s00可以是数据处理设备的示例性描述,如专利管理平台。在一些数据处理设备中,可以不必包含上述全部组件或某个组件下的全部功能单元。

在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器s04,上述指令可由设备s00的处理器组件s20执行以完成上述方法。存储介质可以是计算机可读存储介质,例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备、石墨烯等。

基于前述方法、装置、计算机程序产品的实施例描述,本公开还一种专利管理系统,所述专利管理系统可以包括本公开任意一个实施例所述的装置;

或者,专利管理系统的处理器执行存储器存储的可执行指令时,实现本公开任意一个实施例所述的文件的分类处理方法;

或者,所述专利管理系统上述所述的计算机程序产品。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

前述第一账号类型中的标引账号可以对文件进行标引。本公开还提供一种对文件进行自定义字段标引的处理方法。以应用于如图1所示的应用环境中。例如提供给用户的专利管理系统110,专利管理系统110可以构建专利数据库,提供专利管理界面,实现对专利数据的标引、存储、查新、分析、更新。目前的一些专利管理系统中,还停留在基于标引人员对专利自定义输入的标引数据或描述信息进行分类。即使用户已经预先设置的对专利分类的自定义字段,如前述所述的语文、数学、体育等,对专利文件的分类仍然是如背景技术中所描述的逐个对单个类别的一批次专利进行标引分类,重复大量工作。尤其是专利数量较大的应用场景中,目前的标引处理方式和流程效率低下,不能满足一些用户的专利管理需求。而本公开的提供的技术方案可以应用于所述专利管理系统110中,可以提供包括但不限于专利文件的分类处理,在专利文件自定义字段的标引处理过程和流程上进行了优化,大大的提高了自定义字段标引的作业效率。一个对文件进行自定义字段标引的处理方法实施例中,可以包括以下步骤。

s2:确定自定义字段的标引规则以及使用所述标引规则的文件范围,其中所述标引规则用于对所述自定义字段下的全部或部分子项的分类字段进行设置,所述文件范围的种类包括;对全部文件进行标引。

s4:响应自动标引的触发指令,利用所述标引规则对所述文件范围内的文件进行自定义字段的标引处理。

本公开实施例的创新之一在于改变传统的自定义标引处理流程,可以预先定义设置标引规则,将用户对自定义字段标引的多个步骤,转化为对自定义字段进行规则设定后基于触发指令自动完成标引,用户可以只要在一个页面操作即可完成标引工作,有效地简化操作步骤。具体的可以提供规则设置或编辑界面,用户可以在界面中编辑自定义字段,给出自定义字段的具体的标引规则。更为重要的是,本公开实施例中,由于标引规则设定可以是提供给自定义字段下的所有或部分子项,可以避免了在单个文件集合中(如单个收藏夹)对同一类型自定义字段的不同子项相似工作的重复标引操作。标引规则一旦设定后,可以在所有的文件集合中(如所有收藏夹下)使用,实现了一次规则设定,全局通用。

除选择收藏夹的方式确定文件集合外,所述文件可以包括预先选择或筛选出的一条或多个专利。如可以根据查询条件、过滤条件、空间配置、排序规则等,调用solr(一种搜索应用服务器)查找出此次需要标引的专利,可以以专利公开(公告)号列表的方式展示在作业空间界面中。

所述的自定义字段可以是文本字段,也可以是选项字段和/或层级字段。如之前对专利文件的描述信息/标引数据的转换处理得到的选项字段。所述目标字段类型可以包括用户自定义分类设置的分类字段。本公开的另一个创新之处在于,自定义字段的一些字段类型中的分类字段可以是由用户自定义设置的,极大的方便了用户自定义定义所需转换的分类字段的类型。如,层级字段中根节点、中节点、叶子节点等各个节点分类字段的名称可以由用户自定义根据分类需求进行设置,可以不使用或者部分使用系统自带的分类规则,便于用户灵活的定义分类类型。

上述标引规则设定可以是提供给自定义字段下的部分子项,可以通过指定不同的分类层级实现。如可以指定标引规则用于对一级分类“科目”下的所有子级分类“语文”、“数学”、“体育”等,这样,一次设置好标引规则,通过一次自动标引的触发操作即可实现自动将文件自动分类到一级分类“科目”下的所有对应子级分类中,而无需分多次分别进行子级分类的标引操作。

所述文件范围的种类可以包括多种方式,可以表征本次设置的标引规则使用在哪些专利文件中。本公开实施例的一个实施例,文件范围的种类至少包括对全部文件进行标引,这样可以更加全面的、高效的从全局对控制标引规则的使用范围,即,该标引规则可以用于对所有文件进行标引,包括之前已经标引过的文件。当然,其他的实施例中,所述文件范围的种类还可以包括:

对未标引的文件进行标引、对新增的文件进行标引。

另一些实施例中,对已经标引的文件可以不再使用本次设置的标引规则进行重新标引,可以仅对未标引的文件进行标引,避免对之前已经标引好的目标覆盖。另一些实施例中,类似的,也可以设置仅对新增的文件使用本次设置的标引规则进行标引。当然,用户若觉得本次标引规则设置的更加合理,则可以全部覆盖标引。由此可见,本公开的一些实施例,不仅可以设置标引规则,还可以同时选择使用标引规则的文件范围,可以更加灵活的选址标引规则的使用场景,满足不同的用户需求和标引处理需求,提示用户体验。

本公开的另一些实施例中,针对文本类型的专利字段,可以支持词频设置,用户可以设置专利文本中出现过滤词汇的次数,如1、2、3、4、5次,参考过滤次数设置标引规则。例如,若某个专利文件中出现过滤词汇“汽车”的次数达到某个阈值,如10次,则可以将该专利标引为“汽车”。当然,词频设置还可以结合其他的标引规则共同决策文件所述的分类。具体的,本公开提供的所述方法的另一个实施例中,所述标引规则包括:

对于文本类型的自定义字段,基于文本字段中过滤词汇出现的次数设置的词频过滤规则。

一个标引规则中可以包括多个词频过滤规则。多个词频过滤规则之间可以通过与或非逻辑运行进行关联。通过与或非逻辑关联的过滤规则也可以视为一种词频过滤规则或者逻辑运算规则。例如,专利文件中出现过滤词汇“word1”的次数达到20,并且出现过滤词汇“word2”的词汇达到10,则将该专利标引为“汽车”。

本公开还提供一种针对文件的词频过滤规则的处理方式。具体的,所述方法的另一个实施例中,所述文件为专利文件,所述词频过滤规则还可以用于对文件的指定的一个或多个内容部分进行词频过滤,如对至少下述之一的文本内容进行词频过滤:发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息。其中,可以通过orc或其他图像识别算法识别出说明书附图中所包含的文字信息。本公开实施例方案针对专利文本进行词频过滤,可以对发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息以及其中组合进行词频过滤,进一步提供专利文本的自定义字段标引的分类准确性。

一种对文件进行自定义字段标引的处理方法的另一些实施例中,所述方法还可以包括:

响应规则修改指令,对所述自定义字段的标引规则进行修改,得到更新后的标引规则。

用户可以对标引规则进行重新修改,可以重新边界标引规则,提高了标引规则设置的灵活性。可以利用更新后的标引规则可以对后续处理的文件进行自定字段的标引处理。另一方面,也可以利用更新后的标引规则重新对本次文件范围内的文件进行自定义字段的标引处理,覆盖文件之前的标引。

另一个实施例方式中,所述的标引规则也可以自动进行更新、优化,不断的完整标引规则,使得标引的结果更加准确。具体的,所述方法的另一个实施例中,所述对所述自定义字段的标引规则进行修改,得到更新后的标引规则包括:

根据标引处理的结果调整所述标引规则中的参数值和/或运算逻辑,得到更新后的标引规则。

本实施例中,可以利用标引处理的结果自动调整标引规则中的参数值或逻辑运算,具体的可以设置相应的算法或者使用神经网络、深度学习、迭代算法等。一个示例性的实施方式中,如对某种类型的文件进行标引或某些文件的特定位置的内容(如专利的标题)进行标引规则设置后,利用标引规则字段打标得到标引结果。其中,对部分标引结果不符合预期,对标引结果进行了调整,则可以获取标引结果调整的记录,处理器根据调整的记录,如对哪些文件进行的调整,调整的内容是什么,调整后的结果是什么等,根据这些记录信息自动学习、优化标引规则。这样,后续再对类型的目标文件进行自动标引处理时,可以根据之前学习、优化的标引规则进行处理,得到更加准确的标引处理结果。

本公开实施例提供的对文件进行自定义字段标引的处理方法,可以将用户对文件进行自定义字段标引的多个步骤,转化为对自定义字段进行规则设定后基于触发指令自动完成标引,用户可以只要在一个页面操作即可完成标引工作,有效地简化操作步骤。并且,由于标引规则设定可以是提供给自定义字段下的所有或部分子项,可以避免了在单个文件集合中(如单个收藏夹)对同一类型自定义字段的不同子项相似工作的重复标引操作。标引规则一旦设定后,可以在所有的文件集合中(如所有收藏夹下)使用,实现了一次规则设定,全局通用,降低了自定义字段的标引作业复杂性,减少人力资源消耗,提高标引处理效率,提高用户专利作业的服务使用体验。

对应前述文本的分类处方法,本公开提供的对文件进行自定义字段标引的处理方法也可以有对应的处理装置、服务器、设备、存储介质、计算机程序产品等,如装置中可以使用第一模块、第二模块、第三模块、第四模块等以此类推的模块来实现装置中与方法对应的处理功能。具体可以参照与文件的分类处理方法的装置实施例描述,在此不做逐一赘述。

需要说明的,上述所述的装置、设备、服务器等根据方法实施例的描述还可以包括其它的实施方式,具体的实现方式可以参照相关方法实施例的描述。同时各个方法以及装置、设备、服务器实施例之间特征的相互组合组成的新的实施例仍然属于本公开所涵盖的实施范围之内,在此不作一一赘述。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或描述的装置或单元相互之间的耦合、通信连接等可以是直接和/或间接耦合/连接的方式实现,可以是通过一些标准或自定义的接口、协议等,是电性,机械或其它的形式实现。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1