公司名称的提取方法、装置和计算机可读介质与流程

文档序号:15798364发布日期:2018-11-02 21:15阅读:356来源:国知局
公司名称的提取方法、装置和计算机可读介质与流程

本发明涉及数据处理的技术领域,尤其是涉及一种公司名称的提取方法、装置和计算机可读介质。

背景技术

在如今飞速发展的互联网时代下,信息量也越来越大,各种不同的信息资讯/新闻通过各种媒介进行传播。在企业分析领域,需要判断一条新闻中是否包含有公司名称或者与哪些公司相关联,因此,提取公司名称的方法是非常重要的。另外,由于新闻资讯数据量巨大,因此这些数据的分析速度也是需要重视的。

在现有新闻中涉及到的公司名称提取方法中,采用普通前缀树结构进行搜索,在数据量少的情况下提取速度还算理想,但是在每天千万条新闻中提取公司名称时效率还是不足,会导致解析延迟。由于地名在新闻中会大量出现,因此采用现有的前缀树匹配方式在匹配的过程中,会出现大量的无效匹配,浪费时间,降低了效率。



技术实现要素:

有鉴于此,本发明的目的在于提供一种公司名称的提取方法、装置和计算机可读介质,以缓解了现有的公司名称的提取方法速度慢,效率低的技术问题。

第一方面,本发明实施例提供了一种公司名称的提取方法,包括:获取待匹配的倒序文本,并在所述倒序文本中确定待匹配文字;以及从所述待匹配文字选择前n个文字;沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配,其中,所述第一路径中包括用于表征公司类型的多个节点;如果匹配成功,则沿着第二路径将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配,并在匹配结束之后得到目标字串,其中,所述第二路径为所述第一路径的从属路径,所述第二路径中包括用于表征公司名称的多个节点;判断所述目标字串中的最后一个文字在所述目标前缀树所对应的节点是否为叶子节点;如果是,则将所述目标字串确定为公司名称。

进一步地,所述第一路径中包括多个节点,且所述第一路径的多个节点按照节点顺序所对应的文字为第一关键词的倒序形式,所述第一关键词用于表征所述公司类型;所述第二路径中包括多个节点,且所述第二路径的多个节点按照节点顺序所对应的文字为第二关键词的倒序形式,所述第二关键词用于表征公司名称。

进一步地,在获取待匹配的倒序文本之前,所述方法还包括:获取原始文件,其中,所述原始文件中包括多个公司名称;将所述目标文件中的多个公司名称进行清洗,以去除所述多个公司名称中的脏数据,得到包含多个清洗之后的公司名称的目标文件;将所述目标文件中的公司名称倒序插入到原始前缀树中,得到所述目标前缀树。

进一步地,所述方法还包括:如果判断出所述目标字串中最后一个文字在所述目标前缀树所对应的节点不是叶子节点,则将所述倒序文本中位于所述目标字串中最后一个文字后的文字作为待匹配文字,并重新执行从所述待匹配文字选择前n个文字,以及沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配的步骤。

进一步地,所述方法还包括:如果所述前n个文字与所述目标前缀树匹配成功,则判断目标节点是否为叶子节点,其中,所述目标节点为所述目标前缀树与所述前n个文字中最后一个文字相匹配的节点;如果判断出不是,则从所述目标前缀树中目标节点的下一层节点开始将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配;如果判断出是,则确定所述前n个文字为公司名称。

进一步地,如果所述前n个文字与所述目标前缀树匹配失败,则将所述倒序文本中位于匹配失败的文字后的文字作为待匹配文字,并重新执行所述从所述待匹配文字选择前n个文字,并沿着目标前缀树的路径将所述待匹配文字与所述目标前缀树进行匹配的步骤。

进一步地,获取待匹配的倒序文本包括:获取待处理的原始文本;将所述待处理的原始文本进行倒序处理,得到所述待匹配的倒序文本。

进一步地,沿着第二路径将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配包括:从所述待匹配文字中位于所述前n个文字之后的第一个文字开始,执行以下步骤,直至匹配结束:判断当前文字是否为所述待匹配文字中的最后一个文字;如果不是,则沿着所述第二路径将所述当前文字与所述目标前缀树进行匹配;在匹配成功的情况下,判断所述目标前缀树中与所述当前文字相匹配的节点是否为叶子节点;如果判断出是叶子节点,则确定匹配结束;如果判断出不是叶子节点,则将所述待匹配文字中位于所述当前文字之后的文字作为当前文字,并返回执行所述判断当前文字是否为所述待匹配文字中的最后一个文字的步骤。

第二方面,本发明实施例还提供了一种公司名称的提取装置,包括:第一获取单元,用于获取待匹配的倒序文本,并在所述倒序文本中确定待匹配文字;以及从所述待匹配文字选择前n个文字;第一匹配单元,用于沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配,其中,所述第一路径中包括用于表征公司类型的多个节点;第二匹配单元,用于在匹配成功的情况下,则沿着第二路径将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配,并在匹配结束之后得到目标字串,其中,所述第二路径为所述第一路径的从属路径,所述第二路径中包括用于表征公司名称的多个节点;判断单元,用于判断所述目标字串中的最后一个文字在所述目标前缀树所对应的节点是否为叶子节点;确定单元,用于在确定出是的情况下,将所述目标字串确定为公司名称。

第三方面,本发明实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当网络侧设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面所述的方法。

第四方面,本发明实施例还提供了一种计算机可读介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面所述的方法。

在本发明实施例中,在匹配公司名称的过程中,首先在待匹配的倒序文本中确定待匹配文字,然后,将待匹配文字的前n个文字与目标前缀树中的第一路径进行匹配。由于第一路径中各个节点所表征的文字为公司类型,因此,将倒序的文本与第一路径进行匹配的过程中,就能够及时并快速的从待匹配文字确定存在企业名称。在前n个文字匹配成功之后,就可以将待匹配文字中的其余文字与第二路径进行匹配,以在匹配出公司类型的基础上,匹配相对应的公司名称。采用先匹配公司类型后匹配企业名称的方式,能够减少公司名称的匹配次数,以缩短匹配时间,同时,通过控制待匹配文字中的分词长度(前n个文字)来确定是否通过目标前缀树进行后续的查询,这样也减少了循环匹配过程中的匹配时间,大大减少了待匹配文字中提取公司名称的速度,进而缓解了现有的公司名称的提取方法速度慢,效率低的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种公司名称的提取方法的流程图;

图2是根据本发明实施例的一种可选的目标前缀树的示意图;

图3是根据本发明实施例的另一种可选的目标前缀树的示意图;

图4是根据本发明实施例的一种公司名称的提取装置的示意图;

图5是根据本发明实施例的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一:

根据本发明实施例,提供了一种公司名称的提取方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种公司名称的提取方法的流程图,通过该方法,可以快速的从一条新闻提取所涉及到的公司名称,由此,可以在千万条新闻资讯中快速地提取与公司关联的信息;并且相应地,应用到其他功能上,例如,当按公司名查询时,可以快速查询与该公司相关联的新闻,从而综合分析这家公司的舆论导向。下面将结合具体实施例介绍该方法。如图1所示,该方法包括如下步骤:

步骤s102,获取待匹配的倒序文本,并在所述倒序文本中确定待匹配文字;

在本实施例中,待匹配的倒序文本可以为商业新闻的倒序文本,还可以是其他网页内容的倒序文本,还可以是任意一个文本的倒序文本,本实施例中不做具体限定。只要是文本形式的内容,均可以采用本实施例所提供的方法来进行公司名称的提取和匹配。

步骤s104,从所述待匹配文字选择前n个文字,并沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配,其中,所述第一路径中包括用于表征公司类型的多个节点;

发明人通过分析发现,大部分公司名称有非常显著的特点,大多是以“有限公司”、“公司”、“有限合伙”等公司特有关键词结尾。上述关键词用于表征一个公司的公司类型。如果一个文本中存在上述用于表征公司类型的关键词,那么该待匹配的倒序文本中包含公司名称的可能非常大。

相反地,例如,公司名称:北京金堤科技有限公司。如果待匹配的正序文本按照正序的匹配方式进行匹配时,一般是先匹配“北京”两个字。但是,针对商业新闻来说,由于一条新闻中会大量出现“北京”等地名,因此,按照正序的匹配方式会出现大量的无效匹配,浪费了匹配时间,降低了效率。基于此,在本实施例中,获取待匹配的倒序文本,并将待匹配的倒序文本中的待匹配文字先与用于表征公司类型的第一路径进行匹配的方式,能够缩短匹配时间,并提高匹配效率,避免出现大量的无效匹配操作。

步骤s106,如果匹配成功,则沿着第二路径将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配,并在匹配结束之后得到目标字串,其中,所述第二路径为所述第一路径的从属路径,所述第二路径中包括用于表征公司名称的多个节点;

步骤s108,判断所述目标字串中的最后一个文字在所述目标前缀树所对应的节点是否为叶子节点;如果是,则将所述目标字串确定为公司名称。

在本发明实施例中,在匹配公司名称的过程中,首先在待匹配的倒序文本中确定待匹配文字,然后,将待匹配文字的前n个文字与目标前缀树中的第一路径进行匹配,由于第一路径中各个节点所表征的文字为公司类型,因此,将倒序的文本与第一路径进行匹配的过程中,就能够及时并快速的从待匹配文字确定存在企业名称;在前n个文字匹配成功之后,就可以将待匹配文字中的其余文字与第二路径进行匹配,以在匹配出公司类型的基础上,匹配相对应的公司名称。采用先匹配公司类型后匹配企业名称的方式,能够减少公司名称的匹配次数,以缩短匹配时间,同时,通过控制待匹配文字中的分词长度(前n个文字)来确定是否通过目标前缀树进行后续的查询,这样也减少了循环匹配过程中的匹配时间,大大减少了待匹配文字中提取公司名称的速度,进而缓解了现有的公司名称的提取方法速度慢,效率低的技术问题。下面将结合具体实施方式介绍该方法。

在本实施例中,在获取待匹配的倒序文本之前,该方法还包括:获取原始文件,其中,所述原始文件中包括多个公司名称;将所述目标文件中的多个公司名称进行清洗,以去除所述多个公司名称中的脏数据,得到包含多个清洗之后的公司名称的目标文件;将所述目标文件中的公司名称倒序插入到原始前缀树中,得到所述目标前缀树。

具体地,在本实施例中,首先获取原始文件,在该原始文件中包括大量的公司名称,其中不可避免的出现冗余数据(或者,无用信息)。例如,某些公司名称是数据“13”等。因此,在本实施例中,首先对原始文件进行清洗,以去除多个公司名称中的脏数据(或者,无用信息)。

在去除脏数据之后,得到包含多个清洗之后的公司名称的目标文件,最后,将目标文件中的公司名称倒序的插入到原始前缀树中,就可以得到用于表征公司名称的目标前缀树。

如图2所示的为一种可选的目标前缀树的结构示意图。在本实施例中,第一路径中包括多个节点,且第一路径的多个节点按照节点顺序所对应的文字为第一关键词的倒序形式,第一关键词用于表征公司类型;第二路径中包括多个节点,且第二路径的多个节点按照节点顺序所对应的文字为第二关键词的倒序形式,第二关键词用于表征公司名称,第一路径和第二路径的数量均至少为一个。

在如图2所示的目标前缀树中,包括第一路径1和第二路径2。其中,第一路径1中包括4个节点,4个节点按照节点顺序所对应的文字为“有限公司”(即,第一关键词)的倒序形式,其中,第一路径1为:司-公-限-有。

第二路径2的数量为2个,每个第二路径中包括9个节点(并不限定为9个节点),9个节点按照节点顺序所对应的文字为第二关键词(例如,北京一品庄园食品,或者,北京市东方景宏商贸)的倒序形式;第二路径2为:品-食-园-庄-品-一-市-京-北;贸-商-弘-宏-景-方-东-市-京-北。

需要说明的是,如图2所示的前缀树为一种可选的目标前缀树的示意图;或者说,如图2所示的前缀树是目标前缀树的一部分。

在本实施例中,第一路径的数量可以为多个,例如,如图3所示,“有限公司”可以对应第一路径a1,“有限合伙”还可以对应第一路径a2。需要说明的是,图3仅示意性的示出目标前缀树中部分第一路径。

在按照上述处理方式得到目标前缀树之后,就可以将待匹配的倒序文件与目标前缀树进行匹配。

在匹配之前,首先要获取待匹配的倒序文本,在本实施例中,可以通过以下两种方式获取待匹配的倒序文本。

方式一、

获取待处理的原始文本;将所述待处理的原始文本进行倒序处理,得到所述待匹配的倒序文本。

具体地,可以先获取待处理的原始文本(例如,获取到待处理的商业新闻的新闻文本);然后,将新闻文本进行倒序处理(或者反转处理),得到待匹配的倒序文本。

例如,新闻文本为:“千龙网北京4月24日讯据中关村海淀园网站消息,4月17日,北京市海淀区实施百城千业万企对标达标提升专项行动部署大会在中关村展示中心召开,其中有北京市一品庄园食品有限公司等”。

在对上述新闻文本进行倒序处理之后,得到以下文本:“等司公限有品食园庄品一市京北有中其,开召心中示展村关中在会大署部动行项专升提标达标对企万业千城百施实区淀海市京北,日71月4,息消站网园淀海村关中据讯日42月4京北网龙千”。

方式二、

也可以从原始文本开始,朝原始文本初始位置的方向进行读取,得到待匹配的倒序文本。

在按照上述方式一和方式二所描述的方式得到待匹配的倒序文本之后,就可以在倒序文本中确定待匹配文字;以及从待匹配文字选择前n个文字。之后,沿着目标前缀树的第一路径将前n个文字与目标前缀树进行匹配。

如果目标前缀树中第一路径的数量为多个,例如,为如图3所示的形式,那么从所述待匹配文字选择前n个文字,并沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配的步骤可以描述如下:

首先,从待匹配文字选择前n个文字,并沿着目标前缀树中的第一个第一路径将前n个文字与目标前缀树进行匹配,其中,第一个第一路径中包括n个节点;如果匹配成功,则执行步骤s106;

如果未匹配成功,则从待匹配文字选择前n个文字,并沿着目标前缀树中的第二个第一路径将前n个文字与目标前缀树进行匹配,其中,第二个第一路径中包括n个节点。如果匹配成功,则执行步骤s106;如果未匹配成功,则反复执行上述过程,直至每个第一路径均进行匹配操作。

在本实施例中,如果前n个文字与目标前缀树中的每个第一路径均匹配失败,则将倒序文本中位于匹配失败的文字后的文字作为待匹配文字,并重新执行上述从待匹配文字选择前n个文字,并沿着目标前缀树的路径将待匹配文字与目标前缀树进行匹配的步骤。

通过上述描述可知,在上述处理过程中,循环依次获取倒序后的待匹配文字的前n个文字,每次获取到的文字长度为n,其中,4≤n。若待匹配文字中由于文档结束或标点符号而获得的文字长度n小于4,则直接返回不匹配的提示信息,因为没有长度小于4的公司名称。在本实施例中,通过上述匹配方式,大量减少了匹配次数,缩短了匹配时间,提高了匹配效率。

在一个可选的实施方式中,如果前n个文字与目标前缀树匹配成功,则沿着第二路径将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配,并在匹配结束之后得到目标字串,以及判断目标字串中最后一个文字在所述目标前缀树所对应的节点是否为叶子节点;如果是,则将所述目标字串确定为公司名称。

可选地,沿着第二路径将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配的过程描述如下:

从所述待匹配文字中位于所述前n个文字之后的第一个文字开始,执行以下步骤,直至匹配结束:

第一判断步骤,判断当前文字是否为所述待匹配文字中的最后一个文字;

匹配步骤,如果不是,则沿着所述第二路径将所述当前文字与所述目标前缀树进行匹配;如果是,则匹配结束;

第二判断步骤,判断在匹配成功的情况下,判断所述目标前缀树中与所述当前文字相匹配的节点是否为叶子节点;

第一确定步骤,如果判断出是叶子节点,则确定匹配结束;

第二确定步骤,如果判断出不是叶子节点,则将所述待匹配文字中位于所述当前文字之后的文字作为当前文字,并返回执行第一判断步骤。

在另一个可选的实施方式中,如果判断出所述目标字串中最后一个文字在所述目标前缀树所对应的节点不是叶子节点,则将所述倒序文本中位于所述目标字串中最后一个文字后的文字作为待匹配文字,并重新执行从所述待匹配文字选择前n个文字,以及沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配的步骤。

在另一个可选的实施方式中,如果判断出所述目标字串中最后一个文字在所述目标前缀树所对应的节点不是叶子节点,还可以将所述倒序文本中位于目标文字后的文字作为待匹配文字,并重新执行从所述待匹配文字选择前n个文字,以及沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配的步骤,目标文字为待匹配文字中的第一个文字。

在本实施例中,如果前n个文字与目标前缀树匹配成功,该方法还包括如下步骤:判断目标节点是否为叶子节点,其中,所述目标节点为所述目标前缀树与所述前n个文字中最后一个文字相匹配的节点;如果判断出不是,则从所述目标前缀树中目标节点的下一层节点开始将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配;如果判断出是,则确定所述前n个文字为公司名称。

本发明通过以新的方式构建前缀树来减少匹配次数来减少匹配时间,通过控制新闻内容分词长度来确定是否通过前缀树查询,这样也减少了循环匹配过程中的匹配时间,大大减少了新闻内容中提取公司名称的速度,达到及时处理实时新闻中公司名称提取的需求。

实施例二:

为便于理解,本实施例提供了一种具体的应用实例,以介绍上述实施例中所描述的公司名称的提取方法。

例如,待匹配的倒序文本为“等司公限有品食园庄品一市京北有中其,开召心中示展村关中在会大署部动行项专升提标达标对企万业千城百施实区淀海市京北,日71月4,息消站网园淀海村关中据讯日42月4京北网龙千”。

首先,用“等司公限”到如图2所示的目标前缀树树中匹配,匹配过程是先查找“等”结尾的公司,发现没有找到,则将倒序文本中位于匹配失败的文字后的文字作为待匹配文字,即将“等”之后的文字作为待匹配文字,并从该待匹配文字中重新选择4个文字“司公限有”。

之后,在目标前缀树中匹配“司公限有”。如图2所示,目标前缀树中包括“司公限有”,则确定“司公限有”被匹配到。但是经过判断可知“有”在目标前缀树中所匹配的节点(上述目标节点)不是叶子节点。

然后,将待匹配文字中位于“司公限有”之后的文字与目标前缀树的第二路径进行匹配,例如,将待匹配文字的长度扩大为五个字“司公限有品”,直到匹配到“司公限有品食园庄品一市京北”后,其中,“司公限有品食园庄品一市京北”即为上述目标字串。

最后,判断目标字串“司公限有品食园庄品一市京北”中最后一个文字“北”在目标前缀树中所对应的节点是否为叶子节点。通过判断出可知,“北”在目标前缀树中所对应的节点是叶子节点,此时将“司公限有品食园庄品一市京北”的倒序作为匹配出的公司名称。

由于“北”不是待匹配文字中的最后一个文字,此时,定位到“北”的下一个子“有”,并按照上述实施例一中所描述的方式,在待匹配的倒序文本中,将“有”(包括“有”)之后的文字作为待匹配的文字,重新执行上述实施例一中所描述的步骤,此处不再详细赘述。

实施例三:

本发明实施例还提供了一种公司名称的提取装置,该公司名称的提取装置主要用于执行本发明实施例上述内容所提供的公司名称的提取方法,以下对本发明实施例提供的公司名称的提取装置做具体介绍。

图4是根据本发明实施例的一种公司名称的提取装置的示意图,如图4所示,该公司名称的提取装置主要包括获取单元10,第一匹配单元20,第二匹配单元30,判断单元40和确定单元50,其中:

获取单元10,用于获取待匹配的倒序文本,并在所述倒序文本中确定待匹配文字;

第一匹配单元20,用于从所述待匹配文字选择前n个文字;并沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配,其中,所述第一路径中包括用于表征公司类型的多个节点;

第二匹配单元30,用于在匹配成功的情况下,沿着第二路径将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配,并在匹配结束之后得到目标字串,其中,所述第二路径为所述第一路径的从属路径,所述第二路径中包括用于表征公司名称的多个节点;

判断单元40,用于判断所述目标字串中的最后一个文字在所述目标前缀树所对应的节点是否为叶子节点;

确定单元50,用于在确定出是的情况下,将所述目标字串确定为公司名称。

在本实施例中,采用先匹配公司类型后匹配企业名称的方式,能够减少公司名称的匹配次数,以缩短匹配时间,同时,通过控制待匹配文字中的分词长度(前n个文字)来确定是否通过目标前缀树进行后续的查询,这样也减少了循环匹配过程中的匹配时间,大大减少了待匹配文字中提取公司名称的速度,进而缓解了现有的公司名称的提取方法速度慢,效率低的技术问题。

可选地,所述第一路径中包括多个节点,且所述第一路径的多个节点按照节点顺序所对应的文字为第一关键词的倒序形式,所述第一关键词用于表征所述公司类型;所述第二路径中包括多个节点,且所述第二路径的多个节点按照节点顺序所对应的文字为第二关键词的倒序形式,所述第二关键词用于表征公司名称。

可选地,该装置还用于:获取原始文件,其中,所述原始文件中包括多个公司名称;将所述目标文件中的多个公司名称进行清洗,以去除所述多个公司名称中的脏数据,得到包含多个清洗之后的公司名称的目标文件;将所述目标文件中的公司名称倒序插入到原始前缀树中,得到所述目标前缀树。

可选地,该装置还用于:如果判断出所述目标字串中最后一个文字在所述目标前缀树所对应的节点不是叶子节点,则将所述倒序文本中位于所述目标字串中最后一个文字后的文字作为待匹配文字,并重新执行从所述待匹配文字选择前n个文字,以及沿着目标前缀树的第一路径将所述前n个文字与所述目标前缀树进行匹配的步骤。

可选地,该装置还用于:如果所述前n个文字与所述目标前缀树匹配成功,则判断目标节点是否为叶子节点,其中,所述目标节点为所述目标前缀树与所述前n个文字中最后一个文字相匹配的节点;如果判断出不是,则从所述目标前缀树中目标节点的下一层节点开始将所述待匹配文字中位于所述前n个文字之后的文字与所述目标前缀树进行匹配;如果判断出是,则确定所述前n个文字为公司名称。

可选地,该装置还用于:如果所述前n个文字与所述目标前缀树匹配失败,则将所述倒序文本中位于匹配失败的文字后的文字作为待匹配文字,并重新执行所述从所述待匹配文字选择前n个文字,并沿着目标前缀树的路径将所述待匹配文字与所述目标前缀树进行匹配的步骤。

可选地,获取单元用于:获取待处理的原始文本;将所述待处理的原始文本进行倒序处理,得到所述待匹配的倒序文本。

可选地,第二匹配单元用于:从所述待匹配文字中位于所述前n个文字之后的第一个文字开始,执行以下过程,直至匹配结束:判断当前文字是否为所述待匹配文字中的最后一个文字;如果不是,则沿着所述第二路径将所述当前文字与所述目标前缀树进行匹配;在匹配成功的情况下,判断所述目标前缀树中与所述当前文字相匹配的节点是否为叶子节点;如果判断出是叶子节点,则确定匹配结束;如果判断出不是叶子节点,则将所述待匹配文字中所述当前文字之后的文字作为当前文字,并返回执行所述判断当前文字是否为所述待匹配文字中的最后一个文字的过程。

本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

实施例四:

参见图5,本发明实施例还提供一种电子设备100,包括:处理器50,存储器51,总线52和通信接口53,所述处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。

其中,存储器51可能包含高速随机存取存储器(ram,randomaccessmemory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。

总线52可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

其中,存储器51用于存储程序,所述处理器50在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。

处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现成可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1