一种文本识别方法和装置的制造方法_2

文档序号:9631534阅读:来源:国知局
、数据分析和数据处理过程中,进行文本识别是非常有必要的, 文本识别的准确性将直接关系到数据分析的准确性,因而,如何确保文本识别的高度准确 性是本领域技术人员亟需解决的难题。
[0051] 目前常用的文本识别方法为正则匹配法,采用正则表达式作为筛选条件,能够在 一定程度上实现文本的识别,然而,正则匹配法具有很大的局限性,特别是对于复杂的、非 结构化的网络文本,难以建立通用的正则表达式,在文本识别过程中,容易出现无法识别或 识别错误的问题。
[0052] 本发明提供的文本识别方法可以很好的克服正则匹配法所存在的缺陷,极大了提 高文本识别的准确性,以下,以识别网络文本中的演员信息为例,对本发明进行详细的说 明,应当理解,本发明可以适用于识别任意格式的文本。
[0053] 参照图1,示出了本发明的一种文本识别方法实施例的步骤流程图,具体可以包括 如下步骤:
[0054] 步骤101,对待识别文本进行分割,获得若干个分割文本;
[0055] 本发明实施例可以对待识别文本进行分割,获得若干个分割文本,其中,各个分割 文本被分割为一个或多个字段。
[0056]在本发明的一种优选实施例中,步骤101可以包括以下子步骤:
[0057] 子步骤S11,确定待识别文本中分割符的位置;
[0058] 子步骤S12,在所述分割符的位置对所述待识别文本进行分割,获得2"个分割文 本。
[0059] 需要说明的是,待识别文本中的分割符可以是除文字以外的任意符号,例如","、 等。
[0060] 本发明实施例可以确定待识别文本中分割符的位置,例如,对于待识别文本"李允 素,金伯元,陈劲明",那么分割符的位置位于"李允素"和"金伯元"之间,以及"金伯元"和 "陈劲明"之间。
[0061] 确定分割符位置后,可以在分割符的位置对待识别文本进行分割,获得2n个分割 文本,其中,η为待识别文本中分割符的数量,且η为正整数。
[0062] 对于待识别文本"李允素,金伯元,陈劲明",共有2个分割符,即η为2,而每个分 割符处都有分割和不分割两种情况,因而,对待识别文本进行分割后获得的所有可能的分 割文本有2 2个。
[0063] 以〇表不在分割符位置不进行分割,以1表不在分割符位置进行分割,则对于待 识别文本"李允素,金伯元,陈劲明"的所有可能分割文本分别为:"李允素〇金伯元〇陈劲 明","李允素〇金伯元1陈劲明","李允素1金伯元〇陈劲明"和"李允素1金伯元1陈劲 明";其中,分割文本"李允素〇金伯元〇陈劲明"被分割成1个字段,分割文本"李允素〇金 伯元1陈劲明"被分割为2个字段,分别为"李允素0金伯元"和"陈劲明",分割文本"李允 素1金伯元0陈劲明"被分割为2个字段,分别为李允素"和"金伯元0陈劲明",分割文本 "李允素1金伯元1陈劲明"被分割为3个字段,分别为"李允素"、"金伯元"和"陈劲明"。
[0064] 步骤102,将所述各个分割文本中的字段,与预置的文本识别数据库中的文本进行 匹配,获得匹配数量;
[0065] 本发明实施例可以预置文本识别数据库,本领域技术人员可以根据实际需要在预 置的文本识别数据库添加任意文本,例如,在专门用于识别演员名称的场合,预置的文本识 别数据库可以包含有演员的主名、别名等等,在专门用于识别电影名称的场合,预置的文本 识别数据库可以包含电影名称。
[0066] 本发明实施例可以将各个分割文本中的字段与预置的文本识别数据库中的文本 进行匹配,获得匹配数量,若预置的文本识别数据库中存在h个与进行匹配的字段一样的 文本,则获得的匹配数量为h,例如,对于分割文本"李允素0金伯元0陈劲明",若预置的文 本识别数据库中没有与字段"李允素〇金伯元〇陈劲明"相同的文本,则获得的匹配数量为 〇,对于分割文本"李允素1金伯元1陈劲明",若预置的文本识别数据库中与字段"李允素"、 "金伯元"和"陈劲明"相同的文本分别有1个、3个和2个,则与字段"李允素"、"金伯元"和 "陈劲明"对应的匹配数量分别为1、3和2。
[0067] 当然,在实际应用中,可以将预置的文本识别数据库中的文本分为主要文本和次 要文本,例如,对于演员的主名、别名和其他名字,可以将主名分为主要文本,别名和其他名 字分为次要文本,则步骤102还可以包括以下子步骤:
[0068] 子步骤S21,将所述各个分割文本中的字段,与所述预置的文本识别数据库中的主 要文本进行匹配,获得匹配数量;
[0069] 子步骤S22,若某字段与所述主要文本进行匹配所获得的匹配数量为0,则将其与 所述预置的文本识别数据库中的次要文本进行匹配,获得匹配数量。
[0070] 本发明实施例可以先将各个分割文本中的字段,与预置的文本识别数据库中的主 要文本进行匹配,获得匹配数量,若某字段与主要文本进行匹配所获得的匹配数量为〇,再 将该字段与预置的文本识别数据库中的次要文本进行匹配,获得匹配数量。
[0071] 例如,对于字段"李允素",若没有与"李允素"相同的主要文本,则将"李允素"与 次要文本进行匹配,若存在一个或以上与"李允素"相同的主要文本,则可以不用再与次要 文本进行匹配。
[0072] 本发明实施例将预置的文本识别数据库中的文本分为主要文本和次要文本,在字 段匹配时,首先将字段与主要文本进行匹配,若存在一个或以上与该字段相同的主要文本, 则不用再与次要文本进行匹配,可以减轻匹配时的资源耗费。
[0073] 步骤103,对各个所述字段分配与其匹配数量相应的分值;
[0074] 本发明实施例可以对各个字段分配与其匹配数量相应的分值,分值的分配规则可 以根据实际需要进行设定,本发明实施例对此不作限制。
[0075]在本发明的一种优选实施例中,步骤103可以包括以下子步骤:
[0076] 子步骤S31,若某字段的匹配数量为0,则分配的分值为
[0077] 子步骤S32,若某字段的匹配数量为1,则分配的分值为1;
[0078] 子步骤S33,若某字段的匹配数量为m,则分配的分值为为大于或等于2的正 m 整数。
[0079] 在本发明的一种另一优选实施例中,步骤103还可以包括以下子步骤:
[0080] 子步骤S41,获取所述各个分割文本中字段的数量p;
[0081] 子步骤S42,若某字段的匹配数量为q,则分配的分值为其中,p为正整数,q为 0或正整数。
[0082]本发明实施例可以获取各个分割文本中字段的数量p,例如,对于分割文本"李允 素1金伯元1陈劲明",其所包含的字段的数量P为3,分别为"李允素"、"金伯元"和"陈劲 明"。
[0083] 若对于字段"李允素"的匹配数量q为2,则分配的分值戈
[0084] 以上给出了子步骤S31~子步骤S33和子步骤S41~子步骤S42两种分值分配规 贝1J,为方便描述,在后续的说明中,对于子步骤S31~子步骤S33的分值分配规则均采用第 一分值分配规则进行描述,对于子步骤S41~子步骤S42的分值分配规则均采用第二分值 分配规则进行描述。
[0085] 应当理解,本实施例的分值分配规则并不限于上述示出的第一分值分配规则和第 二分值分配规则,还可以采用其他的分值分配规则。
[0086] 步骤104,统计所述各个分割文本的总分值;
[0087] 步骤105,将总分值最高的分割文本作为所述待识别文本的最优识别结果。
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1