一种文本识别方法和装置的制造方法_2

文档序号：9631534阅读：来源：国知局

、数据分析和数据处理过程中，进行文本识别是非常有必要的，文本识别的准确性将直接关系到数据分析的准确性，因而，如何确保文本识别的高度准确性是本领域技术人员亟需解决的难题。
[0051] 目前常用的文本识别方法为正则匹配法，采用正则表达式作为筛选条件，能够在一定程度上实现文本的识别，然而，正则匹配法具有很大的局限性，特别是对于复杂的、非结构化的网络文本，难以建立通用的正则表达式，在文本识别过程中，容易出现无法识别或识别错误的问题。
[0052] 本发明提供的文本识别方法可以很好的克服正则匹配法所存在的缺陷，极大了提高文本识别的准确性，以下，以识别网络文本中的演员信息为例，对本发明进行详细的说明，应当理解，本发明可以适用于识别任意格式的文本。
[0053] 参照图1，示出了本发明的一种文本识别方法实施例的步骤流程图，具体可以包括如下步骤：
[0054] 步骤101，对待识别文本进行分割，获得若干个分割文本；
[0055] 本发明实施例可以对待识别文本进行分割，获得若干个分割文本，其中，各个分割文本被分割为一个或多个字段。
[0056]在本发明的一种优选实施例中，步骤101可以包括以下子步骤：
[0057] 子步骤S11，确定待识别文本中分割符的位置；
[0058] 子步骤S12,在所述分割符的位置对所述待识别文本进行分割，获得2"个分割文本。
[0059] 需要说明的是，待识别文本中的分割符可以是除文字以外的任意符号，例如"，"、等。
[0060] 本发明实施例可以确定待识别文本中分割符的位置，例如，对于待识别文本"李允素，金伯元，陈劲明"，那么分割符的位置位于"李允素"和"金伯元"之间，以及"金伯元"和 "陈劲明"之间。
[0061] 确定分割符位置后，可以在分割符的位置对待识别文本进行分割，获得2n个分割文本，其中，η为待识别文本中分割符的数量，且η为正整数。
[0062] 对于待识别文本"李允素，金伯元，陈劲明"，共有2个分割符，即η为2,而每个分割符处都有分割和不分割两种情况，因而，对待识别文本进行分割后获得的所有可能的分割文本有2 2个。
[0063] 以〇表不在分割符位置不进行分割，以1表不在分割符位置进行分割，则对于待识别文本"李允素，金伯元，陈劲明"的所有可能分割文本分别为："李允素〇金伯元〇陈劲明"，"李允素〇金伯元1陈劲明"，"李允素1金伯元〇陈劲明"和"李允素1金伯元1陈劲明";其中，分割文本"李允素〇金伯元〇陈劲明"被分割成1个字段，分割文本"李允素〇金伯元1陈劲明"被分割为2个字段，分别为"李允素0金伯元"和"陈劲明"，分割文本"李允素1金伯元0陈劲明"被分割为2个字段，分别为李允素"和"金伯元0陈劲明"，分割文本 "李允素1金伯元1陈劲明"被分割为3个字段，分别为"李允素"、"金伯元"和"陈劲明"。
[0064] 步骤102,将所述各个分割文本中的字段，与预置的文本识别数据库中的文本进行匹配，获得匹配数量；
[0065] 本发明实施例可以预置文本识别数据库，本领域技术人员可以根据实际需要在预置的文本识别数据库添加任意文本，例如，在专门用于识别演员名称的场合，预置的文本识别数据库可以包含有演员的主名、别名等等，在专门用于识别电影名称的场合，预置的文本识别数据库可以包含电影名称。
[0066] 本发明实施例可以将各个分割文本中的字段与预置的文本识别数据库中的文本进行匹配，获得匹配数量，若预置的文本识别数据库中存在h个与进行匹配的字段一样的文本，则获得的匹配数量为h，例如，对于分割文本"李允素0金伯元0陈劲明"，若预置的文本识别数据库中没有与字段"李允素〇金伯元〇陈劲明"相同的文本，则获得的匹配数量为〇,对于分割文本"李允素1金伯元1陈劲明"，若预置的文本识别数据库中与字段"李允素"、 "金伯元"和"陈劲明"相同的文本分别有1个、3个和2个，则与字段"李允素"、"金伯元"和 "陈劲明"对应的匹配数量分别为1、3和2。
[0067] 当然，在实际应用中，可以将预置的文本识别数据库中的文本分为主要文本和次要文本，例如，对于演员的主名、别名和其他名字，可以将主名分为主要文本，别名和其他名字分为次要文本，则步骤102还可以包括以下子步骤：
[0068] 子步骤S21，将所述各个分割文本中的字段，与所述预置的文本识别数据库中的主要文本进行匹配，获得匹配数量；
[0069] 子步骤S22,若某字段与所述主要文本进行匹配所获得的匹配数量为0,则将其与所述预置的文本识别数据库中的次要文本进行匹配，获得匹配数量。
[0070] 本发明实施例可以先将各个分割文本中的字段，与预置的文本识别数据库中的主要文本进行匹配，获得匹配数量，若某字段与主要文本进行匹配所获得的匹配数量为〇,再将该字段与预置的文本识别数据库中的次要文本进行匹配，获得匹配数量。
[0071] 例如，对于字段"李允素"，若没有与"李允素"相同的主要文本，则将"李允素"与次要文本进行匹配，若存在一个或以上与"李允素"相同的主要文本，则可以不用再与次要文本进行匹配。
[0072] 本发明实施例将预置的文本识别数据库中的文本分为主要文本和次要文本，在字段匹配时，首先将字段与主要文本进行匹配，若存在一个或以上与该字段相同的主要文本，则不用再与次要文本进行匹配，可以减轻匹配时的资源耗费。
[0073] 步骤103,对各个所述字段分配与其匹配数量相应的分值；
[0074] 本发明实施例可以对各个字段分配与其匹配数量相应的分值，分值的分配规则可以根据实际需要进行设定，本发明实施例对此不作限制。
[0075]在本发明的一种优选实施例中，步骤103可以包括以下子步骤：
[0076] 子步骤S31，若某字段的匹配数量为0,则分配的分值为
[0077] 子步骤S32,若某字段的匹配数量为1，则分配的分值为1;
[0078] 子步骤S33,若某字段的匹配数量为m，则分配的分值为为大于或等于2的正 m 整数。
[0079] 在本发明的一种另一优选实施例中，步骤103还可以包括以下子步骤：
[0080] 子步骤S41，获取所述各个分割文本中字段的数量p;
[0081] 子步骤S42,若某字段的匹配数量为q，则分配的分值为其中，p为正整数，q为 0或正整数。
[0082]本发明实施例可以获取各个分割文本中字段的数量p，例如，对于分割文本"李允素1金伯元1陈劲明"，其所包含的字段的数量P为3,分别为"李允素"、"金伯元"和"陈劲明"。
[0083] 若对于字段"李允素"的匹配数量q为2,则分配的分值戈
[0084] 以上给出了子步骤S31~子步骤S33和子步骤S41~子步骤S42两种分值分配规贝1J，为方便描述，在后续的说明中，对于子步骤S31~子步骤S33的分值分配规则均采用第一分值分配规则进行描述，对于子步骤S41~子步骤S42的分值分配规则均采用第二分值分配规则进行描述。
[0085] 应当理解，本实施例的分值分配规则并不限于上述示出的第一分值分配规则和第二分值分配规则，还可以采用其他的分值分配规则。
[0086] 步骤104,统计所述各个分割文本的总分值；
[0087] 步骤105,将总分值最高的分割文本作为所述待识别文本的最优识别结果。

完整全部详细技术资料下载

当前第2页1 2 3 4