一种基于统计机器学习方法的分词字典数据采集方法
【专利摘要】本发明涉及数据处理基础领域,具体来说是一种基于统计机器学习方法的分词字典数据采集方法,利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,进行概念的获取及处理,从而对采集信息或数据进行加工,建立信息数据库和索引数据库,形成用户想要的数据内容,对用户提出的各种检索做出响应,为提供用户所需的信息或相关指针,从而提高了信息检索的准确率和准确率。
【专利说明】
一种基于统计机器学习方法的分词字典数据采集方法
[技术领域]
[0001]本发明涉及数据处理技术领域,具体来说是一种基于统计机器学习方法的分词字典数据采集方法。
[【背景技术】]
[0002]随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,信息检索的实现是将信息进行分词算法,以便查找。
[0003]现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
[0004]基于字符串匹配的分词方法又叫做机械分词方法,是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
[0005]I)正向最大匹配法(由左到右的方向);
[0006]2)逆向最大匹配法(由右到左的方向);
[0007]3)最少切分(使每一句中切出的词数最小);
[0008]4)双向最大匹配法(进行由左到右、由右到左两次扫描)
[0009]还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,但这种精度还远远不能满足实际的需要,实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
[0010]理解分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
[0011]基于统计的分词方法一种是较为原始的方法:字从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,因此字与字相邻共现的频率或概率能够较好的反映成词的可信度,可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,定义两个字的互现信息,计算两个汉字χ、γ的相邻共现概率,互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法,但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
[0012]另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分,由于汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字却常常作为后缀(“者” “性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词,最大缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。
[0013]在实现的过程中,中文分词有两大基本问题,也是中文分词的难点,一是歧义识别问题,二是未登录词问题,本节简要介绍下这两类问题:
[0014]第一个问题是歧义识别的问题,由于中文自身的特点,对于中文中的一句话不同的划分可能有不同的意思,例如,“乒乓球拍卖完了”,这句话可以划分成“乒乓球/拍卖完了”,也可以划分成“乒乓球拍/卖完了”。虽然到现在为止没有出线一个百分百的消除歧义的算法,但是已经出现了许多比较好的,且具有实际应用价值的算法。
[0015]第二个是未登录词的问题,未登录词又称为新词,因为语言在不断的发展和变化导致新词的不断出现,同时词的衍生现象非常普遍,所以词表中不能囊括所有的词。最典型的是人名,例如在句子“李军虎去上海”中,人可以很容易理解“李军虎”作为一个人名是个词,但计算机识别就困难了。如果把“李军虎”作为一个词收录到字典中去,全世界有那么多名字,而且时时都有新增的人名,如此一项巨大的工程即使可以完成,问题仍旧存在。例如:在句子“李军虎背熊腰的”中,“李军虎”又算词吗?新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等这些人们经常使用的词都是很难处理的问题,因此在信息搜索中,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
[
【发明内容】
]
[0016]本发明是将网站、系统或平台的数据,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。
[0017]为了实现上述目的,设计一种基于统计机器学习方法的分词字典数据采集方法,具体如下:
[0018]a.概念的自动获取:
[0019]利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,处理流程包括三个步骤:
[0020](I).预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集;
[0021](2).训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型,在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型,
[0022]首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本,然而这样的样本向量空间维数非常高,给计算带来巨大压力,可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数,其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用;
[0023]在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法,最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型;
[0024](3).分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语;
[0025]b.概念关系获取:领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体一部分关系三类词对,多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解,具体处理流程包括三个步骤:
[0026](I).预处理:利用前文方法中获得的领域概念集,检索领域语料,查找同时含有两个或两个以上领域概念的句子,然后将句子中的领域概念两两组对,形成候选关系词对集;
[0027](2).训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型,在获得候选领域概念关系词对集后也需要将这些特征词对表示成计算机可以识别的格式,以训练分类模型,得到分类器,通过对标注语料的分析,选用词序特征、词形特征和上下文特征这三类特征,采用相关标引方法,组成特征向量表示每一个候选词对,在将候选概念关系表示成特征向量之后,使用分类算法,从标注的训练数据中,学习一个推广性能最好的分类模型,项目结合朴素贝叶斯和感知器两种分类算法的优点,提出混合分类算法,用以训练领域概念关系分类模型,取得较好的效果;
[0028](3).分类:将新文本中的所有可能关系词对分别对应于同义关系分类器、上下文关系分类器、整体一部分分类器,经过归一化处理后,选择分值最高所对应的类别作为该词对的最终类别。
[0029]概念的自动获取的预处理方法如下:预处理输入的是训练文本,输出是带标记的候选领域概念集,首先利用自动分词方法和最大词串匹配算法得出候选领域概念集,然后,对候选概念集进行人工标注,若是专业术语标注为正例,否则为负例。
[0030]本发明采用基于统计机器学习方法的分词字典数据采集方法,对采集信息或数据进行加工,建立信息数据库和索引数据库,形成用户想要的数据内容,对用户提出的各种检索做出响应,为提供用户所需的信息或相关指针,从而提高了信息检索的准确率和准确率。
[【具体实施方式】]
[0031]下面结合具体实施例对本发明作进一步说明,这种方法的原理对本专业的人来说是非常清楚的。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0032]本发明采用基于统计机器学习方法的分词字典对信息系统采集的数据进行分词。
[0033]一、机器学习的方法需要首先建立一个学习模型以模拟一个特定的任务,然后在已标注的训练集上应用学习算法,在得到一个推广性能最好的学习模型之后,即可从文本中抽取概念。
[0034]二、概念关系获取方法
[0035]不同的组织和研究机构,给出了不同的语义关系类型。联机英语词汇检索系统wordnet将概念之间的语义关系分为同义关系、反义关系、相似关系、上下位关系、整体一部分关系、继承关系和因果关系;微软公司开发的概念知识库系统mindnet把语义关系标记为24种不同的语义类型,包括同义关系、部分关系、属性关系、方式关系、意图关系、目标关系等;知网hownet共定义了 16种语义关系,如上下位关系、同义关系、整体一部分关系、工具一事件关系。
[0036]本发明主要考虑两种类型的关系:分类关系(taxonomy)和非分类关系(non-taxonomy) 。分类关系主要指概念之间具有典型的分类结构,将概念组织成树状层次结构,每一个树中的概念都与其它概念构成上下位关系,体现了概念间的包含关系;非分类关系又称为非层级关系,主要指概念之间不具有典型的分类结构,但是概念之间具有一定的联系,反映了概念间的某些语义关系,类型多种多样,非分类体系主要考虑相关概念对的提取。
[0037]机器学习方法:与概念获取一样,人们对概念关系获取问题建立了一个学习模型,力求能把语言知识和统计规律相互融合在一个模型框架中,通过对大量真实语料的学习来确定模型的参数,进而解决概念关系获取问题。
[0038]本发明主要研究通过机器学习方法如何从大量专业文本中自动获取领域概念及概念间三种基本关系的方法,并研究通过机器学习方法如何从大量专业文本中自动获取领域概念及概念间三种基本关系的方法。
[0039]1.概念的自动获取
[0040]利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,处理流程包括三个步骤:
[0041]?预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集。首先利用自动分词方法和最大词串匹配算法等自然语言处理技术得出候选领域概念集。然后,对候选概念集进行人工标注,若是专业术语标注为正例,否则为负例。
[0042].训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型。在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型。
[0043]首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本,然而这样的样本向量空间维数非常高,给计算带来巨大压力,可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数;其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用。这里的难点在于非平衡数据处理问题,即在候选概念集中,真正领域概念的个数远远小于非领域概念的个数,也就是说,样本中正例数据与负例数据分布极度不均匀。
[0044]在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法。在非平衡数据下,前者容易使分类器误将负例判断为正例;而后者会导致漏选一些有用的负特征;最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型。项目选取了目前在文本分类中获得较好结果的4种分类算法:决策树、朴素贝叶斯、支持向量机和感知器,训练得出4个分类器。
[0045].分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语。
[0046]2概念关系获取
[0047]概念之间存在着各种不同形式的关系,此示例主要研究如何从文本中自动获取两个概念间的三种最基本的语义关系,即:
[0048](I)义关系;
[0049](2)上下位关系:也称为从属/上属关系,子集/超集关系,或is—a关系;
[0050](3)体一部分关系;
[0051]领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体一部分关系三类词对。通常多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解,具体处理流程包括三个步骤:
[0052]?预处理:利用前文方法中获得的领域概念集,检索领域语料。查找同时含有两个或两个以上领域概念的句子。然后将句子中的领域概念两两组对,形成候选关系词对集。
[0053].训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型。在获得候选领域概念关系词对集后也需要将这些特征词对表示成计算机可以识别的格式,以训练分类模型,得到分类器。通过对标注语料的分析,选用词序特征、词形特征和上下文特征这三类特征,采用相关标引方法,组成特征向量表示每一个候选词对。在将候选概念关系表示成特征向量之后,使用分类算法,从标注的训练数据中,学习一个推广性能最好的分类模型(分类器)。项目结合朴素贝叶斯和感知器两种分类算法的优点,提出混合分类算法,用以训练领域概念关系分类模型,取得较好的效果。
[0054].分类:将新文本中的所有可能关系词对分别对应于同义关系分类器、上下文关系分类器、整体一部分分类器。经过归一化处理后,选择分值最高所对应的类别作为该词对的最终类别。
【主权项】
1.一种基于统计机器学习方法的分词字典数据采集方法,其特征在于方法具体如下: a.概念的自动获取: 利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,处理流程包括三个步骤: (1).预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集; (2).训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型,在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型, 首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本,然而这样的样本向量空间维数非常高,给计算带来巨大压力,可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数,其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用; 在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法,最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型; (3).分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语; b.概念关系获取:领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体一部分关系三类词对,多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解,具体处理流程包括三个步骤: (1).预处理:利用前文方法中获得的领域概念集,检索领域语料,查找同时含有两个或两个以上领域概念的句子,然后将句子中的领域概念两两组对,形成候选关系词对集; (2).训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型,在获得候选领域概念关系词对集后也需要将这些特征词对表示成计算机可以识别的格式,以训练分类模型,得到分类器,通过对标注语料的分析,选用词序特征、词形特征和上下文特征这三类特征,采用相关标引方法,组成特征向量表示每一个候选词对,在将候选概念关系表示成特征向量之后,使用分类算法,从标注的训练数据中,学习一个推广性能最好的分类模型,项目结合朴素贝叶斯和感知器两种分类算法的优点,提出混合分类算法,用以训练领域概念关系分类模型,取得较好的效果; (3).分类:将新文本中的所有可能关系词对分别对应于同义关系分类器、上下文关系分类器、整体一部分分类器,经过归一化处理后,选择分值最高所对应的类别作为该词对的最终类别。2.如权利要求1所述的一种基于统计机器学习方法的分词字典数据采集方法,其特征在于概念的自动获取的预处理方法如下:预处理输入的是训练文本,输出是带标记的候选领域概念集,首先利用自动分词方法和最大词串匹配算法得出候选领域概念集,然后,对候选概念集进行人工标注,若是专业术语标注为正例,否则为负例。
【文档编号】G06F17/30GK106055560SQ201610329755
【公开日】2016年10月26日
【申请日】2016年5月18日
【发明人】姬江涛, 闵新力, 薛君志, 马伟华, 秦玉林, 张小坤, 张国军, 施俊士, 张余, 程洁羚, 周江, 张达宁
【申请人】上海申腾信息技术有限公司