本发明涉及数据细粒度判别分析,具体涉及一种中医证候名细粒度分割方法。
背景技术:
1、在中医诊断中,医生会对患者的证候进行判断并给出证候名。由于患者的病症种类繁多,导致中医证候名数量大,在统计分析时进行人工处理的工作量大,因此人们改进采用自然语言模型对其进行处理。在对汉语词组进行自然语言模型处理时,首先要做的是对汉字进行细粒度分割。中医证候名用字较为固定、词组较短,所以适合通过字典库采用字典匹配法进行细粒度分割。
2、现有的汉语文本的字典匹配法,多采用双向最大字典匹配法,主要思想是将细粒度最粗,即最长的字符组合视为最合理的分词组合。然而中医证候名的语义构成逻辑是古汉语的逻辑而非现代的白话文逻辑,古汉语表达一个语义的字符组合十分短,以细粒度最粗作为判断细粒度分割的好坏标准实际上并不适合中医证候名,且中医证候名不似诗歌骈文有固定的断句格式,不适用于基于固定规则的细粒度分割,所以如何给出适用于中医证候名的自适应细粒度分割方法是需要解决的技术问题。
技术实现思路
1、本发明提供了一种中医证候名细粒度分割方法,用以解决当前细粒度分割方法对中医证候名分割效果较差的技术问题,所采用的技术方案具体如下:
2、本发明的一种中医证候名细粒度分割方法,包括以下步骤:
3、采集所有中医证候名作为语料数据集,计算语料数据集的金字塔字典库;
4、确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割;
5、根据初步分割结果中各个字符组合在语料数据集中出现的概率计算初步分割结果的分割经验符合度;综合初步分割结果中字符组合在对应的金字塔字典库字符节点中出现的不平衡性大小,以及初步分割结果中字符组合所对应的金字塔字典库字符节点与上一层字符节点的关联性大小,计算得到初步分割结果的组合逆熵;
6、根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度;
7、根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度,计算初步分割结果的分割结果判断值,根据分割结果判断值从所有初步分割结果中选择出最优分割结果,以最优分割结果完成对中医证候名的细粒度分割。
8、本发明的有益效果为:
9、对中医证候名建立金字塔字典库并查询金字塔字典库完成对证候名的初步分割得到初步分割结果,根据初步分割结果中各个字符在所有中医证候名中出现的频率大小确定分割经验符合度,根据初步分割结果中各个字符对应的金字塔字典库字符节点中不同字符组合出现次数的差异性以及对应的金字塔字典库字符节点与上一层字符节点的关联性确定初步分割结果的组合逆熵,根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度,综合分割经验符合度、组合逆熵以及分割均匀度从所有初步分割结果中选取出最优分割结果作为细粒度,完成对中医证候名的细粒度分割。在该种细粒度确定过程中,结合了古汉语用语的习惯,同时通过对证候名初步分割结果中的字符组合在证候名对应金字塔字典库中分布的合理性进行衡量,综合分割合理性以及和古汉语切合程度,提高了对中医证候名的分割细粒度确定的准确度。
10、进一步的,语料数据集中每条数据为一个中医证候名,金字塔字典库有多层,每一层有多个字符节点,每个字符节点的属性为{字符,次数}。
11、进一步的,所述金字塔字典库具体构建过程如下:
12、1)获取第一层字符节点:将中医证候名语料库中所有出现的单个汉字作为金字塔字典库的第一层,由于其单独出现,因此金字塔字典库的第一层只有一个字符节点;
13、2)延伸新字符节点:获取每个字符节点在上一层的关联字符节点,确定所有关联字符节点的所有字符;在延伸新字符节点时,每个字符节点通过前接字符或后接字符延伸出两个新字符节点;延伸出的新字符节点在上一层两个字符节点之间时,每个字符节点在上一层的关联字符节点所对应的字符节点为两个,否则每个字符节点在上一层的关联字符节点所对应的字符节点只有一个;
14、3)采用维比特算法消除某些字符组合,具体为:将所有的字符组合按照其出现的次数从大到小进行排序,排序后从前到后计算两个相邻字符的次数比值,具体为上一字符的次数除以下一字符的次数,若比值大于10,则停止计算次数比值,将上一字符及其出现的次数构成一个新的字符节点;
15、4)获得金字塔字典:按层延伸新字符节点,一共延续到7层为止,一共有28个字符节点,若某个字只在句首或句末出现,那么他会出现空节点,空节点没有属性。
16、进一步的,所述确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割的方法为:
17、对中医证候名中每个单字字符依次在对应的金字塔字典库中确定对应的匹配字符,根据所有单字字符对应的匹配字符完成对中医证候名的分割。
18、进一步的,所述分割经验符合度的获取方法为:
19、对当前初步分割结果,选取其中的任意一个字符组合作为第一字符;
20、获取初步分割过程中,字典匹配时,第一字符所在的对应字符节点;
21、获取所有对应字符节点内,第一字符的第一出现次数总和,以及所有对应字符节点内所有字符的第二出现次数总和,求得该第一字符的经验值,计算当前初步分割结果中各个字符组合作为第一字符时对应所得经验值,将所有经验值的乘积作为当前初步分割结果的分割经验符合度。
22、进一步的,所述组合逆熵获取方法为:
23、确定对应字符节点的上一层字符节点中,被第一字符包含的字符组合并作为第二字符;
24、计算初步分割结果的组合逆熵:
25、;其中,为初步分割结果的组合逆熵值,为初步分割结果中第i个第一字符的第k个对应字符节点的节点逆熵,为初步分割结果中第i个第一字符的第k个对应字符节点所对应的第j个第二字符对应的关联逆熵,代表初步分割结果中第一字符的总数,代表初步分割结果中第i个第一字符的对应字符节点的总数,代表初步分割结果中第i个第一字符的第k个对应字符节点所对应的第二字符的总数,代表对应的关联节点,代表对应关联节点的数量。
26、进一步的,所述分割均匀度的获取方法为:
27、将初步分割结果中分割后字符组合的长度作为向量元素,构成分割向量,根据经验建立古汉语习惯向量与分割向量的映射关系,根据所述映射关系确定初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度。
28、进一步的,所述分割均匀度为:
29、;其中,是初步分割结果的分割均匀度,以及分别是初步分割结果对应的分割向量中第n个元素以及第n-1个元素,表示分割向量对应的古汉语习惯向量中第n个元素,n表示初步分割结果对应的分割向量中元素总数,以及分割向量对应的古汉语习惯向量中元素总数,当下标计算得0时,此时下标取,表示分割向量中第n个元素所对应的所有关联逆熵中的第个关联逆熵,表示分割向量中第n个元素所对应的所有关联逆熵总数,是归一化参数。
30、进一步的,所述分割结果判断值为:
31、;其中,表示初步分割结果的分割结果判断值,是初步分割结果的组合逆熵,其代表了该分割组合的信息含量是否明确;是初步分割结果的分割经验符合度,是初步分割结果的分割均匀度。
32、进一步的,所述最优分割结果是指分割结果判断值最大的初步分割结果。