一种结合相似度和图匹配的老-汉双语句子对齐方法与流程

文档序号:15462408发布日期:2018-09-18 18:29阅读:来源:国知局

技术特征:

1.一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:包括如下步骤:

Step1、针对老-汉双语平行语料中的对齐片段,分别提取老挝语和汉语的特征词生成特征词列表,进而生成老挝语和汉语特征词的候选相似;

Step1.1、首先计算每一个对齐片段中老挝语和汉语的词频TF与反文档IDF比值的频率值,即TF/IDF,以此来确定老挝语和汉语中的一个词是否为特征词,其中,某一个词w的计算方法分别表示为公式(1)和(2)所示:

其中WNw表示词w在片段P中的词频,WNp表示一个片段p包含的总的词汇数,DNt表示语料中所有对齐片段的总数量,DNw表示在所有片段中包含词w的片段的数量,TFw为词w的词频,IDFw为词w的反文档,则词w的TF/IDF值的计算方法如公式(3)所示:

设定一个阈值,将老挝语和汉语中TF/IDF大于此阈值的词作为各自的特征词,并形成老挝语和汉语的特征词列表;

Step1.2、分别按照TF/IDF值的大小对老挝语和汉语的特征词列表中的特征词进行排序,在各自的列表中处于相似位置的词是互为译文的;

Step1.3、根据排序后的特征词列表,选择在列表中分布相近的词汇作为候选相似对,依次针对老挝语特征词列表中的每一个特征词,以对应的汉语特征词为中心选取特定数目的汉语特征词,作为老挝语特征词的候选相似;同理根据汉语特征词列表中的每一个特征词也选取特定数目的老挝语特征词,作为其特征词的候选相似;

Step2、根据老挝语和汉语的特征词列表和候选相似生成候选相似对列表,此列表中的每一个相似对都是可能互为翻译的老挝语特征词和汉语特征词,此时需要计算每一个相似对的相似概率,计算方法如公式(4)和(5)所示:

在一个相似对中,定义老挝语特征词LWi、汉语特征词CWj,则这两个特征词之间的相似概率计算如下:

其中p(LWi|CWj)的计算如公式(5)所示:

同理可以算出p(CWj|LWi)的计算结果,

公式(5)中,Num(LWi)为LWi在CWj的候选相似集合中的出现次数,frequency(CWj)是CWj的词频,LWi为老挝语第i个特征词,CWj为汉语第j个特征词;

Step3、根据候选相似对列表中的每一个相似对生成最初老-汉双语词典,词典中的每一个条目包括了老挝语和汉语特征词对以及相似概率;

Step4、确定好最初老-汉双语词典之后,通过词典中的特征词在双语语料中的上下文来扩展双语词典,形成最终的老-汉双语词典;

Step5、基于最终的老-汉双语词典,可以得到老挝语句子中每一个特征词对应的候选相似集合,得到老挝语句子的相似结果;

Step6、基于Step3得到的相似概率和每一个相似对的相似概率,计算出老挝语句子与汉语句子之间的相似度值:

利用老挝语特征词在老挝语句子中的出现次数、汉语特征词在汉语句子中的出现次数以及老挝语和汉语特征词的相似概率计算老-汉双语句子的相似度值,

句子相似度值计算如公式(6)所示:

其中是老挝语特征词LWi在老挝语句子L中的出现次数,是汉语特征词CWj在汉语句子C中的出现次数,Sim(LWi,CWj)表示老挝语特征词LWi和汉语特征词CWj的相似概率,计算结果如公式(4)所示;

Step7、根据双语句子长度信息,计算出老挝语和汉语句子长度比例值:

Step7.1、定义句子长度比例值,计算公式如公式(7)所示:

上述公式中LChiText与LLaoText分别汉语词汇集与老挝语词汇集中的词汇个数;

Step7.2、根据老挝语和汉语句子长度比信息,预先设定阈值,如果计算出的句子长度比例值大于阈值,则其值加入到最终句子相似度计算中去,反之舍去;

Step8、综合Step6和Step7的计算结果,计算出最终老挝语和汉语句子的句子相似度值:

老挝语句子Li和汉语句子Cj的相似度计算公式如公式(8)所示:

Sim(Li,Cj)=Simw(L,C)+Sl(L,C) (8);

Step9、在得到老挝语和汉语的句子相似度值之后,将双语句子作为二部图的顶点,句子相似度作为连边的权值,使用二部图最大权匹配(KM)算法求得最佳匹配,完成老挝语和汉语的句子对齐。

2.根据权利要求1所述的一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:所述的Step3的具体步骤如下;

Step3.1、预先设定阈值,选取相似概率大于阈值的相似对,加入到最初老-汉双语词典;

Step3.2、将Step2计算出的每一个相似对的相似概率加入到最初老-汉双语词典中,成为词典中每个条目的内容。

3.根据权利要求1所述的一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:所述的Step4的具体步骤如下:

Step4.1、将最初老-汉双语词典中的每一个条目中的老挝语和汉语特征词对作为种子相似对,在此基础上,结合其上下文来扩展,不断迭代进行扩展,一直到不能产生新的词典条目为止;

Step4.2、扩充结束后便得到了最终的老-汉双语词典。

4.根据权利要求1所述的一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:所述的对齐片段为段落对齐片段或者是篇章对齐片段。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1