一种基于语义分量的词向量学习方法

文档序号：35627981发布日期：2023-10-06 00:24阅读：来源：国知局

技术特征：

1.一种基于语义分量的词向量学习方法，其特征在于包括以下步骤：

2.如权利要求1所述一种基于语义分量的词向量学习方法，其特征在于在步骤a中，所述中文文本语料采用sogout网页语料，该语料包括来自互联网各种类型的1.3亿个原始网页，压缩前的大小超过5tb。

3.如权利要求1所述一种基于语义分量的词向量学习方法，其特征在于在步骤b中，所述对文本语料和知网处理包括以下子步骤：

4.如权利要求1所述一种基于语义分量的词向量学习方法，其特征在于在步骤c中，所述生成语义分量表进一步包括以下子步骤：

5.如权利要求1所述一种基于语义分量的词向量学习方法，其特征在于在步骤d中，所述生成初始词嵌入包括以下子步骤：

6.如权利要求1所述一种基于语义分量的词向量学习方法，其特征在于在步骤e中，所述已有模型包括cbow、skip-gram和glove模型。

技术总结
一种基于语义分量的词向量学习方法，涉及自然语言处理。包括以下步骤：A.准备大规模无标注语料和知网(HowNet)知识库。B.对语料和知网进行处理，得到语料词表、知网词表和义原树。C.利用知网中词、词义和义原的关系以及义原之间的层级关系结合语料词表和词频信息生成语义分量表。D.根据语义分量表再结合每个词所含义原以及义原之间的层级关系生成初始词嵌入。E.将初始词嵌入作为已有模型的初始化部分来进行训练。本发明提出语义分量的概念和生成语义分量表的算法，并提出结合知网义原信息和语义分量表生成初始词嵌入的算法。将CBOW、Skip‑Gram和GloVe模型作为基线模型，实验表明，本发明方法明显优于基线。

技术研发人员：陈怡疆,童茜茜,林海,苏畅
受保护的技术使用者：厦门大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2