一种电网风险文本分词方法和装置与流程

文档序号：36724794发布日期：2024-01-16 12:30阅读：来源：国知局

技术特征：

1.一种电网风险文本分词方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的电网风险文本分词方法，其特征在于，对所述电网风险中文文本词汇数据进行多次预处理，具体包括：

3.根据权利要求2所述的电网风险文本分词方法，其特征在于，在词性标注中，将代词标注为r、并列连词标注为c、助词标注为u、语气词标注为y、数词标注为m、量词标注为q。

4.根据权利要求1所述的电网风险文本分词方法，其特征在于，在使用深度学习bilstm+crf的方法中，bilstm为两个lstm倒置组件模型，该模型的更新和输出公式如下：

5.根据权利要求1所述的电网风险文本分词方法，其特征在于，进行分词效果统计，并进行统计分析，具体为：

6.根据权利要求1所述的电网风险文本分词方法，其特征在于，所述双阶段电网风险文本序列分词模型进行权重分配时，具体按照下式进行：

7.一种电网风险文本分词装置，其特征在于，包括：

8.根据权利要求7所述的电网风险文本分词装置，其特征在于，在所述模型构建模块中，所述双阶段电网风险文本序列分词模型进行权重分配时，具体按照下式进行：

9.一种计算机设备，其特征在于，包括：存储器和处理器及存储在存储器上的计算机程序，当所述计算机程序在处理器上被执行时，实现如权利要求1至6中任一项所述的电网风险文本分词方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至6中任一项所述的电网风险文本分词方法。

技术总结
本发明提供了一种电网风险文本分词方法和装置，包括获取电网风险中文文本词汇数据；对电网风险中文文本词汇数据进行多次预处理；对预处理后的词汇数据，使用正向模板匹配进行初步分词；根据初步分词后的特征词量，使用THULAC中文分词工具，进行二次分词；对一二次分词后的电网风险文本词量，使用深度学习BiLSTM+CRF的方法，大规模训练电网风险文本序列分词模型并构建双阶段电网风险文本序列分词模型；使用训练后的模型进行最终分词处理，得到分词结果；对电网风险文本分词后，进行分词效果统计，并进行统计分析，检测分词效果。本发明通过上述方法，可以提高电网风险文本分词效率和准确度，并得到良好的文本分词结果。

技术研发人员：许书平,黄丰,曾懿辉,刘汉强,谭远就,覃海,张金慧,黄英胜
受保护的技术使用者：广东电网有限责任公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2