地址信息抽取方法、装置、设备及存储介质与流程

文档序号:24824434发布日期:2021-04-27 15:35阅读:来源:国知局

技术特征:
1.一种地址信息抽取方法,其特征在于,所述地址信息抽取方法包括:获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本;将所述口语文本输入至预设的地址抽取模型中,通过所述地址抽取模型对所述口语文本中的每个字符进行标注,得到所述口语文本中的每个字符的标注类型,其中所述标注类型包括地址标注和非地址标注;将所述口语文本中连续相同的标注类型为地址标注的字符进行拼接,得到至少一段备用地址片段;若所述备用地址片段的数量等于一,则将所述备用地址片段作为标准地址片段输出;若所述备用地址片段的数量大于一,则判断相邻的备用地址片段之间的字符距离是否小于预设字符阈值;若是,则将相邻的备用地址片段进行连接,得到标准地址片段;若否,则将所有所述备用地址片段提取出来,作为标准地址片段。2.根据权利要求1所述的地址信息抽取方法,其特征在于,在所述获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本之前,还包括:利用网页爬虫工具从预设的数据源中爬取原始地址数据;从所述原始地址数据中筛选出字符长度为预设长度区间内的地址表述数据,并对所述地址表述数据进行标注,得到模型训练数据;根据所述模型训练数据和预设的神经网络,训练得到地址抽取模型。3.根据权利要求2所述的地址信息抽取方法,其特征在于,所述根据所述模型训练数据和预设的神经网络,训练得到地址抽取模型包括:将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量;将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入,得到所述模型训练数据的隐输出序列;将所述隐输出序列输入至所述神经网络中的条件随机场层,预测所述模型训练数据中个字符的标注,并与所述模型训练数据原有的标注进行比对和迭代,得到最终预训练的地址抽取模型。4.根据权利要求3所述的地址信息抽取方法,其特征在于,所述将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量包括:将所述模型训练数据中的每个字符转化独热码向量;将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的字向量。5.根据权利要求4所述的地址信息抽取方法,其特征在于,所述将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入,得到所述模型训练数据的隐输出序列包括:将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入得到正向循环神经网络输出的隐状态序列和反向循环神经网络输出的隐状态序列;将所述正向循环神经网络输出的隐状态序列和所述反向循环神经网络输出的隐状态序列进行拼接,得到完整的隐输出序列。
6.根据权利要求1

5中任一项所述的地址信息抽取方法,其特征在于,所述将所述口语文本中连续相同的标注类型为地址标注的字符进行拼接,得到至少一段备用地址片段包括:建立初始为空的字符缓存区,按照所述口语文本的字符顺序处理所述口语文本中的每个字符;将所述口语文本的第一字符存入所述字符缓存区,并确定所述第一字符的标注类型;判断所述第一字符的标注类型与第二字符的标注类型是否相同;若相同,则将所述第二字符存入所述字符缓存区;若不相同,则将所述第一字符输出,并清空所述字符缓存区,并进行下一字符的处理;将所述字符缓存区输出的相同且标注类型为地址标注的字符拼接,得到备用地址片段。7.根据权利要求6所述的地址信息抽取方法,其特征在于,在所述获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本之后,还包括:对所述口语文本进行分词处理,得到所述口语文本的每个字符;将所述口语文本的每个字符中符合预设停用词库的字符删除。8.一种地址信息抽取装置,其特征在于,所述地址信息抽取装置包括:语音获取模块,获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本;模型输入模块,用于将所述口语文本输入至预设的地址抽取模型中,通过所述地址抽取模型对所述口语文本中的每个字符进行标注,得到所述口语文本中的每个字符的标注类型,其中所述标注类型包括地址标注和非地址标注;字符拼接模块,用于将所述口语文本中连续相同的标注类型为地址标注的字符进行拼接,得到至少一段备用地址片段;输出模块,用于当所述备用地址片段的数量等于一,则将所述备用地址片段作为标准地址片段输出;判断模块,用于当所述备用地址片段的数量大于一时,判断相邻的备用地址片段之间的字符距离是否小于预设字符阈值;片段连接模块,用于当相邻的备用地址片段之间的字符距离小于预设字符阈值,则将相邻的备用地址片段进行连接,得到标准地址片段;片段提取模块,用于当相邻的备用地址片段之间的字符距离不小于预设字符阈值则将所有所述备用地址片段提取出来,作为标准地址片段。9.一种地址信息抽取设备,其特征在于,所述地址信息抽取设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述地址信息抽取设备执行如权利要求1

7中任一项所述的地址信息抽取方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1

7中任一项所述的地址信息抽取方法的步骤。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1