面向网约车司乘对话风险控制的加权融合信息抽取方法与流程

文档序号：33642014发布日期：2023-03-29 02:22阅读：78来源：国知局

1.本发明涉及一种网约车对话信息处理方法，尤其是涉及一种面向网约车司乘对话风险控制的加权融合信息抽取方法。

背景技术：

2.自从移动支付广泛普及以来，网约车服务应运而生，在接单量持续上升的同时许多交易纠纷大量产生。就此产生了对这种服务交易纠纷进行客观判责的需求。
3.首先，分析网约车风控场景都有哪些：
4.1：正常交易：司机打电话给乘客，沟通接送地点和到位时间，正常完成网约车交易服务。
5.2：切单：司机因个人事项，请求乘客取消订单(司机取消订单超时，只能请求乘客取消)。
6.3：私下交易：司机不想通过给平台抽佣，想通过私下交易的方式完成订单。
7.4：辱骂：司机在和乘客沟通的过程互相辱骂。
8.5：诱导取消：司机不情愿接单，以休息、抢错单为借口建议乘客取消。
9.上述风控场景的对话，通过网络将录音发送到服务器，并在服务器中转化成文本，所述文本有如下特点，第一，使用语言转化的文件中存在大量错别字。第二，存在大量语气词：如“嗯嗯，那我取消吧，嗯嗯。”，噪音过多不利于使用文本相似度模型进行判断和分类。第三，司机和乘客的交互语言，都因为线路的不同不能逐句切分，只能将司机所说过的所有话，乘客所说过的所有话都汇聚到一起，并且通话时间有长有短需要解决长文本问题。
10.传统的解决方法是使用文本分类技术，对整段的司机和乘客对话进行文本分类，这种方式常常出现数据过拟合、判断不够精细化、无法实现高准确率、高召回率等缺点。

技术实现要素：

11.本发明提供了一种面向网约车司乘对话风险控制的加权融合信息抽取方法，通过提供一种“有理有据”的方法用于解决网约车司乘对话中存在的风险控制问题，所谓“有理”需要对文本进行拆分逐句分析所蕴含的意图，所谓“有据”需要从语句中抽取能够支撑判断的具体语言文字。其技术方案如下所述：
12.一种面向网约车司乘对话风险控制的加权融合信息抽取方法，包括下列步骤：
13.s1：来自司机端的司乘沟通语音信息会存储到数据库中，根据业务需求将需要处理的订单录音通过asr语音识别模块将输入的司乘语音转化成初始文本；
14.s2：依照司机和乘客双方的对话顺序罗列初始文本，并标注其中的关键词，逐句分析其中的对话逻辑；
15.s3：采用macbert的预训练语言模型提取初始文本的语义特征；
16.s4：通过加权融合模型将mac-bert-12的每层transformer后都去预测样本标签，判断对话整体的意图；
17.s5：根据对话整体的意图判定风控责任，构建风控责任判定预测流程；
18.s6：根据预测流程，后端接入判责逻辑，提供展示界面可调取的服务。
19.进一步的，步骤s1中，所述司乘语音信息主要面向的对象是被取消订单的语音。
20.进一步的，步骤s2中，所述的意图分析模块由判断司乘双方单句意图的文本分类模型构成，司乘双方的对话顺序罗列文本都具有单个意图，将意图按照对话顺序罗列得到的意图链即为对话逻辑链。
21.进一步的，步骤s3中，所述macbert不限制输入文本的长度，同时采用滑动窗口对原始文档进行截断，用于处理长文本。
22.进一步的，步骤s4中，macbert的加权融合模型，每一层都担任一句对话的预测任务，能够一次性至多准确预测12条对话的意图。
23.进一步的，步骤s5中，对话逻辑链从上到下逐个规则进行匹配，所述规则的顺序分别是：完全司机责任、司机大概率有责、司机大概率无责、司机无责。
24.进一步的，步骤s5中，风控的责任判定是依照对话逻辑链路进行判断的，无论是乘客还是司机谁先表达取消的意愿，都将影响最后的责任判定。
25.进一步的，接入判责逻辑的加权融合模型，实现从司乘录音到责任判定的端到端预测，提供客服在线处理平台可接入的服务。
26.所述面向网约车司乘对话风险控制的加权融合信息抽取方法，首先对每一句话进行标注文本意图的类型，并标注其中的关键词，例如“我车充电呢，没法过去”中“充电”，然后通过基于macbert的加权融合模型进行训练，在加权融合模型的预测下，将以更快的速度，更高的准确率实现预测标签和预测关键语句。
附图说明
27.为了更清楚地说明发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
28.图1是所述面向网约车司乘对话风险控制的加权融合信息抽取方法的流程示意图；
29.图2是通过对话顺序罗列初始文本的示意图；
30.图3是所述mba模型的示意图。
具体实施方式
31.如图1所示，所述面向网约车司乘对话风险控制的加权融合信息抽取方法，包括以下步骤：
32.s1：来自司机端的司乘沟通语音信息会存储到数据库中，根据业务需求将需要处理的订单录音通过asr语音识别模块将输入的司乘语音转化成初始文本；
33.所述司乘语音信息主要面向的对象是被取消订单的语音，将被取消订单的语音(司乘双方)通过asr语音识别模块进行文字转录，生成初始文本，从而进行下面的加权融合信息抽取。
34.本步骤是通过fast-api搭建线上web服务，并将接口程序嵌入其中，实现线上服务
的web调用。
35.s2：依照司机和乘客双方的对话顺序罗列初始文本，并标注其中的关键词，逐句分析其中的对话逻辑；
36.如图2所示，可以看出['司机明显的诱导取消并说明自己原因','乘客同意司机诱导取消']。
[0037]
使用意图分析模块，逐句分析初始文本的对话逻辑，将一个完整的对话逻辑称为序列，并将上述这个序列称为对话逻辑链。
[0038]
所述的意图分析模块由判断司乘双方单句意图的文本分类模型构成，司乘双方的对话顺序罗列文本都具有单个意图，将意图按照对话顺序罗列得到的意图链即为对话逻辑链。
[0039]
通过每句标注关键词，能够反映出单个意图，从而实现对话顺序罗列后，可以得到意图链。
[0040]
s3：采用macbert的预训练语言模型提取初始文本的语义特征；
[0041]
所述macbert不同于bert等预训练语言模型，采用相对位置编码，不限制输入文本的长度。同时采用滑动窗口对原始文档进行截断，用于处理长文本带来的难题。
[0042]
bert本质上是一个自编码语言模型，为了见多识广，bert使用3亿多词语训练，采用12层双向transformer架构。bert只使用了transformer的编码器部分，可以理解为bert旨在学习庞大文本的内部语义信息。
[0043]
相比之下，macbert沿用了bert的整体架构，主要在训练目标上做了改进。(1)针对mlm任务改进：mac＝mlm as correction，即校正的mask策略。原始bert模型的缺点之一是预训练和微调阶段任务不一致，pretrain有[mask]字符，而finetune没有。macbert用目标单词的相似单词，替代被mask的字符，减轻了预训练和微调阶段之间的差距。(2)针对nsp任务改进：原始nsp已被证明贡献不大，macbert引入了albert的句子顺序预测(sop)任务，通过切换两个连续句子的原始顺序来创建负样本。后续的消融实验证明，sop效果好于nsp。
[0044]
由于要一次性分析多条对话中，辩析每一条对话的语义，如果用传统的bert文本分类方法，需要对至少3句以上的话语进行辨析。那么耗费的时间就多达三倍以上，如果对话轮数达到十多轮，那么预测时间就更加庞大，这更不利于线上并发。
[0045]
s4：通过加权融合模型将mac-bert-12的每层transformer后都去预测样本标签，判断对话整体的意图；
[0046]
macbert的加权融合模型，是一种级联结构的阅读理解式事件主体与元素标注模型。如果某样本预测结果的置信度很高，属于投票成功的样本，就不用继续计算了。我们将这个称为：mba模型(macbert adaptive mechanism)对抗样本的加权融合bert模型。
[0047]
结合图3所示，简单来讲，就是模型的每一层都担任一句对话的预测任务，能够一次性至多准确预测12条对话的意图。
[0048]
s5：根据对话整体的意图判定风控责任，构建风控责任判定预测流程；
[0049]
在本方法中，风控的责任判定是依照司机与乘客谁先表达取消意图或者无法进行该订单的对话逻辑链路进行判断的，无论是乘客还是司机谁先表达取消的意愿，都将影响最后的责任判定。甚至于有些场合无论司机说什么，只要乘客表达了不想就车的意愿，那么可以直接判定司机没有责任。如果是司机一再诱导乘客点击取消那么，大概率司机有不想
接单的意愿。鉴于以上原因，需要设定不同的判责依据来保证客观公正。
[0050]
设定以下规则表，根据客户端输入的一条对话的对话逻辑链从上到下的逐个规则进行匹配，所述规则也是按照有限级别：完全司机责任，司机大概率有责，司机大概率无责，司机无责进行评定的。
[0051]
上述规则列举如下：
[0052]“司机强烈的就位意图”，“司机表示不能去接乘客”：司机大概率有责任
[0053]“司机和乘客商量路线”，“乘客解释如何到达上车地点”：司机无责
[0054]“司机要求乘客取消订单”，“乘客不愿意等待”：按先后顺序判责司机责任，谁先是谁的责任。
[0055]
按照规则的顺序进行判责，命中某一规则时，该订单责任即可确定，若未命中当前规则，继续进行规则的遍历，直至遍历完所有规则，若一条规则都未命中，判定为司机无责。
[0056]
s6：根据预测流程，后端将上述模型判责逻辑接入，提供客服在线处理平台可接入的服务，通过该模型对司乘对话的预测，能够实现从司乘录音到责任判定的端到端预测，判定为完全司机责任的订单会对进行相应的处罚，节省人力判断所花费的时间。
[0057]
所述面向网约车司乘对话风险控制的加权融合信息抽取方法，首先对每一句话进行标注文本意图的类型，并标注其中的关键词，然后通过基于macbert的加权融合模型进行训练，在加权融合模型的预测下，将以更快的速度，更高的准确率实现预测标签和预测关键语句。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁天新朱钦付乐兰田鹏飞
技术所有人：北京云行在线软件开发有限责任公司
我是此专利的发明人

上一篇：背面多种元素掺杂的N型TOPCon太阳能电池的制备方法与流程
上一篇：一种折叠式红外线测温仪的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。