如何提升用户体验？蚂蚁智能服务有这些研究和实践

2021-3-3 21:15| 发布者: admin| 查看: 2763| 评论: 0

摘要: 近些年互联网竞争日趋激烈,用户体验成了决定胜负的关键因素。作为影响用户体验的重要环节,客户服务吸引了众多技术人的关注与投入,智能服务技术也经过多次迭代升级,在算法、算力、数据、交互形态、业务场景都有了长足 ...

近些年互联网竞争日趋激烈,用户体验成了决定胜负的关键因素。作为影响用户体验的重要环节,客户服务吸引了众多技术人的关注与投入,智能服务技术也经过多次迭代升级,在算法、算力、数据、交互形态、业务场景都有了长足的发展进步。蚂蚁很早就开始了智能服务相关研究,于2015年正式组建了智能服务算法团队,先后研发了包括问答引擎、对话系统、服务推荐、人工辅助等模型,不仅承接了海量的用户求助,还沉淀了许多高质量的论文与行业解决方案。

过去一年,蚂蚁智能服务算法团队在全球各大顶级学术会议/期刊上发表了多篇AI相关的论文,例如:

· NLP基础算法方面,分别通过对偶领域迁移、数据增强,提升文本分类模型的效果;

· 问答引擎方面,通过知识蒸馏大幅提升答案排序性能,通过强化学习赋予机器人对模糊问题的反问能力;

· 对话系统方面,采用模仿学习和强化学习,构建出主动对话机器人在多个场景应用;

· 服务推荐方面,使用图算法实现标签气泡的序列推荐,通过多实例学习解决问题预测中的特征漂移问题;

· 交互形态方面,通过服务群聊,提升了多人企业服务中的效率。

在此,我们对上述论文做一个简要介绍,欢迎大家一同探讨。

文本分类

一、Dual-View Representation Learning for Adapting Stance Classifiers to New Domains [ECAI 2020](基于双视图领域适应学习的文本立场识别方法)

立场分类(Stance Classification) 是情感识别的一个延伸,并且在不同领域下边文字表述也不相同。例如在“支付宝是否好用”的评论里边, (1) 应用领域的“在蚂蚁森林、庄园可以玩的种类多”, (2) 支付领域的”支持的支付方式多“和(3) 主页的“图标有点多”是表达不一样的用户体验含义。(1)(2)是赞成的,(3)是反对的,如何学习出不同领域的相似和不同之处,理解客户立场和体验的表达,是一个需要解决的业务话题。

传统的情感和立场识别方法只能识别出带有情感倾向词的主观情况,很难识别出客观描述。领域迁移学习(Domain Adaptation)是最近研究界的热门话题。本论文提出利用对偶领域迁移的方法来全面准确识别主观和客观情感立场问题。

论文提出的模型可以用下图表示:

图片1.png

上图的解释为:

1. 标记为s 或 source 的地方表示为迁移学习的源数据,标记为 t或者 target 地方表示领域迁移学习的目标数据。蓝色线箭头表示源数据在模型的流转方向;红色线箭头表示目标数据在模型的流转方向。

2. Subj表示主观特征的抽取和表示;obj表示客观特征的抽取和表述;

3. X表示输入 x(s)表示源数据的输入;x(t)表示目标数据的输入;

4. F表示抽取到的特征,C表示标准分类器;

5. Fusion表示两者(主观和客观)的组合;

6. conf表示adversarial对抗模型,将source和target模型训练得无法分辨,D是判别式;

7. f是表示模型,得到相应的embedding表示。

具体细节可见论文描述。论文提出的方法在公开数据集SemEval-2016 Task 6 ( on tweet stance classification)上取得了很好的效果。

二、A Systematic Study of Data Augmentation for Multiclass Utterance Classification Tasks [COLING 2020](文本分类领域下的数据增强方法综述)

文本分类在智能客服系统中都是一个重要的组成部分,但是不同的话题热度不同,可收集到的用户训练数据数量也不同,例如支付相关客服对话数据量远远大于账户咨询对话数据。为了缓解这类数据不均衡问题,我们针对文本分类场景的数据增强方法进行了一个全面的调研,整体分为三类:

1. 普通随机采样:包括undersampling和oversampling。

2. 词级别迁移变换:通过迁移变换的方法在一定程度上保留原文的语义特征的同时,又能产生新的句子,包括SR,EDA等。

3. 基于神经网络的文本生成:采用文本生成模型进行新文本生成。常见的文本生成模型包括RNNLM,GANs,Seq2seq类,VAEs等。Seq2seq模型包括:OpenNMT,MASS等Seq2seq模型,

图片2.png

通过分类实验,我们发现

1. 简单随机采样中,欠采样的表现最差,因为从大多数类中删除数据样本会导致信息丢失;

2. 词级别迁移变换中,EDA比SR有效;

3. 基于神经网络的文本生成中,VAEs类的生成模型表现较优异,其中CVAE表现平平,效果不如SentenceVAE和CVAE-posterior。

图片3.png

由于分类实验受到样本量和概念复杂度的影响,因此我们还对比了不同的数据增强方法对于多数/少数类别数据的不同增益表现。

1. 在News数据中(第三排),多数类别数据(police,wellness)有下降的效果;

2. CoQA数据(第一排),McTest为少数类别数据,在大多数分类方法中,该少数类别数据增益最明显;

3. ICS数据(第二排),数据增强方法对于少数类别(class c)无明显的增益。

通过上面实验结果我们推断:在一个数据集中的不同类别上同时进行过采样和欠采样操作可能比严格地对所有类别分别进行过采样或过采样,使其达到与最小或最大类别相同的数量,获得更好的性能增益。

问答引擎

三、Query Distillation: BERT-based Distillation for Ensemble Ranking [COLING 2020](融合排序模型的蒸馏:一种基于BERT模型的方法)

最近几年排序模型(neural ranking networks)不断发展,带来了模型参数规模的不断扩增,又由于model ensemble的应用,在线系统的计算开销逐渐不堪重负。知识蒸馏(Knowledge Distillation)是解决问题效率问题的重要手段,但是将知识蒸馏应用在排序问题上不是特别适用。我们提出了一种两阶段的针对排序问题的模型蒸馏方法,来解决计算负载问题。第一阶段,大规模的teacher ranking results用来pretrain,第二阶段,人工标注的数据用来finetune。

图片4.png

同时,我们采用基于BERT模型list-wise排序方式作为我们的student model,不同于传统的BERT输入是句对,我们将所有的召回文档候选集合一次性输入和排序。每个文档的打分由一个特殊标记的token输出。同时,为了更加精确控制bert 的self-attention机制,引入特殊设计的attention mask pattern来帮助query与doc之间的信息交互。

图片5.png

实验显示,我们蒸馏之后的小模型,不仅优于单个大模型,同时优于ensemble model。同时,在inference效率方面,时间上也有着明显的优势。

四、Interactive Question Clarification in Dialogue via Reinforcement Learning [COLING 2020](基于强化学习的交互式对话消歧)

智能客服QA机器人的主要任务是根据用户的提问q找到与之最相关的结果,这点与搜索引擎很相似,但与之有区别的是搜索引擎可以给出一长串候选结果,而QA问答机器人考虑到问答的交互形式,返回的结果必须尽可能精简以满足一问一答的形式。在这种模式下,我们发现有一类问题的匹配非常差,这类问题的通常表征缺语义要素。举个例子,用户经常会直接问:"我要还款!",但我们不知道到底还给谁。此类提问中缺少语义要素,我们统称为"模糊问题",在QA机器人中占比居30%之多,本文介绍了我们通过强化学习推荐消歧标签来对模糊问题进行消歧的方法。

图片6.png

图片7.png

我们通过将问题建模为标签序列推荐问题,从而将问题转化为强化学习的问题。通过基于Transformer的seq2seq模型对文本到推荐序列进行建模,同时,我们使用了一种基于信息熵增益的reward,结合蒙特卡洛树搜索方法实现对模型的训练,最后我们的方法在线上取得良好的消歧效果。

对话系统

五、Two-stage Behavior Cloning for Spoken Dialogue System in Debt Collection [IJCAI 2020](智能逾期提醒中基于两阶段行为克隆的对话系统)

伴随着互联网金融的快速发展,小额贷款、消费金融、网络借贷等新兴的借贷模式涌现出来,智能还款提醒机器人应运而生。目前,市场上绝大多数智能语音机器人,都是依赖于对话流程的配置,也就是通过有限状态机来配置对话流程。在还款提醒的场景下,交互节点可能包含上千个。所有的交互流程配置都依赖于人工,整套维护下来成本非常高、配置复杂且容易出错。并且基于有限状态机配置的机器人并不具备持续从人工对话中学习的能力。

图片8.png

因此,在本文中,我们提出了一套基于行为克隆的无流程智能语音机器人框架,称之为两阶段行为克隆。第一阶段,我们根据当前对话状态,通过多标签分类模型,来召回可能能应对当前情形的策略;第二阶段,我们会对每个策略下若干的话术进行打分,来选择获取得分最高的话术作为当前机器人的回复,以TTS或者录音播报的方式跟用户进行交互。

图片9.png

本框架能充分利用海量的人工语音对话记录,无需进行任何模型语料的标注,充分汲取人工的智慧和经验,将人在逾期提醒工作中大量使用的交互技巧和对话技巧,克隆到机器人身上。我们在离线和在线场景下都做了大量的实验,结果表明相比流程式对话,在对话准确率指标上,我们框架的机器人相比流程式机器人单轮对话准确率绝对提升5%,多轮对话准确率绝对提升3.1%,整个对话过程更加的流畅、合理和有效。

六、IFDDS: An Anti-fraud Outbound Robot [AAAI 2021 DEMO](智能交互反欺诈对话系统:一种反欺诈外呼机器人)

伴随数字金融和电子支付的蓬勃发展,金融欺诈也日益猖獗,据统计,2018年全年中国发生的金融诈骗金额高达3513亿,占据全年GDP的0.3%。为了防止用户被诈骗,互联网金融公司基本都搭建了反欺诈系统,但是大部分系统都是依据有限的信息来进行二分类判断用户的风险性。这会导致两个问题:1. 原本无风险的交易存在误识别,导致用户交易被阻断,影响用户体验 2. 有风险的教育可能存在漏网嫌疑,给用户资产造成损失。

为了解决这样的问题,我们提出IFDDS反欺诈对话系统,通过机器人通过语音外呼主动和用户对话交互来挖掘用户交易可能存在的风险。机器人通过自然流畅的对话,引导用户讲明交易细节,通过交互得到的额外信息进行深挖用户可能存在被诈骗的类型。如果在对话过程中识别出给定的风险类型,机器人则会进行用户教育,帮忙用户辨明欺诈风险,减少资产损失。我们的系统通过模仿学习方式来学习多轮对话策略,并且搭建基于对话文本的风险检测模块,在每一轮的时候根据对话状态来识别风险类型。

系统上线后,在用户欺诈求助率方面大幅降低25%,同时在成功劝阻有风险交易方面提升135%。项目在公司内部,获得年度看见项目奖、集团橙点公益榜十强等奖项,极大提升品牌形象和社会影响力。

图片10.png

服务推荐

七、IntelliTag: An Intelligent Cloud Customer Service System Based on Tag Recommendation [ICDE 2021](智能标签:基于标签推荐的智能云客服系统)

传统的智能客服系统,结合其产品和服务本身,可以获得用户的画像资料和行为路径轨迹等信息,因此不难理解用户的问题含义和提问意图。比如,在电商领域,某用户近几个星期内仅有一次网购,且在向智能客服提问前先查看了物流情况。根据这些信息,智能客服可以推测出用户大概率是询问其购买物品的物流信息。而对于云客服系统,我们则很难触及商家的用户数据,这使得理解问题含义和提问意图变得困难很多。

图片11.png

为了解决这个问题,我们采用了标签推荐的方式(也称之为气泡词推荐)。上图为云客服的对话界面,用户输入“ETC”之后,最下方对话框的上方会出现我们推荐的标签列表,当用户点击标签“apply”时,会反馈给用户两个预测问题,以及推荐新一轮的标签。此时,用户点击了第一个预测问题,云客服则给出了对应答案。通过给用户推荐标签的方式,不断的揣测用户的提问意图,直到用户确认预测问题进而获取对应答案。

我们定义标签为词语或词语组成的短语,用来表征一句话的核心语义。我们使用多任务BERT模型在标准问题中提取标签,并且保存标签与标准问题的映射关系。

图片12.png

得到标签后,我们定义三种节点:标签(T)、标准问题(Q)和租户(E),并根据包含关系、共现关系构图。为了更好的分析异质网络,我们根据业务特性设计了四种元路径(metapath)。为了得到标签节点的向量表示,我们先后采用邻居注意力(neighbor attention)和元路径注意力(multi-metapath attention)聚合信息,再将得到的向量表示输入序列模型对点击标签序列建模,根据点击行为序列推荐下一个可能点击的标签。

图片13.png

图片14.png

IntelliTag方法在离线指标上全面领先于传统序列推荐模型,并在线上AB测试中表现更好。实验还表明,端到端训练效果优于分步训练。根据用户行为,我们可以获得大量端到端的数据标签,因此当将图神经网络层和时序层映射到同一空间时取得了更好的效果。

八、aDMSCN: A Novel Perspective for User Intent Prediction in Customer Service Bots [CIKM 2020](aDMSCN:换个视角看线上机器人的意图预测问题)

用户意图预测(猜你想问)在支付宝智能客服的很多场景中发挥着重要的作用,承担着客服流量的大头。“猜你想问”本质为一个top-k推荐问题,根据用户的各类特征去推荐相关的item。但在实验中,许多sota的推荐模型架构都难以在猜问场景取得满意的效果,甚至连简单的DNN模型都难以媲美。我们发现,这些模型的“失效”源自于业务数据中存在的“特征漂移”(feature drift)问题,即表征用户画像的特征集合随场景的状态发生变化,例如新活动引入新的特征,或某些变更导致一些特征被下线。这使得参与表征用户画像的特征数量与类型都处于动态变化中。

图片15.png

对于一些对特征数目与顺序敏感的(例如涉及了feature-wise interaction)模型,特征漂移作为一种强噪声会大大降低其效果,从而难以在业务上落地。

为此,我们创新性地构建了一个新的视角,从多实例学习(Multiple instance learing, MIL) 的角度建模该问题,即将一个用户特征视作一个实例(instance),而所有用户特征组成的用户作为一个实例包(bag),并通过带注意力机制的MIL模型去捕捉一个实例包中最相关的那些实例,并加权出最终包级别的特征。

另一方面,针对业务中严重的样本类别不平衡问题,我们提出了ratio-sensitive loss,与传统weighted loss根据预测置信度(focal loss)或真实类别(vanilla weighted loss)决定每个样本的权重不同,ratio-sensitive loss同时关注样本实际类别与预测类别,并根据二者在数据中的占比的比值来决定该样本loss的权重,从而让模型预测的分布更贴合实际分布。该模型在智能客服猜你想问场景上落地,相比之前的线上模型在CTR上取得了5.36%的相对提升。

图片16.png

交互形态

九、ServiceGroup: A Human-Machine Cooperation Solution for Many-to-many Customer Service [SIGIR 2020 DEMO](服务群:多对多服务中的人机协同解决方案)

传统的客服方案是一对一的,例如工单、热线电话和在线聊天。这些方案通常只支持一名客户和一名客服进行沟通,如果需要多名客服合作处理问题,则需要转接会话。所以这些方案在求助简单高频的B2C场景中运作良好,但不适合求助复杂低频的B2B场景。在当下群聊已经变得非常普遍,用户向群聊发消息时,所有群成员都能看到。基于群聊,多对多的客服方案可以执行。相较于传统的一对一方案,群聊可以支持多名客服和客户在一起沟通协同解决问题。另外,在群聊中客服和客户可以维持稳定的沟通关系,彼此的了解进一步提升了解决问题的效率。

然而,与一对一服务不同,群聊中会有客户间的沟通,不需要客服处理。这些消息会降低客服的效率,增加问题的处理时长;此外,客服在群聊中经常要回复类似的问题,回复内容也难以得到重复利用。基于这些问题与机会,我们提出了服务群来提升客服效率。

图片17.png

客户发送消息时,问题识别模块首先会识别消息是否是提问或者诉求。如果识别到客户在提问,问答模块将在知识库中查询最适合回复客户的知识,根据客户的提问方式选择由机器人直接发送给客户或者推荐给客服来回复客户。如果客户消息不是提问,则不做处理。当代理发送消息时,知识抽取模块将判断消息的质量,并将高质量的内容存储到知识库中,应用于问答模块。

在算法能力之外,服务群结合钉钉群开发了更多辅助功能,帮助客服进一步提效。试点租户在使用服务群前后,问题及时答复率得以翻番,并且超过30%的答复使用了服务群的辅助功能。

未来展望

智能服务发展到现在,已再不局限于客服问答的范畴,越来越多地以在线、热线、虚拟人等形式,应用于客服、助理、营销、培训等场景。

未来,蚂蚁将在多模态交互、人机协同、可控可解释、深度推理、环境模拟等方面继续提升智能能力,持续建设学术研究、业务落地并重的一流算法团队。同时,我们的实习生校招已经开始,欢迎自荐和推荐。

团队介绍

我们是蚂蚁集团-智能服务团队,全面负责蚂蚁集团在智能服务领域中的算法研究、平台建设及业务落地工作,提升面向数字生活和金融开放业务背后的服务能力。部门由多名业界顶尖的硅谷科学家及国内资深工程师组成,技术氛围浓厚、团队关系融洽、发展空间广大。

团队学术研究与业务落地并存,相关技术支持了支付宝、财富、保险、消费金融、网商银行等多个核心业务,覆盖亿级用户及千万级商户,在多个顶级会议/期刊上均有论文发表。

岗位介绍

1、算法类:自然语言处理、机器学习、数据挖掘等方向,负责语义理解、对话管理、用户模拟、机器阅读、知识挖掘、多模态交互、强化学习、迁移学习等算法的研究和应用;

2、研发类:Java、C++、Python等方向,负责蚂蚁统一机器人平台和多个智能服务平台、产品的开发工作。

工作地点

北京、上海、杭州、成都