本模型的训练基于通话语音转文本数据,并在此基础上利用谷歌翻译库转换为英语文本,以完成预测与通话内容匹配的业务类型(4类)的文本分类下游任务。

其中 label 对应的业务分类如下:

0:不满

1:办理

2:咨询与查询

3:无效来话

目前模型的预测精确度约 74%, 预测错误集中在对于“无效来话”与“不满”的判断,这一定程度上是由于对这两类的判断比较复杂,而语音转文本数据损失了语气等特征,难以完全从语义从判断。另一方面,由于各标签训练样本数量不均衡,可能对预测效果造成一定程度的影响。值得一提的是,数据集中某些标注可能不太准确,这也为模型的训练带来了难度。