标准号:T/CBA 220-2021(R[1]2024)
标准名称:远程银行人工智能客服评价指标规范
团体名称:中国银行业协会
发布日期:2021年09月16日
实施日期:2021年09月16日
4.1 评价指标的范围
4.1.1 性能指标,用于衡量人工智能客服语音识别及语义理解能力,主要包括语音识别准确率、问题识别率、意图理解准确率等。
4.1.2 运营效果指标,用于衡量人工智能客服在客户体验提升、服务分流等方面的能力,主要包括交互准确率、问题解决率、智能分流率等。
4.2 评价指标的方法
4.2.1 抽样法
根据交互样本标注数据推算人工智能客服评价指标的方法。按照GB/T21664-2008规定,假设事项发生率为50%、绝对误差为1%时,所需的必要样本量为1万。完成样本抽取后,与标注人员对本单位业务流程判定的结果进行对比,一致即为正确。
4.2.2 报表法
根据系统运营数据计算人工智能客服评价指标的方法。典型的系统运营数据包括进线量、交互数、客户评价数、转人工进线量。
4.3 评价指标的内容
4.3.1 语音识别准确率
4.3.1.1 指标释义
标注有效交互中,语音识别正确的字数在人工智能客服转写总字数中的占比。该指标主要适用于语音交互AI。
4.3.1.2 计算口径
4.3.1.2.1 适用语种
主要为中华人民共和国国家通用语言文字(普通话和规范汉字),包含阿拉伯数字及常用英文。在测算时,阿拉伯数字、单独英文字母(如:e缴费、ETC),一个数字或字母按一个文字计算;英文单词(如:card),一个单词按一个文字计算;标点符号不计算在内。
注:中华人民共和国国家通用语言文字必须符合《中华人民共和国国家通用语言文字法》的要求。
4.3.1.2.2 计算方法
语音识别准确率采用抽样法计算。
4.3.1.2.3 标注有效交互
标注有效交互指抽样标注交互中剔除无效语音后的交互。无效语音由标注人员在测听过程中参考判定规则进行判断,详见表1。
起草人:潘光伟、刘峰、高峰、张庚、伊贵英、李宽、成星、任旭华、赵成刚、胡冬梅、刘鑫、吕林、仲峻锋、陈嘉、马铁军、周红艳、王立华、郭丛娜、李丹丹、刘梅、龙平、赵磊、马娟、熊洪营、王爱泽、吕盛蕾、陈炳基、李文娟、吴宏恩、林莉、袁倩、王山、濮丽佳、韩春笋、彭修文、章剑弘、李金龙、张萍、梁毅、林秀如、张淼、田多、金蕾蕾