标准号:T/SAIAS 0013.4-2023
标准名称:教育通用人工智能大模型 第4部分:测评规范
团体名称:上海市人工智能行业协会
发布日期:2023年07月08日
实施日期:2023年08月08日
本文件规定了一系列用于评估大模型全方面能力的测评指标、综合测试模型本身的自然语言处理能力、模型应用于各教育场景的能力、模型的价值观、安全性和数据合规性等各个方面。
对以上每一个维度的测评、都相应需要一个高质量的动态更新的测评数据。
1.教育通用人工智能大模型测评框架包括测评指标、测评维度、测评数据集、模型基础能力测评和安全风险测评五个部分。
2.本文件定义了3个一级测评指标和12个二级测评指标,4个一级测评维度、19个二级测评维度和76个三级测评维度。每一个三级测评维度、需要用相应的测试数据集进行相应指标的测评。
3.所有测评维度可以单独测试或者选择部分测试维度组成一个测试子集、或者选择全集进行组合测试。模型基础能力和安全风险测评维度可以参考已有的团体、行业、国家或国际标准。
起草人:申丽萍、吴永和、王士进、张军城、李青、吴砥、卢海燕、钟俊浩、张军、竺林、黄瑾、应振宇、吕雪莹、杨坤、陈露、陈曦、赵佳宝、张博、刘清彪、贺媛婧、刘吉兵、岳鹏、郑曌、唐雪飞、缪庆亮、李春晖、何朝帆、兰焜耀