16,820
个编辑
更改
无编辑摘要
□剔除无意义的特殊字符<br>
√价值观对齐:确保客观事实准确、数据脱敏、安全无害<br>
----
'''训练数据构建常见难点:'''<br>
√没数据:没有历史业务积累,难以找到符合业务场景的数据<br>
√格式乱:数据格式混杂,不符合[[SFT]]精调数据格式<br>
√质量低:数据中语法错误,问答不匹配,需要依赖人工改写
----
'''模型蒸馏(过程)'''<br>
通过'''「[[Prompt]]:海量、真实的用户问题」'''<br>
<br>
去请求一个能力非常强的'''旗舰级模型(老师)'''进行训练<br>
<br>
来得到'''「[[Response]]:高质量的模型回答」'''<br>
<br>
进而得到'''格式标准、丰富且高质量的训练数据集'''<br>
<br>
这样得到一个'''轻量大模型(学生)'''