16,820
个编辑
更改
创建页面,内容为“{{4}} '''如何获得首批SFT精调数据?'''<br> '''高质量训练数据要求:'''<br> √场景一致:训练样本分布要与真实业务场景相吻…”
{{4}}
'''如何获得首批[[SFT]]精调数据?'''<br>
'''高质量训练数据要求:'''<br>
√场景一致:训练样本分布要与真实业务场景相吻合,并覆盖边界场景<br>
□单轮/多轮分布、业务场景分布(用户[[Query]]意图/标签/...)<br>
√语义清晰:[[Prompt]]意图清晰、语义独立,描述简洁易懂<br>
√指令遵循:[[Response]]严格遵循Prompt,指令均被满足<br>
□字数、主题、人设、关键词.…<br>
□若含[[Markdown/JSON]]格式,需严格遵循相应语法<br>
√语法规范:符合中文用语规范、标点符号规整<br>
□正确使用句号、分号、列表、换行等标点<br>
□剔除无意义的特殊字符<br>
√价值观对齐:确保客观事实准确、数据脱敏、安全无害<br>
'''训练数据构建常见难点:'''<br>
√没数据:没有历史业务积累,难以找到符合业务场景的数据<br>
√格式乱:数据格式混杂,不符合[[SFT]]精调数据格式<br>
√质量低:数据中语法错误,问答不匹配,需要依赖人工改写
'''如何获得首批[[SFT]]精调数据?'''<br>
'''高质量训练数据要求:'''<br>
√场景一致:训练样本分布要与真实业务场景相吻合,并覆盖边界场景<br>
□单轮/多轮分布、业务场景分布(用户[[Query]]意图/标签/...)<br>
√语义清晰:[[Prompt]]意图清晰、语义独立,描述简洁易懂<br>
√指令遵循:[[Response]]严格遵循Prompt,指令均被满足<br>
□字数、主题、人设、关键词.…<br>
□若含[[Markdown/JSON]]格式,需严格遵循相应语法<br>
√语法规范:符合中文用语规范、标点符号规整<br>
□正确使用句号、分号、列表、换行等标点<br>
□剔除无意义的特殊字符<br>
√价值观对齐:确保客观事实准确、数据脱敏、安全无害<br>
'''训练数据构建常见难点:'''<br>
√没数据:没有历史业务积累,难以找到符合业务场景的数据<br>
√格式乱:数据格式混杂,不符合[[SFT]]精调数据格式<br>
√质量低:数据中语法错误,问答不匹配,需要依赖人工改写