更改

ChatGPT对话:关于大规模语言训练的文本样本问题

添加15字节, 2023年4月12日 (三) 11:47

无编辑摘要

[[文件:ChatGPT02.png|30px]]'''~~上次我问到训练数据的数量，您说要几十万到几百万的文本样本。我现在想知道文本样本的单位或组成形式。~~上次我问到虚拟人训练数据的数量，您说最少要几十万到几百万的文本样本。我现在想知道文本样本的单位或组成形式。'''

<br>

[[文件:ChatGPT00.png|30px]]文本数据的单位通常是句子或者段落。在训练语言模型时，通常会将大量的句子或段落作为输入数据来训练模型。这些句子或段落可以是从各种来源中获取的，如维基百科、新闻报道、社交媒体、博客、书籍、论文等等。通常来说，这些数据都会经过一定的预处理，例如分词、去除停用词、标点符号等等，以便让机器学习算法更好地处理这些数据。

←上一编辑

江南仁

行政员、groupone、管理员

16,820

个编辑

更改

ChatGPT对话:关于大规模语言训练的文本样本问题

导航菜单

个人工具

名字空间

变种

视图

更多

搜索

导航

站群链接

工具