16,820
个编辑
更改
无编辑摘要
{{4}}
[[文件:ChatGPT02.png|30px]]'''上次我问到训练数据的数量,您说要几十万到几百万的文本样本。我现在想知道文本样本的单位或组成形式。上次我问到虚拟人训练数据的数量,您说最少要几十万到几百万的文本样本。我现在想知道文本样本的单位或组成形式。'''
<br>
[[文件:ChatGPT00.png|30px]]文本数据的单位通常是句子或者段落。在训练语言模型时,通常会将大量的句子或段落作为输入数据来训练模型。这些句子或段落可以是从各种来源中获取的,如维基百科、新闻报道、社交媒体、博客、书籍、论文等等。通常来说,这些数据都会经过一定的预处理,例如分词、去除停用词、标点符号等等,以便让机器学习算法更好地处理这些数据。