查看“千帆数据集管理中的预置数据集”的源代码

{{元宇宙}}
{{4}}千帆数据集管理中的预置数据集[https://console.bce.baidu.com/qianfan/data/dataset/list?tab=1]<br>
预置开源公开数据集促进算法研究和开发，降低数据获取⻔槛。预置数据集可直接被用于模型训练和模型评估任务。<br>
[[ChineseMedicalDialogueData中文医疗问答数据集]]<br>
中文医疗对话数据集由792099个问答对组成，包括男科、内科、妇产科、肿瘤科、儿科和外科<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
4210<br>
279<br>
去训练<br>
[[FinCUGE_FinESE]]<br>
金融事件主体抽取数据集。从真实的新闻语料中，抽取特定事件类型的主体。其中训练集包含11752条数据，验证集包含1464条数据。<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
2336<br>
150<br>
去训练<br>
[[FinCUGE_FinCQA]]<br>
金融因果事件抽取数据集。因果事件抽取专注于在文本中识别出具有因果关系的两个事件及其事件参数，并将其整理为机构化数据。该数据集的因果事件数据集包含对大宗商品领域的因果事件识别，识别的事件类型包括台风/地震，供给增加/减少，需求增加/减少，价格上升/下降等可能为原因和结果事件及其对应关系和对应的产品、地区等参数 。<br>
文本对话非排序<br>
逻辑推理<br>
调优<br>
845<br>
63<br>
去训练<br>
[[FinCUGE_FinNSP]]<br>
金融负面消息及其主体判定数据集。对于给出的金融新闻或社交媒体文本及其中包含的实体，需要模型判断该文本中是否包含有针对某个实体的负面消息，并指出负面消息的主体是哪个实体。<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
476<br>
42<br>
去训练<br>
[[FinCUGE_FinFE]]<br>
金融社交媒体文本情绪分类数据集。对于给出的金融社交媒体文本，需要模型分类该文本的情绪为消极-中性-积极三种类别。<br>
文本对话非排序<br>
情感分析<br>
调优<br>
1395<br>
87<br>
去训练<br>
[[FinCUGE_FinRE]]<br>
金融新闻关系抽取数据集。对于给出的金融新闻和头实体-尾实体对，需要模型分类实体对的关系到包含空关系的44种关系类别，包含拥有、持股、竞争、收购、交易、合作、减持等财经金融领域的特有关系类别。<br>
文本对话非排序<br>
文本分类<br>
调优<br>
700<br>
104<br>
去训练<br>
[[FinCUGE_FinNL]]<br>
金融新闻分类数据集。对于给出的金融新闻，需要模型将其多标签分类到可能的十五种类别，类别包括公司、行业、大盘、中国、外国、国际、经济、政策、政治、期货、债券、房地产、外汇、虚拟货币、新冠、能源和其它。<br>
文本对话非排序<br>
文本分类<br>
调优<br>
898<br>
90<br>
去训练<br>
[[FinCUGE_FinQA]]<br>
金融新闻公告事件问答数据集。由DuEE-fin数据集转化得到。输入一段金融新闻或公告，和一个与文本中发生的事件有关的问题，需要模型根据文本生成问题答案。问题的范围包含文本中包含的事件类型，以及某个事件对应的发生时间和人物等要素；答案为问题对应的文本中的事件类型或事件要素的列表。<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
974<br>
73<br>
去训练<br>
[[FinCUGE_FinNA]]<br>
金融新闻摘要数据集。输入一段金融新闻，需要模型生成一句话摘要。<br>
文本对话非排序<br>
摘要<br>
调优<br>
1106<br>
122<br>
去训练<br>
[[中医药指令数据集ChatMed_TCM_Dataset]]<br>
以开源的中医药知识图谱为基础，采用以实体为中心的自指令方法entity-centric self-instruct，调用ChatGPT得到11w+的围绕中医药的指令数据<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
1784<br>
130<br>
去训练<br>
[[QiZhenGPT_data]]<br>
该数据集来自于启真医学知识库收集整理的真实医患知识问答数据以及在启真医学知识库的药品文本知识基础上，通过对半结构化数据设置特定的问题模板构造的指令数据<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
403<br>
32<br>
去训练<br>
[[HuatuoGPT_sft_data]]<br>
华佗 GPT中文医疗大模型SFT数据集<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
623<br>
104<br>
去训练<br>
[[法律阅读理解_CAIL2019]]<br>
数据集为CAIL2019中阅读理解部分，数据集是来自“中国裁判文书网”公开的法律文书，主要涉及民事和刑事的一审判决书，总共约1万份数据。<br>
文本对话非排序<br>
提取式问答<br>
调优<br>
1236<br>
92<br>
去训练<br>
[[JEC_QA数据集]]<br>
JEC-QA数据集中每个问题都包含一个问题描述和四个候选选项。 JEC-QA中存在单答案和多答案问题。数据集中包含一套全国统一法律职业资格考试辅导书和中国法律规定构成的参考书目文档<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
366<br>
57<br>
去训练<br>
[[法律知识问答数据集]]
法律知识问答<br>
文本对话非排序<br>
开放式问答<br>
调优<br>
584<br>
108<br>
去训练<br>
[[LawGPT_带有法律依据的情景问答92k]]<br>
带有法律依据的情景问答92k，根据中华人民共和国法律手册上最核心的9k法律条文，利用ChatGPT联想生成具体的情景问答，从而使得生成的数据集有具体的法律依据<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
953<br>
77<br>
去训练<br>
[[pCLUE_anaphora_resolution]]<br>
pCLUE是基于提示的大规模预训练数据集，用于多任务学习和零样本学习，该数据集是pCLUE中指代消解任务的数据集<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
807<br>
104<br>
去训练<br>
[[coig_1_leetcode]]<br>
从CC-BY-SA-4.0许可的集合中建立了Leetcode指令的2,589个编程问题。这些问题包含问题描述、多种编程语言和解释。考虑到输入和输出，我们将指令任务分为两类：代码到文本和文本到代码。代码到文本的任务要求产生给定的编程代码的功能描述，而文本到代码的任务则要求从问题中输出代码。根据程序问题是否有相应的解释，任务指令将被区分为有/无解释。我们准备了38种类型的说明来生成Leetcode指令。我们对每个程序问题的可用编程语言实现进行迭代，随机抽取任务为代码到文本或文本到代码，然后随机选择一个相应的指令描述。<br>
文本对话非排序<br>
代码生成<br>
调优<br>
877<br>
113<br>
去训练<br>
[[coig_2_counterfactural_multi_round_chat]]<br>
反事实修正多轮聊天数据集（CCMC）是基于CN-DBpedia知识图谱数据集构建的，旨在解决当前LLM中出现的幻觉和事实不一致的问题。数据集包含约13,000个对话，每个对话平均有5轮，共约65,000轮聊天。这些对话是在学生和教师之间进行的角色扮演聊天，他们在对话中参考相关的知识。<br>
文本对话非排序<br>
角色扮演<br>
调优<br>
347<br>
115<br>
去训练<br>
[[pCLUE_nli]]<br>
pCLUE是基于提示的大规模预训练数据集，用于多任务学习和零样本学习，该数据集是pCLUE中阅读理解任务的数据集<br>
文本对话非排序<br>
逻辑推理<br>
调优<br>
480<br>
104<br>
去训练<br>
[[pCLUE_classify]]<br>
pCLUE是基于提示的大规模预训练数据集，用于多任务学习和零样本学习，该数据集是pCLUE中阅读理解任务的数据集<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
1037<br>
53<br>
去训练<br>
[[pCLUE_mrc]]<br>
pCLUE是基于提示的大规模预训练数据集，用于多任务学习和零样本学习，该数据集是pCLUE中阅读理解任务的数据集<br>
文本对话非排序<br>
限定式问答<br>
调优<br>
657<br>
78<br>
去训练<br>
[[pCLUE_generate]]<br>
pCLUE是基于提示的大规模预训练数据集，用于多任务学习和零样本学习，该数据集是pCLUE中文本生成任务的数据集<br>
文本对话非排序<br>
文本创作<br>
调优<br>
768<br>
72<br>
去训练<br>
[[belle_multiturn_chat_0_8M]]<br>
【仅限研究分析使用】【当前数据集对原始数据集进行了采样】包含约80万条由BELLE项目生成的用户与助手的多轮对话<br>
文本对话非排序<br>
开放式问答<br>
调优<br>
443<br>
36<br>
去训练<br>
[[belle_school_math_0_25M]]<br>
【仅限研究分析使用】【当前数据集对原始数据集进行了采样】包含约25万条由BELLE项目生成的中文数学题数据，包含解题过程。<br>
文本对话非排序<br>
数学<br>
调优<br>
521<br>
72<br>
去训练<br>
[[belle_train_2M_CN]]<br>
【仅限研究分析使用】【当前数据集对原始数据集进行了采样】包含约200万条由BELLE项目生成多样化的指令任务数据<br>
文本对话非排序<br>
开放式问答<br>
调优<br>
1014<br>
35<br>
去训练<br>
[[belle_generated_chat_0_4M]]<br>
【仅限研究分析使用】【当前数据集对原始数据集进行了采样】包含约40万条由BELLE项目生成的个性化角色对话数据，包含角色介绍。<br>
文本对话非排序<br>
角色扮演<br>
调优<br>
699<br>
115<br>
去训练<br>
[[chinese_llama_alpaca_data_zh_51k]]<br>
【仅限研究分析使用】中文Alpaca数据，包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据。<br>
文本对话非排序<br>
开放式问答<br>
调优<br>
1149<br>
119<br>
去训练<br>
[[coig_5_exam_instructions]]<br>
人工注释的考试指令数据集，从原始考试题中提取六个信息元素，包括指令、问题背景、问题、答案、答案分析和粗粒度的主题。这些考试中有很多阅读理解题，问题背景指的是这些阅读理解题的阅读材料。有六个主要的粗略科目：中文、英文、政治、生物、历史和地质。语料库中很少有数学、物理和化学问题，因为这些问题往往带有复杂的符号，很难进行注释。我们说明了问题格式百分比，说明了主要科目百分比。对于许多选择题，我们建议研究人员利用这个语料库，使用提示语对其进行进一步的后处理，或将其后处理为填空题，以进一步增加指令的多样性。<br>
文本对话非排序<br>
逻辑推理<br>
调优<br>
498<br>
93<br>
去训练<br>
[[xp3]]<br>
xP3是一个用于多任务提示微调的多语言数据集。它是46种语言的监督数据集与英语和机器翻译提示的组合，这里只包含了中文的数据<br>
文本对话非排序<br>
开放式问答<br>
调优<br>
561<br>
93<br>
去训练<br>
[[AGI_EVAL]]<br>
AGIEval是一个以人为中心的基准，专门用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准来自20种面向普通人类考生的官方、公共和高标准录取和资格考试，如普通大学录取考试（如中国高考和美国SAT）、法学院录取考试、数学竞赛、律师资格考试和国家公务员考试<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
938<br>
384<br>
去训练<br>
去评估<br>
[[CEVAL_STEM]]<br>
【仅限研究分析使用】中文多项选择题（四选一）。C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
236<br>
156<br>
去训练<br>
去评估<br>
[[CEVAL_SocialScience]]
【仅限研究分析使用】中文多项选择题（四选一）。C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
527<br>
112<br>
去训练<br>
去评估<br>
[[CEVAL_Other]]<br>
【仅限研究分析使用】中文多项选择题（四选一）。C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
306<br>
104<br>
去训练<br>
去评估<br>
[[CEVAL_Humanities]]<br>
【仅限研究分析使用】中文多项选择题（四选一）。C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
458<br>
110<br>
去训练<br>
去评估<br>
[[CMMLU_STEM]]<br>
【仅限研究分析使用】中文多项选择题（四选一）。CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
613<br>
130<br>
去训练<br>
去评估<br>
[[CMMLU_SocialScience]]<br>
【仅限研究分析使用】中文多项选择题（四选一）。CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
300<br>
105<br>
去训练<br>
去评估<br>
[[CMMLU_Other]]<br>
【仅限研究分析使用】中文多项选择题（四选一）。CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
324<br>
107<br>
去训练<br>
去评估<br>
[[CMMLU_Humanities]]<br>
【仅限研究分析使用】中文多项选择题（四选一）。CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
228<br>
54<br>
去训练<br>
去评估<br>
[[MMLU_STEM]]<br>
语言为英语的大规模的多任务测试，由来自不同知识分支的多项选择题（四选一）组成。该测试涵盖了人文学科、社会科学、硬科学和其他对一些人来说很重要的领域。这包括57项任务，包括初等数学、美国历史、计算机科学、法律等<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
518<br>
89<br>
去训练<br>
去评估<br>
[[MMLU_SocialSciences]]<br>
语言为英语的大规模的多任务测试，由来自不同知识分支的多项选择题（四选一）组成。该测试涵盖了人文学科、社会科学、硬科学和其他对一些人来说很重要的领域。这包括57项任务，包括初等数学、美国历史、计算机科学、法律等<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
320<br>
72<br>
去训练<br>
去评估<br>
[[MMLU_Other]]<br>
语言为英语的大规模的多任务测试，由来自不同知识分支的多项选择题（四选一）组成。该测试涵盖了人文学科、社会科学、硬科学和其他对一些人来说很重要的领域。这包括57项任务，包括初等数学、美国历史、计算机科学、法律等<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
166<br>
83<br>
去训练<br>
去评估<br>
[[MMLU_Humanities]]
语言为英语的大规模的多任务测试，由来自不同知识分支的多项选择题（四选一）组成。该测试涵盖了人文学科、社会科学、硬科学和其他对一些人来说很重要的领域。这包括57项任务，包括初等数学、美国历史、计算机科学、法律等<br>
文本对话非排序<br>
限定式问答<br>
评测<br>
992<br>
145<br>
去训练<br>
去评估<br>
[[TCM_Ancient_Books]]<br>
中医药古籍文本数据集，包含大约700本的中医古书<br>
泛文本无标注<br>
post-pretrain<br>
调优<br>
985<br>
17<br>
去训练<br>
[[OSCAR数据集]]<br>
OSCAR项目（Open Super large Crawled Aggregated coRpus）是一个开源项目，旨在为机器学习（ML）和人工智能（AI）应用程序提供基于网络的多语言资源和数据集。该项目特别专注于提供大量未标记的原始数据，这些数据通常用于大型深度学习模型的预训练。<br>
泛文本无标注<br>
post-pretrain<br>
调优<br>
503<br>
去训练<br>
[[MNBVC超大规模中文语料集]]<br>
MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。<br>
泛文本无标注<br>
post-pretrain<br>
调优<br>
1191<br>
去训练<br>
[[WuDaoCorporaText文本预训练数据集]]<br>
【仅限研究分析使用】采用20多种规则从100TB原始网页数据中清洗得出最终数据集，注重隐私数据信息的去除，源头上避免GPT-3存在的隐私泄露风险；包含教育、科技等50+个行业数据标签，可以支持多领域预训练模型的训练。<br>
泛文本无标注<br>
post-pretrain<br>
调优<br>
1127<br>
2<br>
去训练