Ultra-Innerthought是一个中英双语的开放领域的Innerthought格式的SFT数据集,包含2,085,326个对话。不同于当前主要关注数学和代码领域的推理数据集,Ultra-Innerthought覆盖了更多的领域,并包含中文和英文两个语种。我们使用了Deepseek V3作为数据合成的模型。
{
"id": "dialogue_id",
"conversations": [
{
"user": "user_input",
"inner_thought": "model's inner thought",
"assistant": "model_output"
},
...
],
"data_source": "data_source"
}
Ultra-Innerthought使用下列的SFT数据集作为原始输入,使用Deepseek V3进行数据合成。我们保留了原始数据集每一轮的用户输入部分,使用Deepseek V3首先生成一个模型的Inner thought,然后再使用Deepseek V3基于Inner thought生成最终的回复。在生成模型的Inner thought时,我们通过prompt的方式要求模型进行意图澄清,问题分解,自我反思,探索等行为。数据集中英文占比约1:1.
用户输入采样自OpenHerms2.5以及我们使用Deepseek V3翻译的OpenHerms2.5中文版本,QwQ-LONGCOT-500K以及我们使用Deepseek V3翻译的QwQ-LONGCOT-500K中文版本,tulu-3-sft-mixture,sharegpt-zh,COIG-CQIA,Wildchat,WizardLM,Moss-inhouse-data, lmsys.