Skip to content

Latest commit

 

History

History
76 lines (60 loc) · 24.2 KB

README_ZH.md

File metadata and controls

76 lines (60 loc) · 24.2 KB

使用Data-Juicer完善开源数据集

我们发现在现有的已经处理过的数据集(如 Redpajama、The Pile 等)中仍然存在一些“脏”数据样本。所以我们使用我们的 Data-Juicer 来完善这些数据集,并尝试将它们提供给 LLM 以获得更好的性能。

我们使用简单的 3-σ 规则来设置每个数据处理菜谱中的算子的超参数。

完善前后的预训练数据集

数据子集 完善前的样本数目 完善后的样本数目 样本保留率 配置链接 数据链接 来源
arXiv 1,724,497 1,655,259 95.99% redpajama-arxiv-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Books 205,182 195,983 95.51% redpajama-book-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Wikipedia 29,834,171 26,990,659 90.47% redpajama-wiki-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
C4 364,868,892 344,491,171 94.42% redpajama-c4-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Common Crawl 2019-30 81,085,420 36,557,283 45.08% redpajama-cc-2019-30-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Common Crawl 2020-05 90,850,492 42,612,596 46.90% redpajama-cc-2020-05-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Common Crawl 2021-04 98,878,523 44,724,752 45.23% redpajama-cc-2021-04-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Common Crawl 2022-05 94,058,868 42,648,496 45.34% redpajama-cc-2022-05-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Common Crawl 2023-06 111,402,716 50,643,699 45.46% redpajama-cc-2023-06-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
Github Code 73,208,524
+ 21,387,703
49,279,344 52.09% redpajama-code-refine.yaml
stack-code-refine.yaml
redpajama-stack-code-deduplicate.yaml
Aliyun
ModelScope
HuggingFace
Redpajama
The Stack
StackExchange 45,447,328 26,309,203 57.89% redpajama-pile-stackexchange-refine.yaml Aliyun
ModelScope
HuggingFace
Redpajama
The Pile
EuroParl 69,814 61,601 88.23% pile-europarl-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile
FreeLaw 3,562,015 2,942,612 82.61% pile-freelaw-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile
HackerNews 373,027 371,331 99.55% pile-hackernews-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile
NIH ExPorter 939,661 858,492 91.36% pile-nih-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile
PhilPapers 32,782 29,117 88.82% pile-philpaper-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile
PubMed Abstracts 15,518,009 15,009,325 96.72% pile-pubmed-abstract-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile
PubMed Central 3,098,930 2,694,860 86.96% pile-pubmed-central-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile
USPTO 5,883,024 4,516,283 76.77% pile-uspto-refine.yaml Aliyun
ModelScope
HuggingFace
The Pile

完善前后的Alpaca-CoT数据集

数据子集 完善前的样本数目 完善后的样本数目 样本保留率 配置链接 数据链接 来源
Alpaca-Cot EN 136,219,879 72,855,345 54.48% alpaca-cot-en-refine.yaml Aliyun
ModelScope
HuggingFace
来自Alpaca-CoT的39个子集
Alpaca-Cot ZH 21,197,246 9,873,214 46.58% alpaca-cot-zh-refine.yaml Aliyun
ModelScope
HuggingFace
来自Alpaca-CoT的28个子集

完善前后的多模态数据集

数据子集 完善前的样本数目 完善后的样本数目 样本保留率 配置链接 数据链接 来源
LLaVA pretrain (LCS-558k) 558,128 500,380 89.65% llava-pretrain-refine.yaml Aliyun
ModelScope
HuggingFace
LLaVA-1.5
Data-Juicer (T2V, 147k) 1,217,346 147,176 12.09% data-juicer-sandbox-optimal.yaml Aliyun
ModelScope
HuggingFace
InternVid (606k)
Panda-70M (605k)
MSR-VTT (6k)
Data-Juicer (DJ, 228k) 3,408,553 227,867 8.15% data-juicer-sandbox-self-evolution.yaml Aliyun
ModelScope
InternVid (606k)
Panda-70M (2,599k)
Pexels (198k)
MSR-VTT (6k)

评测结果

  • LLaVA pretrain (LCS-558k): 使用完善后的预训练数据集预训练并使用原始的指令数据集微调后的模型在12个评测集上有10个超过了基线模型LLaVA-1.5-13B。
模型 VQAv2 GQA VizWiz SQA TextVQA POPE MME MM-Bench MM-Bench-CN SEED LLaVA-Bench-Wild MM-Vet
LLaVA-1.5-13B
(基线)
80.0 63.3 53.6 71.6 61.3 85.9 1531.3 67.7 63.6 61.6 72.5 36.1
LLaVA-1.5-13B
(完善后的预训练数据集)
79.94 63.5 54.09 74.20 60.82 86.67 1565.53 68.2 63.9 61.8 75.9 37.4
  • Data-Juicer (T2V, 147k) 和 Data-Juicer (DJ, 228k): 使用完善后的数据集VBench 全面超过基线模型 T2V-Turbo。这里 T2V-Turbo 是 Data-Juicer (T2V, 147k) 的teacher模型,Data-Juicer (T2V, 147k) 是 Data-Juicer (DJ, 228k) 的teacher模型,详情请参考沙盒实验室
model Total Score Quality Score Semantic Score subject consistency background consistency temporal flickering motion smoothness dynamic degree aesthetic quality
T2V-Turbo 81.01 82.57 74.76 96.28 97.02 97.48 97.34 49.17 63.04
Data-Juicer (T2V, 147k) 82.10 83.14 77.93 97.32 99.03 96.60 96.51 51.67 68.92
Data-Juicer (DJ, 228k) 82.53 83.38 79.13 97.92 99.27 98.14 97.77 38.89 67.39
model imaging quality object class multiple objects human action color spatial relationship scene appearance style temporal style overall consistency
T2V-Turbo 72.49 93.96 54.65 95.20 89.90 38.67 55.58 24.42 25.51 28.16
Data-Juicer (T2V, 147k) 70.42 95.85 61.63 95.60 94.06 46.95 57.57 24.42 26.34 28.90
Data-Juicer (DJ, 228k) 70.41 96.44 64.51 95.40 95.51 47.17 57.30 25.55 26.82 29.25

视频数据集

我们为用户提供了一个视频数据集处理菜谱样例以协助更好地使用视频相关的算子: general-video-refine-example.yaml 。这里我们应用了三种类型的算子:

  • 仅文本:根据视频描述提高数据集质量
  • 仅视频:根据视频性质提高数据集质量
  • 文本-视频:根据文本和视频间的对齐提高数据集质量 用户可以基于这个菜谱开始他们的视频数据集处理流程。