-
Notifications
You must be signed in to change notification settings - Fork 2
4.了解大语言模型
chatGPT 所使用的以是 GPT-3.5 架构为主力模型的优化对话的语言模型,让 chatGPT 为我们来回答一下这个问题
Q:
请用通俗易懂的语言风格为我解释一下什么是GPT-2模型
A:
GPT-2模型是一种人工智能语言模型,它可以通过学习大量的自然语言文本来自动生成文本。简单来说,它就像一个能够自动生成文章、对话或其他文本的“智能写作机器”。
GPT-2模型是由 OpenAI 公司开发的,它基于深度神经网络技术,可以根据已有的文本内容来预测下一个单词或一段话的可能性,并且可以根据生成的文本内容不断迭代、调整,从而生成更加自然流畅的文本。
由于GPT-2模型具有强大的文本生成能力和自然语言处理能力,它在文本生成、机器翻译、对话生成、自然语言理解等领域具有广泛的应用价值。
Bloom 是一个能够支持多种语言的开源大语言模型。它基于 Megatron-LM GPT2 的结构,在其基础上进行修改和训练得到,使用了多种技术来实现其高效的性能。Bloom模型支持最多59种语言和176B的参数,并且包含了45种自然语言和12种编程语言的预处理文本数据集,转化为了350B的唯一token。Bloom模型在 Hugging Face 上由BigScience发布,包含多个版本和参数,本文介绍的是最小的版本bloom-1b1。使用Bloom模型可以生成自然语言的句子,且能够在个人电脑上进行简单使用,不需要付费服务。
由于 OpenAI 公司后续并没有继续开源 GPT-3 等更新的模型,Bloom 成为了大众更容易上手也更愿意选择的新的开源大语言模型。
在此提供由 yangjianxin1大佬 提供的模型与词库文件
同时你可以自行在config.cfg中修改对应的模型与词库路径。
模型训练方法请参考 yangjianxin1大佬的 GPT2-chitchat 项目说明
| 模型 | 共享地址 | 模型描述 |
|---|---|---|
| model_epoch40_50w | 百度网盘【提取码:ju6m】 或 GoogleDrive | 使用50w多轮对话语料训练了40个epoch,loss降到2.0左右。 |
同时你可以自行前往 Hugging Face 寻找合适、心意的大语言模型
以下是一些本人测试过与本项目兼容的模型:
| 模型 | Hugging Face 地址 | 模型描述 |
|---|---|---|
| firefly系列 | https://huggingface.co/YeungNLP/firefly-1b4 | Firefly(流萤): 中文对话式大语言模型 |
| bloomz-820m-zh | https://huggingface.co/YeungNLP/bloomz-820m-zh | 对bloom-1b1模型的裁剪得到的Bloom模型 |
| bloom-396m-zh | https://huggingface.co/YeungNLP/bloom-396m-zh | 对bloom-560m模型的裁剪得到的Bloom模型 |
| gpt2-dialogbot-base-chinese | https://huggingface.co/shibing624/gpt2-dialogbot-base-chinese | GPT2中文对话生成模型 |
不代表只能支持以上的模型,您可以自行学习相关知识来前往 Hugging Face 寻找合适、心意的大语言模型