Skip to content

4.了解大语言模型

aoguai edited this page May 4, 2023 · 1 revision

什么是 GPT-2?

chatGPT 所使用的以是 GPT-3.5 架构为主力模型的优化对话的语言模型,让 chatGPT 为我们来回答一下这个问题

Q:

请用通俗易懂的语言风格为我解释一下什么是GPT-2模型

A:

GPT-2模型是一种人工智能语言模型,它可以通过学习大量的自然语言文本来自动生成文本。简单来说,它就像一个能够自动生成文章、对话或其他文本的“智能写作机器”。

GPT-2模型是由 OpenAI 公司开发的,它基于深度神经网络技术,可以根据已有的文本内容来预测下一个单词或一段话的可能性,并且可以根据生成的文本内容不断迭代、调整,从而生成更加自然流畅的文本。

由于GPT-2模型具有强大的文本生成能力和自然语言处理能力,它在文本生成、机器翻译、对话生成、自然语言理解等领域具有广泛的应用价值。

什么是 Bloom?

Bloom 是一个能够支持多种语言的开源大语言模型。它基于 Megatron-LM GPT2 的结构,在其基础上进行修改和训练得到,使用了多种技术来实现其高效的性能。Bloom模型支持最多59种语言和176B的参数,并且包含了45种自然语言和12种编程语言的预处理文本数据集,转化为了350B的唯一token。Bloom模型在 Hugging Face 上由BigScience发布,包含多个版本和参数,本文介绍的是最小的版本bloom-1b1。使用Bloom模型可以生成自然语言的句子,且能够在个人电脑上进行简单使用,不需要付费服务。

由于 OpenAI 公司后续并没有继续开源 GPT-3 等更新的模型,Bloom 成为了大众更容易上手也更愿意选择的新的开源大语言模型。

我该去哪寻找模型?

在此提供由 yangjianxin1大佬 提供的模型与词库文件

同时你可以自行在config.cfg中修改对应的模型与词库路径。

模型训练方法请参考 yangjianxin1大佬的 GPT2-chitchat 项目说明

模型 共享地址 模型描述
model_epoch40_50w 百度网盘【提取码:ju6m】GoogleDrive 使用50w多轮对话语料训练了40个epoch,loss降到2.0左右。

同时你可以自行前往 Hugging Face 寻找合适、心意的大语言模型

以下是一些本人测试过与本项目兼容的模型:

模型 Hugging Face 地址 模型描述
firefly系列 https://huggingface.co/YeungNLP/firefly-1b4 Firefly(流萤): 中文对话式大语言模型
bloomz-820m-zh https://huggingface.co/YeungNLP/bloomz-820m-zh bloom-1b1模型的裁剪得到的Bloom模型
bloom-396m-zh https://huggingface.co/YeungNLP/bloom-396m-zh bloom-560m模型的裁剪得到的Bloom模型
gpt2-dialogbot-base-chinese https://huggingface.co/shibing624/gpt2-dialogbot-base-chinese GPT2中文对话生成模型

不代表只能支持以上的模型,您可以自行学习相关知识来前往 Hugging Face 寻找合适、心意的大语言模型

Clone this wiki locally