vllm-cn

根据官方首页文章，vllm 能极大提高大语言模型推理阶段的吞吐性能，这对计算资源有限，受限于推理效率的一些情况来说无疑是一大福音

但是截止 2023.7.8，vllm 文档显示其尚未支持目前热度较高的一些中文大模型，比如 baichuan-inc/baichuan-7B, THUDM/chatglm-6b

于是本人在另一个 repo 实现了 vllm 对 baichuan-inc/baichuan-7B 的支持。运行官方的测试脚本，确实也可以看到 5+ 倍的效率提升。目前代码已提交 PR 期望能合并到官方 repo

baichuan-inc/baichuan-7B 的 vllm 适配测试可参考这里。也可直接 colab 运行。但是因为模型较大，需要选用 A100 gpu 或者更高配置

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
img		img
.gitignore		.gitignore
README.md		README.md
vllm_baichuan.ipynb		vllm_baichuan.ipynb

Provide feedback