-
Notifications
You must be signed in to change notification settings - Fork 475
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 #3098
Comments
同意,而且我发现,lmdeploy在显存管理上比vllm 要好,可能引入了kv量化,同样的qwen2.5-32b-coder 模型,在vllm上部署单卡3090只能做到上下文8k左右,显存占用24g左右,而lmdeploy能做到32k左右的上下文。并且token生成速度,并发量等指标,甚至包括服务启动速度,实测下来,均比vllm快!,真的是宣传不到位。 |
并且 我看到lmdeploy好像可以直接返回原始概率数据。vllm不行导致不能训练。(虽然不能百分百确定。但好像目前是这样) |
谢谢这个宝贵的建议。我们尽快调研下 |
Hi, @xiezhipeng-git |
你需要从已有的笔记本拷贝,因为只有特定的比赛才允许使用4GPU L4 * 4.然后运行的时候选择L4 * 4。或者是先到对应比赛处,点击参加比赛。然后才可以选择L4 * 4 。第一次建议直接选择已有的代码进行提交。熟悉流程且会自动做kaggle备份。并且都是跑awq 或者其他量化模型。完整模型即便是L4 * 4也很困难。
可以参考其他比赛的笔记本 |
我完全支持楼主的建议,即官方在 Kaggle 上提供一个完整配置了 LMDeploy 的公共笔记本,以展示其卓越的推理性能。LMDeploy 在推理速度方面表现出色,在公平比较的条件下,虽然推理速度被新版 vllm 赶上,但是上下文巨大的优势依旧在。 然而,由于宣传力度不足,许多用户尚未意识到 LMDeploy 的优势,方便地让大家体验 LMDeploy 的高效推理能力,让国产走出去! |
Motivation
建议的目的与原因:
vllm之所以能够大火起来是因为aimo1 的比赛上冠军使用了vllm. 从此vllm进入了大众视野,成为了推理引擎的首选。
而直到昨天我才了解到lmdeploy竟然比vllm推理还快,这说明你们推广十分不到位。
因此我建议,你们官方使用开源的模型与开源的笔记本相同的方式展示你们的推理速度,方便用户直接使用。
模型可选DeepSeek-R1-Distill-Qwen-32B-awq 或者14b 或者Qwen/QwQ-32B-Preview 这两模型是开源在kaggle上能跑的最强模型,并且资源可以从其他笔记本里直接找到,不用下载上传
aimo2比赛链接
建议的无程序辅助笔记本
建议的有程序辅助笔记本
@lvhan028
The text was updated successfully, but these errors were encountered: