Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 #3098

Open
xiezhipeng-git opened this issue Jan 29, 2025 · 6 comments
Assignees

Comments

@xiezhipeng-git
Copy link

xiezhipeng-git commented Jan 29, 2025

Motivation

建议的目的与原因:
vllm之所以能够大火起来是因为aimo1 的比赛上冠军使用了vllm. 从此vllm进入了大众视野,成为了推理引擎的首选。
而直到昨天我才了解到lmdeploy竟然比vllm推理还快,这说明你们推广十分不到位。
因此我建议,你们官方使用开源的模型与开源的笔记本相同的方式展示你们的推理速度,方便用户直接使用。
模型可选DeepSeek-R1-Distill-Qwen-32B-awq 或者14b 或者Qwen/QwQ-32B-Preview 这两模型是开源在kaggle上能跑的最强模型,并且资源可以从其他笔记本里直接找到,不用下载上传
aimo2比赛链接
建议的无程序辅助笔记本
建议的有程序辅助笔记本
@lvhan028

@chelseaztq
Copy link

chelseaztq commented Jan 30, 2025

同意,而且我发现,lmdeploy在显存管理上比vllm 要好,可能引入了kv量化,同样的qwen2.5-32b-coder 模型,在vllm上部署单卡3090只能做到上下文8k左右,显存占用24g左右,而lmdeploy能做到32k左右的上下文。并且token生成速度,并发量等指标,甚至包括服务启动速度,实测下来,均比vllm快!,真的是宣传不到位。

@xiezhipeng-git
Copy link
Author

同意,而且我发现,lmdeploy在显存管理上比vllm 要好,可能引入了kv量化,同样的qwen2.5-32b-coder 模型,在vllm上部署单卡3090只能做到上下文8k左右,显存占用24g左右,而lmdeploy能做到32k左右的上下文。并且token生成速度,并发量等指标,甚至包括服务启动速度,实测下来,均比vllm快!,真的是宣传不到位。

并且 我看到lmdeploy好像可以直接返回原始概率数据。vllm不行导致不能训练。(虽然不能百分百确定。但好像目前是这样)

@lvhan028
Copy link
Collaborator

谢谢这个宝贵的建议。我们尽快调研下

@lvhan028 lvhan028 self-assigned this Jan 30, 2025
@lvhan028
Copy link
Collaborator

Hi, @xiezhipeng-git
我注册了账号,发现可选的GPU是 T4x2,P100(lmdeploy没有支持)
但我看分享给我的例子中,设置了 CUDA_VISIBLE_DEVICES=0,1,2,3
能否分享下获取更多GPU的方式?LMDeploy 在 T4x2 上是跑不了Qwen/QwQ-32B-Preview的

@xiezhipeng-git
Copy link
Author

xiezhipeng-git commented Jan 30, 2025

Hi, @xiezhipeng-git 我注册了账号,发现可选的GPU是 T4x2,P100(lmdeploy没有支持) 但我看分享给我的例子中,设置了 CUDA_VISIBLE_DEVICES=0,1,2,3 能否分享下获取更多GPU的方式?LMDeploy 在 T4x2 上是跑不了Qwen/QwQ-32B-Preview的

你需要从已有的笔记本拷贝,因为只有特定的比赛才允许使用4GPU L4 * 4.然后运行的时候选择L4 * 4。或者是先到对应比赛处,点击参加比赛。然后才可以选择L4 * 4 。第一次建议直接选择已有的代码进行提交。熟悉流程且会自动做kaggle备份。并且都是跑awq 或者其他量化模型。完整模型即便是L4 * 4也很困难。
然后安装环境的时候可以参考这种方式

    %pip uninstall -y torch
    %pip uninstall -y fastai
    %pip uninstall -y torchaudio
    %pip uninstall -y torchvision
    
    %pip install --no-index --find-links=/kaggle/input/vllm-latest /kaggle/input/vllm-latest/torchvision-0.20.1-cp310-cp310-manylinux1_x86_64.whl
    %pip install --no-index --find-links=/kaggle/input/vllm-latest /kaggle/input/vllm-latest/torch-2.5.1-cp310-cp310-manylinux1_x86_64.whl
    %pip install --no-index --find-links=/kaggle/input/vllm-latest /kaggle/input/vllm-latest/vllm-0.6.6.post1-cp38-abi3-manylinux1_x86_64.whl
    %pip install --no-deps --no-index /kaggle/input/logits-processor-zoo/logits_processor_zoo-0.1.0-py3-none-any.whl
    %pip install --no-deps --no-index  /kaggle/input/bitsandbytes-0-45-0/bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl

可以参考其他比赛的笔记本
https://www.kaggle.com/code/flashai/qwen2-7b-instruct-with-vllm-0-6-3-inference

@xiezhipeng-git xiezhipeng-git changed the title [Feature] 建议官方在在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 [Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 Jan 31, 2025
@XYZliang
Copy link

我完全支持楼主的建议,即官方在 Kaggle 上提供一个完整配置了 LMDeploy 的公共笔记本,以展示其卓越的推理性能。LMDeploy 在推理速度方面表现出色,在公平比较的条件下,虽然推理速度被新版 vllm 赶上,但是上下文巨大的优势依旧在。 然而,由于宣传力度不足,许多用户尚未意识到 LMDeploy 的优势,方便地让大家体验 LMDeploy 的高效推理能力,让国产走出去!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants