[Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 #3098

xiezhipeng-git · 2025-01-29T05:46:26Z

Motivation

建议的目的与原因：
vllm之所以能够大火起来是因为aimo1 的比赛上冠军使用了vllm. 从此vllm进入了大众视野，成为了推理引擎的首选。
而直到昨天我才了解到lmdeploy竟然比vllm推理还快，这说明你们推广十分不到位。
因此我建议，你们官方使用开源的模型与开源的笔记本相同的方式展示你们的推理速度，方便用户直接使用。
模型可选DeepSeek-R1-Distill-Qwen-32B-awq 或者14b 或者Qwen/QwQ-32B-Preview 这两模型是开源在kaggle上能跑的最强模型，并且资源可以从其他笔记本里直接找到，不用下载上传
aimo2比赛链接
 建议的无程序辅助笔记本
 建议的有程序辅助笔记本
 @lvhan028

chelseaztq · 2025-01-30T00:03:59Z

同意，而且我发现，lmdeploy在显存管理上比vllm 要好，可能引入了kv量化，同样的qwen2.5-32b-coder 模型，在vllm上部署单卡3090只能做到上下文8k左右，显存占用24g左右，而lmdeploy能做到32k左右的上下文。并且token生成速度，并发量等指标，甚至包括服务启动速度，实测下来，均比vllm快！，真的是宣传不到位。

xiezhipeng-git · 2025-01-30T09:29:43Z

同意，而且我发现，lmdeploy在显存管理上比vllm 要好，可能引入了kv量化，同样的qwen2.5-32b-coder 模型，在vllm上部署单卡3090只能做到上下文8k左右，显存占用24g左右，而lmdeploy能做到32k左右的上下文。并且token生成速度，并发量等指标，甚至包括服务启动速度，实测下来，均比vllm快！，真的是宣传不到位。

并且我看到lmdeploy好像可以直接返回原始概率数据。vllm不行导致不能训练。（虽然不能百分百确定。但好像目前是这样）

lvhan028 · 2025-01-30T13:11:03Z

谢谢这个宝贵的建议。我们尽快调研下

lvhan028 · 2025-01-30T15:44:48Z

Hi, @xiezhipeng-git
我注册了账号，发现可选的GPU是 T4x2，P100（lmdeploy没有支持）
但我看分享给我的例子中，设置了 CUDA_VISIBLE_DEVICES=0,1,2,3
能否分享下获取更多GPU的方式？LMDeploy 在 T4x2 上是跑不了Qwen/QwQ-32B-Preview的

xiezhipeng-git · 2025-01-30T17:24:59Z

Hi, @xiezhipeng-git 我注册了账号，发现可选的GPU是 T4x2，P100（lmdeploy没有支持）但我看分享给我的例子中，设置了 CUDA_VISIBLE_DEVICES=0,1,2,3 能否分享下获取更多GPU的方式？LMDeploy 在 T4x2 上是跑不了Qwen/QwQ-32B-Preview的

你需要从已有的笔记本拷贝，因为只有特定的比赛才允许使用4GPU L4 * 4.然后运行的时候选择L4 * 4。或者是先到对应比赛处，点击参加比赛。然后才可以选择L4 * 4 。第一次建议直接选择已有的代码进行提交。熟悉流程且会自动做kaggle备份。并且都是跑awq 或者其他量化模型。完整模型即便是L4 * 4也很困难。
然后安装环境的时候可以参考这种方式

    %pip uninstall -y torch
    %pip uninstall -y fastai
    %pip uninstall -y torchaudio
    %pip uninstall -y torchvision
    
    %pip install --no-index --find-links=/kaggle/input/vllm-latest /kaggle/input/vllm-latest/torchvision-0.20.1-cp310-cp310-manylinux1_x86_64.whl
    %pip install --no-index --find-links=/kaggle/input/vllm-latest /kaggle/input/vllm-latest/torch-2.5.1-cp310-cp310-manylinux1_x86_64.whl
    %pip install --no-index --find-links=/kaggle/input/vllm-latest /kaggle/input/vllm-latest/vllm-0.6.6.post1-cp38-abi3-manylinux1_x86_64.whl
    %pip install --no-deps --no-index /kaggle/input/logits-processor-zoo/logits_processor_zoo-0.1.0-py3-none-any.whl
    %pip install --no-deps --no-index  /kaggle/input/bitsandbytes-0-45-0/bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl

可以参考其他比赛的笔记本
https://www.kaggle.com/code/flashai/qwen2-7b-instruct-with-vllm-0-6-3-inference

XYZliang · 2025-01-31T16:26:40Z

我完全支持楼主的建议，即官方在 Kaggle 上提供一个完整配置了 LMDeploy 的公共笔记本，以展示其卓越的推理性能。LMDeploy 在推理速度方面表现出色，在公平比较的条件下，虽然推理速度被新版 vllm 赶上，但是上下文巨大的优势依旧在。然而，由于宣传力度不足，许多用户尚未意识到 LMDeploy 的优势，方便地让大家体验 LMDeploy 的高效推理能力，让国产走出去！

lvhan028 self-assigned this Jan 30, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 #3098

[Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 #3098

xiezhipeng-git commented Jan 29, 2025 •

edited

Loading

chelseaztq commented Jan 30, 2025 •

edited

Loading

xiezhipeng-git commented Jan 30, 2025

lvhan028 commented Jan 30, 2025

lvhan028 commented Jan 30, 2025

xiezhipeng-git commented Jan 30, 2025 •

edited

Loading

XYZliang commented Jan 31, 2025

[Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 #3098

[Feature] 建议官方在kaggle上使用lmdeploy完整安装资源开放一个公共笔记本用来展示lmdeploy的推理性能 #3098

Comments

xiezhipeng-git commented Jan 29, 2025 • edited Loading

Motivation

chelseaztq commented Jan 30, 2025 • edited Loading

xiezhipeng-git commented Jan 30, 2025

lvhan028 commented Jan 30, 2025

lvhan028 commented Jan 30, 2025

xiezhipeng-git commented Jan 30, 2025 • edited Loading

XYZliang commented Jan 31, 2025

xiezhipeng-git commented Jan 29, 2025 •

edited

Loading

chelseaztq commented Jan 30, 2025 •

edited

Loading

xiezhipeng-git commented Jan 30, 2025 •

edited

Loading