System Info / 系統信息
python: 3.11.9
vllm: 0.6.1/0.6.3/0.6.4
cuda: 12.2
transformers: 4.46.0/4.46.3
start bash: vllm serve ./glm-4-9b-chat-hf --served-model-name glm-4-9b-chat --dtype auto --tensor-parallel-size 1 --max-model-len 8192 --gpu-memory-utilization 0.95 --host 0.0.0.0 --port 8000 --trust-remote-code
Who can help? / 谁可以帮助到您?
No response
Information / 问题信息
Reproduction / 复现过程
按照:https://github.com/THUDM/GLM-4/blob/main/basic_demo/requirements.txt
这个要求准备了依赖并安装vllm,无法启动成功,报错信息如下

测试了vllm版本包括:0.6.3/0.6.4/0.6.1
并且vllm官方最新stable文档中也没有提及对的GlmForCausalLM支持:https://docs.vllm.ai/en/stable/models/supported_models.html
Expected behavior / 期待表现
期望能使用vllm命令运行起来