vLLM服务启动后，怎么用Python或命令行快速调用大模型？

目录

收起

vLLM服务启动后，怎么用Python或命令行快速调用大模型？

<think>我们已经在Docker Desktop上成功启动了vLLM服务，现在需要了解如何使用这个服务。根据之前的配置，vLLM提供了OpenAI兼容的API，因此可以通过HTTP请求与API交互，或者使用OpenAI客户端库。 ### 使用vLLM服务的几种方式 #### 1. 直接调用OpenAI格式的API vLLM的API端点与OpenAI一致，主要端点包括： - 列出模型：`GET /v1/models` - 文本补全：`POST /v1/completions` - 聊天补全：`POST /v1/chat/completions` **示例：使用curl测试聊天接口** ```bash curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen3.5-27B-FP8", "messages": [ {"role": "system", "content": "你是一个AI助手"}, {"role": "user", "content": "请解释什么是人工智能"} ], "temperature": 0.7 }' ``` #### 2. 使用OpenAI Python客户端安装OpenAI库：`pip install openai` ```python from openai import OpenAI # 初始化客户端，指向本地vLLM服务 client = OpenAI( base_url="http://localhost:8000/v1", # vLLM的API地址 api_key="no-key-required" # vLLM默认不需要密钥 ) # 调用聊天接口 response = client.chat.completions.create( model="Qwen3.5-27B-FP8", messages=[ {"role": "user", "content": "写一首关于春天的诗"} ], temperature=0.8, max_tokens=256 ) print(response.choices[0].message.content) ``` #### 3. 使用LangChain集成安装LangChain：`pip install langchain langchain-openai` ```python from langchain_openai import ChatOpenAI llm = ChatOpenAI( openai_api_base="http://localhost:8000/v1", model_name="Qwen3.5-27B-FP8", openai_api_key="no-key-required" ) response = llm.invoke("量子计算的基本原理是什么？") print(response.content) ``` #### 4. 高级使用：流式响应 ```python stream = client.chat.completions.create( model="Qwen3.5-27B-FP8", messages=[{"role": "user", "content": "详细说明Transformer架构"}], stream=True, ) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="") ``` ### 性能监控 - 查看服务状态：`docker stats qwen-service` - 访问Prometheus指标：`http://localhost:8000/metrics` §§相关问题§§ 1. 如何为vLLM的OpenAI兼容API添加身份验证，以避免未授权访问？ 2. 在流式响应过程中，如何实现客户端的中断请求机制？ 3. 如何配置vLLM以支持同时加载多个模型并动态切换？ 4. 当使用LangChain调用vLLM时，如何设置自定义的停止标记（stop tokens）？ 5. 如何监控vLLM服务的推理延迟和吞吐量，并生成性能报告？ </think> ### 如何使用已启动的vLLM服务 #### 1. 基础API调用使用OpenAI兼容API与模型交互： ```python import openai # 配置客户端 client = openai.OpenAI( base_url="http://localhost:8000/v1", api_key="no-key-required" # vLLM默认不需要密钥 ) # 文本生成调用 response = client.completions.create( model="Qwen3.5-27B-FP8", prompt="解释量子计算的基本原理", max_tokens=500, temperature=0.7 ) print(response.choices[0].text) ``` #### 2. 聊天模式调用（推荐） ```python chat_response = client.chat.completions.create( model="Qwen3.5-27B-FP8", messages=[ {"role": "system", "content": "你是一位科技领域专家"}, {"role": "user", "content": "比较Transformer和RNN架构的优缺点"} ], max_tokens=1024, top_p=0.9 ) print(chat_response.choices[0].message.content) ``` #### 3. 流式响应处理 ```python stream = client.chat.completions.create( model="Qwen3.5-27B-FP8", messages=[{"role": "user", "content": "用Python实现快速排序"}], stream=True ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end="", flush=True) ``` #### 4. 命令行测试使用curl快速验证服务： ```bash curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen3.5-27B-FP8", "prompt": "法国的首都是哪里？", "max_tokens": 50 }' ``` #### 5. OpenClaw集成配置在OpenClaw项目中配置： ```python # openclaw_config.py API_CONFIG = { "vllm_endpoint": "http://localhost:8000/v1", "model_name": "Qwen3.5-27B-FP8", "api_key": None, "timeout": 30.0 } ``` #### 6. 性能监控查看服务状态： ```bash # 容器内执行 vllm metrics # 显示实时性能指标 # 或浏览器访问 http://localhost:8000/metrics # Prometheus格式指标 ``` #### 7. 高级参数调整优化生成效果： ```python response = client.chat.completions.create( model="Qwen3.5-27B-FP8", messages=[...], frequency_penalty=0.5, # 降低重复 presence_penalty=0.3, # 鼓励新话题 stop=["\n\n", "###"], # 自定义停止符 logprobs=True # 获取token概率 ) ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇如何用Python自动识别并结构化输出Android日志中的ANR关键信息？

热门内容

1 高端制造83赛道再分4级赛道招聘工具包 2 vue+后端 3 一线大厂Java面试题合集 4 【渗透测试终局之战】APT级攻击溯源与反制：从数字足迹擦除到假旗行动的高级对抗艺术 5 # Mysql 6 用vue-tippy实现按钮的文字提示(tooltip)7 零样本检测平台 8 【NestJS】第10节关联关系与查询构建 9 # Java从基础到触类旁通 10 对接飞书API发送自定义消息到指定群组

热门代码资源

1 opencv3+python人脸检测和识别完整项目识别视频《欢乐颂》中人物源码下载 2 基于LSTM模型的股票预测模型_python 3 基于傅里叶算子的手势识别的完整源代码（Python实现，包含样本库）4 卷积神经网络图像识别python代码 5 房价预测的BP神经网络实现_python代码 6 leetcode全套解答python版本 7 python实现车道线识别程序 8 Python 3.9 安装包 9 Ollama软件windows安装包(版本0.3.10)10 清华大学104页《DeepSeek：从入门到精通》.pdf