Qwen3-Reranker-4B快速上手：Python requests调用vLLM API完整示例

# Qwen3-Reranker-4B快速上手：Python requests调用vLLM API完整示例 ## 1. 理解Qwen3-Reranker-4B的核心价值 Qwen3-Reranker-4B是阿里云通义千问团队推出的专业文本重排序模型，专门用于提升文本检索和排序的准确性。这个模型基于强大的Qwen3架构，拥有40亿参数，支持超过100种语言，能够处理长达32K token的文本内容。简单来说，这个模型就像一个智能的"排序助手"。当你给它一组文档和一个查询问题时，它能快速判断哪些文档最相关，并按照相关性从高到低排序。这在搜索引擎、推荐系统、智能客服等场景中非常有用。举个例子，如果你在电商平台搜索"夏季轻薄连衣裙"，传统的搜索可能只是简单匹配关键词，但Qwen3-Reranker能够理解你的真实需求，把最符合"夏季"、"轻薄"这些要求的商品排在最前面，而不是仅仅包含这些词的商品。 ## 2. 环境准备与模型部署 ### 2.1 系统要求与依赖安装在开始之前，确保你的系统满足以下基本要求： - Python 3.8或更高版本 - 至少16GB内存（推荐32GB） - 支持CUDA的GPU（推荐显存8GB以上）首先安装必要的依赖包： ```bash pip install vllm gradio requests numpy ``` vLLM是一个高性能的推理引擎，能够大幅提升大模型的推理速度。Gradio则提供了一个简单的Web界面，方便我们测试和验证模型效果。 ### 2.2 启动vLLM服务使用以下命令启动Qwen3-Reranker-4B服务： ```bash python -m vllm.entrypoints.api_server \ --model Qwen/Qwen3-Reranker-4B \ --port 8000 \ --dtype auto \ --gpu-memory-utilization 0.8 ``` 这个命令做了几件事情： - 加载Qwen3-Reranker-4B模型 - 在8000端口启动API服务 - 自动选择合适的数据类型 - 设置GPU内存使用率为80% 启动成功后，你会看到类似这样的输出： ``` INFO 07-10 14:30:22 api_server.py:140] Starting API server on http://0.0.0.0:8000 INFO 07-10 14:30:22 api_server.py:141] Started API server process [12345] ``` ### 2.3 验证服务状态服务启动后，可以通过查看日志文件来确认状态： ```bash cat /root/workspace/vllm.log ``` 如果看到"Uvicorn running on http://0.0.0.0:8000"这样的信息，说明服务已经成功启动。你也可以直接访问http://localhost:8000/docs来查看API文档。 ## 3. 使用Gradio WebUI进行初步测试在正式编写代码之前，先用Gradio创建一个简单的测试界面，这样可以直观地看到模型的效果。创建一个名为`gradio_demo.py`的文件： ```python import gradio as gr import requests import json def rerank_demo(query, documents): """使用Gradio界面测试重排序功能""" if not query or not documents: return "请输入查询和文档" # 准备API请求数据 url = "http://localhost:8000/v1/rerank" headers = {"Content-Type": "application/json"} # 将文档字符串转换为列表 doc_list = [doc.strip() for doc in documents.split('\n') if doc.strip()] payload = { "model": "Qwen/Qwen3-Reranker-4B", "query": query, "documents": doc_list, "return_documents": True } try: response = requests.post(url, headers=headers, json=payload) result = response.json() # 格式化输出结果 output = "重排序结果：\n\n" for i, item in enumerate(result['results']): output += f"{i+1}. 文档：{item['document']}\n" output += f" 相关性得分：{item['relevance_score']:.4f}\n\n" return output except Exception as e: return f"请求出错：{str(e)}" # 创建Gradio界面 demo = gr.Interface( fn=rerank_demo, inputs=[ gr.Textbox(label="查询问题", lines=2, placeholder="请输入你的问题..."), gr.Textbox(label="待排序文档", lines=6, placeholder="请输入多个文档，每行一个...") ], outputs=gr.Textbox(label="排序结果", lines=10), title="Qwen3-Reranker-4B 演示", description="输入一个查询问题和多个文档，查看模型的排序效果" ) if __name__ == "__main__": demo.launch(server_port=7860, share=True) ``` 运行这个脚本： ```bash python gradio_demo.py ``` 然后在浏览器中打开http://localhost:7860，你就可以看到一个简单的测试界面。输入查询问题和多个文档，点击提交就能看到排序结果。 ## 4. Python requests调用完整示例现在我们来编写完整的Python代码，演示如何用requests库调用vLLM API。 ### 4.1 基础调用示例 ```python import requests import json from typing import List, Dict class QwenRerankerClient: def __init__(self, base_url: str = "http://localhost:8000"): self.base_url = base_url self.headers = {"Content-Type": "application/json"} def rerank_documents(self, query: str, documents: List[str], return_documents: bool = True) -> Dict: """ 对文档进行重排序 Args: query: 查询问题 documents: 待排序的文档列表 return_documents: 是否返回文档内容 Returns: 排序结果 """ endpoint = f"{self.base_url}/v1/rerank" payload = { "model": "Qwen/Qwen3-Reranker-4B", "query": query, "documents": documents, "return_documents": return_documents } try: response = requests.post(endpoint, headers=self.headers, json=payload) response.raise_for_status() return response.json() except requests.exceptions.RequestException as e: raise Exception(f"API请求失败: {str(e)}") def get_rerank_score(self, query: str, document: str) -> float: """ 获取单个文档的相关性得分 Args: query: 查询问题 document: 待评分的文档 Returns: 相关性得分 """ result = self.rerank_documents(query, [document], return_documents=False) return result['results'][0]['relevance_score'] # 使用示例 if __name__ == "__main__": # 初始化客户端 client = QwenRerankerClient() # 示例查询和文档 query = "如何学习Python编程？" documents = [ "Python是一种高级编程语言，适合初学者学习", "Java是企业级应用开发的首选语言", "Python有丰富的库和框架，如Django和Flask", "C++是系统级编程语言，性能很高" ] # 进行重排序 result = client.rerank_documents(query, documents) print(f"查询: {query}\n") print("排序结果:") for i, item in enumerate(result['results']): print(f"{i+1}. 得分: {item['relevance_score']:.4f}") print(f" 文档: {item['document']}") print() ``` ### 4.2 批量处理与性能优化在实际应用中，我们经常需要处理大量的文档。下面是一个批量处理的示例： ```python import concurrent.futures import time from tqdm import tqdm class BatchReranker: def __init__(self, client: QwenRerankerClient, batch_size: int = 10): self.client = client self.batch_size = batch_size def batch_rerank(self, query: str, all_documents: List[str], max_workers: int = 4) -> List[Dict]: """ 批量重排序文档 Args: query: 查询问题 all_documents: 所有待排序文档 max_workers: 最大并发数 Returns: 排序结果列表 """ results = [] # 分批处理 with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor: futures = [] for i in range(0, len(all_documents), self.batch_size): batch_docs = all_documents[i:i + self.batch_size] futures.append(executor.submit( self.client.rerank_documents, query, batch_docs )) # 等待所有任务完成 for future in tqdm(concurrent.futures.as_completed(futures), total=len(futures), desc="处理批次"): try: batch_result = future.result() results.extend(batch_result['results']) except Exception as e: print(f"处理批次时出错: {e}") # 按得分排序 results.sort(key=lambda x: x['relevance_score'], reverse=True) return results # 使用示例 if __name__ == "__main__": client = QwenRerankerClient() batch_reranker = BatchReranker(client, batch_size=5) # 生成示例文档 documents = [ f"Python编程技巧第{i}条: 使用列表推导式简化代码" for i in range(1, 21) ] query = "Python编程最佳实践" start_time = time.time() results = batch_reranker.batch_rerank(query, documents) end_time = time.time() print(f"处理{len(documents)}个文档耗时: {end_time - start_time:.2f}秒") print("\nTop 5结果:") for i, item in enumerate(results[:5]): print(f"{i+1}. 得分: {item['relevance_score']:.4f}") print(f" 文档: {item['document'][:50]}...") print() ``` ### 4.3 错误处理与重试机制在实际生产环境中，网络请求可能会失败，我们需要添加重试机制： ```python import time from tenacity import retry, stop_after_attempt, wait_exponential class RobustRerankerClient(QwenRerankerClient): def __init__(self, base_url: str = "http://localhost:8000", max_retries: int = 3): super().__init__(base_url) self.max_retries = max_retries @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10)) def rerank_with_retry(self, query: str, documents: List[str]) -> Dict: """ 带重试机制的重排序 Args: query: 查询问题 documents: 待排序文档 Returns: 排序结果 """ return self.rerank_documents(query, documents) def safe_rerank(self, query: str, documents: List[str]) -> Dict: """ 安全的重排序，包含错误处理 Args: query: 查询问题 documents: 待排序文档 Returns: 排序结果或错误信息 """ try: return self.rerank_with_retry(query, documents) except Exception as e: return { "error": str(e), "query": query, "document_count": len(documents) } # 使用示例 if __name__ == "__main__": client = RobustRerankerClient() query = "机器学习基础概念" documents = [ "监督学习需要标注数据", "无监督学习发现数据中的模式", "强化学习通过奖励机制学习" ] result = client.safe_rerank(query, documents) if "error" in result: print(f"处理失败: {result['error']}") else: print("排序成功:") for i, item in enumerate(result['results']): print(f"{i+1}. 得分: {item['relevance_score']:.4f}") ``` ## 5. 实际应用场景与最佳实践 ### 5.1 搜索引擎结果优化 Qwen3-Reranker-4B最典型的应用场景就是优化搜索引擎的结果排序。传统的搜索引擎主要基于关键词匹配，而重排序模型可以理解语义相关性。 ```python def enhance_search_results(search_query: str, initial_results: List[str]): """ 增强搜索引擎结果 Args: search_query: 搜索查询 initial_results: 初始搜索结果 Returns: 优化后的排序结果 """ client = QwenRerankerClient() # 对初始结果进行重排序 reranked_results = client.rerank_documents(search_query, initial_results) # 提取排序后的文档 sorted_documents = [item['document'] for item in reranked_results['results']] return sorted_documents # 示例：电商搜索优化 search_query = "轻薄便携笔记本电脑" initial_results = [ "游戏笔记本电脑，重量2.5kg，高性能GPU", "超薄商务本，重量1.2kg，长续航", "学生用笔记本电脑，性价比高，重量1.8kg", "工作站笔记本，重量3.0kg，专业显卡" ] enhanced_results = enhance_search_results(search_query, initial_results) print("优化后的搜索结果:") for i, doc in enumerate(enhanced_results): print(f"{i+1}. {doc}") ``` ### 5.2 推荐系统个性化排序在推荐系统中，重排序模型可以帮助将最相关的内容推荐给用户： ```python def personalize_recommendations(user_query: str, user_history: List[str], candidate_items: List[str]) -> List[str]: """ 个性化推荐排序 Args: user_query: 用户当前查询 user_history: 用户历史行为 candidate_items: 候选推荐项 Returns: 个性化排序结果 """ client = QwenRerankerClient() # 结合用户历史和当前查询构建增强查询 enhanced_query = f"{user_query}. 用户偏好: {', '.join(user_history[-3:])}" # 对候选项目进行重排序 result = client.rerank_documents(enhanced_query, candidate_items) return [item['document'] for item in result['results']] # 示例：视频推荐系统 user_query = "学习Python编程" user_history = ["Python基础教程", "数据分析入门", "机器学习概念"] candidate_videos = [ "Python高级编程技巧", "Java从入门到精通", "Python数据分析实战", "Web开发基础", "Python机器学习项目" ] personalized_recommendations = personalize_recommendations( user_query, user_history, candidate_videos ) print("个性化推荐:") for i, video in enumerate(personalized_recommendations[:3]): print(f"{i+1}. {video}") ``` ### 5.3 性能优化建议在实际部署时，可以考虑以下优化策略： 1. **批量处理**：尽量一次性处理多个文档，减少API调用次数 2. **缓存机制**：对相同的查询和文档组合缓存结果 3. **异步处理**：使用异步请求提高并发性能 4. **连接池**：重用HTTP连接减少开销 ```python import aiohttp import asyncio class AsyncRerankerClient: def __init__(self, base_url: str = "http://localhost:8000"): self.base_url = base_url async def async_rerank(self, session: aiohttp.ClientSession, query: str, documents: List[str]) -> Dict: """ 异步重排序 Args: session: aiohttp会话 query: 查询问题 documents: 待排序文档 Returns: 排序结果 """ url = f"{self.base_url}/v1/rerank" payload = { "model": "Qwen/Qwen3-Reranker-4B", "query": query, "documents": documents, "return_documents": True } async with session.post(url, json=payload) as response: return await response.json() async def process_multiple_queries(self, queries_docs: List[tuple]) -> List[Dict]: """ 处理多个查询 Args: queries_docs: 元组列表，每个元组包含(query, documents) Returns: 所有查询的结果 """ async with aiohttp.ClientSession() as session: tasks = [] for query, documents in queries_docs: task = self.async_rerank(session, query, documents) tasks.append(task) return await asyncio.gather(*tasks) # 使用示例 async def main(): client = AsyncRerankerClient() # 多个查询任务 queries_docs = [ ("Python编程", ["文档1", "文档2", "文档3"]), ("机器学习", ["文档A", "文档B", "文档C"]), ("数据分析", ["文档X", "文档Y", "文档Z"]) ] results = await client.process_multiple_queries(queries_docs) for i, result in enumerate(results): print(f"查询 {i+1} 的结果:") for j, item in enumerate(result['results'][:2]): print(f" {j+1}. 得分: {item['relevance_score']:.4f}") print() # 运行异步示例 if __name__ == "__main__": asyncio.run(main()) ``` ## 6. 总结通过本文的完整示例，你应该已经掌握了如何使用Python requests库调用Qwen3-Reranker-4B的vLLM API。这个强大的重排序模型可以帮助你在各种场景下提升文本相关性的判断准确度。关键要点回顾： 1. **快速部署**：使用vLLM可以轻松部署和运行Qwen3-Reranker-4B模型 2. **简单调用**：通过REST API接口，用简单的HTTP请求就能获得专业的重排序结果 3. **灵活应用**：无论是搜索引擎优化、推荐系统还是内容排序，都能找到用武之地 4. **性能优化**：通过批量处理、异步请求等技术可以显著提升处理效率在实际项目中，你可以根据具体需求调整参数和处理逻辑。比如调整批量大小、添加缓存机制、结合其他模型结果等。Qwen3-Reranker-4B的多语言能力和长文本支持让它成为处理复杂排序任务的强大工具。记得在生产环境中添加完善的错误处理、日志记录和监控机制，确保服务的稳定性和可靠性。 --- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 MedGemma 1.5代码实例：Python调用本地API实现批量医学术语标准化处理

目录

Qwen3-Reranker-4B快速上手：Python requests调用vLLM API完整示例

Python内容推荐

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrie

Qwen3-Embedding-0.6B-Q8-0.gguf

Docker部署Qwen3-Reranker[项目代码]

Qwen3-Reranker-8B部署教程[代码]

Ubuntu部署Qwen3-Reranker-8B指南[项目源码]

Qwen3-ASR-0.6B语音识别指南[源码]

qwen3-coder-30b-a3b-instruct模型config文件适配MindIE

本地部署Qwen3-32B教程[代码]

Qwen3.5-4B-Claude-GGUF适配教程[代码]

Qwen2.5-VL 技术报告

昇腾MindIE部署Qwen2.5-VL-32B[代码]

Qwen3-TTS语音克隆部署指南[项目代码]

Qwen2.5-VL-7B-Instruct zip包4/7

qwen2.5-coder-7b-instruct-q4-k-m.7z.004

Qwen3-8B-Base-qwen3

Cline配置qwen3-coder-plus[可运行源码]

qwen2.5-7b vllm部署

Qwen3-VL-8B部署教程[可运行源码]

Qwen3-30B部署指南[源码]

Qwen3-14B-Q4-K-M.7z.007

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文