OpenClaw 本地模型最佳方案:模型推薦 + vLLM 部署優化
OpenClaw 如何切換到本地模型?如果希望在執行自動化任務時保持流暢、不出現卡頓,同時避免頻繁觸發上下文長度限制,那麼選擇一個合適的開源模型就非常關鍵。
對於 OpenClaw 來說,模型不僅需要具備良好的推理能力和語言理解能力,還需要擁有穩定的工具調用(Tool Calling)能力。在自動化任務中,模型需要頻繁調用各種工具完成操作,因此工具調用能力往往是選擇模型時最重要的指標之一。
本地部署模型初體驗
很多人在第一次嘗試本地部署模型時,會選擇 Ollama。優點是安裝簡單、配置方便,幾乎可以做到「直覺式」部署。但在 OpenClaw 自動化任務場景下,Ollama 的調用方式和推理速度並不理想,主要問題包括:
推理速度較慢
上下文長度(Context Length)容易耗盡
連續運行多個任務後,可能出現上下文不足的情況。因此,若追求更穩定、高效的本地部署,建議選擇專業的推理框架:
遠端集群 / 多 Agent 場景:推薦 SGLang
單卡本地部署:強烈推薦 vLLM
vLLM 是目前單機部署 OpenClaw 的最佳解決方案之一。
前期準備
建議安裝 Windows Terminal,以便快速切換 PowerShell、WSL 等 Shell 環境。

一、安裝 WSL2
wsl --install
wsl --install -d Ubuntu檢查版本:
wsl --version確保輸出顯示為:WSL2
二、WSL 安裝 CUDA 驅動支援
先確認 Windows 端已安裝 NVIDIA 驅動:
nvidia-smi然後在 WSL Ubuntu 中運行:
nvidia-smi若出現顯示卡資訊(例如 RTX 4090)說明 GPU 直通(Passthrough)成功。

三、安裝 Python 環境
sudo apt update
sudo apt upgrade -y
sudo apt install python3-pip python3-venv -y
cd ~
python3 -m venv vllm-env
source vllm-env/bin/activate完成後,系統將進入虛擬環境 - vllm-env,如下圖 :

四、安裝 vLLM
承上,在虛擬環境中
pip install --upgrade pip
pip install vllm
pip install transformers accelerate
python -c "import vllm; print('vLLM installed')"五、下載模型
# 建立資料夾
mkdir -p ~/models/Qwen2.5-7B-Instruct-AWQ
# 下載
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-AWQ \
--local-dir ~/models/Qwen2.5-7B-Instruct-AWQ \
--local-dir-use-symlinks False# 啟動 vLLM
python -m vllm.entrypoints.openai.api_server \
--model ~/models/Qwen2.5-7B-Instruct-AWQ \
--served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
--quantization awq_marlin \
--gpu-memory-utilization 0.9 \
--max-model-len 32768 \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--port 8000※這段程式碼主要是啟動服務器用的,會自動檢查有沒有模型,未來如果要再次啟動服務器,可直接再次執行上面這段程式碼。
切記! 如果整個關掉重開,記得要再次進入虛擬環境。
# 進入虛擬環境
source vllm-env/bin/activate確認已在虛擬環境後,啟動服務器
# 啟動 vLLM
python -m vllm.entrypoints.openai.api_server \
--model ~/models/Qwen2.5-7B-Instruct-AWQ \
--served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
--quantization awq_marlin \
--gpu-memory-utilization 0.9 \
--max-model-len 32768 \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--port 8000最佳推薦模型:Qwen2.5-14B-Instruct-AWQ,優點:
中文能力極強
Agent 調用能力出色
支援全面的工具調用
由於經費不足,本次教學使用的是 4090 - 16G,故僅安裝 Qwen2.5-7B-Instruct-AWQ
顯示記憶體提示:本教學使用 16GB VRAM 顯示卡,若顯示記憶體較小,可選擇 Qwen2.5-4B。
完成後如下 :

六、測試模型
回到PowerShall分頁,執行以下指令 :
curl http://127.0.0.1:8000/v1/models返回範例若包含 Qwen2.5-7B-Instruct-AWQ,說明連接正常、服務器正常啟動。

七、安裝 OpenClaw
新開一個 Ubuntu分頁,執行 :
# 安裝 openclaw
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash
sudo apt install -y nodejs
sudo npm install -g openclaw@latest
八、OpenClaw 配置本地模型
openclaw onboard選擇 Yes => 選擇 Quick Start
選擇
● Custom Provider (Any OpenAI or Anthropic compatible endpoint)
Endpoint compatibility 這步要選:
● OpenAI-compatible (Uses /chat/completions)
添加模型資訊:
Base URL:
http://127.0.0.1:8000/v1API key:123456(隨意填寫)
模型名稱:
Qwen/Qwen2.5-7B-Instruct-AWQ
後續直接按Enter,直到進入下方畫面 :
選擇 Telegram
前往 Telegran ,搜尋 @botfather ,創建聊天機器人

回到Openclaw,輸入聊天機器人對接號 :





上面這些圖照著按即可,抱歉我懶得打說明 ˊ_>ˋ
在來,前往上圖的 DashBoard link 即可看到心心念念的小龍蝦(注意,小龍蝦 web-ui 需要 token 後綴,所以要用 Dashboard Ready 裡面提到的連結)
第一次用 Telegram 訪問小龍蝦,會出現以下提示 :
執行 :
openclaw pairing approve telegram {你的 pairing code}即可正常透過 Telegram 與小龍蝦互動
上技能!!!
npx clawhub@latest install find-skills
執行完之後去 Telegram 發:
/skills或者:
what skills do you have?九、OpenClaw 推薦參數
Context length:6000–8000
Temperature:0.7
Max tokens:2048
十、優化推理速度
python -m vllm.entrypoints.openai.api_server \
--model ~/models/Qwen2.5-7B-Instruct-AWQ \
--served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
--quantization awq_marlin \
--gpu-memory-utilization 0.9 \
--max-model-len 16384 \
--enable-auto-tool-choice \
--enable-prefix-caching \
--tool-call-parser hermes \
--port 8000效果:利用 Prefix Caching 加速 Prompt 處理,使 GPU 利用率更高。
注意:安裝 Docker 沙箱(必要步驟)
OpenClaw 對小模型(例如 Qwen2.5-7B)會強制要求 Docker 沙箱保護,若未安裝將跳出 CRITICAL 警告並導致 Agent 無法執行指令。
# 安裝 Docker
sudo apt install -y docker.io
# 啟動 Docker 服務
sudo service docker start
# 加入 docker 群組(只需執行一次)
sudo usermod -aG docker $USER
# 修復 socket 權限
sudo chmod 666 /var/run/docker.sock⚠️
chmod 666在 WSL2 重啟後會失效,建議加入~/.bashrc讓它每次自動執行:
echo 'sudo chmod 666 /var/run/docker.sock 2>/dev/null' >> ~/.bashrc完成後再執行 Openclaw 設置 :
openclaw config set agents.defaults.sandbox.mode all
openclaw restart
openclaw security audit確認變成 0 critical 🦞
十一、解決長對話卡頓
在 OpenClaw System Prompt 中添加以下規則:
When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.這可將 8000 tokens 的內容縮減至 200 tokens 的記憶,確保速度不下降。
十二、最終性能參考(RTX 4090)
指標數值Token 生成速度90–130 token/s首 Token 延遲 (TTFT)0.4 – 0.8 秒最大上下文32K tokens(建議實際設定 8K–16K)顯示記憶體佔用10–12GB
使用本地模型運行 OpenClaw 完全夠用。
結語,如果真的要用本地模型,還是建議使用 千問14B 模型,經實測,大多數的情況下 7B 其實不知道怎麼呼叫本地命令,他會留著等讓你自己呼叫,感覺不堪用... 。 ---- LC



