INTERACTIVE
OpenClaw 本地模型部署與 vLLM 最佳實踐指南
AI 工具教學2026年3月18日

OpenClaw 本地模型部署與 vLLM 最佳實踐指南

Interact Vision 技術團隊

·

AI 系統工程師

2026/03/18

OpenClaw 本地模型最佳方案:模型推薦 + vLLM 部署優化

OpenClaw 如何切換到本地模型?如果希望在執行自動化任務時保持流暢、不出現卡頓,同時避免頻繁觸發上下文長度限制,那麼選擇一個合適的開源模型就非常關鍵。

對於 OpenClaw 來說,模型不僅需要具備良好的推理能力和語言理解能力,還需要擁有穩定的工具調用(Tool Calling)能力。在自動化任務中,模型需要頻繁調用各種工具完成操作,因此工具調用能力往往是選擇模型時最重要的指標之一。

本地部署模型初體驗

很多人在第一次嘗試本地部署模型時,會選擇 Ollama。優點是安裝簡單、配置方便,幾乎可以做到「直覺式」部署。但在 OpenClaw 自動化任務場景下,Ollama 的調用方式和推理速度並不理想,主要問題包括:

  • 推理速度較慢

  • 上下文長度(Context Length)容易耗盡

連續運行多個任務後,可能出現上下文不足的情況。因此,若追求更穩定、高效的本地部署,建議選擇專業的推理框架:

  • 遠端集群 / 多 Agent 場景:推薦 SGLang

  • 單卡本地部署:強烈推薦 vLLM

vLLM 是目前單機部署 OpenClaw 的最佳解決方案之一。

前期準備

建議安裝 Windows Terminal,以便快速切換 PowerShell、WSL 等 Shell 環境。

微軟商城

一、安裝 WSL2

wsl --install
wsl --install -d Ubuntu

檢查版本:

wsl --version

確保輸出顯示為:WSL2

二、WSL 安裝 CUDA 驅動支援

先確認 Windows 端已安裝 NVIDIA 驅動:

nvidia-smi

然後在 WSL Ubuntu 中運行:

nvidia-smi

若出現顯示卡資訊(例如 RTX 4090)說明 GPU 直通(Passthrough)成功。

三、安裝 Python 環境

sudo apt update
sudo apt upgrade -y
sudo apt install python3-pip python3-venv -y
cd ~
python3 -m venv vllm-env
source vllm-env/bin/activate

完成後,系統將進入虛擬環境 - vllm-env,如下圖 :

四、安裝 vLLM

  • 承上,在虛擬環境中

pip install --upgrade pip
pip install vllm
pip install transformers accelerate
python -c "import vllm; print('vLLM installed')"

五、下載模型

# 建立資料夾
mkdir -p ~/models/Qwen2.5-7B-Instruct-AWQ

# 下載
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-AWQ \
    --local-dir ~/models/Qwen2.5-7B-Instruct-AWQ \
    --local-dir-use-symlinks False

# 啟動 vLLM
python -m vllm.entrypoints.openai.api_server \
    --model ~/models/Qwen2.5-7B-Instruct-AWQ \
    --served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
    --quantization awq_marlin \
    --gpu-memory-utilization 0.9 \
    --max-model-len 32768 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8000

※這段程式碼主要是啟動服務器用的,會自動檢查有沒有模型,未來如果要再次啟動服務器,可直接再次執行上面這段程式碼。

切記! 如果整個關掉重開,記得要再次進入虛擬環境。

# 進入虛擬環境
source vllm-env/bin/activate

確認已在虛擬環境後,啟動服務器

# 啟動 vLLM
python -m vllm.entrypoints.openai.api_server \
    --model ~/models/Qwen2.5-7B-Instruct-AWQ \
    --served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
    --quantization awq_marlin \
    --gpu-memory-utilization 0.9 \
    --max-model-len 32768 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8000

最佳推薦模型:Qwen2.5-14B-Instruct-AWQ,優點:

  • 中文能力極強

  • Agent 調用能力出色

  • 支援全面的工具調用

  • 由於經費不足,本次教學使用的是 4090 - 16G,故僅安裝 Qwen2.5-7B-Instruct-AWQ

顯示記憶體提示:本教學使用 16GB VRAM 顯示卡,若顯示記憶體較小,可選擇 Qwen2.5-4B。

完成後如下 :

六、測試模型

回到PowerShall分頁,執行以下指令 :

curl http://127.0.0.1:8000/v1/models

返回範例若包含 Qwen2.5-7B-Instruct-AWQ,說明連接正常、服務器正常啟動。

七、安裝 OpenClaw

新開一個 Ubuntu分頁,執行 :

# 安裝 openclaw
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash
sudo apt install -y nodejs
sudo npm install -g openclaw@latest

八、OpenClaw 配置本地模型

openclaw onboard

選擇 Yes => 選擇 Quick Start

選擇

● Custom Provider (Any OpenAI or Anthropic compatible endpoint)

Endpoint compatibility 這步要選:

● OpenAI-compatible (Uses /chat/completions)

添加模型資訊:

  • Base URL

http://127.0.0.1:8000/v1
  • API key:123456(隨意填寫)

  • 模型名稱

Qwen/Qwen2.5-7B-Instruct-AWQ

後續直接按Enter,直到進入下方畫面 :

選擇 Telegram

前往 Telegran ,搜尋 @botfather ,創建聊天機器人

回到Openclaw,輸入聊天機器人對接號 :

上面這些圖照著按即可,抱歉我懶得打說明 ˊ_>ˋ

在來,前往上圖的 DashBoard link 即可看到心心念念的小龍蝦(注意,小龍蝦 web-ui 需要 token 後綴,所以要用 Dashboard Ready 裡面提到的連結)

第一次用 Telegram 訪問小龍蝦,會出現以下提示 :

執行 :

openclaw pairing approve telegram {你的 pairing code}

即可正常透過 Telegram 與小龍蝦互動

上技能!!!

npx clawhub@latest install find-skills 

執行完之後去 Telegram 發:

 /skills

或者:

what skills do you have?

九、OpenClaw 推薦參數

  • Context length:6000–8000

  • Temperature:0.7

  • Max tokens:2048

十、優化推理速度

python -m vllm.entrypoints.openai.api_server \
    --model ~/models/Qwen2.5-7B-Instruct-AWQ \
    --served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
    --quantization awq_marlin \
    --gpu-memory-utilization 0.9 \
    --max-model-len 16384 \
    --enable-auto-tool-choice \
    --enable-prefix-caching \
    --tool-call-parser hermes \
    --port 8000

效果:利用 Prefix Caching 加速 Prompt 處理,使 GPU 利用率更高。

注意:安裝 Docker 沙箱(必要步驟)

OpenClaw 對小模型(例如 Qwen2.5-7B)會強制要求 Docker 沙箱保護,若未安裝將跳出 CRITICAL 警告並導致 Agent 無法執行指令。

# 安裝 Docker
sudo apt install -y docker.io

# 啟動 Docker 服務
sudo service docker start

# 加入 docker 群組(只需執行一次)
sudo usermod -aG docker $USER

# 修復 socket 權限
sudo chmod 666 /var/run/docker.sock

⚠️ chmod 666 在 WSL2 重啟後會失效,建議加入 ~/.bashrc 讓它每次自動執行:

echo 'sudo chmod 666 /var/run/docker.sock 2>/dev/null' >> ~/.bashrc

完成後再執行 Openclaw 設置 :

openclaw config set agents.defaults.sandbox.mode all

openclaw restart

openclaw security audit

確認變成 0 critical 🦞

十一、解決長對話卡頓

在 OpenClaw System Prompt 中添加以下規則:

When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.

這可將 8000 tokens 的內容縮減至 200 tokens 的記憶,確保速度不下降。

十二、最終性能參考(RTX 4090)

指標數值Token 生成速度90–130 token/s首 Token 延遲 (TTFT)0.4 – 0.8 秒最大上下文32K tokens(建議實際設定 8K–16K)顯示記憶體佔用10–12GB

使用本地模型運行 OpenClaw 完全夠用。

結語,如果真的要用本地模型,還是建議使用 千問14B 模型,經實測,大多數的情況下 7B 其實不知道怎麼呼叫本地命令,他會留著等讓你自己呼叫,感覺不堪用... 。 ---- LC

FAQ

常見問題

為什麼選擇 vLLM 而不是 Ollama?+
vLLM 在單機部署 OpenClaw 時推理速度更快,上下文處理能力更強,並且工具調用能力更穩定,適合需要高頻交互的自動化任務場景。
顯示記憶體不足怎麼辦?+
如果顯示記憶體較小,可以選擇 Qwen2.5-7B-Instruct-AWQ 或 Qwen2.5-4B 等量化版本模型,以避免載入失敗。

Next Step

如果這篇內容剛好對到你現在的問題,下一步就不要只停在閱讀。

你可以直接把目前的流程、卡點或想導入的方向告訴我們;如果你還在評估,也可以先去看〈 英特 Ai 〉或其他正式解決方案,確認哪一條路最適合現在的公司狀況。

Line
1