為什麼選擇 vLLM 而不是 Ollama？

vLLM 在單機部署 OpenClaw 時推理速度更快，上下文處理能力更強，並且工具調用能力更穩定，適合需要高頻交互的自動化任務場景。

顯示記憶體不足怎麼辦？

如果顯示記憶體較小，可以選擇 Qwen2.5-7B-Instruct-AWQ 或 Qwen2.5-4B 等量化版本模型，以避免載入失敗。

OpenClaw 本地模型部署與 vLLM 最佳實踐指南

OpenClaw 本地模型最佳方案：模型推薦 + vLLM 部署優化

OpenClaw 如何切換到本地模型？如果希望在執行自動化任務時保持流暢、不出現卡頓，同時避免頻繁觸發上下文長度限制，那麼選擇一個合適的開源模型就非常關鍵。

對於 OpenClaw 來說，模型不僅需要具備良好的推理能力和語言理解能力，還需要擁有穩定的工具調用（Tool Calling）能力。在自動化任務中，模型需要頻繁調用各種工具完成操作，因此工具調用能力往往是選擇模型時最重要的指標之一。

本地部署模型初體驗

很多人在第一次嘗試本地部署模型時，會選擇 Ollama。優點是安裝簡單、配置方便，幾乎可以做到「直覺式」部署。但在 OpenClaw 自動化任務場景下，Ollama 的調用方式和推理速度並不理想，主要問題包括：

推理速度較慢
上下文長度（Context Length）容易耗盡

連續運行多個任務後，可能出現上下文不足的情況。因此，若追求更穩定、高效的本地部署，建議選擇專業的推理框架：

遠端集群 / 多 Agent 場景：推薦 SGLang
單卡本地部署：強烈推薦 vLLM

vLLM 是目前單機部署 OpenClaw 的最佳解決方案之一。

前期準備

建議安裝 Windows Terminal，以便快速切換 PowerShell、WSL 等 Shell 環境。

微軟商城

一、安裝 WSL2

wsl --install
wsl --install -d Ubuntu

檢查版本：

wsl --version

確保輸出顯示為：WSL2

二、WSL 安裝 CUDA 驅動支援

先確認 Windows 端已安裝 NVIDIA 驅動：

nvidia-smi

然後在 WSL Ubuntu 中運行：

nvidia-smi

若出現顯示卡資訊（例如 RTX 4090）說明 GPU 直通（Passthrough）成功。

三、安裝 Python 環境

sudo apt update
sudo apt upgrade -y
sudo apt install python3-pip python3-venv -y
cd ~
python3 -m venv vllm-env
source vllm-env/bin/activate

完成後，系統將進入虛擬環境 - vllm-env，如下圖 :

四、安裝 vLLM

承上，在虛擬環境中

pip install --upgrade pip
pip install vllm
pip install transformers accelerate
python -c "import vllm; print('vLLM installed')"

五、下載模型

# 建立資料夾
mkdir -p ~/models/Qwen2.5-7B-Instruct-AWQ

# 下載
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-AWQ \
    --local-dir ~/models/Qwen2.5-7B-Instruct-AWQ \
    --local-dir-use-symlinks False

# 啟動 vLLM
python -m vllm.entrypoints.openai.api_server \
    --model ~/models/Qwen2.5-7B-Instruct-AWQ \
    --served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
    --quantization awq_marlin \
    --gpu-memory-utilization 0.9 \
    --max-model-len 32768 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8000

※這段程式碼主要是啟動服務器用的，會自動檢查有沒有模型，未來如果要再次啟動服務器，可直接再次執行上面這段程式碼。

切記! 如果整個關掉重開，記得要再次進入虛擬環境。

# 進入虛擬環境
source vllm-env/bin/activate

確認已在虛擬環境後，啟動服務器

# 啟動 vLLM
python -m vllm.entrypoints.openai.api_server \
    --model ~/models/Qwen2.5-7B-Instruct-AWQ \
    --served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
    --quantization awq_marlin \
    --gpu-memory-utilization 0.9 \
    --max-model-len 32768 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8000

最佳推薦模型：Qwen2.5-14B-Instruct-AWQ，優點：

中文能力極強
Agent 調用能力出色
支援全面的工具調用
由於經費不足，本次教學使用的是 4090 - 16G，故僅安裝 Qwen2.5-7B-Instruct-AWQ

顯示記憶體提示：本教學使用 16GB VRAM 顯示卡，若顯示記憶體較小，可選擇 Qwen2.5-4B。

完成後如下 :

六、測試模型

回到PowerShall分頁，執行以下指令 :

curl http://127.0.0.1:8000/v1/models

返回範例若包含 Qwen2.5-7B-Instruct-AWQ，說明連接正常、服務器正常啟動。

七、安裝 OpenClaw

新開一個 Ubuntu分頁，執行 :

# 安裝 openclaw
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash
sudo apt install -y nodejs
sudo npm install -g openclaw@latest

八、OpenClaw 配置本地模型

openclaw onboard

選擇 Yes => 選擇 Quick Start

選擇

● Custom Provider (Any OpenAI or Anthropic compatible endpoint)

Endpoint compatibility 這步要選：

● OpenAI-compatible (Uses /chat/completions)

添加模型資訊：

Base URL：

http://127.0.0.1:8000/v1

API key：123456（隨意填寫）
模型名稱：

Qwen/Qwen2.5-7B-Instruct-AWQ

後續直接按Enter，直到進入下方畫面 :

選擇 Telegram

前往 Telegran ，搜尋 @botfather ，創建聊天機器人

回到Openclaw，輸入聊天機器人對接號 :

上面這些圖照著按即可，抱歉我懶得打說明 ˊ_>ˋ

在來，前往上圖的 DashBoard link 即可看到心心念念的小龍蝦(注意，小龍蝦 web-ui 需要 token 後綴，所以要用 Dashboard Ready 裡面提到的連結)

第一次用 Telegram 訪問小龍蝦，會出現以下提示 :

執行 :

openclaw pairing approve telegram {你的 pairing code}

即可正常透過 Telegram 與小龍蝦互動

上技能!!!

npx clawhub@latest install find-skills

執行完之後去 Telegram 發：

 /skills

或者：

what skills do you have?

九、OpenClaw 推薦參數

Context length：6000–8000
Temperature：0.7
Max tokens：2048

十、優化推理速度

python -m vllm.entrypoints.openai.api_server \
    --model ~/models/Qwen2.5-7B-Instruct-AWQ \
    --served-model-name Qwen/Qwen2.5-7B-Instruct-AWQ \
    --quantization awq_marlin \
    --gpu-memory-utilization 0.9 \
    --max-model-len 16384 \
    --enable-auto-tool-choice \
    --enable-prefix-caching \
    --tool-call-parser hermes \
    --port 8000

效果：利用 Prefix Caching 加速 Prompt 處理，使 GPU 利用率更高。

注意：安裝 Docker 沙箱（必要步驟）

OpenClaw 對小模型（例如 Qwen2.5-7B）會強制要求 Docker 沙箱保護，若未安裝將跳出 CRITICAL 警告並導致 Agent 無法執行指令。

# 安裝 Docker
sudo apt install -y docker.io

# 啟動 Docker 服務
sudo service docker start

# 加入 docker 群組（只需執行一次）
sudo usermod -aG docker $USER

# 修復 socket 權限
sudo chmod 666 /var/run/docker.sock

⚠️ chmod 666 在 WSL2 重啟後會失效，建議加入 ~/.bashrc 讓它每次自動執行：

echo 'sudo chmod 666 /var/run/docker.sock 2>/dev/null' >> ~/.bashrc

完成後再執行 Openclaw 設置 :

openclaw config set agents.defaults.sandbox.mode all

openclaw restart

openclaw security audit

確認變成 0 critical 🦞

十一、解決長對話卡頓

在 OpenClaw System Prompt 中添加以下規則：

When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.

這可將 8000 tokens 的內容縮減至 200 tokens 的記憶，確保速度不下降。

十二、最終性能參考（RTX 4090）

指標數值Token 生成速度90–130 token/s首 Token 延遲 (TTFT)0.4 – 0.8 秒最大上下文32K tokens（建議實際設定 8K–16K）顯示記憶體佔用10–12GB

使用本地模型運行 OpenClaw 完全夠用。

結語，如果真的要用本地模型，還是建議使用千問14B 模型，經實測，大多數的情況下 7B 其實不知道怎麼呼叫本地命令，他會留著等讓你自己呼叫，感覺不堪用... 。 ---- LC