NVIDIA Free Endpoint 只有聊天模型嗎？

不是。除了聊天與推理模型，還有 embedding、code embedding、rerank、安全審核、語音互動等模型，已經足以拼出一條完整的 AI 應用鏈。

如果只能先試三個模型，該從哪三個開始？

通用主力可先試 MiniMax M2.7 或 DeepSeek-V3.2；若偏 coding 與 agent，優先看 GLM-4.7、Qwen3-Coder 與 Kimi K2 Thinking；若做多模態產品，可補上 Llama 4 Maverick 或 Mistral Small 3.1。

RAG 系統最常被忽略的免費模型是哪一類？

通常不是聊天模型，而是 embedding 與 rerank 模型，例如 NV-Embed-v1、NV-EmbedCode、Llama 3.2 NeMo Retriever 與 rerank-qa-mistral-4b。很多 RAG 品質問題，其實不是 LLM 太弱，而是檢索鏈沒有做好。

NVIDIA Free Endpoint 模型全解析：功能、用途、適用情境與評價

先講清楚本文範圍：不是把 96 個免費端點逐條貼上，而是把真正能組成 AI 應用節點的模型整理出來

截至 2026 年 4 月 22 日，NVIDIA Models Catalog 顯示平台上有 96 個 Free Endpoint。但這 96 個裡面混合了文字模型、嵌入模型、重排序模型、安全模型、語音模型、視覺模型、世界模型、量子模型與其他專用能力。如果你把它們一股腦全塞進同一篇文章，只會得到一份雜亂清單，對選型沒有幫助。

所以這篇文章採取更實用的切法：聚焦在目前最能構成一條完整 AI 應用鏈的免費端點，也就是 生成模型、coding 或 agent 模型、多模態模型、檢索模型、安全模型與語音互動模型。如果你正在做聊天機器人、企業知識庫、研究助理、程式助理、RAG、agent workflow、語音助手，這份整理才真的有決策價值。

我怎麼分這些免費模型

1. 通用主力 LLM

代表模型： MiniMax M2.7、DeepSeek-V3.2、Mistral-Nemotron
一句話定位： 能扛大多數日常生成、推理與 agent 任務
我的總評： 先選其中一支當主力，再看場景補強

2. Agent / Coding 特化

代表模型： GLM-4.7、Qwen3-Coder-480B-A35B-Instruct、Kimi K2 Thinking
一句話定位： 更適合工具調用、長鏈推理、程式與工作流
我的總評： 開發者最值得花時間比較的一組

3. 多模態主力

代表模型： Llama 4 Maverick、Mistral Small 3.1 24B
一句話定位： 文字加圖片理解、跨語系與長上下文
我的總評： 產品型應用很值得關注

4. 小模型與低資源

代表模型： Nemotron-Mini-4B Instruct
一句話定位： 輕量、快、適合邊緣或低成本場景
我的總評： 不是最聰明，但最容易部署

5. 檢索基礎設施

代表模型： NV-Embed-v1、NV-EmbedCode、Llama 3.2 NeMo Retriever、rerank-qa-mistral-4b
一句話定位： 真正決定 RAG 品質的底層能力
我的總評： 很多團隊低估了它們的重要性

6. 安全與治理

代表模型： Llama 3.1 Nemotron Safety Guard 8B v3、Nemotron Content Safety Reasoning 4B、Nemotron 3 Content Safety
一句話定位： 不是用來生成，而是用來攔截與判斷
我的總評： 正式產品一定要看，不是可有可無

7. 語音互動

代表模型： Nemotron 3 VoiceChat
一句話定位： 端到端語音對話，不再硬拆 ASR→LLM→TTS
我的總評： 很前沿，但更適合實驗與早期評估

第一組：最像主力引擎的免費模型

1. MiniMax M2.7

功能： 230B 參數、10B active 的稀疏 MoE 模型，204,800 token context，定位非常明確：coding、reasoning、office、agent harness。

用途： 適合做工程助理、內部知識工作流、文件生成、系統設計、SRE 輔助與多步工具任務。

適用情境： 如果你的產品是「能幫團隊做事」而不是「只會聊天」，MiniMax M2.7 很值得先試。它的 model card 強調 dynamic tool search、Agent Teams、production debugging workflow，這些都不是一般聊天模型會主打的方向。

評價： 我會把它歸類成 高實務感的 agent 主力模型。它不像某些模型只靠 benchmark 包裝，而是明顯往真實工作流靠攏。缺點是它對新手來說不一定最好駕馭，因為你如果沒有工作流和工具層，它的優勢發揮不完全。

2. DeepSeek-V3.2

功能： 685B reasoning LLM，主打 sparse attention、long context 與 integrated agentic tools。NVIDIA 模型頁甚至直接寫出它在 2025 年 IMO、IOI 等高強度推理場景的表現敘事。

用途： 高強度推理、數學、競賽型問題、深度分析、長文件處理、重型 agent 任務。

適用情境： 適合研究助理、技術分析、跨文件整合、難題拆解，尤其當你不是只要流暢聊天，而是要它真的處理高密度認知任務時。

評價： 這是一支很像 免費端點裡的重型推理火力。如果你的任務需要 hard reasoning，它的存在感很強。缺點則是它不像小模型那樣輕巧，在產品設計上要更小心 latency、成本與輸出可控性。

3. Mistral-Nemotron

功能： 128K context，強調 coding、instruction following、function calling 與 agentic workflows。它是 Mistral 與 NVIDIA 結合後非常典型的一支實務模型。

用途： 一般聊天、文件整理、函式調用、工具型助理、企業問答。

適用情境： 如果你想找一個不那麼重、但很適合企業應用與代理工作流的主力模型，Mistral-Nemotron 很值得放進 shortlist。

評價： 它不是話題最熱的那支，但很像 企業隊伍裡好用的老兵。它的 model card 甚至列出 HumanEval Instruct 0-shot pass@1 92.68，這個數字本身就很能說明它不是花瓶。

第二組：真正該被開發者重點比較的 Agent / Coding 模型

4. GLM-4.7

功能： 358B 參數、131,072 token context，主打 multilingual agentic coding、tool use、terminal tasks、UI generation。它強調 Interleaved Thinking、Preserved Thinking、Turn-level Thinking，等於不是只追求答案，而是追求任務執行穩定度。

用途： 程式助理、終端自動化、代理流程、前端 UI 草圖生成、工具驅動工作流。

適用情境： 如果你要做的是 developer assistant、內部 AI 操作員、可以調工具的 agent，GLM-4.7 很有辨識度。它的定位比一般通用聊天模型更偏向「做事」。

評價： 我對 GLM-4.7 的評價是 工程感很強、代理味很濃。如果你只拿它來做純聊天，可能感受不到它的優勢；但如果你把它放進 terminal、tool use、UI workflow 裡，它就很對味。

5. Qwen3-Coder-480B-A35B-Instruct

功能： 480B total、35B active，262,144 token native context，可延展到 1M with YaRN，專攻 agentic coding、browser use、function calling。NVIDIA 直接在模型頁寫它在 agentic coding 與 browser-use 上達到開源模型頂級水準。

用途： 程式生成、程式審查、repo 理解、開發工具串接、自動化瀏覽器流程、文件生成。

適用情境： 如果你做的是 coding copilot、code review agent、repo QA 或 browser-use agent，Qwen3-Coder 幾乎是必測模型。

評價： 這支模型的評價可以很直接：如果任務核心是寫程式，它通常會是第一梯隊。缺點也很清楚，它不像通用聊天模型那麼均衡，而是明顯為 coding 場景做了偏置。

6. Kimi K2 Thinking

功能： 1T total、32B active、256K context、原生 INT4、強化 tool use，模型頁寫到它可穩定支撐 200 到 300 次連續工具調用，這對 agent 場景很有代表性。

用途： 長鏈推理、研究型代理、工具密集工作流、多步規劃、深度任務拆解。

適用情境： 當你的任務不是一句 prompt 就結束，而是要它規劃、查詢、再規劃、再調工具，Kimi 這種 thinking-oriented 模型會更合適。

評價： 我會把它視為 免費端點裡最像研究型代理大腦的模型之一。如果你的產品是偏 analyst、planner、research assistant，它非常值得試；如果只是短對話，它未必比輕量模型划算。

第三組：多模態與產品型體驗模型

7. Llama 4 Maverick

功能： 多模態、多語系、17B 參數、128 experts 的 MoE 模型，能同時處理文字與圖片理解。

用途： 視覺問答、商品圖理解、文件影像理解、跨語系助理、帶圖片輸入的聊天應用。

適用情境： 如果你要做的是產品化前端，而不是單純 API 腦力賽，Llama 4 Maverick 這種多模態模型的價值會很高。因為真實使用者往往不是只貼文字，也會丟圖片、截圖、圖表、表單。

評價： 它最大的價值不在於成為最強 reasoning 王者，而在於 讓你的產品更像一個完整助手，而不是文字介面。

8. Mistral Small 3.1 24B Instruct

功能： 多模態、128K context、24B 參數、原生 function calling、JSON output、強 system prompt adherence。模型頁也列出不少 benchmark，例如 HumanEval 88.41、MMLU 80.62、MATH 69.30。

用途： 視覺理解、長文摘要、結構化輸出、快速多語助手、企業前台應用。

適用情境： 當你想找一個不那麼誇張巨大、但產品能力完整的模型，Mistral Small 3.1 很平衡。

評價： 我會把它歸類為 產品團隊很該測的一支均衡型模型。它不是話題流量最大，但作為前台助手很順手。

第四組：小模型與低資源場景

9. Nemotron-Mini-4B Instruct

功能： 針對 on-device 與低資源場景優化的 SLM，官方描述 VRAM 可壓到大約 2GB，並且特別提到 roleplay、RAG、function calling。

用途： 本地助理、低延遲應用、邊緣裝置、Windows 本地推理、遊戲 NPC、輕量 RAG。

適用情境： 如果你要的是「便宜、快、可部署」，而不是「全場最聰明」，這類模型非常有意義。

評價： 它不是拿來跟 DeepSeek 或 Qwen3-Coder 正面對決的，而是拿來解決 部署成本與回應速度 的問題。很多產品真正需要的不是更大，而是更穩、更省。

第五組：RAG 與知識庫真正的底層主角

10. NV-Embed-v1

功能： 通用型 embedding 模型，官方強調它在 56 個任務上表現優秀，並在 15 個 retrieval tasks benchmark 中拿到 59.36 分。

用途： 向量檢索、分類、聚類、相似度搜尋、語意搜尋、RAG 基礎索引。

適用情境： 幾乎所有知識庫、搜尋、RAG 產品都能用到。這不是「可有可無的配角」，而是整條檢索鏈的地基。

評價： 很多團隊會花太多時間選聊天模型，卻低估 embedding 模型的重要性。這是典型的 不夠性感，但非常關鍵 的模型。

11. NV-EmbedCode-7B-v1

功能： 專為 code retrieval 最佳化的 embedding 模型，支援 text、code、hybrid queries。

用途： repo 搜尋、程式註解搜尋、文件對 code 對齊、developer assistant 的知識底座。

適用情境： 只要你要做 codebase search、內部開發文件搜尋、Copilot 類產品，這類模型比通用 embedding 更值得優先考慮。

評價： 如果你的資料主體是程式碼，這支的價值往往比通用 embedding 更高。

12. Llama 3.2 NeMo Retriever Embedding 300M

功能： 支援 26 種語言、長文件 QA retrieval、跨語與多語檢索。

用途： 多語知識庫、跨語問答、國際化搜尋、長文件檢索。

適用情境： 如果你的知識庫不是只有英文，這支比很多單語 embedding 更實用。

評價： 它的最大優勢不是最強絕對分數，而是 多語與長文件兼顧。

13. rerank-qa-mistral-4b

功能： 專門給 query 與候選段落做交叉排序的 reranker。NVIDIA 文件也明說，它是檢索系統中用來把初步候選重新排序的關鍵模組。

用途： 提高 RAG 最終命中率、減少錯抓段落、提升回答依據品質。

適用情境： 如果你的 RAG 常常「有找到，但排錯」，reranker 比你換一顆更大 LLM 還有效。

評價： 它是 RAG 品質提升裡 最常被忽略、但回報率極高 的元件之一。

第六組：安全與治理，不生成內容，但決定你能不能上線

14. Llama 3.1 Nemotron Safety Guard 8B v3

功能： 多語內容安全模型，支援 23 個 safety categories、9 種語言，可判斷 prompt 與 response 是否安全。

用途： 聊天審核、企業安全閥、紅隊防護、輸入與輸出雙向審查。

適用情境： 只要你的產品會對外，就該考慮這類模型。

評價： 它不是讓你產品更聰明，而是讓你產品 不那麼容易出事。

15. Nemotron Content Safety Reasoning 4B

功能： 強調 context-aware safety 與 custom policy adaptation，也就是你可以帶自己的安全政策進去，讓模型照你的規範做推理與判斷。

用途： 企業自訂合規、安全政策執行、垂直領域審核。

適用情境： 金融、醫療、教育、品牌敏感場景特別有價值。

評價： 這支模型的亮點在於 它不是只有通用安全分類，而是能朝自訂規則收斂。

16. Nemotron 3 Content Safety

功能： 多語、多模態內容安全模型，甚至可搭配圖片。

用途： 帶圖片的客服、上傳內容平台、UGC 審核。

適用情境： 當你的應用不是只有文字，而是使用者會傳圖片時，這支比純文字安全模型更完整。

評價： 這是產品升級成真正多模態時，安全層也要跟著升級的典型例子。

第七組：語音互動模型

17. Nemotron 3 VoiceChat

功能： 12B、端到端、全雙工 speech-to-speech，不是傳統 ASR → LLM → TTS 三段式，而是整合成一個模型。

用途： 即時語音助手、電話助理、語音對談 agent、低延遲聲音互動。

適用情境： 如果你做的是 voice AI，不想再自己拼三個模型與一堆同步邏輯，這支非常值得看。

評價： 它很前沿，但官方也明寫是 early access evaluation purposes only，所以我的判斷是：很適合做技術預研，不一定適合今天就扛正式商業關鍵流程。

如果你只想知道怎麼選，我的建議是這樣

要一支通用主力： 先試 MiniMax M2.7 或 DeepSeek-V3.2
要做 coding / agent： 優先試 Qwen3-Coder、GLM-4.7、Kimi K2 Thinking
要做多模態產品： 看 Llama 4 Maverick 或 Mistral Small 3.1
要做 RAG： 別只看聊天模型，直接把 NV-Embed-v1、rerank-qa-mistral-4b、Llama 3.2 NeMo Retriever 一起納入
要正式上線： 把安全模型也列進架構，至少看 Safety Guard 8B v3

最後的總評：NVIDIA Free Endpoint 真正厲害的，不是免費，而是完整

很多人談 NVIDIA 的免費端點，會只盯著哪一支聊天模型最強。但如果你把整個平台攤開看，真正有價值的是它提供了 從生成、到 coding、到多模態、到檢索、到 rerank、到安全、到語音 的整條能力鏈。這讓開發者不只是能試模型，而是能直接拼出一套像樣的 AI 產品原型。

我的總結很簡單：如果你只是想要一句漂亮回答，隨便一支大模型都能試；但如果你想做的是一個真正能上工、能檢索、能審核、能語音互動、能多模型協作的 AI 系統，NVIDIA 這批 Free Endpoint 的價值才會真正顯現出來。

NVIDIA Free Endpoint 模型全解析：功能、用途、適用情境與實戰評價