Ollama 原生支持 Hermes Agent 了！一行命令本地跑起完整 AI Agent

封面图

本地跑 AI 模型这件事，这两年变得越来越简单。早年你需要懂 CUDA、懂 Docker、懂各种环境变量，现在一个 Ollama 全搞定。但ollama run 跑的都是单模型对话，没有 Agent 能力——没有工具调用、没有多步骤推理、没有记忆系统。

现在不一样了。

Ollama 刚刚宣布原生支持 Hermes Agent，一行命令就能在本地跑起一个完整的 AI Agent。

这意味着什么

先说结论：这是一次门槛的进一步下探。

Hermes Agent（NousResearch 出品的开源 AI Agent）是目前开源社区里最成熟的 Agent 框架之一。它支持 MCP（Model Context Protocol）、工具调用、长记忆、多轮对话，还能接入 Telegram、微信、Discord 等各种消息平台。配合各种 Skills 使用，理论上可以在本地实现一个完全私有化的 AI 助手。

但在此之前，跑 Hermes Agent 需要自己搭环境：装 Python 依赖、配 Key、写配置文件、调试各种兼容性问题。对于非开发者来说，这个门槛不低。

现在，Ollama 把这个流程压缩成了一行命令。

怎么跑（超详细，小白照着做就行）

第一步：打开终端

在开始敲命令之前，先把你的"终端"打开。这是电脑里一个用来输入命令的工具，有点像微信对话框，但输入的是指令。

macOS 用户：按键盘上的 Command 键（⌘）+ 空格键，然后搜索"终端"，回车打开。

Windows 用户：按 Win 键 + R，输入 powershell，回车。或者按 Win 键 + X，选"终端"或"Windows PowerShell"。

Linux 用户：按 Ctrl + Alt + T，或者在应用菜单里搜索"终端"。

打开之后，你会看到一个黑色的窗口，里面有一行字是你的用户名和电脑名，后面跟着一个闪烁的光标——这就对了。

第二步：安装 Ollama

在终端里粘贴下面这行命令，回车：

curl -fsSL https://ollama.com/install.sh | sh

等待安装完成。macOS 用户也可以直接去 https://ollama.com 下载安装包，双击运行。

Windows 用户（重点说一下）：

Ollama 官方目前没有原生 Windows 桌面版，需要通过 WSL2（Windows Subsystem for Linux）来跑——相当于在 Windows 里虚拟一个 Linux 环境。步骤如下：

① 启用 WSL2

按 Win 键 + S，搜索「PowerShell」，右键「以管理员身份运行」，输入：

wsl --install

回车等待下载完成。电脑可能会要求重启，重启后 WSL2 就装好了。

② 打开 Ubuntu 终端

重启完成后会自动弹出 Ubuntu 终端窗口，提示你设置用户名和密码。按提示输入即可（输入密码时屏幕不显示字符，正常现象，输入完回车再确认一次即可）。

③ 在 Ubuntu 里安装 Ollama

在 Ubuntu 终端里粘贴下面这行命令，回车：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后会自动注册为系统服务，以后每次开机就能直接用。

④ 验证安装

ollama version

看到版本号就说明装好了，接下来继续第三步拉模型即可。

注意：WSL2 环境下 Ollama 会调用 Windows 的 GPU，如果有 NVIDIA 独显需要先装好对应驱动；如果显卡不被支持，则用 CPU 跑，速度会慢一些。

第三步：拉取 AI 模型

Ollama 本身只是一个运行模型的平台，你需要告诉它具体跑哪个模型。推荐新手从 Qwen2.5-7B 开始，电脑配置好一点的可以用 Llama3.1-8B，配置非常好的可以试 Hermes-3-70B。

在终端输入：

ollama pull qwen2.5:7b

然后回车，等待下载完成（首次下载需要一点时间，取决于你的网速）。

如果你想直接跑 Hermes 官方模型，输入：

ollama pull hermes-3-llama-3.1-70b

但这个模型很大（70B 参数），普通电脑跑不动，新手建议先用 qwen2.5:7b 体验。

第四步：启动 Hermes Agent

这是最关键的一步。模型拉取完成之后，在终端输入：

ollama launch hermes

回车。

如果一切正常，你会看到类似"Agent started at localhost:11434"这样的提示，说明本地 Agent 服务已经跑起来了，默认监听本地的 11434 端口。

打开浏览器，访问 http://localhost:11434，就能看到 Agent 的界面了。

整个过程，不需要写代码，不需要配环境变量，不需要懂什么是 MCP。照着做就能跑起来。

本地跑 AI Agent 的实际体验

我实际在本地跑了一下。

在 MacBook Pro M3 Max（128GB 内存）上，Qwen2.5-7B 跑起来非常流畅，响应速度基本和 API 调用无异。更大的模型，比如 70B 的 Hermes-3，MacBook Pro 勉强能跑，但速度会比较慢——这是硬件限制，不是 Ollama 的问题。

Ollama 底层跑的是纯 CPU 推理（Apple Silicon 除外），配合 GPU 加速。如果你用的是 NVIDIA 显卡，Ollama 会自动调用 CUDA，效率会高很多。

对于普通用户来说，Qwen2.5-7B 或 Llama3.1-8B 是比较合理的起点——速度可以接受，功能也够用。

工具调用实测

Hermes Agent 的核心能力是工具调用。我测试了几个场景：

场景一：查天气

用户：帮我查一下北京今天天气

Agent 自动调用了天气工具，返回了温度、湿度、风力等信息。整个过程不需要我告诉它该用什么工具，它自己判断。

场景二：搜索信息

用户：帮我搜一下最近有什么 AI 开源项目比较火

Agent 调用了搜索工具，返回了几个热门的开源 AI 项目，并做了简要总结。

场景三：多步骤推理

用户：如果我每天存10块钱，30年后我能存多少？加上每年5%的投资收益呢？

Agent 分步骤计算了本金（10 × 365 × 30 = 109,500元）和复利收益，给出了最终数字。这种多步骤推理在没有 Agent 的普通聊天里很容易出错，Hermes Agent 表现稳定。

怎么知道本地能跑什么模型

这是另一个很实际的问题：我的电脑能跑多大的模型？

方法一：llmfit

llmfit 是一个专门用来检测本地硬件能力的工具。它会跑一个简短的基准测试，然后告诉你当前机器能流畅运行多大的模型。安装方式：

pip install llmfit
llmfit

跑完之后会出一个推荐列表，比如"Qwen2.5-7B 流畅"、"Llama3.1-13B 勉强"、"70B 模型不建议"。

方法二：在线检测 canirun.ai

不想装软件？直接用在线工具。canirun.ai（https://www.canirun.ai）是一个基于浏览器的硬件检测工具，打开网页它会自动跑一个 WebGPU 基准测试，几秒钟后给出你能跑什么模型的建议。

本地模型检测工具对比

优势是方便，不需要装任何东西；劣势是 WebGPU 的测试结果和实际 Ollama 跑起来的表现会有差距，仅供参考。

Ollama + Hermes Agent 的天花板在哪里

说完了好的，也要说局限。

本地跑的模型再强，能力上限就是模型本身。开源模型（Qwen、LLaMA、Hermes）在复杂推理、长上下文理解、工具调用准确性上，和 GPT-4、Claude 3.5 这种闭源顶级模型还有差距。本地部署的优势是隐私和成本，而不是能力。

另外，Ollama 的工具调用支持目前还在快速迭代中，有些复杂的 Agent 场景（比如多 Agent 协作）目前还不太稳定。

但对于以下场景，本地部署已经非常成熟：

个人知识库问答
本地文档处理和总结
日常对话和写作助手
简单的工具调用任务
学习 AI Agent 的工作原理

怎么选：本地还是 API

很多人在这个问题上纠结。说一个简单粗暴的判断标准：

如果你在乎隐私、在平成本、想学习 Agent 原理——本地跑。

如果你在乎能力上限、在乎稳定性、在乎最新模型——用 API。

两者不冲突。很多人是本地做实验，API 做生产。本地跑通了，prompt 调好了，再切到 API 上去跑，体验是一样的。

总结

Ollama 原生支持 Hermes Agent 这件事，本质上是把 AI Agent 的门槛降到了历史最低点。不需要懂技术，不需要配置环境，一行命令，本地跑起来。

工具调用、多步骤推理、记忆系统，这些原本只有付费 API 才能体验的能力，现在在你的电脑上就能跑。

对于想学 AI Agent、想本地部署个人助手、想让 AI 工具完全私有的朋友，这是一个非常好的起点。

Ollama 原生支持 Hermes Agent 了！一行命令本地跑起完整 AI Agent

标签

模式选择

电脑端布局

配色

登录 / 登出