Ollama MLX引擎提速近倍，适配Claude Code

# Ollama 0.19 预览版发布：专为 Apple Silicon 重构，性能大幅跃升

根据 **[1M AI News](https://t.me/OneMillion_AI)** 的监测，**Ollama** 近日发布了 **0.19 预览版**。本次更新的核心亮点在于，它**完全基于苹果的机器学习框架 MLX 重建了在 Apple Silicon 上的推理引擎**。

这一重构充分利用了苹果芯片的**统一内存架构**，显著提升了性能。更重要的是，新版本能够在 **M5、M5 Pro 及 M5 Max 芯片**上直接调用**GPU 神经网络加速器**，同时对**首 Token 延迟**和**生成速度**进行了深度优化。

—

## 🚀 性能基准测试：接近翻倍的提升

在 **2025年3月29日** 进行的基准测试中，于 **M5 系列芯片**上运行 **Qwen3.5-35B-A3B** 模型（采用英伟达 NVFP4 量化），与 **Ollama 0.18** 版本相比，性能提升令人瞩目：

* **Prefill 速度**：从 **1154 tokens/s** 提升至 **1810 tokens/s**
* **Decode 速度**：从 **58 tokens/s** 提升至 **112 tokens/s**，**提升幅度接近翻倍**。

当模型精度切换至 **int4** 时，性能可达到更高水平：
* **Prefill 速度**：**1851 tokens/s**
* **Decode 速度**：**134 tokens/s**

—

## 🔧 核心新特性与优化

**1. 支持英伟达 NVFP4 量化格式**
Ollama 0.19 新增了对 **NVFP4** 量化格式的原生支持。NVFP4 是一种能够在**显著降低内存带宽和存储占用**的同时，**保持模型精度**的先进量化方式。它不仅与英伟达 **Model Optimizer** 优化的模型兼容，其格式也与主流云端推理服务商的生产环境保持一致。

**2. 智能缓存系统全面升级**
新版对缓存系统进行了重大改进，旨在提升效率与用户体验：
* **跨会话复用**：在使用 **Claude Code** 等工具时，共享的系统提示词可以获得更多缓存命中，减少重复计算。
* **快照存储**：在提示词的关键位置存储快照，有效避免对相同内容的重复处理。
* **智能淘汰策略**：采用了更高效的缓存淘汰算法，优化内存使用。

—

## 💻 使用须知与接入方式

* **系统要求**：当前预览版需要配备 **32GB 及以上统一内存** 的 Mac 设备。
* **专精模型**：当前为编程任务专门调优的模型为 **Qwen3.5-35B-A3B**。
* **快速接入**：用户可以通过以下命令，快速接入 **Claude Code** 进行体验：
“`bash
ollama launch claude –model qwen3.5:35b-a3b-coding-nvfp4
“`

此次更新标志着 Ollama 在利用苹果硬件原生能力方面迈出了关键一步，为开发者和研究者在 Apple Silicon 平台上运行大型语言模型带来了显著的效率提升。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/165044/