# Ollama 0.19 预览版发布:专为 Apple Silicon 重构,性能大幅跃升
根据 **[1M AI News](https://t.me/OneMillion_AI)** 的监测,**Ollama** 近日发布了 **0.19 预览版**。本次更新的核心亮点在于,它**完全基于苹果的机器学习框架 MLX 重建了在 Apple Silicon 上的推理引擎**。
这一重构充分利用了苹果芯片的**统一内存架构**,显著提升了性能。更重要的是,新版本能够在 **M5、M5 Pro 及 M5 Max 芯片**上直接调用**GPU 神经网络加速器**,同时对**首 Token 延迟**和**生成速度**进行了深度优化。
—
## 🚀 性能基准测试:接近翻倍的提升
在 **2025年3月29日** 进行的基准测试中,于 **M5 系列芯片**上运行 **Qwen3.5-35B-A3B** 模型(采用英伟达 NVFP4 量化),与 **Ollama 0.18** 版本相比,性能提升令人瞩目:
* **Prefill 速度**:从 **1154 tokens/s** 提升至 **1810 tokens/s**
* **Decode 速度**:从 **58 tokens/s** 提升至 **112 tokens/s**,**提升幅度接近翻倍**。
当模型精度切换至 **int4** 时,性能可达到更高水平:
* **Prefill 速度**:**1851 tokens/s**
* **Decode 速度**:**134 tokens/s**
—
## 🔧 核心新特性与优化
**1. 支持英伟达 NVFP4 量化格式**
Ollama 0.19 新增了对 **NVFP4** 量化格式的原生支持。NVFP4 是一种能够在**显著降低内存带宽和存储占用**的同时,**保持模型精度**的先进量化方式。它不仅与英伟达 **Model Optimizer** 优化的模型兼容,其格式也与主流云端推理服务商的生产环境保持一致。
**2. 智能缓存系统全面升级**
新版对缓存系统进行了重大改进,旨在提升效率与用户体验:
* **跨会话复用**:在使用 **Claude Code** 等工具时,共享的系统提示词可以获得更多缓存命中,减少重复计算。
* **快照存储**:在提示词的关键位置存储快照,有效避免对相同内容的重复处理。
* **智能淘汰策略**:采用了更高效的缓存淘汰算法,优化内存使用。
—
## 💻 使用须知与接入方式
* **系统要求**:当前预览版需要配备 **32GB 及以上统一内存** 的 Mac 设备。
* **专精模型**:当前为编程任务专门调优的模型为 **Qwen3.5-35B-A3B**。
* **快速接入**:用户可以通过以下命令,快速接入 **Claude Code** 进行体验:
“`bash
ollama launch claude –model qwen3.5:35b-a3b-coding-nvfp4
“`
此次更新标志着 Ollama 在利用苹果硬件原生能力方面迈出了关键一步,为开发者和研究者在 Apple Silicon 平台上运行大型语言模型带来了显著的效率提升。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/165044/


