DeepSeek V4开源最强发布：1.6万亿参数，MIT许

19小时前 • 币资讯

DeepSeek V4开源最强发布：1.6万亿参数，MIT许

根据【动察 Beating】（https://t.me/OneMillion_AI）监测，DeepSeek 开源 **V4 系列预览版**已落地，**MIT 许可**，模型权重同步上架 **Hugging Face** 与 **ModelScope**。

—

## 一、V4 系列：两款 MoE 模型，覆盖长上下文

V4 系列包含两款 **MoE（混合专家）**模型：

– **V4-Pro**
– 总参数：**1.6T**
– 每 token 激活：**49B（490 亿）**
– **V4-Flash**
– 总参数：**284B（2840 亿）**
– 每 token 激活：**13B（130 亿）**

两款模型均支持 **1M token 上下文**能力。

—

## 二、架构三项升级：让 1M 长上下文“更省、更快”

### 1）混合注意力机制（CSA + HCA）
采用混合注意力策略：
– **压缩稀疏注意力 CSA**
– **重度压缩注意力 HCA**

在 **1M 上下文**条件下，V4-Pro 的效果表现为：
– **单 token 推理 FLOPs**：仅为 **V3.2 的 27%**
– **KV 缓存显存占用**（推理时存储历史信息）：仅为 **V3.2 的 10%**

### 2）mHC：用超连接流形约束替代传统残差连接
通过 **流形约束超连接 mHC** 替代传统残差连接，增强跨层信号传播的稳定性。

### 3）Muon 优化器：训练加速收敛
训练阶段改用 **Muon 优化器**，提升训练效率与收敛速度。

—

## 三、预训练规模：数据量超 32T token

预训练数据规模 **超过 32T token**。

—

## 四、后训练策略：两阶段训练 + 在线蒸馏统一合并

后训练分为两阶段：

1. **先分别强化学习**
– 使用 **SFT**（监督微调）
– 配合 **GRPO** 强化学习
– 对各领域专家进行训练
2. **再在线蒸馏统一合并**
– 将各能力统一合并成一个模型

—

## 五、推理与任务表现：Pro 更强，Flash 更接近但更受限

– **V4-Pro-Max**
– 最高推理力度模式
– 自称为“当前最强开源模型”
– 编码基准达到顶级
– 在推理与 agent 任务上，较闭源前沿差距显著缩小

– **V4-Flash-Max**
– 给足思考预算后，推理表现接近 Pro
– 但在纯知识与复杂 agent 任务上仍受参数规模限制

—

## 六、权重格式：FP4 + FP8 混合精度存储

权重采用 **FP4 + FP8 混合精度**存储方式。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/174202/

赞 (0)

0

Minara AI发布Strategy Studio：自然语

上一篇 19小时前

布伦特原油跌破100美元/桶，日内下跌1.14%

下一篇 19小时前

近日，马斯克因收购推特一事面临股东诉讼，指控他的行为损害了特斯拉的利益。

【2024-06-12 05:50】23btc报道称，有一项新的股东衍生诉讼声称，马斯克在收购当时名为推特的社交媒体平台（现更名为“X”）的过程中出售了特斯拉的股票，并挪用了特斯拉…

币资讯 2024年6月12日
0
美国比特币现货ETF昨日出现净流出1.49亿美元。

【2024-08-07 09:17】《金色财经》报道，HODL15Capital监测数据显示，美国比特币现货ETF昨日净流出1.49亿美元。这则新闻的核心内容涉及美国比特币现货交…

币资讯 2024年8月7日
0
币资讯

Kraken转出1006枚比特币

【大额异动 | 1,006枚比特币悄然流出Kraken交易所】据链上监测平台Whale Alert实时数据显示，北京时间今日凌晨，一笔涉及1,006枚比特币（约合8470万美元）的…

2025年11月22日
0
币资讯

Movement启动DeFi激励计划：2.5亿MOVE奖励

【重磅来袭！Movement推出2.5亿MOVE DeFi春潮计划，开启流动性挖矿新纪元】一石激起千层浪！Movement基金会今日震撼揭晓2024年最具野心的DeFi激励计划—…

2025年4月24日
0
ether.fi：StakeRank已上线，将分配ETHFI总供应量5%作为奖励

【2024-04-04 10:20】23btc报道称，以太坊再质押协议ether.fi在X平台宣布积分第二季Points Season 2: StakeRank已上线。此次活动将奖…

币资讯 2024年4月4日
0
山东东营警方成功侦破全市首起虚拟货币集资诈骗案，涉案金额高达20亿余元。

【2024-05-18 16:01】据5月18日消息，山东省东营市公安局经济技术开发区分局成功破获全市首起虚拟货币集资诈骗案。目前，主犯王某某已被判处有期徒刑十一年六个月。2023…

币资讯 2024年5月18日
0
市场动态：菲律宾央行已正式取消对数字银行设立的禁令。

【2024-08-08 13:31】23btc报道称，市场消息透露，菲律宾央行已解除对数字银行设立的禁令，未来将允许最多十家数字银行的成功运营。当然，作为新闻评论家，我将详细解析…

币资讯 2024年8月8日
0
金色晨讯 | 5月9日夜间重要动态回顾今日，我们为您带来了5月9日夜间的重要动态回顾。以下是详细内容： 1. 中国经济持续增长：根据最新数据显示，中国经济在第一季度保持了稳定增长，并展示出了回暖的势头。这为经济发展提供了坚实的基础。 2. 国际贸易局势缓和：据报道，美国和中国之间的贸易谈判取得了一些进展，双方正在积极推动解决分歧，为贸易关系的稳定发展带来了希望。 3. 科技创新迈出重要一步：近日，一家中国科技公司成功发布了一款颠覆性的新产品，该产品将为人们的生活带来重大改变，引发了广泛的关注和讨论。 4. 体育世界精彩纷呈：在国际体育赛事中，中国运动员和团队取得了一系列骄人的成绩，彰显了国家体育实力。 5. 文化艺术盛宴持续上演：为期一周的文化艺术节在某城市圆满落幕，吸引了大量观众和艺术爱好者，展现了当地独特的艺术魅力。以上即为5月9日夜间重要动态的回顾。敬请关注金色晨讯，我们将继续为您带来最新的资讯和动态。

【2024-05-09 07:30】1. 拜登承诺否决众议院加密政策废除议案；2. BitMEX推出期权交易平台PowerTrade；3. VanEck研究主管称已引入MEMECO…

币资讯 2024年5月9日
0
币资讯

杠杆推动以太坊价格走势

2025年6月11日
0
币资讯

共和数投Centrifuge

2025年8月26日
0