深度求索发布V3大模型！免费商用+消费级硬件可轻松运行

Meise · 发表于 2025-3-26 14:33:14

本帖最后由 Meise 于 2025-3-26 14:34 编辑

【技术前沿】国内AI企业深度求索（DeepSeek）又有新动作！最近在Hugging Face平台悄悄上线了最新语言模型DeepSeek-V3-0324，这个体积达641GB的大家伙不仅开放免费商用，还能在普通电脑上流畅运行——用苹果M3 Ultra芯片的Mac Studio测试时，处理速度竟能达到每秒20个token以上。

这个采用MIT开源协议的模型，打破了传统大模型依赖数据中心的运行模式。其核心技术是混合专家架构（MoE），每次任务仅调用6850亿参数中的370亿，配合多头潜在注意力（MLA）和多令牌预测（MTP）技术，既保证了运算效率又提升了上下文理解能力。开发者社区反馈显示，其在非逻辑推理任务中的表现可能超越Anthropic的Claude Sonnet 3.5。

目前模型已在Hugging Face、OpenRouter和自家平台同步开放，第三方服务商Hyperbolic Labs也提供接入支持。有趣的是，这次发布延续了深度求索一贯的低调作风，仅在技术社区做了简单公告。但开源协议中明确的商业使用授权，让中小企业和开发者能零成本调用这个顶级语言模型。

从技术文档来看，新版本较前代有明显提升。虽然官方没有透露具体训练数据量，但6850亿的总参数量已跻身顶级大模型行列。AI研究员Awni Hannun在社交平台分享的测试结果显示，用消费级设备运行如此规模的模型，这在半年前还是难以想象的技术突破。

账号		自动登录	找回密码
密码			立即注册

[产品] 深度求索发布V3大模型！免费商用+消费级硬件可轻松运行

本帖子中包含更多资源

相关帖子

浏览过的版块