数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 193|回复: 0

[产品] 深度求索发布V3大模型!免费商用+消费级硬件可轻松运行

[复制链接]
发表于 2025-3-26 14:33:14 | 显示全部楼层 |阅读模式
本帖最后由 Meise 于 2025-3-26 14:34 编辑

【技术前沿】国内AI企业深度求索(DeepSeek)又有新动作!最近在Hugging Face平台悄悄上线了最新语言模型DeepSeek-V3-0324,这个体积达641GB的大家伙不仅开放免费商用,还能在普通电脑上流畅运行——用苹果M3 Ultra芯片的Mac Studio测试时,处理速度竟能达到每秒20个token以上。

这个采用MIT开源协议的模型,打破了传统大模型依赖数据中心的运行模式。其核心技术是混合专家架构(MoE),每次任务仅调用6850亿参数中的370亿,配合多头潜在注意力(MLA)和多令牌预测(MTP)技术,既保证了运算效率又提升了上下文理解能力。开发者社区反馈显示,其在非逻辑推理任务中的表现可能超越Anthropic的Claude Sonnet 3.5。

目前模型已在Hugging Face、OpenRouter和自家平台同步开放,第三方服务商Hyperbolic Labs也提供接入支持。有趣的是,这次发布延续了深度求索一贯的低调作风,仅在技术社区做了简单公告。但开源协议中明确的商业使用授权,让中小企业和开发者能零成本调用这个顶级语言模型。

从技术文档来看,新版本较前代有明显提升。虽然官方没有透露具体训练数据量,但6850亿的总参数量已跻身顶级大模型行列。AI研究员Awni Hannun在社交平台分享的测试结果显示,用消费级设备运行如此规模的模型,这在半年前还是难以想象的技术突破。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-6-14 01:16 , Processed in 0.405600 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表