|
本帖最后由 Meise 于 2025-3-26 14:34 编辑
【技术前沿】国内AI企业深度求索(DeepSeek)又有新动作!最近在Hugging Face平台悄悄上线了最新语言模型DeepSeek-V3-0324,这个体积达641GB的大家伙不仅开放免费商用,还能在普通电脑上流畅运行——用苹果M3 Ultra芯片的Mac Studio测试时,处理速度竟能达到每秒20个token以上。
这个采用MIT开源协议的模型,打破了传统大模型依赖数据中心的运行模式。其核心技术是混合专家架构(MoE),每次任务仅调用6850亿参数中的370亿,配合多头潜在注意力(MLA)和多令牌预测(MTP)技术,既保证了运算效率又提升了上下文理解能力。开发者社区反馈显示,其在非逻辑推理任务中的表现可能超越Anthropic的Claude Sonnet 3.5。
目前模型已在Hugging Face、OpenRouter和自家平台同步开放,第三方服务商Hyperbolic Labs也提供接入支持。有趣的是,这次发布延续了深度求索一贯的低调作风,仅在技术社区做了简单公告。但开源协议中明确的商业使用授权,让中小企业和开发者能零成本调用这个顶级语言模型。
从技术文档来看,新版本较前代有明显提升。虽然官方没有透露具体训练数据量,但6850亿的总参数量已跻身顶级大模型行列。AI研究员Awni Hannun在社交平台分享的测试结果显示,用消费级设备运行如此规模的模型,这在半年前还是难以想象的技术突破。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|