|
本帖最后由 土耳鸡烤鸡 于 2025-1-29 12:56 编辑
中国AI企业深度求索(DeepSeek)近期凭借底层技术突破引发行业震动。该公司在英伟达H800 GPU集群上仅用2048块芯片、耗时两个月完成6710亿参数MoE大模型训练,效能达行业标杆Meta同类项目的十倍,这一突破性进展被韩国未来资产证券研报视为改写AI算力规则的重要里程碑。
技术团队采用英伟达PTX(并行线程执行)汇编级编程替代标准CUDA方案,实现了硬件级深度优化。PTX作为介于高级编程语言与机器码之间的中间指令集,允许工程师对寄存器分配、线程/束级调度等底层架构进行细粒度控制。以V3模型训练为例,研究人员创造性重构H800 GPU架构:将132个流式多处理器中的20个专用于服务器间通信,通过数据压缩/解压缩技术突破处理器互联带宽限制,同时开发高级流水线算法实现线程级精准调度。
这种突破常规的开发模式对工程能力提出极高要求。行业观察人士指出,此类汇编级优化虽能显著提升性能,但存在代码维护复杂度指数级上升的难题,深度求索团队展现出的技术实力令同业侧目。在美国芯片出口管制加剧全球算力短缺背景下,中国企业正通过架构创新突破硬件桎梏。
市场对此次技术突破反应分化。部分投资者担忧高效能训练方案可能削弱高端GPU需求,英伟达等硬件厂商或将承压。但行业资深人士如英特尔前CEO帕特·基辛格认为,AI应用对计算资源的渴求永无止境,深度求索的突破更可能推动AI技术向廉价设备端扩展,开辟更广阔的大众市场。目前该技术研发投入成本尚未披露,但其展现的"软件定义算力"潜力已引发全球AI产业深度思考。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|