技术团队采用英伟达PTX(并行线程执行)汇编级编程替代标准CUDA方案,实现了硬件级深度优化。PTX作为介于高级编程语言与机器码之间的中间指令集,允许工程师对寄存器分配、线程/束级调度等底层架构进行细粒度控制。以V3模型训练为例,研究人员创造性重构H800 GPU架构:将132个流式多处理器中的20个专用于服务器间通信,通过数据压缩/解压缩技术突破处理器互联带宽限制,同时开发高级流水线算法实现线程级精准调度。 这种突破常规的开发模式对工程能力提出极高要求。行业观察人士指出,此类汇编级优化虽能显著提升性能,但存在代码维护复杂度指数级上升的难题,深度求索团队展现出的技术实力令同业侧目。在美国芯片出口管制加剧全球算力短缺背景下,中国企业正通过架构创新突破硬件桎梏。 市场对此次技术突破反应分化。部分投资者担忧高效能训练方案可能削弱高端GPU需求,英伟达等硬件厂商或将承压。但行业资深人士如英特尔前CEO帕特·基辛格认为,AI应用对计算资源的渴求永无止境,深度求索的突破更可能推动AI技术向廉价设备端扩展,开辟更广阔的大众市场。目前该技术研发投入成本尚未披露,但其展现的"软件定义算力"潜力已引发全球AI产业深度思考。 ![]() |