数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 147|回复: 0

[概念] 苹果另辟蹊径:利用“归一化流”技术打造AI生图模型

[复制链接]
发表于 2025-6-24 20:30:37 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
业界通常使用扩散模型或自回归模型来研发 AI 生图模型,苹果公司近期发布的论文显示该公司正在选择一条被“遗忘”的归一化流(Normalizing Flows)技术路线研发相应模型。
据介绍,这一“归一化流”技术是一种通过学习数学变换的方式,将真实世界的数据(如图像)转换成结构化噪声,并再将噪声还原为图像样本的生成模型。其最大优势是能够精确计算生成图像的概率,这是扩散模型无法做到的。这一特性使得归一化流在对概率要求较高的任务中具有独特吸引力。不过此类模型并不常见,原因在于其研发成本更高,同时早期采用相应技术生成的模型往往相对模糊、缺乏细节。
IT之家参考苹果公司《Normalizing Flows are Capable Generative Models》论文,其推出一种名为 TarFlow(Transformer AutoRegressive Flow)的新型归一化流技术模型,该模型的核心思路是将一张待生成的大图拆成“小区块”,再以相应区块为单位进行生成一系列像素值,每一块图像像素值的生成都依赖于前面已生成的部分,继而形成完整的图像,因此能够有效避免图像被压缩为固定词汇表时产生的质量损失与表现僵化的问题。
当然,TarFlow 在生成高分辨率图像方面仍存在局限,这就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。
参考这篇论文,苹果在 TarFlow 的基础上进一步提出了增强版本:STARFlow(Scalable Transformer AutoRegressive Flow)。
该模型最大的改进在于,它不再直接在像素层面生成图像,而是在“潜空间”(latent space)中工作,首先生成图像的压缩表示,再通过解码器进行放大还原。因此模型可无须再预测数百万个像素值,而是先处理图像的大体结构,细节部分留给解码器进行补充,从而在不损失质量的前提下提升生成效率。
此外,STARFlow 还改进了对文本提示的处理方式。它不再内建专用文本编码器,而是支持调用现有语言模型(例如谷歌推出的小语言模型 Gemma,理论上可以直接在设备上运行)来处理用户的语言指令。这样一来,模型的图像生成部分可以专注于图像细节的生成与优化。

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-12 21:38 , Processed in 0.218401 second(s), 9 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表