谷歌图像生成模型升级 Imagen 4突破AI文字排版瓶颈

Meise · 发表于 2025-5-21 20:08:29

在5月21日的技术博客中，谷歌DeepMind产品副总裁伊莱·柯林斯宣布推出第四代图像生成模型Imagen 4。这款号称"能正确拼写单词"的AI工具，现已接入Gemini应用、Whisk及Vertex AI平台，并将于本周内整合至Workspace办公套件。

技术参数显示，Imagen 4在细节处理上实现三大突破：织物纹理精度提升至4096×4096分辨率，动物毛发渲染速度加快3倍，水花飞溅效果支持物理模拟。官方展示的样图中，跃出水面鲸鱼的鳞片反光、变色龙皮肤的立体颗粒都达到照片级真实感。

最引人注目的改进在于文字生成能力。测试显示，输入"生成生日贺卡，文字内容'HAPPY 30th BIRTHDAY'，风格为水彩手绘"，模型能准确呈现连贯的连笔字体，且数字"30th"的上下标格式完全正确。对比测试中，OpenAI的DALL·E 3在相同指令下仍会出现字母重叠或笔画缺失。

应用场景方面，Imagen 4现支持直接生成可印刷的海报文件。用户输入"科幻电影海报，标题'Galactic Odyssey'，副标题'2026年上映'"，系统会自动匹配电影风格字体，并将文字元素与背景光影效果智能融合。柯林斯透露，已有漫威工作室使用该功能批量生成概念图。

不过技术团队承认，长段落文本生成仍存局限。当要求生成包含三行诗句的书籍封面时，超过15个单词的句子会出现字符间距不均。对此，谷歌承诺将在6月更新中引入"文本布局校准器"，通过矢量字体库优化排版效果。

部署计划显示，普通用户可通过Gemini应用免费使用基础版Imagen 4，单次生成耗时约12秒。付费订阅AI Ultra服务的用户将独享"极速模式"，处理速度提升至1.2秒/张，且支持8K超清输出。企业级用户通过Vertex AI平台，可定制专属风格模型，最高支持单次批量生成100张图像。

随着Adobe Firefly等竞品持续升级，图像生成AI的竞争焦点已从画面质量转向实用功能。正如柯林斯在博客中所说："真正的挑战不是创造惊艳的图片，而是生成可以直接商用的设计作品。"这场关于像素与字体的较量，正在重塑数字内容生产的标准流程。

账号		自动登录	找回密码
密码			立即注册

[科技] 谷歌图像生成模型升级 Imagen 4突破AI文字排版瓶颈

本帖子中包含更多资源

相关帖子