数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 149|回复: 0

[科技] 谷歌图像生成模型升级 Imagen 4突破AI文字排版瓶颈

[复制链接]
发表于 2025-5-21 20:08:29 | 显示全部楼层 |阅读模式
在5月21日的技术博客中,谷歌DeepMind产品副总裁伊莱·柯林斯宣布推出第四代图像生成模型Imagen 4。这款号称"能正确拼写单词"的AI工具,现已接入Gemini应用、Whisk及Vertex AI平台,并将于本周内整合至Workspace办公套件。

技术参数显示,Imagen 4在细节处理上实现三大突破:织物纹理精度提升至4096×4096分辨率,动物毛发渲染速度加快3倍,水花飞溅效果支持物理模拟。官方展示的样图中,跃出水面鲸鱼的鳞片反光、变色龙皮肤的立体颗粒都达到照片级真实感。

最引人注目的改进在于文字生成能力。测试显示,输入"生成生日贺卡,文字内容'HAPPY 30th BIRTHDAY',风格为水彩手绘",模型能准确呈现连贯的连笔字体,且数字"30th"的上下标格式完全正确。对比测试中,OpenAI的DALL·E 3在相同指令下仍会出现字母重叠或笔画缺失。

应用场景方面,Imagen 4现支持直接生成可印刷的海报文件。用户输入"科幻电影海报,标题'Galactic Odyssey',副标题'2026年上映'",系统会自动匹配电影风格字体,并将文字元素与背景光影效果智能融合。柯林斯透露,已有漫威工作室使用该功能批量生成概念图。

不过技术团队承认,长段落文本生成仍存局限。当要求生成包含三行诗句的书籍封面时,超过15个单词的句子会出现字符间距不均。对此,谷歌承诺将在6月更新中引入"文本布局校准器",通过矢量字体库优化排版效果。

部署计划显示,普通用户可通过Gemini应用免费使用基础版Imagen 4,单次生成耗时约12秒。付费订阅AI Ultra服务的用户将独享"极速模式",处理速度提升至1.2秒/张,且支持8K超清输出。企业级用户通过Vertex AI平台,可定制专属风格模型,最高支持单次批量生成100张图像。

随着Adobe Firefly等竞品持续升级,图像生成AI的竞争焦点已从画面质量转向实用功能。正如柯林斯在博客中所说:"真正的挑战不是创造惊艳的图片,而是生成可以直接商用的设计作品。"这场关于像素与字体的较量,正在重塑数字内容生产的标准流程。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-19 08:45 , Processed in 0.156000 second(s), 10 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表