数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 533|回复: 1

[科技] 智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

[复制链接]
发表于 2024-10-15 00:20:22 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
IT之家 10 月 14 日消息,智谱技术团队今天宣布开源文生图模型CogView3 及 CogView3-Plus-3B ,该系列模型的能力已经上线“智谱清言”App。
据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:
  • 第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。
  • 第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
  • 第三阶段:将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。
官方表示,在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。
CogView3-Plus 模型则在 CogView3(ECCV'24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。据介绍,其采用 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。
IT之家附地址如下:
开源仓库地址:
  • https://github.com/THUDM/CogView3

发表于 2024-10-15 08:25:39 | 显示全部楼层
用了,超乎想象
回复 支持 反对

使用道具 举报

发表于 2024-10-15 08:28:58 | 显示全部楼层
CogView3-Plus,相关功能上线智谱清言 App
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-21 09:58 , Processed in 0.078001 second(s), 4 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表