|
本帖最后由 Meise 于 2025-6-30 11:36 编辑
嘿,听说了没?那个搞图像的Black Forest Labs最近干了件大事!他们居然把看家模型FLUX.1 Kontext[dev]给开源了。别小看这玩意儿只有120亿参数(比动辄千亿的大模型苗条多了),但能耐可一点不含糊——电脑不用专业卡,普通显卡就能跑得动,重点是不用等半天,平均5秒搞定一张图!
具体能干啥?举个栗子:
想删掉照片里乱入的狗子?一句话指令秒消失
给仓鼠P个爱因斯坦同款爆炸头?鼠标一圈立马加上
网红咖啡店招牌字拼错了?敲行字替换就行
甚至能像玩游戏一样连环操作:先给小哥换身西装,再调个酒吧背景,最后打上光影,硬生生把路人甲变成夜店焦点!(当然最后效果你说了算)
关键这模型特懂用户需要什么:
精准到头发丝:指哪改哪,背景人物各修各的
认人认物超在行:同一角色反复出场,衣服换十套脸也不崩
不怕越改越歪:连续修图十几次,画风还能稳住不跑偏
NVIDIA用户狂喜:专门为新一代Blackwell显卡优化,速度飞起
模型刚放出来,网友就玩嗨了:
有给青蛙戴墨镜穿毛衣,cos旅行博主的(蛙:本打工蛙下班勿扰)
有复刻动漫名场面的,连头发丝分叉都还原
更神的是配合LoRA工具,直接搓出个AI证件照生成器!
现在去官网试玩区传张图,马上就能体验。国外论坛已经炸锅,都说这是图形界的DeepSeek(懂的都懂),开源社区总算有个能打的图像编辑模型了!
硬核真相(给技术控划重点):
底层用的还是FLUX那套整流流Transformer架构,简单说就是让AI学习图片"内在规律"。这次升级主要在三点:
图片拆解成密码似的视觉标记,方便定位修改区域
用上三维空间定位技术(3D RoPE),像GPS锁定像素位置
靠对抗蒸馏技术(LADD)压缩步骤,才实现5秒出图
官方拉了个1026张图的测试集(KontextBench),把友商虐了个遍:
字节跳动的Bagel:局域编辑输得明显
HiDream-E1:批量改图一致性被吊打
OpenAI家的GPT-image-1?在风格移植上照样被超车
成本真心感人:
云端平台Replicate跑一次不到0.007美元(每1美元能玩149次)
但苹果党注意:MacBook Pro上跑要等1分钟/次(建议蹭朋友显卡玩
附传送门:GitHub搜 FLUX.1 Kontext[dev],嫌麻烦的先去官网在线版练手~
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|