当前位置:主页 > 星欧娱乐资讯 > 公司新闻 >
鹅厂放大招混元图像20「边说边画」:描述完图也生成好了
时间:2025-05-23 14:07 点击次数:170

  发布混元图像2.0模型(Hunyuan Image 2.0),首次实现毫秒级响应,边说边画,实时生成

  用户一边描述,它紧跟着绘制,整个过程那叫一个丝滑。不用等待,专治各种没有耐心。

  用户可以手绘想要的元素,然后辅以文字说明,在另一半画板上它立刻就帮你按照草图绘制出来:

  模型主打真实感、去AI味,真实场景生图效果会更好模型是英文数据训练为主,有一些中文不能识别的概念,用英文输入会更好优先推荐16:9生图,效果更佳实时文生图

  而且当它把“小女孩”这一主体的模样定下来之后,我们再接着描述对画面做补充,它角色一致性保持得也不错。

  虽然官方表示真实场景生图效果会更好,但我们尝试了一下动漫风、编织风等,效果也都不错:

  除了手打Prompt,解放双手实时语音输入也行,支持中英文,你一边说着它一边生成。

  另外还支持上传参考图,可选择提取参考图的主体或轮廓特征,参考图片的约束强度也能调整:

  设置好参考图后再输入指令,Hunyuan Image 2.0就会将参考特征和文本指令相结合生成图像。

  参考轮廓,秒秒钟就能把巧克力味改成草莓味的,形状和摆放都和参考图保持一致。

  如果最后绘图还是不满意,还能点击右下角“画面优化”,它可以帮你自动优化画面构图、景深层次、光影效果。

  相比HunyuanDiT,HunyuanImage2.0将参数提升了一个数量级,更大的模型参数保证了模型的性能上限。

  腾讯混元团队自研了超高压缩倍率的图像编解码器,大幅降低了图像的编码序列长度,从而加快生图速度。

  为了在提高编码器信息压缩率的同时减少信息丢失和保证画面质量,他们对信息瓶颈层进行针对性优化并强化了对抗训练以提高细节生成能力,降低了生图时耗。

  适配了多模态大语言模型(MLLM)作为文本编码器,使得文生图模型的语义遵从能力大幅提升。

  相较于CLIP、T5等传统架构中的文本编码器的浅层语义解析,MLLM通过海量跨模态预训练和更大参数量的模型架构形成的深度表征能力, 可以更好的对文本进行解构编码。

  通过适配训练后,HunyuanImage2.0能有更好的语义匹配能力,在语义能力测试的客观指标上(GenEval)远高于同类竞品。

  HunyuanImage2.0基于慢思考的reward model,通过通用后训练与美学后训练,有效提升图片生成的真实感,更符合现实需求。

  在后训练模型的基础上,基于隐空间一致性模型,通过训练将去噪轨迹上的任意点直接映射到轨迹生成样本,实现少步高质量生成。

Copyright © 2025 星欧娱乐–星欧注册登录(平台招商服务站) TXT地图 HTML地图 XML地图