微信扫码
添加专属顾问
我要投稿
腾讯混元文生图大模型(混元DiT)推出了仅需6G显存即可运行的小显存版本,这对使用个人电脑本地部署的开发者来说无疑是一个巨大的利好消息。这个版本不仅降低了硬件门槛,而且与LoRA、ControlNet等插件已经适配至Diffusers库,使得开发者可以更加便捷地进行模型训练和应用开发。
此外,混元DiT模型升级至1.2版本,在图片质感与构图方面都有所提升。与此同时,腾讯还宣布了混元文生图打标模型“混元Captioner”的正式开源。这个模型支持中英文双语,并且针对文生图场景进行了专门的优化,能够帮助开发者快速制作出高质量的文生图数据集。混元Captioner模型的一个显著特点是,它能够更好地理解与表达中文语义,输出的图片描述更为结构化、完整和准确。该模型在构建时注入了人工标注、模型输出、公开数据等多种来源,以及大量背景知识,如知名文学作品形象、地标、食物、动物、中国元素等,这些都极大地提升了模型的描述能力。
腾讯混元团队在提升模型易用性方面也做出了巨大努力。他们推出了小显存版本,并与Hugging Face合作,使得小显存版本、LoRA与ControlNet插件都适配到Diffusers库中。开发者现在可以通过简单的三行代码调用混元DiT模型及其插件,大大简化了使用成本。
Kohya作为一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。混元DiT宣布接入Kohya,让开发者可以低门槛地训练专属LoRA模型。用户可以通过图形化界面完成模型的全参精调及LoRA训练,无需涉及到代码层面的细节。
在提升数据质量方面,腾讯混元团队开放了更多的关键技术,包括此前的训练代码和最新的打标模型混元Captioner。数据集的质量直接影响着模型生成内容的效果,因此,文生图开发者需要对原始图片进行清晰、全面的标注,制作高质量的数据集。借助打标模型,开发者可以快速生成高质量数据集,无论是导入原始图片集还是图片与原始描述,混元Captioner都能生成高质量标注,过滤无关信息,并优化图片描述。
作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设生态。6月,混元DiT发布了专属加速库,将推理效率进一步提升,生图时间缩短75%,并进一步开源了推理代码,发布了LoRA和ControlNet等插件。模型易用性大幅提升,用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-29
KnowFlow 无缝衔接 Dify,分块支持添加父标题、Title 切块支持自定义标题层级切割、图片理解新增支持上下文
2025-10-28
邪修榨干元宝AI录音笔:白天工作,晚上陪聊
2025-10-27
免费又好用的AI录音笔都出来了,这下哪还有理由不学习?
2025-10-24
Aiops探索:我用Dify结合k8s的api做了一个非常简单的Aiops智能体
2025-10-24
阿里夸克AI眼镜开售:叠加补贴后3699元,它能打破AI眼镜的魔咒吗?
2025-10-23
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
2025-10-13
Dify + 飞书组合拳:企业级 AI 安全大脑落地全指南,助力安管效率提升 300%
2025-09-23
专访Plaud中国区CEO:我们只做“必须做”和“不做要死”的事
2025-09-19
2025-09-02
2025-10-13
2025-09-02
2025-10-24
2025-08-25
2025-09-05
2025-09-02
2025-08-22
2025-08-28