2026年4月23日 周四晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

百度把Nano Banana塞进4090,疯了?

发布日期:2026-04-22 17:26:32 浏览次数: 1528
作者:欧巴聊AI

微信搜一搜,关注“欧巴聊AI”

推荐语

百度开源文生图模型ERNIE-Image,彻底打破AI生图赛道收费模式,消费级显卡就能跑!

核心内容:
1. ERNIE-Image开源细节:8B DiT参数+蒸馏版本Turbo
2. 实测表现:10秒出图,质量媲美专业作品
3. 行业影响:免费开源将如何改变AI生图生态

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近,百度把自家压箱底的文生图模型 ERNIE-Image 给开源了。

Apache 2.0 协议,无论你是下载,魔改,还是拿去做生意,全免费。

你品品这操作。

AI 生图赛道这两年,虽然一代比一代能打了,但都死活捂着不开源。

各家要么收你订阅费,要么按照 API 调用次数给人交租。

直到,百度这次把桌子给掀了,掀得还挺彻底。

8B DiT 参数,消费级显卡就能跑起来,简直就是消费级显卡里的 Nano Banana。

同时开源的,还有蒸馏版本 ERNIE-Image Turbo,仅需 8 步推理就能生成高保真的图片,保持质量的同时大幅提升出图速度。

经过实测,基本上 10 秒左右一张图。

说真的,在 AI 生图赛道这么卷的今天,还愿意做开源这件事的公司,真的不多了。

话不多说,来看实测。

实测

体验地址在这。

https://aistudio.baidu.com/ernieimage

咱们先来看各个案例的沉浸式实测。

最后,再跟刚上线的 GPT-IMAGE-2 来对比一波。

漫画手稿

这个漫画手稿的复刻,也是相当真实了。

你不说我真看不出来是 AI 画的。

提示词:一幅横幅的黑白日本分格漫画手稿图,呈现出《鬼灭之刃》的原始草稿风格。画面以粗犷、充满张力的铅笔与钢笔线稿为主,带有强烈的手绘痕迹、未完全擦除的结构辅助线以及草率的排线阴影。页面自右向左分为三个不规则的分镜框。
左上角的第一个分镜展现了极具张力的半身特写。画面主体为伤痕累累的灶门炭治郎,他咬紧牙关,脸颊和额头带有粗糙的血迹排线,眼神中透着绝不退让的狂热与愤怒,肩膀微沉,隐约护着背后的木箱。人物边缘带有凌乱的手绘阴影与透视辅助线。旁边有一个边缘呈锯齿状的爆炸形对话框,内部用清晰的中文写着:‘我绝不允许你伤害祢豆子!’
右上角的第二个分镜描绘了致命的危机逼近。从深邃且布满杂乱交叉阴影的黑暗中,无数根锋利的血刃与交错的蛛丝如暴雨般破空袭来。背景是极其密集的、带有压迫感的放射状速度线。攻击轨迹的旁边有一串夸张且带有透视感的手写拟声词:‘嗖嗖嗖!’,下方漂浮着一个不规则的内心独白框,里面写着:‘躲不开,只能将一切燃尽!’
下方是一个横跨整个版面的宽分镜,展现绝地反击的震撼瞬间。炭治郎双手死死握住日轮刀,身体在半空中大幅度扭转,正由下至上挥出一记狂暴的环形斩击。刀刃周围不再是水流,而是由狂乱、暴躁的粗犷线条、层层叠加的黑白对比以及飞溅的火星草图所勾勒出的熊熊烈火特效。画面右侧有一个边缘破损的长条形旁白框,写着:‘火之神神乐……’,在火焰爆燃的视觉中心前端,用巨大、极具破坏力且带有飞白效果的狂草粗体字写着招式名称:‘圆舞!’整体构图极具压迫感,未进行任何色彩填充,仅通过黑白线条的极度疏密对比与狂野的笔触来表现火焰的光影、速度感与体积感,完美保留了浓厚的漫画分镜初稿气息与生死一瞬的强烈视觉冲击力。

视频截图

下面这个,是纪录片视频截图复刻。

令人惊艳的是,除了画面主体,视频播放器的功能键,进度条,甚至连中英双语字幕都有。

提示词:一张纪录片视频播放界面的高清截图,展示了传统玻璃吹制工艺的制作过程。
画面主体位于一间光线昏暗、充满颗粒感的传统玻璃工坊内。画面中央偏左,一名身着深灰色的粗布长袖衬衫、外搭做旧的棕色厚实皮围裙的男性工匠,正坐在一张边缘磨损的木制工作台旁。
工匠戴着黑色的防护护目镜,满脸胡茬,额头和脸颊上布满被高温烤出的汗珠,他的脸部和上半身被前方的高温玻璃照亮,呈现出强烈的暖橙色光影。他双手紧紧握着一根长约一米的黑色金属吹管,正鼓起腮帮子用力向管口吹气。吹管的另一端位于画面中央偏右,连接着一团约排球大小、正在散发着耀眼明亮橙黄色光芒的熔融状态玻璃球。
画面背景深处是一个用耐火砖砌成的巨大熔炉,炉口敞开,内部燃烧着熊熊的红黄色火焰,照亮了背景墙面上悬挂的各种长柄金属钳和塑形工具。空气中隐约可见漂浮的微小灰尘和高温产生的火星。
画面底部边缘分布着视频播放器的UI元素:最底端是一条贯穿左右的红色播放进度条,进度条左上方显示白色的当前播放时间与总时长 '12:34 / 45:00',右上方依次排列着白色的暂停图标、音量喇叭图标、齿轮设置图标、高清画质标识 '4K' 以及矩形的全屏图标。
在进度条上方、画面底部的居中位置,显示着两行带有黑色描边的清晰白色字幕,上排为中文:'我们需要在1100度的高温下,迅速将这团熔融的玻璃塑形。',下排为对应的较小字号英文:'We need to shape this blob of molten glass quickly at a high temperature of 1100 degrees.'

写实照片

这个是在玻璃白板上,手绘一张海贼王全家福。

景深,反光,虚实的感觉,全都是对的。

一眼看过去,毫无违和感。

提示词:一张高清晰度的写实照片,采用正面视角拍摄了一块通透的玻璃白板。白板表面使用褪色的红色马克笔手绘了《海贼王》中草帽海贼团(Straw Hat Pirates)的全员合影。在横向展开的宽屏画面中,从左至右依次绘制着布鲁克(Brook)、弗兰奇(Franky)、罗宾(Robin)、索隆(Zoro)、路飞(Luffy)居于中心、娜美(Nami)、山治(Sanji)、乌索普(Usopp)、乔巴(Chopper)和甚平(Jinbe)。
各个角色以生动的马克笔线条勾勒出标志性的轮廓与姿态。画面的物理细节极度逼真,绿色马克笔的墨迹呈现出明显的水分不足与褪色感,线条中间有墨水变淡、边缘有颜料堆积的真实白板画特征,部分笔画带有轻微的断续感。玻璃白板本身具有极强的真实感,表面泛着柔和的室内环境反光和高光,透过厚重的玻璃隐约可见后方被景深虚化处理的室内背景。
白板上还可以察觉到之前擦拭留下的微弱绿色墨渍残留、玻璃反光面上的细小划痕和灰尘颗粒。
整体画面光线均匀,色调干净,摄影级的4K高分辨率将玻璃的光学质感、褪色墨水的纹理与手绘线条的细节展现得淋漓尽致。

表情包

表情包这一块,也是轻松拿捏。

提示词:数字插画格式的表情包贴纸展示图。画面呈横向构图,背景为浅黄色的波点图案。画面中以2行3列的网格布局展示了6个以同一二次元动漫角色为主题的表情包贴纸。每个贴纸边缘都带有粗白色的描边,呈现出实物模切贴纸的立体质感。
统一的贴纸角色为一名二次元风格的可爱少女。她拥有一头淡紫色的短卷发鲍伯头(bob),齐刘海,头顶戴着一个精致的金色的新月与星星发饰。她身穿一件奶油色的宽松卫衣,上面印有细小的星座图案。她的眼睛为闪亮迷人的琥珀金色深邃大眼。第一排左侧的贴纸中,少女面带温柔微笑,双手高高举起热烈地打招呼。左下角配有粉色带白色粗描边的 '你好'。第一排中间的贴纸中,少女俏皮地单眼眨眼,一只手在脸颊比出个手指爱心,另一只手拿着一个小的红色心形盒子。底部配有红色的 '爱你'
第一排右侧的贴纸中,少女眼中含着泪光,面带感动的泪滴,双手合十放在胸前,表情温柔且被感动(感动落泪)。右上角配有柔蓝色的英文单词 '抱抱'。第二排左侧的贴纸中,少女脸颊鼓起,双手交叉抱在胸前,呈现傲娇生气的姿态,一只脸颊可操作地过度膨胀。头部右侧画有一个表示生气的红色十字路口符号(💢),下方配有紫色的英文单词 '哼'
第二排中间的贴纸中,少女双眼圆睁,瞳孔缩小,双手紧紧地捂住嘴巴,露出极度震惊难以置信的表情。左上角配有橙色的英文单词 'OMG'。第二排右侧的贴纸中,少女闭眼大笑,露出整齐牙齿,右手朝前比出自信的大拇指,左手比出V字手势(和平/OK手势)。背景带有黄色的四角闪亮星星特效,底部配有鲜绿色的英文单词 'OK'
整体画面色彩明快,主要采用柔和的马卡龙色调,光影处理为日系赛璐璐平涂风格,人物线条清晰流畅,充满活力与趣味性。

商业摄影

一眼望过去,无论是灯光,影子,还是亚麻布的褶皱。

全都透露着高级感的气息。

提示词:一幅商业棚拍风格的电影感概念产品摄影图。整体呈现极简主义与建筑美学风格,画幅比例宽阔。
背景是一面干净的低饱和度鼠尾草绿曲面棚拍墙(无缝环幕)。右上方设有高端柔光箱照明,搭配柔和的百叶窗光影投射在背景墙和物体表面,形成细腻的渐变与层次,整体色调清新、通透且富有高级质感。
画面的核心是由不对称的阶梯式展示台与几何拱门组合而成的空间,材质交替使用了带有细腻微粒纹理的哑光赤陶土与拉丝黄铜金属。展台的底部边缘铺垫着一块浅燕麦色的粗纺亚麻布,呈现出自然随性的垂坠褶皱,作为场景的基础点缀。在视觉中心的赤陶土拱门下方,放置着一个拉丝黄铜材质的浅托盘。、
托盘上摆放着画面的主角:一瓶磨砂半透明玻璃材质的精华液,配有质感厚重的黄铜滴管,瓶身印有极简的深绿色英文字母“BOTANICAL”和稍小的“REPAIR SERUM”。在拱门的右侧,是一个较低的赤陶土圆柱形讲台,上面放置着一个极简的白瓷面霜罐,旁边自然地倚靠着一把晶莹剔透的天然玉石刮痧板。展台的最前方延伸出一块不规则的天然浅色石板,石板上放置着一瓶细长的植萃保湿喷雾,紧挨着的是一个柔软的米色天鹅绒化妆收纳袋,增加了前景的视觉层次。
场景的四周精心布置了不喧宾夺主的极简装饰物。在画面的左后方,摆放着一块边缘粗糙的天然洞石,石块旁点缀着一两片带有微小露珠的鲜活龟背竹叶片,在鼠尾草绿的墙面上映出柔和的植物阴影。在画面的右侧中景位置,随意散落着几颗干燥的白茶茶球与半个切开的新鲜无花果,增添了有机的自然气息;在这些元素的后方,斜靠着一面无边框的极简半圆形化妆镜,巧妙地反射出画面外的柔和光源。
整个画面构图严谨,主次分明,护肤产品系列在各层级上呈现艺术性排列,细节达到了8K超高清的分辨率与照片级质感。

人像照片

挑战给同一张脸,配九种不同的发型。

角色一致性拉的很满,实现发型自由。

提示词:一张由九张人像照片组成的拼贴图,呈3x3的网格布局,展示了同一位亚洲女性模特的九种不同发型设计。
每张照片均为正面特写,背景统一为简洁的米色或浅灰色,光线柔和均匀,类似影棚拍摄效果。
第一行左侧展示了模特的长直发造型,发色乌黑,发丝顺滑,中分发型露出额头。中间是一款短发造型,发色为深棕色,发尾微卷,呈现出层次感丰富的波波头风格。右侧是一款侧边低马尾造型,头发在脑后扎起,脸颊两侧留有几缕微卷的碎发,风格清新。
第二行左侧展示了复古风格的波浪卷发,发色为深棕色,发丝蓬松且有明显的波浪纹理,营造出复古气息。中间是一款齐刘海波波头(Bob cut),发色为深棕色,发尾修剪整齐,长度及下巴,展现干练利落的气质。右侧是一款高马尾造型,头发扎成紧致的高马尾,露出清晰的面部轮廓和耳朵。
第三行左侧是一款带有空气刘海的低马尾造型,发色为冷棕色,马尾扎在脑后,露出颈部线条,显得温柔大方。中间是一款带有发簪装饰的盘发造型,头发在头顶盘成一个发髻,插有一根细长的发簪,风格古典优雅。右侧是一款短发造型,发色为深棕色,头顶部分头发较短,两侧留有较长的鬓角,呈现出层次感丰富的短发风格。
整组图片清晰地展示了不同发型的细节与质感,模特面部妆容精致,五官清秀。

精准文字渲染

无论是中文,英文,数字还是拼音,甚至是符号,全都可以精准渲染。

指令遵循能力也是非常强大,咱们的提示词基本上都很好的还原了,直接给到一个夯爆。

提示词:8K超高清的3D黏土风格儿童认知沙盘全景图插画。画面采用广角微缩沙盘视角,前景与中景全焦清晰,背景轻度虚化。
整体风格采用软萌的统一黏土材质,所有物体边缘圆润、无尖角,配色主要为柔和的马卡龙色与莫兰迪色,沐浴在明亮柔和的体积光中,呈现出高品质的Cinema 4D可爱渲染效果。
画面最上方是标题区,中央有彩色高光、超大号圆滚滚黏土气球字构成的标题文字:'交通工具 双语认知大发现'。标题两侧对称装饰着可爱的黏土浮雕,包括一架迷你飞机、一辆迷你汽车和一个迷你船锚。
主体场景是一个大型的"交通工具乐园玩具沙盘"。地面分布着柔软的黏土道路、高铁滑轨、带有白色条纹的迷你机场跑道和一个带有小湖泊的小型港口。环境点缀着圆滚滚的路灯柱、漂浮的棉花糖云朵、一簇簇黏土树丛以及一座横跨水面的小桥。画面中央偏下位置站着两位引导角色:一个穿着探险服的可爱黏土探险宝宝和一只黏土小狗,宝宝正兴奋地伸手指着前方的交通工具引导视线。八个核心交通工具错落有致地分布在沙盘各处,每个交通工具旁边都有一个奶白色或浅黄色的软胶标签牌(圆角、厚边、轻微浮雕感)。标签牌通过一根粗壮圆润的橙黄色或粉蓝色3D黏土箭头精准指向对应的交通工具,箭头之间互不交叉。标签牌上的文字分三行排列(第一行中文超粗圆体,第二行带声调拼音,第三行英文圆润无衬线):1、道路上有一辆蓝色黏土小汽车,指向它的标签牌写着:'汽 车',第二行'qì chē',第三行'Car'。2、道路十字路口有一辆白底红十字的救护车,标签写着:'救 护 车''jiù hù chē''Ambulance'。3、路边停着一辆黄色的校车,标签写着:'校 车''xiào chē''School Bus'。4、附近有一辆带云梯的红色消防车,标签写着:'消 防 车''xiāo fáng chē''Fire Engine'。5、机场跑道上停着一架白底蓝翼的飞机,标签写着:'飞 机''fēi jī''Airplane'。6、滑轨上行驶着一辆流线型的白色加蓝条纹高铁,标签写着:'高 铁''gāo tiě''High-speed Train'。7、道路另一侧有一辆绿色的公交车,标签写着:'公 交 车''gōng jiāo chē''Bus'。8、港口的水面上漂浮着一艘红白相间的轮船,标签写着:'轮 船''lún chuán''Ship'
在大件周围,散落着丰富的黏土质感中小件物体,包括带有红黄绿三色圆球的红绿灯、橙白相间的交通锥、方向牌、白色的道路栏杆、圆柱形的油桶、黑色小轮胎、小螺丝工具、交通岗亭、屋顶的风向标,以及带有'H'字母的小停机坪标志。画面按分组布局,保留了充分的留白呼吸感,构图丰富且井然有序。

创意海报

最后,咱们拿同样的提示词,对比下刚上线的 GPT-IMAGE-2。

左边是 GPT-IMAGE-2,右边是 ERNIE-Image。

提示词:一幅兼具新春佳节欢庆气息与高级艺术美感的2026年北京都市宣传海报。
采用多重曝光手法,画面整体呈现出蜿蜒灵动的S型视觉引导线;视线来到带有素雅肌理的纯白背景右下方,一位身着华美传统服饰的微距小人正翩翩起舞,手中挥动着一匹灵动飘逸的赤色锦缎。这抹红绸顺势向画面的左上角腾跃飞舞,丝滑的布料在半空中魔幻般地化作连绵起伏的巍峨群山与奔流江水。
在这如梦似幻的“山水画卷”里,巧妙地嵌合着北京城的国潮风手绘全景。壮阔的京城风貌一览无余,气势磅礴,令人叹为观止。画中错落有致地展现着北京的标志性景观(天坛祈年殿、故宫紫禁城、蜿蜒的万里长城、央视总部大楼、中国尊以及北海白塔)。
整个场景被缭绕的仙气与缥缈的云海簇拥,色彩斑斓且层次繁复、细节刻画入微。得益于画面中恰到好处的大面积留白,整体意境依旧保持着空灵与清雅。海报左下角以极简大气的排版设计融入了英文字母“SPRING 2026”以及竖向排列的中文标语,深刻传达出“千年古都,京韵绵长”的核心主旨。
字体设计讲究,布局疏密有致,字迹呈现锐利、清晰且完整。

动漫角色

再来个动漫角色对比。

提示词:画面主体为春野樱的半身像,位于画面中央,正面朝向观众。
角色的面部被一条清晰的黑色垂直细线从正中间一分为二,呈现出左右两个截然不同的视觉效果。
左侧画面采用典型的动漫风格,角色留着明亮的粉色短发,拥有一只大而明亮的绿色眼睛,佩戴着带有黑色粗线条勾勒的金属护额,光影呈现平面化的二次元特征。
右侧画面则呈现出写实或粗犷的风格,头发呈现出真实的毛发质感和略显凌乱的碎发,眼睛为深邃且带有虹膜细节的人类眼球,右侧的金属护额表面布满了划痕和铁锈,呈现出饱经风霜的质感。
角色的颈部和肩部可见红色的战斗服,左右两侧的颜色和材质在视觉上保持一致。
整体构图为垂直画幅的头部特写,背景为模糊的灰白色调,无其他环境元素。

游戏截图

游戏截图的对比。

提示词:一张《无畏契约》(VALORANT)的游戏内截图,采用第一人称视角(FPP)拍摄,呈现出战术射击游戏的紧张氛围。
画面中央是一把狂徒(Vandal)突击步枪,玩家的双手正握持着武器,手臂部分可见,穿着深黑色与红色相间的袖子和护臂。这把步枪配备了全息战术瞄准镜,枪身覆盖着深色波纹状的皮肤,金属边缘带有逼真的战术磨损痕迹,侧面挂着一个青绿色的花朵武器挂件,瞄准镜的玻璃呈现出光学折射感。
场景设定在意境空岛(Ascent)的室内长廊,左侧是带有威尼斯风情的木质吧台,暖黄色的复古吊灯洒下光晕;右侧墙壁有一个被特工技能轰开的巨大破洞,边缘参差不齐,墙后透出红色暗光,显示出环境的破坏。右侧墙壁上悬挂着一面带有特务图案的黑色旗帜,布料褶皱处有微弱光线。
画面包含丰富的HUD与战术UI界面:顶部显示比分“1:1”及倒计时“1:15”,左侧为蓝色(己方全员存活)特工头像,右侧为红色(敌方位置未知)头像;左上角战术小地图标记着炸弹点“A”和“B”,玩家位置距离目标点“14 m”;左下角显示生命值“150”;右下角显示弹药量“25/75”及特工技能图标。右侧中部悬浮着一行系统红色警告文字:“已对玩家 R6_Columbus 开启反友军伤害机制”。
整体光影呈现高对比度的室内效果,UI界面带有霓虹发光效果,材质细节丰富,包括木纹、金属和砖石,具有虚幻引擎级别的渲染质量。

说实话我还挺惊讶的,因为一眼望过去,大面上布局和审美是差不多的。

细节上,肯定 GPT-IMAGE-2 要更丰富一些。

但别忘了,ERNIE-Image 可是能跑在消费级显卡上的。

真有点像零氪平民玩家靠走位,硬生生和氪金大佬打了个五五开的感觉。

值得一提的是,ERNIE-Image 还配备了提示词增强器。

可以将简短的输入,扩展为更详细,结构化的提示词,彻底激发模型的生成能力。

最后,再附上一个官方的提示词库。

https://ernieimageprompt.com/

尾声

测了这么多 AI 产品,突然撞见一个良心的开源模型,内心还有点小激动。

百度这次表面上是开源,但它是真的把被算力门槛拦在门外的人。

给拉了进来。

开源这事儿吧,说复杂也复杂,说简单也就一句话。

我手里的东西不错,我愿意免费给你用,不设啥门槛。

毕竟人,才是一切的目的。

能交回到普通人手里的技术,才是好技术。

AI 这张牌桌,咱也有资格上了。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询