出品|三言Pro 作家|DorAemon
当天,2024百度寰球大会在上海举办,百度创举东谈主李彦宏在会上发表了题为《行使来了》的演讲。
在会上,李彦宏谈到已往24个月关于大模子行业而言,最大的变化是“大模子基本上排斥了幻觉”,回话问题的准确性大大的栽种了。 “让AI从一册老成的瞎掰八谈变得可用,可被相信。”
李彦宏在会上先容了百度最新的iRAG时刻,依托该时刻,可以让AI大模子文生图功能准确性大增,不再有“幻觉”,也即是说,AI制作的图片也曾不再有“AI味儿”了。
其实李彦宏对AI大模子的评价瑕瑜常到位的,AI文生图的“AI味儿重”也曾闹出不稀有笑,到当今也曾进化到解脱“AI味儿”了。
也曾“图差别题”
如今用iRAG排斥模子幻觉
紧记旧年国内大模子发布之后,文生图功能连忙诱骗了一批用户,然则也很快成为网友辱弄对象。
群众为什么辱弄呢,因为其时期大模子对用户“文生图”的舛误词意会是真从“字面真义真义”上默契的。
若是不说上头这五张图的正确谜底,就怕群众很难猜得出这些图到底抒发的是什么真义。而一朝知谈了“谜底”,会坐窝“笑喷”。
上头这五张图是彼时大模子画的锤子手机、皋比鸡蛋、偶而应变、鱼香肉丝和驴肉火烧。
除了上述这类比拟“逗乐”的问题外,AI文生图居品也平庸会犯一些知识性颠倒。比如条目大模子生成一张天坛图片,但大模子给出的截至是一座四层形似天坛的图片,而天坛试验上只须三层。
这即是AI文生图的“AI味儿”。
但在笔者看来,最运行大模子文生图出现这么令东谈主啼笑皆非的截至,起原评释其是真“我方意会、我方生成”,而非简单好坏的复制收集内容;其次,这些问题跟着居品进化也得回诞生,以文心大模子为代表的国产大模子正在抑制进化。
百度寰球2024上,百度流露发布iRAG时刻,即image based RAG检索增强文生图时刻。招揽该时刻的文生图才略不仅不再犯上头这种“搞笑颠倒”,更是在生成特定物品、生成特定东谈主物与自便布景连合的图片,比如“某东谈主物在某地点作念某事”。iRAG所生成的图片是真实、无模子幻觉的,准确性高,莫得“AI味儿”。
那么,领有更强文生图才略的文小言,试验后果奈何呢?笔者决定切身测试,况兼也尝试了其他两种不同大模子居品进行简单对比。
测试经过中,包括文心一言在内的三个大模子使用的舛误词均一致,只对比不同大模子文生图截至区别。
iRAG时刻试验测试:准确率相当高
为了约略得回愈加真实的测试截至,笔者决定让不同大模子生成十张图,然后对比截至各异。
1. 让大模子生成一张马斯克在吃蛋糕的图片。
先来看文心一言的截至,文心一言提供了两张图片,起原这两张图片中东谈主物为马斯克的特征相当多,可以说一眼就能看出是马斯克;一张中马斯克身穿西服,手里拿着蛋糕;另一张中则是马斯克身着T恤,双手端着盛有蛋糕的盘子。岂论哪张,都准确无误。
另一款大模子居品,这里叫“大模子A”吧,一次给出了三张“马斯克吃蛋糕的图片”。可以看出,大模子A在特定东谈主物描写上,固然也约略看出是马斯克,但并莫得那么轮廓;此外,还存在一些颠倒,有一张图片中,“马斯克”手握蛋糕的姿势很“诡异”,而且指头长度昭着差别。
再看今天测试的第三个大模子的截至,这里称之为“大模子B”吧。大模子B画的马斯克与马斯克真东谈主收支甚远,更别提其手握蛋糕的手指画错。
2. 生成一张安妮海瑟薇吃炸酱面的图
文心一言生成了两张安妮海瑟薇吃炸酱面的图片,相同,两张图中海瑟薇的细节特征拉满,炸酱面、东谈主物手部等也都准确;
大模子A则赓续生成四张图片,其中,有一张面部不很像海瑟薇本东谈主;其余三张固然也能准确画出海瑟薇,但在东谈主物手部细节、餐具细节上仍有颠倒。
大模子B如故悉数无法准确画出海瑟薇形象,而且面碗看上去也过于弘大。
3. 生成一张霍金在篮球场打麻将的图片
这个题目笔者以为是比拟“刁顽”的,因为“元素过多”。先来看文心一言生成的两张图中,可以说正确率在90%,惟一颠倒则是霍金“莫得轮椅”,除此除外,东谈主物形象、篮球场、打麻将这些细节都得回体现。
而大模子A此次属于“透顶翻车”,不仅莫得准确生成霍金的外貌,在处置麻将桌上颠倒百出。
大模子C的截至只可说“轮椅”是正确的,东谈主物形象和麻将牌摆放神色都不准确。
4. 生成一张苹果CEO库克在天坛骑车的图片
文心一言生成的两张图中,可以昭着看出东谈主物具有库克特征,同期布景也有天坛以及天坛式建筑。但库克的面部细节还欠点真义;
而大模子A生成的四张图中,具有昭着库克特征的只须一张,其余三张东谈主物形象偏差较大;而且骑自行车腿部细节有问题。
大模子C则再次无法生成指定东谈主物,且骑自行车的腿部细节颠倒。
5. 生成一张乔布斯在责任的图片。
文心一言生成的两张乔布斯责任图基本上莫得逻辑颠倒,东谈主物形象也比拟准确,惟一问题可能是画中电脑屏幕败露的系统“并非Mac OS”。
而大模子A给出的四张图中,要么东谈主物形象欠点真义,要么则是对电脑处置存在昭着颠倒;
大模子B的“乔布斯”悉数仅仅个生疏白东谈主老东谈主。
6. 生成一张东方明珠在深山里的图
文心一言对文生图条目比拟严谨,不仅体现出东方明珠电视塔在深山的意见,同期也比拟相宜逻辑地姿色出电视塔的地基等信息。
而大模子A给出的四张图中,则嗅觉比拟“生硬”,有点强行将电视塔PS到山林里的嗅觉,同期部分图中东方明珠电视塔还存在细节颠倒。
而大模子B固然体现了深山元素,然则却悉数将东方明珠电视塔姿色颠倒。
7. 生成一张鱼尾狮在沙漠里的图
嗅觉这个条目对文心一言来说“举手之劳”,不仅体现了沙漠元素,而且对鱼尾狮这尊雕镂也姿色正确;
这里把大模子A、B放一皆说,因为这两个大模子均体现了沙漠,然则却都把鱼尾狮画错了。
8. 生成一张天坛在海边的图。
文心一言姿色的天坛在海边图片中,细节如故很可以的,尤其是处置建筑与水叮嘱方位。
而大模子A生成的四张图中,固然也约略比拟准确姿色出天坛和海的元素,然则也存在把天坛三层建筑画成两层情况。
大模子B干脆把天坛“压扁”……
9.生成一张福建土楼出当今当代都市里的图
文心一言对福建土楼以及当代都市的意会准确率都很高,细节部分也都可以;
大模子A生成的四张图中,也基本准确的完成笔者条目,只须一张近景建筑嗅觉“奇怪”。
而大模子B的图片则悉数把土楼画成雷同“天坛”了。
10. 生成一张甄嬛玩手机的图
这个题目其实挺专诚想,“甄嬛”历史上并不存在,然则有其原型东谈主物,即清朝孝圣宪皇后;是以“甄嬛”的形象关于众人来说其实来自电视剧《甄嬛传》,那即是演员孙俪的形象;此外,《甄嬛传》还有原著演义,从演义角度来说,每个东谈主心中的“甄嬛”都不一样。
可以看出,文心一言的“甄嬛”是按照孙俪饰演的形象为基础,敬佩亦然许多看过电视剧《甄嬛传》网友的“第一选拔”;同期,文心一言的图片在细节处置准确率相当高。
大模子A则悉数提供了不同的甄嬛形象,并莫得参考孙俪,不外,大模子A的图片中,存在许多手指颠倒;
大模子B的甄嬛也相同存在手指细节颠倒,同期手机也有些“一眼假”。
百度要作念数百万“超等有效”的行使
悉数这个词测试体验下来,说真话,笔者确实被iRAG惊艳到。几个大模子文生图功能对比,文心一言对用户的领导意会才略最佳,出图正确率亦然最高的。
而文心一言约略最初,天然是基于百度坚决的AI才略,而且以搜索起家的百度在这方面更是有后天不良的上风。
百度的iRAG时刻约略将百度搜索的亿级图片资源和坚决的基础模子才略承接合,就可以生成各式超真实的图片,全体后果远远逾越文生图原生系统,去掉了AI味儿,而且资本很低。iRAG具备无幻觉、超真实、没资本、立等可取等特色。
在今天的测试中,文心一言对特定物品、特定东谈主物默契才略高,同期得出的截至也莫得“变形的手指”、“诡异的物品”这种充满“AI味儿”的情况。
再回到本文发轫提到的五张旧年“闹见笑”的AI成图,若是让当今的文心一言再行生成一次,截至会是什么呢?
锤子手机不再是“真锤子”、皋比鸡蛋不再是“老虎神色的蛋”、偶而应变不再是字面真义真义上的“东谈主和竹子”,鱼香肉丝和驴肉火烧也都是好意思食形象……今天的大模子悉数不会再犯也曾的“搞笑颠倒”,不仅约略准确意会用户输入词语,而且生成的图片若是不看水印悉数认不出是AI作念的。
笔者顺手用大模子A试了一下让AI生成“偶而应变”图片,截至这个模子其实如故从字面真义真义上意会,给出的是东谈主物和竹子两个元素,并不像文心一言一样约略意会谚语本意。
大模子的文生图才略是AI行使的很小一个缩影,但同期这个功能约略带来的坐褥力栽种是弘大的。小到泛泛自媒体责任者的图文剪辑,大到上市公司宣传海报制作,大模子约略显耀镌汰责任资本。而这一切都要树立在AI文生图行使“好用、能用”的基础上。
从文生图行使拓展来看,越来越多的AI行使落地才能信得过真义真义让“AI期间”惠及到悉数东谈主。是以,发展AI行使其实比“卷大模子”更要紧。
李彦宏对大模子的不雅点亦然一以贯之的,他也曾不啻一次指出,“卷行使”才是大模子发展的主见。其实李彦宏的不雅点相当正确,行使越多才能使得大模子愈加普惠化,不然仅仅无根之木,难以恒久发展。
在今天的百度寰球大会上,李彦宏称“咱们行将迎来AI行使的群星能干时刻”,他还再次强调“超等颖异”的行使比只看DAU的“超等行使”更要紧,只须对产业、对行使场景约略产生大的增益,全体价值就比迁徙互联网要大多了。
刻下,文心智能体平台也曾诱骗15万家企业和80万名设备者参与,诡秘行使场景丰富,涵盖制造、动力、交通、政务、金融、汽车、磨真金不怕火、互联网等广阔行业。李彦宏称,“百度不是要推出一个‘超等行使’,而是要抑制地匡助更多东谈主、更多企业打造出数百万‘超等有效’的行使。”