這篇文章可以讓大家更好的了解AI繪畫(huà)如何發(fā)展到今天的,作為一個(gè)科普文,里面不涉及任何高深的技術(shù)點(diǎn)。
AI生成繪畫(huà)本來(lái)是一個(gè)特別小眾的領(lǐng)域,但是在今年越來(lái)越多圈子外的人都已經(jīng)開(kāi)始了解和使用它。那么今天我想帶大家一起回顧一下AI繪畫(huà)是如何開(kāi)始的,又是怎么在今年突然出圈?
我們幾乎每個(gè)人都會(huì)說(shuō)話,但是只有極少數(shù)的一部分人會(huì)畫(huà)畫(huà),我們管這一小部分會(huì)畫(huà)畫(huà)的人叫畫(huà)師。畫(huà)畫(huà)在大家眼里是一件需要天賦和長(zhǎng)期艱苦訓(xùn)練的事情,很多人從小就接受美術(shù)訓(xùn)練,花了長(zhǎng)達(dá)7~8年的時(shí)間可能才可以達(dá)到一個(gè)及格的水平。
用midjouney生成的蒸汽朋克貓咪
緣起:2015年 用文字畫(huà)畫(huà)
這件事的源頭得從7年前,2015年開(kāi)始說(shuō)起,那一年出了一項(xiàng)人工智能的重大進(jìn)展——智能圖像識(shí)別。機(jī)器學(xué)習(xí)可以標(biāo)記圖像中的對(duì)象,然后他們還學(xué)會(huì)了將這些標(biāo)簽放入自然語(yǔ)言描述中去。
這件事讓一組研究員產(chǎn)生了好奇。如果把這個(gè)過(guò)程翻轉(zhuǎn)過(guò)來(lái)會(huì)怎么樣?
我們可以把圖像轉(zhuǎn)換成文字,那么我們是否同樣可以把文字轉(zhuǎn)換成圖像?
這是一項(xiàng)異常艱巨的工作,它跟你從搜索引擎上用文字搜索圖像完全不一樣。他們希望用文字去生成那些這個(gè)世界上沒(méi)有的圖像。
于是他們向計(jì)算機(jī)模型詢問(wèn)了一些他們從未見(jiàn)過(guò)的東西。舉個(gè)例子,你見(jiàn)過(guò)的所有的校車(chē)都是黃色的,那么如果你寫(xiě)紅色或者綠色的校車(chē),它真的會(huì)嘗試生成綠色么?它真的做到了。
這是一個(gè)32X32像素的小圖片,糊的你幾乎分辨不出來(lái)這是什么東西,但是這是一切的開(kāi)始。這些研究人員在2016年的論文顯示了未來(lái)的無(wú)限可能。
而現(xiàn)在未來(lái)已來(lái)。
2021年 Dalle 與 開(kāi)源社區(qū)的程序員們
openAI與它并不open的Dalle
讓我們把時(shí)間倒回去一年,回到2021年一月。一家叫openAI的人工智能公司宣布了dalle,他們聲稱(chēng)可以從任何文字中創(chuàng)建圖像。他們今年4月公布了dalle2,生成的圖像更加的逼真和精確了。而且還可以對(duì)這些圖像進(jìn)行無(wú)縫編輯。
但是openai一直都沒(méi)有公開(kāi)dalle的算法和模型。直到現(xiàn)在,哪怕dalle2都開(kāi)始商用了,它的限制仍然很多。
AI開(kāi)源社區(qū)
所以在過(guò)去的一年里,一個(gè)由獨(dú)立開(kāi)發(fā)人員組成的開(kāi)源社區(qū),根據(jù)現(xiàn)有的所有已知的技術(shù)模型,做了各種各樣的開(kāi)源文本圖像生成器。
在這個(gè)時(shí)期我把它稱(chēng)之為colab時(shí)期,這些免費(fèi)開(kāi)源的生成器都需要你在google colab上才可以使用,需要一定程度的代碼知識(shí),而且生成的圖像還非常的抽象,像素也比較低。我周?chē)灿袔讉€(gè)朋友在21年開(kāi)始玩AI繪畫(huà),但是都局限在非常非常小的圈子。
2021年11月的時(shí)候一款叫dream by wombo的APP出現(xiàn)了,它把AI的生成器封裝到了APP里,這個(gè)舉動(dòng)讓所有人都可以零學(xué)習(xí)成本的使用它。所以它從2021年底一直從國(guó)外火到了國(guó)內(nèi)。
但是因?yàn)槟P退惴ǖ木窒扌裕傻膱D像質(zhì)量還是比較低的,但是已經(jīng)引起了大家的好奇心。
2022年:AI繪畫(huà)程序爆炸式增長(zhǎng)
在2022年的2月,由somnai等幾個(gè)開(kāi)源社區(qū)的工程師做了一款叫disco diffusion的AI圖像生成器。從這款圖像生成器開(kāi)始,AI繪畫(huà)得到了質(zhì)的飛躍。而且它建立了完善的幫助文檔和社群,disco diffusion本身也擁有非常完善強(qiáng)大的功能。
同樣是賽博朋克城市的提示詞,DD與dream的對(duì)比
3月國(guó)內(nèi)開(kāi)始出現(xiàn)disco diffusion的教程,隨著這些教程的不斷完善完善。越來(lái)越多的人開(kāi)始使用disco diffusion創(chuàng)作作品,但是DD有一個(gè)致命的缺點(diǎn)就是它生成的畫(huà)面都十分的抽象,這些畫(huà)面用來(lái)生成大場(chǎng)景和抽象畫(huà)還不錯(cuò),但是幾乎無(wú)法生成具象的人或者物。
3月?midjouney
這個(gè)時(shí)候一款叫midjouney的AI繪畫(huà)生成工具出現(xiàn)了。
3月14日,mid開(kāi)始內(nèi)測(cè),這是一款由disco diffusion的核心開(kāi)放人員參與開(kāi)發(fā)的AI生成器,mid與dd不同,它是一款搭載在discord上的聊天機(jī)器人程序,不需要之前繁瑣的操作,也沒(méi)有DD十分復(fù)雜的參數(shù)調(diào)節(jié),你只需要向mid輸入文字就可以生成圖像。而且mid的模型更加的精準(zhǔn),dd只能生成抽象的風(fēng)景,但是mid在人像上也能表現(xiàn)的比較好。
而且midjouney最大的優(yōu)勢(shì)其實(shí)并不是它的生成效果多么優(yōu)秀,而是在于它是一個(gè)社區(qū)形式的產(chǎn)品。跟DD每個(gè)人都是獨(dú)立創(chuàng)作不同,在mid上所有人的作品都是公開(kāi)的,你用的提示詞和相關(guān)的作品都是對(duì)社區(qū)里所有人可見(jiàn)的,你再也不需要問(wèn)其他人這幅畫(huà)用了什么提示詞?這個(gè)特性讓社區(qū)每天都不斷的涌現(xiàn)越來(lái)越多優(yōu)秀的作品和創(chuàng)意,每個(gè)人都可以盡情的學(xué)習(xí)他人的作品。
我把它稱(chēng)之為養(yǎng)蠱式創(chuàng)作。
4月?Dalle2
4月10日,dalle2開(kāi)始內(nèi)測(cè),dalle2可以生成非常精確復(fù)合邏輯的圖像。它還可以根據(jù)提示詞來(lái)重新修改編輯你的圖片。
dalle2的跟之前的AI生成器都不同,無(wú)論是DD還是mid,我們都是可以看出是AI生成的,dalle2的生成圖你已經(jīng)無(wú)法跟人類(lèi)的作品做區(qū)分了。
這是我用dalle2創(chuàng)作的畫(huà),是由左邊的提示詞直接生成的。如果我不做說(shuō)明,這幅畫(huà)跟正常的人類(lèi)作品幾乎沒(méi)有區(qū)別。
它還可以直接生成非常有質(zhì)感的3D圖像,這是我用dalle2直接生成的3D金屬質(zhì)感的十二生肖圖標(biāo)。
它還可自動(dòng)補(bǔ)充無(wú)限拓展圖像,所以特別適合用來(lái)生成無(wú)限流動(dòng)畫(huà)。類(lèi)似這種。
看到這里大家可能覺(jué)得dalle2已經(jīng)很完美了,但是其實(shí)直到今天,dalle2的相關(guān)技術(shù)都是對(duì)公眾封閉的,而且dalle2的使用也需要申請(qǐng),而且通過(guò)率很低。dalle2的研發(fā)人員覺(jué)得他們做了一款很可能用來(lái)作惡的工具,所以它設(shè)置了非常多的限制,死亡,色情,人臉,暴力,公眾的人物等等都是禁止在dalle2上使用的。
跟openai這個(gè)名字不同,dalle2一點(diǎn)都不open。
dalle2的擔(dān)憂是多余的么?不是的,這個(gè)工具確實(shí)非常可怕,不法分子可以利用它來(lái)輕松生成各種各樣的假圖片。但是歷史的車(chē)輪會(huì)因?yàn)閐alle2的這些限制停下來(lái)么?
7月?Stable diffusion
7月29日 一款叫 SD的AI生成器開(kāi)始內(nèi)測(cè),它可以生成媲美dalle2的精確度的圖像。共分 4 波邀請(qǐng)了 15000 名用戶參與了內(nèi)測(cè)。只用了十天它的活躍數(shù)據(jù)已經(jīng)到了每天一千七百萬(wàn)張。
SD的背后是一家英國(guó)的人工智能方案提供商,它的slogan就是“ai by the people,for the people”。跟dalle2的封閉不一樣,這家公司十分推崇開(kāi)源。
所以在8月22號(hào),他們內(nèi)測(cè)剛開(kāi)始二十多天,SD正式宣布開(kāi)源,這意味著所有人都通過(guò)它開(kāi)源的技術(shù),在本地使用SD生成自己想要的圖像。SD開(kāi)源屬性讓它在短短的一個(gè)月跟各種各樣的工具結(jié)合。甚至mid也使用了開(kāi)源的sd模型,并且得到了巨大的反響,這個(gè)功能只內(nèi)測(cè)了24小時(shí),但是是目前mid社區(qū)里呼聲最大的。24小時(shí)里mid結(jié)合SD生成了大量的作品。
國(guó)外藝術(shù)家用SD生成的畫(huà)作,藝術(shù)效果上已經(jīng)超越了dalle
除此之外它還被做成了figma和ps的插件,在figma的插件里你只需要簡(jiǎn)單的畫(huà)出草圖,就能根據(jù)文字生成非常完整的設(shè)計(jì)稿。在ps里面你可以無(wú)縫拼接補(bǔ)完圖像。可以說(shuō)現(xiàn)在的SD把前面所有的AI生成工具的功能全部結(jié)合到了一起,然后還把它開(kāi)源了。
AI繪畫(huà)發(fā)展時(shí)間線
現(xiàn)在,我們來(lái)回顧一下這一切,2015年的時(shí)候,一群好奇的工程師,把圖像識(shí)別生成文字這個(gè)過(guò)程翻轉(zhuǎn)過(guò)來(lái)了,他們生成了最開(kāi)始的32像素的小圖片,在經(jīng)過(guò)了漫長(zhǎng)的六年的緩慢發(fā)展后,2021年openai和一群開(kāi)源工程師分別用他們自己的方式完善算法和模型。到了今年2022年,這個(gè)技術(shù)突然就爆發(fā)了,對(duì)于國(guó)內(nèi)的大部分接觸AI繪畫(huà)人來(lái)說(shuō)只有短短的四個(gè)月,這四個(gè)月里發(fā)生了mid內(nèi)測(cè),mid公測(cè),dalle2內(nèi)測(cè),dalle2商用,sd內(nèi)測(cè),sd開(kāi)源等等,還有無(wú)數(shù)的AI繪畫(huà)小工具。
哪怕是像和菜頭這樣完全繪畫(huà)圈外的人也在不斷的討論和使用AI繪畫(huà)的功能。
很多創(chuàng)意相關(guān)的人已經(jīng)開(kāi)始用AI輔助了,我的一個(gè)朋友說(shuō),他的老板讓他不要對(duì)外說(shuō)他們的工作中加入了AI輔助。
“不要跟別人說(shuō)我們的工作中使用了AI輔助。”
現(xiàn)在已經(jīng)有大量的創(chuàng)意人和公司在使用AI繪畫(huà)輔助,但是他們又不希望有太多的人知道。還有大量的創(chuàng)意與藝術(shù)行業(yè)的從業(yè)者內(nèi)心十分抵觸這項(xiàng)技術(shù),覺(jué)得它根本就不應(yīng)該出現(xiàn)。在8月15號(hào)就發(fā)生過(guò)一件非常有趣的事件,SD的推特賬號(hào)突然掛了,因?yàn)楸淮罅克囆g(shù)家舉報(bào),SD的創(chuàng)始人在社群里表達(dá)了他對(duì)這件事的看法,他說(shuō):他們?cè)诩刀蔄I畫(huà)的比他們好。不過(guò)這件事最后被證實(shí)為烏龍,因?yàn)檫@個(gè)賬號(hào)其實(shí)只是個(gè)粉絲賬號(hào),并不是官方賬號(hào)。
歷史的車(chē)輪呼嘯而過(guò),是選擇跳上這輛車(chē),還是停留在原地,都是個(gè)人的選擇。但是無(wú)論你是否參與,它都不會(huì)因?yàn)槟愕目捶ǘO聛?lái)。
內(nèi)容經(jīng)授權(quán)轉(zhuǎn)載自公眾號(hào)“非科班設(shè)計(jì)”
精選文章:
隈研吾新作:梯田中的「農(nóng)舍」,在地化的酒店設(shè)計(jì)
被譽(yù)為男裝鬼才,用奇奇怪怪的腦洞表達(dá)服裝之下的隱藏盲盒
非特殊說(shuō)明,本文版權(quán)歸原作者所有,轉(zhuǎn)載請(qǐng)注明出處:大作網(wǎng)