瘋狂在左，理性在右：算法在中間

作者：小編更新時(shí)間：2022-05-05 點(diǎn)擊數(shù)：

隨著技術(shù)進(jìn)步，AI展現(xiàn)出了強(qiáng)大的發(fā)展?jié)摿Α牡谝粋€(gè)打敗人類(lèi)圍棋世冠的AlphaGo到可以自主編程的AlphaCode，AI的可塑性常常令人驚嘆。不過(guò)與AI有關(guān)的爭(zhēng)議也一直如影隨形，比如人臉識(shí)別涉及的隱私問(wèn)題、諸多假新聞的自動(dòng)生成等。

　　如今，OpenAI新推出的DALL·E 2系統(tǒng)又一次引發(fā)了關(guān)注，這個(gè)系統(tǒng)能根據(jù)文本描述自動(dòng)生成各種圖片，這些圖片不僅能以假亂真，而且往往擁有光怪陸離的表現(xiàn)力。但在這種能力的背后，關(guān)于偏見(jiàn)和造假的隱憂(yōu)再次浮出水面。因?yàn)榧夹g(shù)雖無(wú)善惡，但人性可能經(jīng)不起考驗(yàn)。

　　你見(jiàn)過(guò)泰迪熊在時(shí)代廣場(chǎng)玩滑板嗎？你見(jiàn)過(guò)宇航員在外太空騎馬嗎？

瘋狂在左，理性在右：算法在中間(圖1) 瘋狂在左，理性在右：算法在中間(圖2)

　　DALL-E 2 讓你“看”到了以上兩幅現(xiàn)實(shí)中根本不存在的圖像。

　　DALL-E 2是何物？它是聞名遐邇的 OpenAI 開(kāi)發(fā)出的文本生成圖像工具DALL-E 的最新版本，也是最近有點(diǎn)小破圈、引起了一定討論熱度的AI系統(tǒng)。

DALL-E 2：畫(huà)質(zhì)飛升，新增二次創(chuàng)作功能

　　2021年1月，OpenAI創(chuàng)造了DALL-E。這一系統(tǒng)是基于GPT-2/GPT-3語(yǔ)言模型與CLIP圖片識(shí)別系統(tǒng)而生成的。據(jù)了解，DALL-E這一名稱(chēng)來(lái)源于超現(xiàn)實(shí)主義畫(huà)家薩爾瓦多·達(dá)利（Salvador Dali）和皮克斯出品動(dòng)畫(huà)《機(jī)器人總動(dòng)員》的主角瓦力（WALL-E）的名字組合。

　　相較第一代DALL-E，DALL-E 2在精確度和寫(xiě)實(shí)度上分別提升了71.7%和88.8%，在畫(huà)質(zhì)上更是得到了質(zhì)的飛躍。舉例來(lái)說(shuō)，初代DALL·E圖片像素只有256×256，而DALL·E 2像素可達(dá)1024×1024，分辨率更勝一籌，延遲也變得更低。

　　就像同樣的文本描述“a painting of a fox sitting in a field at sunrise in the style of Claude Monet”（一幅狐貍在日出時(shí)坐在田野里的畫(huà)，莫奈風(fēng)格），在兩代系統(tǒng)中生成的圖片表現(xiàn)就有明顯差異。直觀來(lái)看，左邊（DALL-E 1）像粗糙的卡通畫(huà)，而且糊作一團(tuán)，右邊（DALL-E 2）的清晰度明顯提升，且真正有了油畫(huà)的質(zhì)感。

瘋狂在左，理性在右：算法在中間(圖3)

圖源：OpenAI官網(wǎng)

　　而且，DALL-E 2還新增了兩個(gè)功能——“圖像修補(bǔ)”（ inpainting）和“變體”（variations），可以用于編輯和潤(rùn)色圖片。

　　“圖像修補(bǔ)”就是局部變更現(xiàn)有圖片中的一部分。具體來(lái)說(shuō)，就是通過(guò)DALL·E 2用AI生成的圖像填充或替換圖片中的單個(gè)對(duì)象，同時(shí)和原圖無(wú)縫銜接，比如將沙發(fā)上的抱枕?yè)Q成一只小狗，或在水池中放一只玩具鴨子。

瘋狂在左，理性在右：算法在中間(圖4)

圖源：OpenAI官網(wǎng)

　　“變體”是指以一張圖像為藍(lán)本，重新創(chuàng)造出不同角度不同風(fēng)格的新圖像。用戶(hù)可以在上傳一張?jiān)紙D片后對(duì)其進(jìn)行各種風(fēng)格變化，還可以將兩張圖片上的對(duì)象進(jìn)行疊加生成新圖。

瘋狂在左，理性在右：算法在中間(圖5)

圖源：OpenAI官網(wǎng)

突破與挑戰(zhàn)：以假亂真的圖片是如何生成的

　　此次 Open AI 推出的新版本 DALL-E 2 是基于名為CLIP的計(jì)算機(jī)視覺(jué)系統(tǒng)而建立的。CLIP 接受了數(shù)億張圖像及其相關(guān)標(biāo)題的訓(xùn)練，了解給定文本片段與圖像的關(guān)聯(lián)程度。

　　值得關(guān)注的是，OpenAI通過(guò)對(duì) CLIP 進(jìn)行迭代，創(chuàng)建了“unCLIP”——一個(gè)基于描述并朝著圖像生成目標(biāo)運(yùn)行的新系統(tǒng)，同時(shí)將其用于 DALL-E 2。unCLIP可以部分完善 CLIP 的不足之處，即“人們可以通過(guò)給物體貼上一個(gè)表示其他東西的單詞，來(lái)誘使系統(tǒng)錯(cuò)誤地識(shí)別所看到的內(nèi)容”。

　　舉個(gè)例子，如果教給系統(tǒng)一個(gè)名稱(chēng)錯(cuò)誤的對(duì)象，比如一張標(biāo)簽名稱(chēng)是“汽車(chē)”的飛機(jī)圖片，那么之后當(dāng)用戶(hù)想要生成“汽車(chē)”的圖像時(shí)，也許就會(huì)生成一張飛機(jī)的圖像。這個(gè)過(guò)程就像和一個(gè)學(xué)了錯(cuò)詞的人交談一樣。在這一點(diǎn)上，unCLIP的表現(xiàn)要比 CLIP 出色得多。

　　同時(shí)，新系統(tǒng)支持?jǐn)U散模型（Diffusion Models），這種程序會(huì)先從隨機(jī)點(diǎn)形成的圖案開(kāi)始，一旦取得更具體的描述重點(diǎn)后，會(huì)漸近地轉(zhuǎn)變成圖片。其優(yōu)勢(shì)在于可以生成高質(zhì)量的合成圖像，尤其在與引導(dǎo)技術(shù)結(jié)合使用時(shí)，能夠在保真度上權(quán)衡多樣性。

　　不過(guò)，盡管文本生成圖片的相關(guān)研究一直在進(jìn)步，但始終有不盡如人意的地方，就像DALL-E 2同樣會(huì)被其訓(xùn)練中的盲區(qū)所限制。

　　比如，你在DALL-E 2中輸入通過(guò)學(xué)習(xí)圖像與正確標(biāo)簽而理解的“猴子”，它會(huì)生成不少有意思的猴子圖像。但如果你輸入“吼猴”（howler monkey），同時(shí)它又沒(méi)學(xué)會(huì)“吼猴”是什么，不知道這其實(shí)是一個(gè)物種名稱(chēng)。那么DALL-E 2會(huì)給你它所認(rèn)為的最優(yōu)結(jié)果——一只在大吼大叫的猴子。就目前來(lái)看，DALL-E 2的潛力和局限同樣突出、同樣清晰。

技術(shù)需要深究，人性不可窺探

　　有意思的是，一直以來(lái)，Open AI 都沒(méi)有完整公開(kāi)過(guò) DALL-E 的模型。目前，用戶(hù)可在其官網(wǎng)注冊(cè)賬號(hào)后預(yù)覽該工具。相關(guān)研究人員只表示，希望繼續(xù)進(jìn)行分階段的過(guò)程，以便能安全地發(fā)布這項(xiàng)技術(shù)。

　　盡管 DALL-E 2 的造物令人眼花繚亂，但很多人已覺(jué)察到這項(xiàng)技術(shù)背后的隱憂(yōu)。姑且不論算法自誕生以來(lái)就飽受詬病的偏見(jiàn)問(wèn)題，光是其幾可亂真的圖片質(zhì)量就可以讓人心生忌憚。就像亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)教授蘇巴拉所說(shuō)：“你可以用它來(lái)做好事，但你肯定可以用它來(lái)做更加瘋狂的事情，包括深度偽造的照片和視頻?！?/p>

　　如同當(dāng)初GPT-3被質(zhì)疑用來(lái)生產(chǎn)假新聞一樣，DALL-E 2這樣的圖片生成工具也有可能遭到濫用。如果人人都可以不費(fèi)力地輸出大量毫無(wú)違和感的假照片時(shí)，人人自危還會(huì)遠(yuǎn)嗎？毫無(wú)疑問(wèn)，“人們將不得不對(duì)他們?cè)诰W(wǎng)上看到的幾乎所有東西持懷疑態(tài)度。”

　　關(guān)于DALL-E 2的外媒報(bào)道下，有讀者一針見(jiàn)血地指出：“如果這件事公開(kāi)，最明智的做法是完全脫離網(wǎng)絡(luò)和電視，避免與那些想告訴你在網(wǎng)絡(luò)上看到什么東西的人有任何接觸。如果未來(lái)全息影像成為主流，那么我們將為子孫后代創(chuàng)造一個(gè)反烏托邦式的地獄?！?/p>

　　對(duì)此，OpenAI也有了預(yù)判并表示，其將在持續(xù)構(gòu)建 DALL-E 的同時(shí)利用保護(hù)性的策略來(lái)應(yīng)對(duì)圖像偏見(jiàn)及錯(cuò)誤信息等潛在問(wèn)題。這些措施包括：

　　DALL-E 2生成的圖片會(huì)有一個(gè)水印，標(biāo)志其來(lái)自人工智能。

　　DALL-E 2 是基于篩選掉不良材料后的數(shù)據(jù)所訓(xùn)練出來(lái)的。理想情況下已限制了其產(chǎn)生有害內(nèi)容的能力。

　　反濫用功能，使DALL-E 2不能通過(guò)名字隨意生成可被識(shí)別的人物面孔。

　　用戶(hù)不得在該工具“上傳或生成仇恨符號(hào)、裸體、淫穢手勢(shì)及與正在發(fā)生的重大地緣政治事件有關(guān)的陰謀或評(píng)論”。

　　用戶(hù)需說(shuō)明人工智能為生成圖像所做的變化，且不能借由軟件及網(wǎng)站將生成的圖像給到其他人。

　　雖然不知成效如何，但至少DALL-E 2現(xiàn)在還被鎖于“深匣”之中。當(dāng)然，需要承認(rèn)的是，DALL-E 2 強(qiáng)大的能力允許人們通過(guò)以前完全無(wú)法實(shí)現(xiàn)的方式用圖像表達(dá)自己，在此之前，沒(méi)人知道“長(zhǎng)的像牛油果的椅子”“彈吉他的北極熊”“達(dá)利風(fēng)格的空中花園”“留著莫西干頭的蒙娜麗莎”是什么樣，如今DALL-E2卻讓這一切都以逼近現(xiàn)實(shí)的方法呈現(xiàn)在大眾眼前。同時(shí)，DALL-E 2也幫助人們明白，一個(gè)復(fù)雜的人工智能系統(tǒng)如何觀察和了解我們的世界，對(duì)于研發(fā)一個(gè)有用且安全的AI，這一點(diǎn)至關(guān)重要。

加入收藏

上一篇：釘釘發(fā)布業(yè)界首款單機(jī)10米拾音視頻會(huì)議一體機(jī)F2

下一篇：谷歌AI芯片設(shè)計(jì)能力超過(guò)人類(lèi)？?jī)?nèi)部研究員發(fā)出質(zhì)疑，結(jié)果遭解雇

返回列表