AI 與合成生物學(xué)「聯(lián)姻」的五大挑戰(zhàn):技術(shù)、數(shù)據(jù)、算法、評(píng)估與社會(huì)學(xué)
在過(guò)去的二十年里,生物學(xué)發(fā)生了翻天覆地的變化,建立在生物系統(tǒng)上的工程成為了可能。賦予了我們細(xì)胞遺傳密碼(DNA)排序能力的基因組革命是這一巨大變化的主要推手。而基因組革命帶來(lái)的最新發(fā)現(xiàn)之一,正是使用CRISPR在體內(nèi)精確編輯DNA的能力。
遺傳密碼的高級(jí)表現(xiàn),如蛋白質(zhì)的合成,被稱為「表型」(phenotype)。高通量表型數(shù)據(jù)與DNA的精確編輯結(jié)合到一起,將底層代碼的變化與外部表型聯(lián)系了起來(lái)。
圖注:Wacomka
圖注:本圖體現(xiàn)了細(xì)胞遺傳密碼(DNA)的高層次表現(xiàn)
圖注:生物學(xué)中經(jīng)常使用的數(shù)據(jù)集/數(shù)據(jù)類型(本列表收錄不全)
1合成生物學(xué)的潛力
合成生物學(xué)將對(duì)食品、能源、氣候、醫(yī)藥和材料……以至于世界上每個(gè)領(lǐng)域都產(chǎn)生變革性的影響。
圖注:合成生物學(xué)可能會(huì)影響世界上的每一個(gè)領(lǐng)域
合成生物學(xué)已經(jīng)為世人帶來(lái)了不用犧牲豬就能獲得豬的胰島素(在之前的基因工程階段就能做到)、合成皮革、壓根不是蜘蛛吐的蛛絲做的大衣、抗瘧疾和抗癌藥物、嘗起來(lái)像肉的無(wú)肉漢堡、可再生生物燃料、沒有啤酒花的啤酒花味啤酒,已滅絕了的花朵的香味,用于化妝品的人造膠原蛋白,消除攜帶登革熱蚊子的基因。許多人認(rèn)為這只是冰山一角,因?yàn)樵O(shè)計(jì)生物的能力帶來(lái)了改造世界的無(wú)限可能性,而且在這一領(lǐng)域,公共和私人投資水平都在不斷增長(zhǎng)。
圖注:學(xué)術(shù)(a)和商業(yè)(b)領(lǐng)域的顯著增長(zhǎng)為 AI 在合成生物領(lǐng)域的應(yīng)用提供了豐富的信息、數(shù)據(jù)和環(huán)境資源。
此外,進(jìn)入AI 第三次浪潮后,AI 專注于將環(huán)境融入模型,其影響合成生物學(xué)的潛力大大增加。
眾所周知,生物體的基因型與其說(shuō)是其表型的藍(lán)圖,不如說(shuō)是一個(gè)復(fù)雜的、相互關(guān)聯(lián)的、動(dòng)態(tài)系統(tǒng)的初始條件。生物學(xué)家們花了幾十年的時(shí)間來(lái)構(gòu)建和管理一套大型包含調(diào)節(jié)、關(guān)聯(lián)、變化速度和功能在內(nèi)的屬性,用來(lái)描述這個(gè)復(fù)雜的、動(dòng)態(tài)的系統(tǒng)。其他資源如基因網(wǎng)絡(luò)、已知功能關(guān)聯(lián)、蛋白質(zhì)與蛋白質(zhì)的相互作用、蛋白質(zhì)與代謝物的相互作用以及轉(zhuǎn)錄、翻譯和交互的知識(shí)驅(qū)動(dòng)的動(dòng)態(tài)模型則為人工智能模型提供了豐富的資源。
模型的可解釋性對(duì)于揭示新的設(shè)計(jì)原則也是至關(guān)重要的。這些模型給了生物學(xué)家去解決關(guān)于生物系統(tǒng)的更復(fù)雜的問題的能力,并且建立綜合的、可解釋的模型去加速發(fā)現(xiàn)與研究。我們可以從合成生物學(xué)出版物的數(shù)量以及合成生物學(xué)的商業(yè)機(jī)會(huì)中明顯看出該領(lǐng)域知識(shí)和資源的增長(zhǎng)。
2AI 及其對(duì)合成生物學(xué)的影響
與AI在合成生物領(lǐng)域的潛力相比,它在合成生物領(lǐng)域的影響有限。
我們已經(jīng)看到了AI的成功應(yīng)用,但仍然局限于特定的數(shù)據(jù)集和研究問題。AI在該領(lǐng)域目前面對(duì)的挑戰(zhàn),仍然是對(duì)更廣泛的應(yīng)用程序和其他數(shù)據(jù)集來(lái)說(shuō)有多大的通用性。
數(shù)據(jù)挖掘、統(tǒng)計(jì)和機(jī)械建模目前是該領(lǐng)域計(jì)算生物學(xué)和生物信息學(xué)的主要驅(qū)動(dòng)因素,但這些技術(shù)與人工智能/機(jī)器學(xué)習(xí)之間的界限往往是模糊的。例如,聚類是一種數(shù)據(jù)挖掘技術(shù),可以識(shí)別基因表達(dá)數(shù)據(jù)中的模式和結(jié)構(gòu),這些模式可以表明工程修改是否會(huì)導(dǎo)致細(xì)胞的毒性結(jié)果。這些聚類技術(shù)還可以作為無(wú)監(jiān)督學(xué)習(xí)模型,在未標(biāo)記的數(shù)據(jù)集中找到結(jié)構(gòu)。這些正在開發(fā)中的經(jīng)典技術(shù)和新的AI/ML(機(jī)器學(xué)習(xí))方法將在未來(lái)的領(lǐng)域合成生物中發(fā)揮更大的作用和影響,因?yàn)閷脮r(shí)人們對(duì)于更大的數(shù)據(jù)集將習(xí)以為常。轉(zhuǎn)錄組數(shù)據(jù)量每7個(gè)月翻一番,蛋白質(zhì)組學(xué)和代謝組學(xué)的高通量工作流程越來(lái)越可用。
此外,實(shí)驗(yàn)室工作微流控芯片的逐步自動(dòng)化和小型化預(yù)示著未來(lái)數(shù)據(jù)處理和分析將使得合成生物學(xué)的生產(chǎn)力倍增。DARPA的協(xié)同發(fā)現(xiàn)和設(shè)計(jì)(SD2, 2018–2021) 計(jì)劃專注于構(gòu)建人工智能模型,旨在拉近AI與合成生物學(xué)需求的差距。這一點(diǎn)在一些采用該領(lǐng)域SoTA技術(shù)的公司中也很明顯(例如Amyris、Zymergen或Ginkgo Bioworks)。
AI和合成生物學(xué)在一些方面存在重疊,比如將現(xiàn)有AI/ML應(yīng)用于現(xiàn)有數(shù)據(jù)集;生成新的數(shù)據(jù)集(例如即將到來(lái)的NIH Bridge2AI);并創(chuàng)造新的AI/ML技術(shù)來(lái)應(yīng)用于新的或現(xiàn)有的數(shù)據(jù)。雖然SD2在最后一項(xiàng)中有所貢獻(xiàn),但其仍有一定潛力,未來(lái)也有較長(zhǎng)的路要走。
人工智能可以幫助合成生物學(xué)克服一個(gè)大挑戰(zhàn),即預(yù)測(cè)生物工程方法對(duì)生物主體和環(huán)境的影響。由于無(wú)法預(yù)測(cè)生物工程的結(jié)果,合成生物學(xué)的細(xì)胞工程目標(biāo)(即逆設(shè)計(jì))只能通過(guò)大量的試錯(cuò)來(lái)實(shí)現(xiàn)。人工智能提供了一個(gè)利用公開數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)來(lái)預(yù)測(cè)對(duì)生物主體和環(huán)境影響的機(jī)會(huì)。
為細(xì)胞編程設(shè)計(jì)遺傳結(jié)構(gòu)。 許多合成生物學(xué)領(lǐng)域的研究都集中在基因結(jié)構(gòu)/基因線路的工程上,這與設(shè)計(jì)電子電路面臨著的挑戰(zhàn)大相徑庭。
人工智能技術(shù)結(jié)合了已知的生物物理、機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)模型,能夠有效預(yù)測(cè)結(jié)構(gòu)對(duì)主體的影響,反之亦然,雖然已經(jīng)頗為強(qiáng)大,但仍然有改進(jìn)空間。而在機(jī)器輔助基因線路設(shè)計(jì)方面,已有各種人工智能技術(shù)投入應(yīng)用,其中包括專家系統(tǒng)、多智能體系統(tǒng)、約束推理、啟發(fā)式搜索、優(yōu)化和機(jī)器學(xué)習(xí)。
基于序列的模型和圖卷積網(wǎng)絡(luò)在工程生物系統(tǒng)領(lǐng)域也得到了關(guān)注。因子-圖神經(jīng)網(wǎng)絡(luò)已被用于將生物知識(shí)納入深度學(xué)習(xí)模型。圖卷積網(wǎng)絡(luò)已被用于從蛋白質(zhì)與蛋白質(zhì)相互作用網(wǎng)絡(luò)中預(yù)測(cè)蛋白質(zhì)的功能?;谛蛄械木矸e和遞歸神經(jīng)網(wǎng)絡(luò)模型已被用于識(shí)別蛋白質(zhì)的潛在結(jié)合位點(diǎn)、基因的表達(dá)和新的生物結(jié)構(gòu)的設(shè)計(jì)。人工智能最有用之處是應(yīng)用于開發(fā)綜合模型,而這將減少需要進(jìn)行的實(shí)驗(yàn)或設(shè)計(jì)的數(shù)量。
代謝工程。在代謝工程中,人工智能已經(jīng)應(yīng)用到生物工程過(guò)程的幾乎所有階段,例如人工神經(jīng)網(wǎng)絡(luò)已被用于預(yù)測(cè)翻譯起始位點(diǎn),注釋蛋白質(zhì)功能,預(yù)測(cè)合成途徑,優(yōu)化多個(gè)外源基因的表達(dá)水平,預(yù)測(cè)調(diào)控元件的強(qiáng)度,預(yù)測(cè)質(zhì)粒表達(dá),優(yōu)化營(yíng)養(yǎng)濃度和發(fā)酵條件,預(yù)測(cè)酶動(dòng)力學(xué)參數(shù),了解基因型與表型的關(guān)聯(lián),預(yù)測(cè)CRISPR的指導(dǎo)效果等階段。聚類已被用于發(fā)現(xiàn)次生代謝物生物合成基因聚類和識(shí)別催化特定反應(yīng)的酶。集合方法已被用于預(yù)測(cè)途徑動(dòng)態(tài)、最優(yōu)生長(zhǎng)溫度,并在定向進(jìn)化方法中找到賦予更高適應(yīng)度的蛋白質(zhì)。支持向量機(jī)已被用于優(yōu)化核糖體結(jié)合位點(diǎn)序列和預(yù)測(cè)CRISPR引導(dǎo)RNA的行為。在代謝工程的各階段中,人工智能最有希望被應(yīng)用于流程放大,這是該領(lǐng)域的一個(gè)重大瓶頸,以及下游處理(例如從發(fā)酵液中系統(tǒng)提取所產(chǎn)生的分子)。
實(shí)驗(yàn)自動(dòng)化。在幫助自動(dòng)化實(shí)驗(yàn)室工作和推薦實(shí)驗(yàn)設(shè)計(jì)方面,人工智能的影響已經(jīng)遠(yuǎn)遠(yuǎn)超出了DBTL周期的“學(xué)習(xí)”階段。自動(dòng)化正逐漸在實(shí)踐中變得十分重要,因?yàn)樽詣?dòng)化是獲得訓(xùn)練人工智能算法所需的高質(zhì)量、大容量、低偏差數(shù)據(jù)的最可靠的方式,自動(dòng)化還使得可預(yù)測(cè)的生物工程成為可能。自動(dòng)化提供了將復(fù)雜協(xié)議快速轉(zhuǎn)移和擴(kuò)展到其他實(shí)驗(yàn)室的機(jī)會(huì)。例如,液體處理機(jī)器人站構(gòu)成了生物鑄造廠和云實(shí)驗(yàn)室的支柱。這些鑄造廠已經(jīng)能夠看到在未來(lái)自身會(huì)被機(jī)器人和規(guī)劃算法顛覆,從而獲得快速迭代通過(guò)DBTL周期的能力。語(yǔ)義網(wǎng)絡(luò)、本體和模式徹底改變了設(shè)計(jì)和協(xié)議的表示、通信和交換。這些工具支持快速實(shí)驗(yàn),并以結(jié)構(gòu)化、可查詢的格式生成更多的數(shù)據(jù)。在一個(gè)大多數(shù)內(nèi)容要么丟失,要么被人工記錄在實(shí)驗(yàn)室筆記中的領(lǐng)域,人工智能的前景推動(dòng)領(lǐng)域發(fā)生重大變化,從而減少生成數(shù)據(jù)的障礙。
微流體是宏觀液體處理的替代品,具有更高的通量、更少的試劑消耗和更便宜的結(jié)垢。事實(shí)上,微流體可能是實(shí)現(xiàn)自動(dòng)駕駛實(shí)驗(yàn)室的關(guān)鍵技術(shù),它有望通過(guò)使用人工智能增強(qiáng)自動(dòng)化實(shí)驗(yàn)平臺(tái),大大加快研發(fā)過(guò)程。自動(dòng)駕駛實(shí)驗(yàn)室涉及完全自動(dòng)化的DBTL周期,其中人工智能算法會(huì)根據(jù)之前的實(shí)驗(yàn)結(jié)果進(jìn)行假設(shè),積極尋找有前景的實(shí)驗(yàn)程序。因此這可能是合成生物領(lǐng)域人工智能研究人員的最大機(jī)會(huì)。雖然自動(dòng)DBTL回路已經(jīng)在液體處理機(jī)器人工作站中得到了證明,但微流控芯片提供的可擴(kuò)展性、高通量能力和制造靈活性可能會(huì)提供最終的技術(shù)飛躍,使人工智能成為現(xiàn)實(shí)。
3用AI研究合成生物學(xué)所面臨的挑戰(zhàn)
人工智能已經(jīng)開始進(jìn)入各種合成生物應(yīng)用領(lǐng)域,但仍然存在的技術(shù)和社會(huì)問題成為了這兩個(gè)領(lǐng)域之間的障礙。
技術(shù)挑戰(zhàn)。將人工智能應(yīng)用于合成生物學(xué)的技術(shù)挑戰(zhàn)是:數(shù)據(jù)分散在不同的模式中,難以組合,非結(jié)構(gòu)化,往往缺乏收集數(shù)據(jù)的背景;模型需要的數(shù)據(jù)比通常在單個(gè)實(shí)驗(yàn)中收集的數(shù)據(jù)多得多,而且缺乏可解釋性和不確定性量化;并且在更大的設(shè)計(jì)任務(wù)中,沒有度量標(biāo)準(zhǔn)或標(biāo)準(zhǔn)來(lái)有效地評(píng)估模型的性能。此外,實(shí)驗(yàn)往往設(shè)計(jì)為只探索積極的結(jié)果,這使得模型的評(píng)估變得復(fù)雜化或偏倚。
圖注:將人工智能技術(shù)應(yīng)用于合成生物學(xué)領(lǐng)域的挑戰(zhàn)。
數(shù)據(jù)挑戰(zhàn)。缺乏合適的數(shù)據(jù)集仍然是人工智能與合成生物學(xué)結(jié)合的首要障礙。將人工智能應(yīng)用于合成生物學(xué)需要從個(gè)體實(shí)驗(yàn)中獲得大量標(biāo)記過(guò)的、精選的、高質(zhì)量、情境豐富的數(shù)據(jù)。盡管該社區(qū)在建立包含各種生物序列(甚至全基因組)和表型的數(shù)據(jù)庫(kù)方面取得了進(jìn)展,但標(biāo)記數(shù)據(jù)仍然很匱乏。此處所說(shuō)的“標(biāo)記數(shù)據(jù)”指的是映射到捕捉它們的生物功能或細(xì)胞反應(yīng)的測(cè)量的表型數(shù)據(jù)。正是這種測(cè)量和標(biāo)簽的存在讓AI/ML和合成生物學(xué)解決方案日趨成熟,和其他領(lǐng)域一樣讓AI與人類的能力相互競(jìng)爭(zhēng)。
缺乏對(duì)數(shù)據(jù)工程的投資是缺乏適用數(shù)據(jù)集的部分原因。在人工智能技術(shù)進(jìn)步的光芒掩蓋下,人們往往看不到支持和確保其成功的計(jì)算基礎(chǔ)設(shè)施需求。AI社區(qū)將其稱為需求金字塔,數(shù)據(jù)工程是其中一個(gè)重要的組成部分。數(shù)據(jù)工程中包括了實(shí)驗(yàn)規(guī)劃、數(shù)據(jù)收集、結(jié)構(gòu)化、訪問和探索的步驟。成功的AI應(yīng)用程序故事包含標(biāo)準(zhǔn)化、一致和可復(fù)制的數(shù)據(jù)工程步驟。雖然我們現(xiàn)在可以以前所未有的規(guī)模和細(xì)節(jié)收集生物數(shù)據(jù),但這些數(shù)據(jù)往往不能立即適用于機(jī)器學(xué)習(xí)。目前在采用全社區(qū)標(biāo)準(zhǔn)來(lái)存儲(chǔ)和共享測(cè)量數(shù)據(jù)、實(shí)驗(yàn)條件和使得數(shù)據(jù)更服從于AI技術(shù)的其他元數(shù)據(jù)方面仍存在許多障礙。需要進(jìn)行嚴(yán)格的工作和達(dá)成高度共識(shí)才能使這些標(biāo)準(zhǔn)迅速被采用,同時(shí)促進(jìn)數(shù)據(jù)質(zhì)量評(píng)估的通用標(biāo)準(zhǔn)。簡(jiǎn)而言之,人工智能模型需要在所有實(shí)驗(yàn)中進(jìn)行一致和可比的測(cè)量,這就會(huì)延長(zhǎng)實(shí)驗(yàn)時(shí)間線。這一要求為已經(jīng)遵循復(fù)雜協(xié)議進(jìn)行科研實(shí)驗(yàn)人員又增加了巨大的負(fù)擔(dān)。因此,為了趕近在眉睫的項(xiàng)目期限,收集數(shù)據(jù)的長(zhǎng)期需要往往會(huì)被犧牲掉。
圖注:一個(gè)規(guī)范的AI/ML基礎(chǔ)設(shè)施可以支持合成生物學(xué)研究。雖然研究中期往往是人們關(guān)注的焦點(diǎn),但基礎(chǔ)才是至關(guān)重要的,需要大量的資源投資。
這種情況通常會(huì)造成稀疏的數(shù)據(jù)集合,稀疏的數(shù)據(jù)集合只表示構(gòu)成組學(xué)數(shù)據(jù)棧的多個(gè)層的一小部分。在這種情況下,數(shù)據(jù)表示對(duì)集成這些孤立數(shù)據(jù)集進(jìn)行綜合建模的能力有重大影響。目前,業(yè)界在各個(gè)垂直領(lǐng)域都投入了大量工作,執(zhí)行數(shù)據(jù)清理、模式對(duì)齊以及提取、轉(zhuǎn)換和加載操作(ETL),用這種方式收集難以控制的數(shù)字?jǐn)?shù)據(jù),并將其準(zhǔn)備為適合分析的形式。這些任務(wù)占據(jù)了數(shù)據(jù)科學(xué)家近50%到80%的時(shí)間,限制了他們深入探索的能力。處理大量的數(shù)據(jù)類型(數(shù)據(jù)多模態(tài))是合成生物學(xué)研究人員面臨的一個(gè)挑戰(zhàn),與數(shù)據(jù)量相比,預(yù)處理活動(dòng)的復(fù)雜性隨著數(shù)據(jù)多樣性的增加而急劇增加。
建模/算法的挑戰(zhàn)。許多推動(dòng)當(dāng)前人工智能進(jìn)步的流行算法(例如計(jì)算機(jī)視覺和NLP領(lǐng)域的流行算法)在分析組學(xué)數(shù)據(jù)時(shí)都沒有魯棒性。當(dāng)應(yīng)用于特定實(shí)驗(yàn)中收集的數(shù)據(jù)時(shí),這些模型的傳統(tǒng)應(yīng)用常常遭受“維數(shù)災(zāi)難”的困擾。在特定條件下,一個(gè)實(shí)驗(yàn)人員可以就一個(gè)生物體產(chǎn)生超過(guò)12,000個(gè)測(cè)量值(維度)的基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù)。對(duì)于這樣一個(gè)實(shí)驗(yàn),標(biāo)記實(shí)例的數(shù)量(例如,成功或失敗)通常最多只有幾十到幾百個(gè)。對(duì)于這些高維數(shù)據(jù)類型,很少捕捉到系統(tǒng)的動(dòng)態(tài)(時(shí)間分辨率)。這些測(cè)量誤差使得對(duì)復(fù)雜的動(dòng)態(tài)系統(tǒng)進(jìn)行推斷成為一個(gè)重大挑戰(zhàn)。
圖注:維數(shù)災(zāi)難
組學(xué)數(shù)據(jù)與其他數(shù)據(jù)模式(如順序數(shù)據(jù)、文本數(shù)據(jù)和基于網(wǎng)絡(luò)的數(shù)據(jù))既有相似之處,也有不同之處,而經(jīng)典方法并不總是適用。這些數(shù)據(jù)相同的特征包括位置編碼和依賴關(guān)系,以及復(fù)雜的交互模式。然而這些數(shù)據(jù)之間也有一些基本的差異,如:它們的潛在表征,有意義分析所需的背景,以及跨模態(tài)的相關(guān)標(biāo)準(zhǔn)化以進(jìn)行生物學(xué)上有意義的比較。因此,很難找到有魯棒性的生成模型(類似于高斯模型或隨機(jī)塊模型)可以準(zhǔn)確地描述組學(xué)數(shù)據(jù)。
此外,生物序列和系統(tǒng)代表了復(fù)雜的生物功能編碼,但很少有系統(tǒng)的方法以類似解釋語(yǔ)義或從書面文本上下文的方式來(lái)解釋這些編碼。這些不同的特征使得通過(guò)數(shù)據(jù)探索提取見解、生成和驗(yàn)證假設(shè)具備挑戰(zhàn)性。工程生物學(xué)涉及到學(xué)習(xí)黑盒系統(tǒng)的挑戰(zhàn),我們可以觀察輸入和輸出,但我們對(duì)系統(tǒng)內(nèi)部工作的了解有限??紤]到這些生物系統(tǒng)運(yùn)行在組合的大參數(shù)空間中,人工智能解決方案使用策略有效地設(shè)計(jì)實(shí)驗(yàn)以探索生物系統(tǒng),從而產(chǎn)生各種假設(shè)并進(jìn)行驗(yàn)證,等于是在這個(gè)空間中提出了巨大的需求和機(jī)會(huì) 。
最后,許多流行的AI算法解決方案沒有明確地考慮不確定性,也沒有顯示出在輸入擾動(dòng)下控制誤差的魯棒機(jī)制??紤]到我們正在嘗試設(shè)計(jì)的生物系統(tǒng)中固有的隨機(jī)性和噪聲,這種基本差距在合成生物空間中尤其重要。
指標(biāo)/評(píng)估的挑戰(zhàn)?;陬A(yù)測(cè)和準(zhǔn)確性的標(biāo)準(zhǔn)AI評(píng)價(jià)指標(biāo)不足以應(yīng)用在合成生物學(xué)領(lǐng)域中。像?這樣的回歸模型或基于分類模型的準(zhǔn)確性的度量標(biāo)準(zhǔn)不能解釋我們?cè)噲D建模的潛在生物系統(tǒng)的復(fù)雜性。在這個(gè)領(lǐng)域中,量化一個(gè)模型能夠闡明生物系統(tǒng)內(nèi)部工作和獲取現(xiàn)有領(lǐng)域知識(shí)的其他指標(biāo)也同樣重要。為此,包含可解釋性和透明度原則的人工智能解決方案是支持迭代和跨學(xué)科研究的關(guān)鍵。此外,對(duì)于恰當(dāng)?shù)亓炕淮_定性的能力,我們需要?jiǎng)?chuàng)造性地開發(fā)新的指標(biāo)來(lái)衡量這些方法的有效性。
我們還需要適當(dāng)?shù)膶?shí)驗(yàn)設(shè)計(jì)指標(biāo)。評(píng)估和驗(yàn)證合成生物學(xué)中的模型有時(shí)需要額外的實(shí)驗(yàn)和額外的資源。少量的分類錯(cuò)誤或小錯(cuò)誤可能會(huì)對(duì)研究目標(biāo)產(chǎn)生重大影響。這些成本應(yīng)整合到人工智能模型的目標(biāo)函數(shù)或評(píng)估中,以反映誤分類對(duì)現(xiàn)實(shí)世界的影響。
社會(huì)學(xué)的挑戰(zhàn)。在利用人工智能與合成生物學(xué)結(jié)合的方面,社會(huì)學(xué)方面的問題可能比技術(shù)障礙更具挑戰(zhàn)性(反之亦有可能)。我們的印象是,研究當(dāng)中所涉及的完全不同的文化之間缺乏協(xié)調(diào)和理解,因此會(huì)導(dǎo)致一些社會(huì)學(xué)方面的障礙。雖然已經(jīng)已經(jīng)有些辦法能解決這種障礙,但有趣的是,學(xué)術(shù)界和工業(yè)界仍然存在一些曠日持久的社會(huì)學(xué)問題。
之所以會(huì)出現(xiàn)社會(huì)問題,是因?yàn)閮蓚€(gè)非常不同群體的專家:計(jì)算科學(xué)家和實(shí)驗(yàn)室科學(xué)家在工作中碰撞摩擦,產(chǎn)生了一定的分歧。
計(jì)算科學(xué)家和實(shí)驗(yàn)室科學(xué)家接受的訓(xùn)練不同之處太多。經(jīng)過(guò)訓(xùn)練的計(jì)算科學(xué)家傾向于專注于抽象、熱衷于自動(dòng)化、計(jì)算效率和顛覆性方法。他們自然傾向于任務(wù)專門化,并想方設(shè)法將重復(fù)性任務(wù)丟給自動(dòng)化計(jì)算機(jī)系統(tǒng)去做。而實(shí)驗(yàn)室科學(xué)家都很實(shí)際,他們接受過(guò)具體觀察的訓(xùn)練,更喜歡通過(guò)可解釋的分析來(lái)準(zhǔn)確描述實(shí)驗(yàn)的具體結(jié)果。
圖注:計(jì)算科學(xué)家和實(shí)驗(yàn)室科學(xué)家來(lái)自不同的研究文化背景,他們必須學(xué)會(huì)共同協(xié)作,才能從人工智能和合成生物結(jié)合中充分受益。
這兩個(gè)世界有著不同的文化,這不僅反映在這兩部分人如何解決問題,也反映在他們認(rèn)為哪些問題值得解決。
例如,致力于建設(shè)支持通用研究的基礎(chǔ)設(shè)施,與致力于研究特定研究問題的努力之間一直很緊張。計(jì)算科學(xué)家傾向于提供可用于各種項(xiàng)目的可靠基礎(chǔ)設(shè)施,而實(shí)驗(yàn)科學(xué)家往往專注于最終目標(biāo)。計(jì)算科學(xué)家喜歡開發(fā)數(shù)學(xué)模型來(lái)解釋和預(yù)測(cè)生物系統(tǒng)的行為,而實(shí)驗(yàn)室科學(xué)家喜歡產(chǎn)生定性的假設(shè),并盡快通過(guò)實(shí)驗(yàn)來(lái)檢驗(yàn)這些假設(shè)(至少在研究微生物時(shí),因?yàn)檫@些實(shí)驗(yàn)可以在3-5天內(nèi)很快完成)。
此外,計(jì)算機(jī)科學(xué)家們往往只對(duì)一些虛高的目標(biāo)感到興奮,比如生物工程生物對(duì)火星、生活寫編譯器能夠創(chuàng)建DNA來(lái)滿足所需的規(guī)范,重建樹采取所需的形狀,生物工程龍?jiān)诂F(xiàn)實(shí)生活中,或者用人工智能取代科學(xué)家。實(shí)驗(yàn)室的科學(xué)家們則認(rèn)為這種目標(biāo)純屬“炒作”,因?yàn)橹暗陌咐?,?jì)算類型承諾了許多,卻沒有兌現(xiàn),他們寧愿只考慮使用當(dāng)前的技術(shù)狀態(tài)可以實(shí)現(xiàn)的目標(biāo)。
解決社會(huì)的挑戰(zhàn)。解決這些社會(huì)學(xué)問題的方法是去鼓勵(lì)跨學(xué)科的團(tuán)隊(duì)和需求。雖然我們不能否認(rèn),在公司(團(tuán)隊(duì)一榮俱榮一損俱損)中實(shí)現(xiàn)這種包容的環(huán)境可能比在學(xué)術(shù)環(huán)境中更容易,因?yàn)樵趯W(xué)術(shù)環(huán)境中一個(gè)研究生或博士后往往是發(fā)表了幾篇第一作者論文就宣稱成功了,而不需要與其他學(xué)科進(jìn)行整合。
實(shí)現(xiàn)這種整合的一種可能的方式是開辦交叉培訓(xùn)課程,讓實(shí)驗(yàn)室科學(xué)家接受編程和機(jī)器學(xué)習(xí)的培訓(xùn),讓計(jì)算科學(xué)家接受實(shí)驗(yàn)培訓(xùn)。這樣就能給兩個(gè)社區(qū)都帶來(lái)一些有價(jià)值的、獨(dú)特的、必要的文化交流。大家越早發(fā)現(xiàn)這一點(diǎn),合成生物學(xué)就能發(fā)展得越快。
從長(zhǎng)遠(yuǎn)來(lái)看,我們需要將生物和生物工程的教學(xué)與自動(dòng)化和數(shù)學(xué)相結(jié)合的大學(xué)課程。雖然目前有一些學(xué)校正在開辦這樣的課程,但目前只是杯水車薪而已。
4觀點(diǎn)和機(jī)會(huì)
人工智能可以從根本上增強(qiáng)合成生物學(xué),還能通過(guò)為工程階段空間增加第三個(gè)軸,比如物理、化學(xué)或者生物,從而使其充分發(fā)揮影響力。最明顯的是,人工智能可以在生物工程結(jié)果中產(chǎn)生準(zhǔn)確的預(yù)測(cè),從而實(shí)現(xiàn)有效的逆向設(shè)計(jì)。
此外,人工智能還可以支持科學(xué)家設(shè)計(jì)實(shí)驗(yàn),并選擇何時(shí)何地采樣,而目前這一問題需要訓(xùn)練有素的專家來(lái)解決。人工智能還可以支持自動(dòng)搜索、高吞吐量分析和基于大數(shù)據(jù)源的假設(shè)生成,這些數(shù)據(jù)源包括歷史實(shí)驗(yàn)數(shù)據(jù)、在線數(shù)據(jù)庫(kù)、本體和其他技術(shù)材料。
人工智能可以允許合成生物學(xué)領(lǐng)域?qū)<腋斓靥剿鞔笮驮O(shè)計(jì)空間,并提出一些有趣的“跳出框框”的假設(shè),從而增加專家們的知識(shí)。合成生物學(xué)為當(dāng)前的人工智能解決方案提出了一些獨(dú)特的挑戰(zhàn),如果這些挑戰(zhàn)得到解決,將使得合成生物學(xué)和人工智能領(lǐng)域得到根本性進(jìn)步。設(shè)計(jì)生物系統(tǒng)本質(zhì)上依賴于控制系統(tǒng)的能力,這是對(duì)系統(tǒng)基本規(guī)律理解的終極考驗(yàn)。因此,能夠?qū)崿F(xiàn)合成生物研究的人工智能解決方案必須能夠描述能夠做到最佳預(yù)測(cè)的機(jī)制。
盡管最近基于深度學(xué)習(xí)架構(gòu)的人工智能技術(shù)已經(jīng)改變了我們對(duì)特征工程和模式發(fā)現(xiàn)的看法,但就推理和解釋其學(xué)習(xí)機(jī)制的能力而言,它們?nèi)蕴幱谄鸩诫A段。
因此,結(jié)合因果推理、可解釋性、魯棒性和不確定性估計(jì)需求的人工智能解決方案在這一跨學(xué)科領(lǐng)域具有巨大的潛在影響。生物系統(tǒng)的復(fù)雜性使得純粹基于蠻力關(guān)聯(lián)發(fā)現(xiàn)的人工智能解決方案無(wú)法有效地描述系統(tǒng)的內(nèi)在特征。將物理和機(jī)械模型與數(shù)據(jù)驅(qū)動(dòng)模型順利地結(jié)合起來(lái)的一類新算法是一個(gè)令人興奮的新研究方向。目前我們?cè)跉夂蚩茖W(xué)和計(jì)算化學(xué)方面看到了一些初步的積極成果,希望在生物系統(tǒng)研究方面也能取得類似的進(jìn)展。
由于人工智能提供了修改生物系統(tǒng)的工具,合成生物學(xué)還可以反過(guò)來(lái)激發(fā)新的人工智能方法。生物學(xué)啟發(fā)了諸如神經(jīng)網(wǎng)絡(luò)、遺傳算法、強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺和群體機(jī)器人等人工智能的基本要素。事實(shí)上,有許多生物現(xiàn)象可以用也值得用數(shù)字技術(shù)來(lái)模擬的。例如,基因調(diào)控涉及到一個(gè)精巧的相互作用網(wǎng)絡(luò),它不僅允許細(xì)胞感知環(huán)境并對(duì)環(huán)境作出反應(yīng),而且還保持細(xì)胞的存活和穩(wěn)定。保持體內(nèi)平衡(由生命系統(tǒng)維持的穩(wěn)定的內(nèi)部、物理和化學(xué)條件的狀態(tài))涉及到在適當(dāng)?shù)臅r(shí)間、適當(dāng)?shù)臄?shù)量產(chǎn)生適當(dāng)?shù)募?xì)胞成分,感知內(nèi)部梯度,并小心地調(diào)節(jié)細(xì)胞與環(huán)境的交換。我們能不能理解并利用這種能力來(lái)生產(chǎn)真正自我調(diào)節(jié)的人工智能或機(jī)器人呢?
另一個(gè)例子涉及緊急屬性(即,由系統(tǒng)顯示但不由其組成部分顯示的屬性)。例如,蟻群的行為和反應(yīng)是一個(gè)單一的有機(jī)體,不僅僅是單個(gè)螞蟻的總和。類似地,意識(shí)(即,對(duì)內(nèi)部或外部存在的感知或意識(shí))是一種來(lái)自物理基礎(chǔ)(比如神經(jīng)元)的定性特征。自組織和集體建造結(jié)構(gòu)的群機(jī)器人已經(jīng)存在。我們能不能用涌現(xiàn)的一般理論來(lái)創(chuàng)造機(jī)器人和生物系統(tǒng)的混合體呢?我們能從一個(gè)完全不同的物理基質(zhì),比如晶體管中創(chuàng)造意識(shí)嗎?最后一個(gè)可能的例子涉及自我修復(fù)和復(fù)制:即使是最簡(jiǎn)單的生命例子也顯示出自我修復(fù)和復(fù)制的能力。我們能理解這種現(xiàn)象產(chǎn)生自我修復(fù)和復(fù)制的人工智能的困境嗎?
雖然這種生物模擬以前就有人考慮過(guò),但“合成生物”的美妙之處在于,它為我們提供了“修補(bǔ)”生物系統(tǒng)的能力,以測(cè)試生物模擬的模型和基本原理。例如,我們現(xiàn)在可以在基因組規(guī)模上修補(bǔ)細(xì)胞基因調(diào)控,對(duì)其進(jìn)行修改,并測(cè)試到底是什么導(dǎo)致了其非凡的韌性和適應(yīng)性?;蛘呶覀兛梢詫?duì)螞蟻進(jìn)行生物工程,測(cè)試隨后會(huì)發(fā)生什么樣的蟻群行為,以及這種行為如何影響螞蟻的存活率?;蛘呶覀兛梢愿淖兗?xì)胞的自我修復(fù)和自我復(fù)制機(jī)制,測(cè)試長(zhǎng)期進(jìn)化對(duì)其競(jìng)爭(zhēng)能力的影響。
此外,在細(xì)胞建模中,我們能夠很好地理解所涉及的生物機(jī)制。就算了解了神經(jīng)網(wǎng)絡(luò)如何檢測(cè)眼睛的形狀,也不太可能就明白大腦是怎么做同樣的事情的,但合成生物學(xué)的研究不一樣。機(jī)械模型的預(yù)測(cè)并不完美,但產(chǎn)生了質(zhì)量上可以接受的結(jié)果。將這些機(jī)制模型與ML的預(yù)測(cè)能力相結(jié)合,可以幫助彌合兩者之間的差距,并提供生物學(xué)上的見解,解釋為什么某些ML模型在預(yù)測(cè)生物行為方面比其他模型更有效。這種見解可以引導(dǎo)我們研究新的ML體系結(jié)構(gòu)和方法。
人工智能可以幫助合成生物,合成生物也可以反過(guò)來(lái)幫助人工智能,這兩個(gè)學(xué)科在持續(xù)反饋循環(huán)中的相互作用,將創(chuàng)造我們現(xiàn)在不能想象的未來(lái),就像本杰明·富蘭克林也無(wú)法想象他對(duì)電的發(fā)現(xiàn),在未來(lái)有一天會(huì)使互聯(lián)網(wǎng)成為可能。