近日,MIT材料科學(xué)與工程系李巨、Tonio Buonassisi、任之初等人在Nature Reviews Materials的Comment欄目發(fā)表題為“Autonomous experiments using active learning and AI”的文章,介紹了由主動(dòng)學(xué)習(xí)和AI驅(qū)動(dòng)的智能自主實(shí)驗(yàn)。
主動(dòng)學(xué)習(xí)和自動(dòng)化并不能讓人類輕松地?cái)[脫實(shí)驗(yàn)室的工作。在它們對(duì)新材料研究產(chǎn)生實(shí)質(zhì)性的影響之前,我們必須非常仔細(xì)地部署人工智能系統(tǒng),確保它們能夠穩(wěn)定地運(yùn)行,并且能夠應(yīng)對(duì)各種偏差,包括隨機(jī)噪聲(stochastic errors)和因人類對(duì)所研究的問題認(rèn)知不足而導(dǎo)致的認(rèn)知性偏差(epistemic errors)。如今,隨著自動(dòng)化和AI逐漸普及,我們需要認(rèn)真考慮自主實(shí)驗(yàn)室的可重復(fù)性、可重配置性和實(shí)驗(yàn)互通性這些關(guān)鍵因素。
探索新材料是一個(gè)勞動(dòng)密集型過程。愛迪生為了發(fā)明白熾燈泡,測(cè)試了數(shù)千種燈絲,F(xiàn)如今,便宜的自動(dòng)化設(shè)備讓結(jié)合機(jī)器人和主動(dòng)學(xué)習(xí)算法的新研究方法成為可能。雖然在預(yù)算和空間有限的情況下,構(gòu)建完全自動(dòng)化的實(shí)驗(yàn)平臺(tái)是非常具有挑戰(zhàn)性的,但是在半自動(dòng)化的工作流上也可以取得不錯(cuò)的進(jìn)展。例如,在儀器之間完全可以保留傳統(tǒng)的手動(dòng)轉(zhuǎn)移樣品,并不一定要使用機(jī)械臂或者是傳送帶之類的自動(dòng)化。只要實(shí)驗(yàn)結(jié)果高度可重復(fù),即使使用一些基本的機(jī)器學(xué)習(xí)方法,比如高斯過程回歸和貝葉斯優(yōu)化,就已經(jīng)能很好地解決許多材料優(yōu)化問題。
就像把孩子養(yǎng)大需要幾十年時(shí)間,并且在這過程中需要教他們各種各樣的東西一樣,人們不應(yīng)該期望在知識(shí)基礎(chǔ)比較有限的情況下,由主動(dòng)學(xué)習(xí)(active learning)驅(qū)動(dòng)的實(shí)驗(yàn)一開始就非常有效。這個(gè)學(xué)習(xí)過程在開始時(shí)往往是非常脆弱的。教一個(gè)小孩子走路需要很多手把手的引導(dǎo),同樣地,驅(qū)動(dòng)實(shí)驗(yàn)的人工智能在一開始也需要很多指導(dǎo),即使其調(diào)用的自動(dòng)化平臺(tái)看似十分“穩(wěn)定高效”。
01 認(rèn)知性偏差的挑戰(zhàn)
能夠獲得長(zhǎng)期可復(fù)現(xiàn)的數(shù)據(jù)集是自動(dòng)化平臺(tái)有能力開展主動(dòng)學(xué)習(xí)的衡量標(biāo)準(zhǔn)。當(dāng)一個(gè)實(shí)驗(yàn)重復(fù)兩次產(chǎn)生不同的結(jié)果時(shí),差異主要來自兩個(gè)方面:偶然性偏差和認(rèn)知性偏差。偶然性偏差源于隨機(jī)性,可以通過提升自動(dòng)化占比和在模型中引入高斯過程噪聲核來有效緩解,因此相對(duì)容易處理。相比之下,認(rèn)知性偏差則可能會(huì)影響自主化實(shí)驗(yàn)的成功,尤其是在主動(dòng)學(xué)習(xí)算法還未經(jīng)過優(yōu)化調(diào)整的情況下。認(rèn)知性誤差,從本質(zhì)上講,就是由于我們科研工作者的“知識(shí)偏見”——我們認(rèn)為一些變量在多次試驗(yàn)中是恒定的,但實(shí)際上它們?cè)凇扒那摹钡刈兓?
以我們實(shí)驗(yàn)室的自動(dòng)化滴涂碳基底樣品過程為例,有段時(shí)間我們發(fā)現(xiàn)即便是重復(fù)同樣的實(shí)驗(yàn),樣品的性能差異也很大。直到有一天,我們注意到碳基底可能是各向異性的,也就是說我們切割它的方式(從市場(chǎng)上買來的片狀切成條狀)是一個(gè)重要的變量,直接決定了滴涂后樣品擴(kuò)散的方向和最終面積。而在此之前,我們一直很自信地默認(rèn)這個(gè)基底是各向同性的。諸如此類的知識(shí)偏見,很可能將直接導(dǎo)致整個(gè)機(jī)器學(xué)習(xí)項(xiàng)目失敗。
為什么可復(fù)現(xiàn)性對(duì)主動(dòng)學(xué)習(xí)特別關(guān)鍵?手動(dòng)實(shí)驗(yàn)不也面臨這個(gè)問題嗎?答案是肯定的,但人類的經(jīng)驗(yàn)和靈活性大大緩解了這個(gè)問題。想象一個(gè)學(xué)生發(fā)現(xiàn)了一種合成方法,重復(fù)了10次,其中2次得到了非常令人興奮的結(jié)果。學(xué)生會(huì)怎么做?誤差區(qū)間太大,無法發(fā)表,所以學(xué)生和導(dǎo)師會(huì)討論、調(diào)整設(shè)置,最終找出統(tǒng)計(jì)異常背后的原因(例如,中間反應(yīng)產(chǎn)品的外來水分含量)。
統(tǒng)計(jì)上的異常源于我們沒能找齊決定了實(shí)驗(yàn)結(jié)果的變量全集。如果我們選擇忽略而不是去深入調(diào)查和試圖理解我們漏了哪個(gè)隱藏變量,其結(jié)果就是,我們發(fā)現(xiàn)自己的實(shí)驗(yàn)難以復(fù)現(xiàn)!蹲匀弧冯s志的一項(xiàng)調(diào)查顯示,文獻(xiàn)中不可復(fù)現(xiàn)性的主要原因是選擇性報(bào)告,其本質(zhì)也是類似的——文獻(xiàn)只披露了實(shí)驗(yàn)變量全集的一個(gè)子集(也許作者自身也未意識(shí)到)。如果我們還沒搞清楚誤差來源就輕率地啟動(dòng)一個(gè)主動(dòng)學(xué)習(xí)項(xiàng)目,這可能會(huì)浪費(fèi)大量時(shí)間和金錢。算法會(huì)錯(cuò)誤地將特殊的噪聲視為信號(hào),從而給出糟糕的建議,正所謂“garbage in, garbage out”。
另一方面,如果我們仔細(xì)地去排除認(rèn)知性偏差,找出隱藏變量,可能會(huì)有意想不到的科學(xué)發(fā)現(xiàn),就像青霉素是由于意外真菌污染而未能培養(yǎng)細(xì)菌培養(yǎng)物所發(fā)現(xiàn)的。人類非常擅長(zhǎng)扭轉(zhuǎn)“實(shí)驗(yàn)失敗”,因?yàn)槲覀冇兄錾囊蚬评砟芰Γㄓ酶柲λ沟脑捳f,“一旦排除了所有可能性,無論剩下的是多么看似不現(xiàn)實(shí)的推論,必定就是事實(shí)”)?上У氖,樸素的主動(dòng)學(xué)習(xí)方法并做不到這些,因?yàn)樗鼈儽辉O(shè)定了過于簡(jiǎn)化的世界觀,而且沒有太多先驗(yàn)的物理知識(shí)。
與傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)不同,大型語言模型如ChatGPT能生成科學(xué)上合理的猜想。未來,我們有望利用更先進(jìn)和全面的自主實(shí)驗(yàn)室來驗(yàn)證這些由大模型生成的假說。比如,我們可以在受控的氣氛反應(yīng)室內(nèi)自動(dòng)重復(fù)合成程序,以探究實(shí)驗(yàn)結(jié)果對(duì)不同氣體分壓的依賴性。隨著自動(dòng)實(shí)驗(yàn)引入計(jì)算機(jī)視覺(在某些方面已超過人類視覺),以及借助于龐大的先驗(yàn)知識(shí)庫(kù),AI系統(tǒng)將能更精確地跟蹤實(shí)驗(yàn)室條件(例如濕度、背景輻射、前體材料的紋理和不均勻性)。因此,隨著AI系統(tǒng)逐漸整合多模態(tài)傳感器,弄清認(rèn)知誤差的可能原因并針對(duì)性地調(diào)整工作流程只是時(shí)間問題。大型語言模型結(jié)合具有通用感覺運(yùn)動(dòng)功能的強(qiáng)化學(xué)習(xí),以及下文所述的“新控制論”,很可能是實(shí)驗(yàn)室自動(dòng)化革命的下一個(gè)步驟。
02 AI驅(qū)動(dòng)的自主實(shí)驗(yàn)室網(wǎng)絡(luò)
隨著AI系統(tǒng)變得更加復(fù)雜和強(qiáng)大,預(yù)算和空間的限制,模塊化的云實(shí)驗(yàn)室設(shè)施將變得有必要。這類新型實(shí)驗(yàn)室不僅需要能重新編譯和鏈接各種實(shí)驗(yàn)設(shè)備,還需要確保多個(gè)自動(dòng)實(shí)驗(yàn)室之間的互通性。一個(gè)包括實(shí)驗(yàn)和理論兩個(gè)方面的龐大的AI網(wǎng)絡(luò)將被建立,以實(shí)現(xiàn)實(shí)驗(yàn)室級(jí)的勞動(dòng)分工、規(guī)模經(jīng)濟(jì)和互相制衡。例如,當(dāng)某個(gè)AI實(shí)驗(yàn)室制備出了具有突破性性能的樣品后,AI網(wǎng)絡(luò)會(huì)負(fù)責(zé)將(i)該制備方案發(fā)送至負(fù)責(zé)理論研究的AI實(shí)驗(yàn)室進(jìn)行分析,(ii)在該實(shí)驗(yàn)室本地復(fù)制多份物理樣品并傳送至多個(gè)專門負(fù)責(zé)測(cè)試的AI實(shí)驗(yàn)室,(iii)制備方案本身分發(fā)至負(fù)責(zé)制備同類型材料的AI實(shí)驗(yàn)室以進(jìn)行對(duì)抗性的復(fù)現(xiàn)測(cè)試。
今天的材料合成、表征和性能測(cè)試的設(shè)備主要是為人類用戶設(shè)計(jì)的。未來,自主實(shí)驗(yàn)室每臺(tái)設(shè)備都需要具有兩個(gè)接口,一個(gè)主接口服務(wù)于物聯(lián)網(wǎng)上的AI系統(tǒng),另一個(gè)用于人類操作。每個(gè)設(shè)備模塊將更像是軟件庫(kù)中的子程序,其物理樣品輸入/輸出規(guī)范將被明確且嚴(yán)格地定義。設(shè)備鏈將具備快速和自動(dòng)的重配置能力,以滿足不同科研項(xiàng)目的需求。值得注意的是,重新配置并不意味著需要將設(shè)備物理移動(dòng)以組成一條流水線,因?yàn)檩喪綑C(jī)器人和小型無人機(jī)將負(fù)責(zé)模塊之間的樣品傳送。
雖然自主材料研究實(shí)驗(yàn)室的概念早在1950年代就已經(jīng)出現(xiàn),但至今成功的案例仍然較少。目前在學(xué)術(shù)界,實(shí)驗(yàn)室大多還是以人為核心,且每個(gè)實(shí)驗(yàn)室的建設(shè)預(yù)算僅限于幾百萬美元或更少。這通常意味著單個(gè)實(shí)驗(yàn)室只有自家“一招鮮”或“幾招鮮”的手段,這使得它們?cè)谧R(shí)別認(rèn)知誤差或迅速適應(yīng)工作流變化方面表現(xiàn)不佳。當(dāng)懷疑有些不尋常的情況發(fā)生時(shí),人類研究員會(huì)向校園內(nèi)從事不同領(lǐng)域的同事尋求幫助,請(qǐng)他們進(jìn)行補(bǔ)充測(cè)量。這種靈活性在科研探索過程中是非常重要的,反觀我們今天的以機(jī)器和AI為核心的自主實(shí)驗(yàn)室案例,由于規(guī)模太小,還無法做到類似的靈活性。
為了解決這個(gè)問題,不同的自主實(shí)驗(yàn)室需要實(shí)現(xiàn)更好的協(xié)同工作。例如,讓AI有能力將一個(gè)物理樣品及其對(duì)應(yīng)的元數(shù)據(jù)從一個(gè)實(shí)驗(yàn)室傳送到另一個(gè)實(shí)驗(yàn)室。這樣的任務(wù)需要我們建立標(biāo)準(zhǔn)化的數(shù)據(jù)和樣品傳輸協(xié)議,比如規(guī)定用于傳輸液體、粉末、凝膠、顆粒和單晶材料的膠囊,它們需要與易于稱重、尺寸測(cè)量以及光學(xué)和化學(xué)表征設(shè)備相兼容,還需要能有效防止外界污染。此外,我們可能還需要重新考量設(shè)計(jì)建筑和基礎(chǔ)設(shè)施,例如無人或者是機(jī)器人和人類研究人員共同工作的全新的建筑架構(gòu)。
AI時(shí)代已經(jīng)來臨。為了在實(shí)驗(yàn)研究和材料發(fā)現(xiàn)中充分釋放AI的潛力,為硅基智慧提供“手”(材料合成加工/樣品轉(zhuǎn)移/設(shè)備模塊重組)和“眼睛”(材料表征/多模態(tài)感測(cè))至關(guān)重要。建立一個(gè)穩(wěn)健的AI對(duì)于現(xiàn)實(shí)世界的感知反饋系統(tǒng)絕非易事。但是,隨著AI實(shí)驗(yàn)室的正確配置和相互鏈接(核心是標(biāo)準(zhǔn)化接口和模塊化設(shè)備),以及全球廣泛共享的專業(yè)知識(shí),強(qiáng)大的AI自主實(shí)驗(yàn)室可能會(huì)徹底改變材料研究。
未來云端實(shí)驗(yàn)室可以被建設(shè)在太陽(yáng)能/風(fēng)能充足的荒漠中,科研人員可以從全世界任意一個(gè)地方控制云端實(shí)驗(yàn)室。園區(qū)內(nèi)的兩大主體——數(shù)據(jù)流和物質(zhì)流,將分別由互聯(lián)的AI網(wǎng)絡(luò)和機(jī)器人網(wǎng)絡(luò)負(fù)責(zé)運(yùn)載。(本圖由MidJourney + Adobe Firefly生成)
云端實(shí)驗(yàn)室內(nèi)部由一個(gè)個(gè)的模塊組成。每一個(gè)模塊就像一個(gè)代碼中的函數(shù),有著清楚的輸入輸出規(guī)范,例如輸入的材料樣品必須符合某個(gè)標(biāo)準(zhǔn)化的尺寸/形態(tài)。不同模塊之間由輪式機(jī)器人或小型無人機(jī)進(jìn)行樣品傳送。
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤(rùn)機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |