人工智能驅動的科研新范式及學科應用研究去九宮格_中國網

雅芳💕最寵愛女人

中國網/中國發展門戶網訊 科研范式是科研人員進行科學觀察、思考和操作的基本過程和邏輯,是根本的科研世界觀和對應方法論體系。為了解決關鍵科研問題,在科研新范式形成過程中,往往涉及過往范式的推進與提升,以及科研路徑的多元耦合。當前,數據、算法與算力成為國家基礎戰略資源,美國、英國等發達國家相繼提出通過建立國家人工智能研究基礎設施。例如,美國國家科學基金(NSF)會牽頭啟動“國家人工智能研究資源項目”(NAIRR)、英國政府發布《產業戰略:人工智能領域行動》(Industrial Strategy: Artificial Intelligence Sector Deal)為人工智能發展提供算力、數據、模型、軟件等關鍵資源,推動科研方式、生產方式和治理方式深刻變革,提升經濟和社會效益。以ChatGPT大語言模型等為代表的革命性技術應用為人工智能(AI)賦能科研提供了新的方法和工具。2022年8月,我國科學技術部等6部門聯合印發《關于加快場景創新以人工智能高水平應用促進經濟高質量發展的指導意見》,將家教場地圍繞高水平科研活動打造重大場景列為需要著力打造的AI重大場景之一。在此背景下,將科學研究與AI相結合、把握AI驅動的科研新范式的發展規律、探索科研范式轉型路徑是我國面向科技強國建設,搶抓未來科技創新方向、形成國際科技競爭優勢的重要抓手。

科研范式經歷了從“經驗科學”“理論科學”“計算科學”向“數據密集型科學”的演化,目前正在向“第五范式:人工智能+科學”發展。第一范式:經驗科學以伽利略的物理學、動力學為代表,是通過描述記錄自然現象、基于經驗進行歸納的實用性科學。隨著科研深入發展,經驗科學由于受實驗條件限制逐漸向理論科學范式演化。第二范式:理論科學以牛頓力學和相對論為典型代表,在自然現象的基礎上進行了抽象簡化,并通過構建數學模型進行歸納總結。第三范式:計算科學通過電子計算機對科學實驗進行模擬仿真,如模擬核試驗、天氣預報等。第四范式:隨著數據累積和運算量不斷增加、計算設施不斷升級迭代,由傳統的假設驅動逐漸轉向基于科學數據驅動的研究范式。“第五范式”:隨著AI模型的準確性與預測能力獲得革命性突破,科研范式進一步向通用模型驅動演化。“人工智能+科學”定位于依托海量大數據與大算力進行通用AI大模型訓練與優化,發揮其在精度、效率、可遷移性、涌現性等方面的優勢,進行多學科領域的多元化科研應用,對于科研組織模式產生了重大影響。本文首先探討AI驅動的科研新范式的主要特征與演化方向,進一步探究科研學科特征對AI應用的要求,通過對AI驅動科研新范式的成功案例進行深入剖析,提出我國推動AI在科研應用的相關啟示與建議。

人工智能驅動科研新范式的主要特征

科研范式是特定歷史時期科學共同體進行科學研究的方式,與科技創新的內在規律要求相適應。當前,AI驅動的科研新范式正在形成并且迅速發展,2016年,以蒙特卡洛樹搜索算法為核心的AlphaGo在圍棋上首次超越人類并取得一系列的突破性勝利之后,基因組學和物理學等領域的科學團隊開始把深度神經網絡和機器學習運用到相關研究當中。例如,美國芝加哥大學的團隊開始嘗試用深度神經網絡預測蛋白質三維結構,日本東京大學與IBM公司合作建立醫學診療的大數據神經網絡用于臨床研究。此后,AI的應用在學界的影響不斷攀升。2020年,AlphaFold2在蛋白質結構預測大賽中達到人類的預測觀察水平。與此同時,我國也在積極部署與推動AI技術的突破與科研應用,在2017年啟動“新一代人工智能重大科技項目”,布局重點領域的相關研究。2018年,鄂維南院士提出“AI for Science”概念,強調利用AI解決科研實際問題。2022年10月,中國科學技術大學建立數據驅動的AI化學家機器人“小來”。目前,AI驅動科研范式變革的主要特征體現在嵌入科研全流程、推動科研設施升級、重構科研人員與儀器設備定位及角色分工、促進科研組織治理模式變革4個部分。

人工智能深入嵌入研究問題形成、實驗設計、實驗操作、數據分析等科研全過程

科學研究包括研究問題形成、實驗設計、實驗操作、數據分析等主要環節。AI驅動的科研范式通過對海量數據的收集與處理并進行智能模型訓練,賦能科研多場景,嵌入科研全過程。例如,通過深層神經網絡計算與推導,模擬實驗設計并自主生成研究問題;智能化大科學裝置進行高精度高強度的實驗操作并能夠實現一定程度的自主決策等。相比之前幾代科研范式的升級,“人工智能+科學”范式可以更直觀、更徹底、更全面地作為科研突破的“加速器”與“倍增器”。在微軟公司官網的創新博客中,微軟全球技術院士、微軟研究院科學智能中心負責人Chris Bishop認為,AI深度學習可能會極大地提高人類在差異巨大的空間和時間尺度上對自然現象進行建模和預測的能力,并將這一能力視為科學新范式出現的曙光。

人工智能推動科研設施升級

AI驅動的科研范式轉變需要大型數據庫、大型AI基礎模型、大科學裝置、智能設備的支撐,其中智能軟硬件的協同和人機協同發揮關鍵作用。算法和算力的強耦合,是AI驅動科研的必要條件;在以AI計算中心為代表的計算基礎設施支撐下,極大地提升了AI大模型的訓練效率。BP算法、分層訓練等新的算法模型和訓練模型,以及去中心化自治組織(DAO)等新的組織和運營方式逐步被引入并推廣至大范圍使用。

人工智能重構科研人員與儀器設備定位及角色分工

基于AI算法的大模型訓練將推動科研儀器設備自主推理決策能力不斷增強,在人機交互中,科研人員不斷重新定位人機分工模式。在科研儀器智能化升級迭代的過程中,AI相關設備通過實驗過程的自動控制與自主決策可以大幅減少原來需要科研人員大量精力與時間的重復性實驗工作。在此基礎上,科學家專注發揮其前沿研究思想的想象力和創造力,使其能夠更有效地實現目標。例如,在生物信息學等領域,通過機器學習算法分析海量基因數據,可以高效進行基因模式和關系識別以預測特定基因的功能。這極大地降低了以往科研人員進行海量數據分析計算的工作量,使其能夠專注于基因研究中的新創意的思考與實踐。

人工智能推動科研組織治理模式變革

AI與各學科不斷交叉融合,需要科研組織治理模式發生相應變革以適應交叉學科的發展。大量科學家團隊基于AI通用基礎模型開發平臺進行科學研究,形成“大平臺、小用戶”組織模式,成為AI驅動的科研組織模式變革的重要方向。在此過程中,科研基礎設施更加注重開放和共享,科研人員跨學科、跨部門的開放協作,兼具AI及各科研領域知識和技術積累的復合型人才成為新型組織模式的關鍵支撐力量。人工智能在科研中的深度應用將推動數據與代碼共享、文檔信息交互、科研流程開放及合作研發,以虛擬實驗室、開源平臺等為代表的“大平臺、小用戶”新型科研組織模式將持續發展。

人工智能驅動科研新范式的演化方向

AI驅動科研新范式的演化方向由“科研自動化”向“科研模型化”“科研智能化”發展,其在科研中應用的深度與范圍不斷拓展(圖1)。

image.png

科研自動化——實驗過程模仿復制

隨著科研任務量的不斷提升,高重復性、高精度的科研過程往往需要實驗人員花費大量的時間,在重復進行實驗的同時提升實驗精度。科研自動化能夠通過對實驗操作過程的模仿復制實現對科研人員一定程度的替代,解決高強度、高重復、高頻率、高精度的科學實驗與試錯問題。目前,根據自動化的程度和規模,實驗室自動化大致可分為單模塊形式自動化、工作站形式自動化、流水線形式自動化、機器人形式自動化4種類型。實驗室自動化程序可根據預定好的模型和程序輔助科研人員執行相應科研任務,讓科研人員集中精力投入創造性的科研工作中。在實驗操作中,科研自動化適合進行高危高頻高強度實驗,可實現在高溫、劇毒、黑暗等惡劣實驗環境下對人力的替代。在高精度實驗試劑的操作中能夠提升克級、毫克級高通量試劑篩家教場地選中的效率與準確性。科研自動化能夠最大程度地降低科學家或實驗操作人員身體疲憊或情緒變化等主觀因素帶來的負面影響。

科研模型化——大模型探索應用

隨著數據海量擴張、計算模型升級,實驗所需計算維度呈指數級增長,解析難度和運算維度不斷增加。通過對AI大模型的探索應用,優化實驗設計,使高維計算和高效解析得以在短時間內實現,實現科研模型化。通過探索并依托特定領域模型訓練,AI可以解決高維度科學問題,在短時間內推動生物學、物理學等領域的重要突破。已有科研范式往往以第一性原理理論為基礎,從最基本的公理、命題或假設出發,逐步推導、演算出現實問題的一個或多個解決方法。測算化學結構、物化特性再到應用實踐,要經過無數次結構、性能,以及應用維度的測算,這個過程往往面臨極大的思考能力與計算能力的局限。AI在科研中的應用能夠通過高維度的計算和高精準度的自主實驗控制打破原有的科研瓶頸。在生物學領域,生命系統的復雜性隱藏了背后的原理,AI的應用有助于理解生命涌現原理。在物理學領域,AI改變了以往物質標定、解析,以及底層圖譜處理的方式。以反應氣體測量為例,中國科學院工程熱物理研究所基于AI模型提出等效特征圖譜法(ECSA),通過智能儀器和程序實現了對氣體圖譜的精準識別;通過多模態數據輸入輸出,以及多類型算法提升模型的有效性,實現高維度圖譜矩陣的檢測及解析,顛覆領域內原有的科研范式。

科研智能化——大模型深度小樹屋應用

通過建立通用大模型訓練平臺并持續推動模型迭代與優化,“人工智能+科學”將實現高復雜度、高任務量科研的過程自主決策,推動科研范式的智能化發展。隨著結構化科研數據庫的不斷完善,AI算法與算力的提升將支撐其實現更為復雜的分析能力與自主決策過程。深度學習、遷移學習、強化學習等算法與模型的不斷改進和發展,在提升模型適用度的同時降低訓練成本;科研數據、算法資源庫的優化將提升AI計算精度與效率,實現高效高精度求解的復雜問題。AI的感知智能、認知智能和決策智能在基礎設施層的提升和模型規律訓練的基礎上不斷完善,從多方面、多角度與科研領域融合,推動實現科研智能化。在處理高任務量和高復雜度的科研工作中,通過智能大模型與科研設備的融合應用,促進復雜研究過程中智能決策能力的持續提升,實現科研智能化。例如,中國科學技術大學研發出覆蓋收集信息、提出假設、分析處理等科研全流程的智能科研設備——機器人化學家“小來”(圖2)。“小來”能夠在智能查找并閱讀文獻過程中,將前人的論文、專利等文本通過自然語言形成機器可以“理解”的結構化數據,并以此為基礎提出科學假說、設計實驗方案。在實驗配方優化過程中,由于缺少通用可預測物理模型,科研人員需要較長時間才能夠合成合格樣品。然而,通過機器學習驅動的AI學機器人,可以在沒有物理模型的前提下優化離散和連續目標,并通過2個配方機器人平臺自主完成復雜的合成程序,在無需人工干預的情況下執行半自動樣品制備和表征。該種由機器學習自動觸發的實驗可以實現在15個工作日內找到符合要求的實驗配方。

image.png

科研學科特征對人工智能應用的要求

AI驅動的科研新范式主要在物理學、化學、材料科學、生物學等基礎科學領域,以及生物醫藥、天體物理、地球科學、能源化學等交叉學科進行應用。隨著AI模型的通用性不斷加強,其對于各領域科研過程的嵌入程度持續加深。其在各學科中的應用需要充分考慮學科領域在數據獲得積累、模型規律凝練、多維數據計算、實驗過程試錯等多方面面臨的瓶頸問題,并對學科需求與適用條件進行深入分析。

訓練數據的可發現、可獲取、可復用

AI模型訓練過程中,科研領域數據需要具備可發現、可獲取、可復用等特性以擴大AI模型訓練的數據規模,提升數據質量。海量數據的持續訓練有力提升AI模型的通用性和有效性,從而準確把握問題需求與邏輯形成有價值的新發現。當前,隨著材料、生物、化學等領域的數據庫的積累建設不斷完善,實驗數據量呈現數據級增長,部分領域甚至實現從GB級別到PB級別的飛躍。例如,生物領域龐大的基因數據庫、醫學領域的診斷數據及案例圖像、化學反應中數以萬計的化合物和反應結構都為機器學習和訓練提供了數據支持。

科學規律的模型凝練

AI驅動的科研新私密空間范式在“復雜性高、小樹屋變量因子多,依靠經驗科學、理論科學等以往科學范式難以歸納總結”的領域具有重要應用價值,需要依靠AI模型在海量多維數據中找出科學規律。依托國內外已有聚會海量科學數據的訓練,AI模型能夠通過對相關領域科學規律的系統凝練,突破科研人員或團隊個體認知的局限并產生突破性進展。例如,在生物醫藥領域,利用AI技術建立虛擬藥物篩選模型,實現更快檢索、更廣覆蓋范圍的化合物篩選及優化。在藥物性質研究中,利用深度神經網絡算法提取結構特征,提升性質預測的準確度。未來隨著通用AI模型通用性、有效性的增強,其在海量多維數據中探尋科學規律的能力將不斷增強。

多維數據計算

在科學理論發展到一定程度后,多維數學計算問題成為研究人員的掣肘。英國理論物理學家、量子力學的奠基者之一狄拉克提出,對物理化學問題做數學求解的基本規則已完全清楚,困難在于基本規則應用于真實體系的方程過于復雜而無法求解。生物學領域也存在同樣的困難,描述生命系統復雜性的模型內部因素關系極其復雜,理解生命功能涌現原理面臨的核心難點是維數災難。AI模型為破解科學研究中的多維計算問題提供了有效的路徑。例如,在天體物理學領域,僅僅是可觀測星系的天體樣本數達到數十億。運用AI方法進行星系形狀分類和指定天體辨識、天體物理現象的快速自動化建模及仿真圖像的生成,可大幅提升研究效率。

實驗試錯過程的數據模型迭代

在化學、生物制藥等領域,實驗試錯是驗證科研人員直覺的重要路徑,是科研過程中高成本、耗時、費力的環節。當前,AI模型推動新物質的發現模式向可預測、可設計的方向轉變,通過模型預測逐步替代耗時費力的實驗過程。隨著AI模型的不斷發展,未來可以在海量物質中預測相關“成分—結構—工藝—性質”之間的關系,并進一步得到所需物質,推動相關領域形成革命性突破。例如,在能源化學領域,AI能夠加速鋰離子電池電解液的設計開發與實踐,通過預測溶劑分子和相應電解液的性質,為選擇合適的電解液提供有效方法。在合成生物學領域,谷歌的AI團隊DeepMind開發的AlphaFold2提出基于深度學習算法可以在原子精度上預測蛋白質結構,能夠僅根據未知蛋白質所含氨基酸的DNA或RNA源序列,準確、有效預測其三維形狀,徹底改變了蛋白質折疊的技術路線。同樣,在我國深圳合成生物研究重大科技基礎設施中,通過AI學習7輪迭代,將400萬種可能的組合收縮到714種組合,獲得高于30倍的蛋白產量提升。在生物醫藥領域,基于AI模型進行新藥物在人體內代謝分布預測,可提升新藥物對癌癥細胞的作用與治療效果,并在研究早期階段評估藥物的安全性和有效性。

對人工智能驅動科研范式的未來展望

AI驅動科研范式以大模型、大數據、大算力為支撐,深度嵌入科研全流程,將推動科研組織治理模式發生重大變革,使得整體科研能力與效率大幅提升。ChatGPT大語言模型能夠基于對海量文獻與資料的訓練學習快速掌握科研問題的研究進展,輔助進行代碼編寫、統計分析及論文撰寫等各項工作。然而,目前ChatGPT等生成式AI技術在科研論文撰寫中仍存在倫理等多方面風險爭議。在科研組織治理模式方面,區塊鏈智能合約的發展,以及與AI相結合的DAO基礎設施的完善,為分布式自主科學(DeSci)的發展奠定了基礎。由分布式網絡構建的數據收集、模型構建和知識生成體系通過更加靈活、聚焦的方式將顯著提高科研效率。

當然,要實現真正的AI科研范式對現有研究范式的替代還有很長的路要走。從技術層面來看,AI面臨的關鍵技術挑戰之一是數據的質量和數量。大模型訓練需要依靠大量時租場地、優質的數據,以提升模型的準確性。當前,許多國際化的開源平臺已經運行,并以可互相操作的形式支持AI模型的訓練。以最典型的基因組學研究為例,國際上已有包括Gene Expression Omnibus(GEO)、ArrayExpress、Protein Data Bank(PDB)等多個開源基因數據庫用于訓練機器模型,以預測腫瘤的類型。同時,在數據隱私和安全方面,需要對數據收集、存儲及處理方式進行加密和脫敏處理。除此之外,實現AI賦能科研,構建國際科技競爭新優勢,還需要科研資助機構、數據庫建設運營方、科技領軍企業、科研機構與科研人員等打破壁壘、合作創新。訪談

加強對“人工智能科研基礎模型與應用”方向的部署。AI驅動的科研新范式建立需要科研資助部門有層次、分重點地推進“人工智能+學科”的相關項目,統籌布局和合理分配資源,加強跨學科項目支持力度。建議科研資助機構進一步強化對AI原創算法、原型系統等底層技術建立長期穩定支撐機制,培育科研領域原創性AI計算框架。對以生物制藥等為代表的關鍵領域,打造專用于動態蛋白結構模擬的超算平臺,布局生物制藥底層算法和原型系統,促進相關軟件的開發與應用。同時,要重視對于科研項目成果的評估和問責機制,特別是在數據開源開放、DeSci持續發展的背景下,需要進一步評估參與者質量、建立網絡環境信任、建立適應科研新范式的問責機制。

加強人工智能模型訓練的科研數據庫建設。當前,我國用于AI訓練的數據仍面臨質量良莠不齊、依賴國外數據庫資源、不同部門/學科之間存在較高數據流動壁壘、數據標準不統一等問題。同時,各研究機構與大學對于科研數據庫建設與運營的激勵力度不足,研究人員缺乏投入數據庫建設相關工作的動力。亟須建立并優化國家級科學計算與應用創新平臺、國家級科學大數據應用服務環境、國家級知識服務平臺,以更快、更好地實現數據讀取、篩選、識別等跨平臺、跨學科的數據應用。進一步提升相關數據庫的數據質量,在數據安全的前提下建立跨平臺的數據共享與交換機制,充分發揮數據可溯源、可編程、可感知、可交流和可關聯等特性;完善數據庫建設、運營的激勵機制,將科研數據庫作為重要研究成果納入人員考評、項目驗收機制。

促進科技領軍企業運用人工智能提升研發效能。近年來,AI開始在生命科學、新藥研發、發動機設計等企業應用研究場景發揮重要作用。AI大幅提升了工程研發智能模擬的精準度,通過把復雜應用場景情況納入AI模型降低研發試錯成本,縮短研發流程。在此過程中,亟須推動科技領軍企業向創新鏈前端攀升,推動企業加強AI領域應用模型研發投入,加強AI軟件應用生態建設布局,特別是加強探索AI平臺方與領域應用方的合作模式。以制藥產業為例,加強AI制藥公司與傳統藥企的合作,通過傳統藥企為AI制藥公司選定靶點,以及提供小分子化合物庫、基因組學信息、化學、臨床數據等信息作為輸入數據或訓練數據,AI制藥公司基于模型從大量的輸入數據中識別或轉化出有應用價值的輸出結果,以優化靶點發現、化合物合成和篩選的精確性與效率。

建立跨學科復合型人才和管理人才培養體系。科研機構需要加強AI領域與物理學、化學、生物學等領域專家之間的跨學科合作;高校應在國家重大戰略需求的驅動下,打通學科群鏈條和科技創新鏈條,建立跨學科的人才培養與合作機制,并形成專業化的支撐團隊。2018年鄂維南院士提出“建立一個交叉學科項目,通過跨學科布局,探索機器學習在各個科學和工程領域的應用”,建議加強在AI交叉學科專業方向的布局,加強基礎學科領域科研人員的跨學科研究能力。同時,培養復合型管理人才,以為AI平臺的治理提供保障。加強管理人員在AI、區塊鏈等智能加密新興技術成果方向的學習與應用。

鼓勵科研人員運用人工智能技術探索科技突破的新路徑。在AI驅動的科研新范式背景下,DAO與DeSci等新技術新模式為科學的發展提供新的組織方式和科研生態,將改變現有科學體系的結構、規范、激勵機制。科研人員需要積極學習接納AI帶來的科研新范式,主動學習培養AI思維模式,掌握AI嵌入科學研究的流程,運用AI技術進行專業學科前沿技術探索。在DAO分布式決策技術特性的基礎上,充分調動具有共同興趣和愿景的科研人員積極性、激發研究人員潛力、提高研究人員權益。例如,通過去中心化交易、協作平臺發布科研提案,在相關DAO組織中爭取更大話語權。主動探索DeSci在科研資助與知識共享中的應用,積極應對其發展早期階段面臨的內外部治理困境和挑戰。

(作者:余江、張越,中國科學院科技戰略咨詢研究院 中國科學院大學公共政策與管理學院;周易,中國科學院科技戰略咨詢研究院 英國曼徹斯特大學全球發展研究院。《中國科學院院刊》供稿)

發佈留言