<sup id="fcb1s"></sup>

    1. 成全高清在线播放电视剧,看全黄大色黄大片视频,国产18禁黄网站禁片免费视频,色综合视频一区二区三区,波多野结衣久久一区二区,风韵丰满妇啪啪区老老熟女杏吧,亚洲欧美日本久久网站,亚洲av激情综合在线
      第四范式開發(fā)用于分子性質(zhì)預測的生成式3D預訓練模型

      DoNews7月12日消息,第四范式基于生成式3D預訓練大模型在分子性質(zhì)預測領(lǐng)域的最新研究成果,近日被國際頂會KDD 2023收錄。

      論文內(nèi)容已經(jīng)發(fā)布到arxiv,代碼已開源。論文作者是4Paradigm AutoGraph團隊。

      分子性質(zhì)預測是藥物發(fā)現(xiàn)和材料科學等領(lǐng)域中的一個重要問題。考慮到分子的3D結(jié)構(gòu)信息與其性質(zhì)緊密相關(guān),近年來,一個主流的研究熱點是將分子的3D結(jié)構(gòu)信息與各種以圖學習為代表的機器學習方法結(jié)合,以提高分子性質(zhì)的預測性能。

      然而,由于高昂的計算成本,在大規(guī)模數(shù)據(jù)實時計算分子的3D結(jié)構(gòu)幾乎是不可行的。

      圖1:cc(=o)oc1=cc=cc=c1c(=o)o的2D分子圖(左)和3D構(gòu)象圖(右)。

      面對這一挑戰(zhàn),第四范式提出了一個以預訓練范式為基礎(chǔ)的大模型,專門用于分子性質(zhì)預測。預訓練范式隸屬于 AIGC 的一個重要技術(shù)分支[2],其能處理大規(guī)模數(shù)據(jù)集并提取深層次特征,充分利用了大模型的優(yōu)勢。

      本文在分子領(lǐng)域結(jié)合已有的3D分子構(gòu)象進行預訓練,并在實際下游任務(wù)中只基于分子的2D結(jié)構(gòu)信息進行微調(diào)并進行性質(zhì)預測,從而在保證高效的前提下進一步提升在下游任務(wù)上的表現(xiàn)。

      在這項工作中,第四范式提出了一種自動化3D預訓練框架:3D-PGT。基于分子的化學鍵長、鍵角和二面角是對應(yīng)于完整分子3D構(gòu)象的三個基本幾何描述符這一事實,第四范式對應(yīng)設(shè)計了三個生成式預訓練任務(wù),使得模型通過預訓練能夠具備編碼3D幾何結(jié)構(gòu)的能力。而為了自動化分配這三個預訓練任務(wù)的權(quán)重以融合成一個總體的預訓練目標函數(shù),第四范式基于分子總能量設(shè)計了一個surrogate metric,從而自動搜索三個預訓練任務(wù)的權(quán)重分布。

      圖2:分子性質(zhì)預測問題的核心問題示意:如何兼具更快的推理速度和更小的推理誤差。

      為了驗證所設(shè)計的預訓練框架的有效性,第四范式基于已測定 3D 結(jié)構(gòu)的公開分子數(shù)據(jù)集進行了預訓練,并在 8 個量子化學性質(zhì)預測任務(wù)和 12 個涉及藥理學、分子化學的下游任務(wù)上進行微調(diào)和實驗驗證。

      結(jié)果表明,3D-PGT能通過3D預訓練帶來明顯的性能增益,且優(yōu)于其他預訓練 baseline。這再次證明了在分子性質(zhì)預測領(lǐng)域,大模型處理復雜任務(wù)和大規(guī)模數(shù)據(jù)的優(yōu)勢。

      同時,基于 3D-PGT 的方法還在催化劑仿真挑戰(zhàn) Open Catalyst Challenge 2022 上取得第 3,在大規(guī)模分子性質(zhì)預測挑戰(zhàn) OGB-LSC@NeruIPS challenge 2022 中取得第 8 名的成績。

      2.? 背景介紹

      分子性質(zhì)作為描述分子特征和行為的基本屬性,在藥理學、材料化學等研究領(lǐng)域和具體應(yīng)用都有著重要意義。然而分子性質(zhì)的測定往往需要借助成本高昂的計算方式,例如以密度泛函理論(Density Functional Theory, DFT)為代表的計算化學方法。

      近年來,隨著大規(guī)模量子化學計算和高通量實驗的技術(shù)進步,一個新興的工業(yè)界和學術(shù)界熱門的研究方向,是利用具有適當歸納偏置的機器學習方法并結(jié)合已測定性質(zhì)的大量分子數(shù)據(jù),實現(xiàn)高效的分子性質(zhì)預測,并應(yīng)用于一系列實際下游應(yīng)用中,例如大規(guī)模藥物分子篩選,合成材料篩選,催化劑設(shè)計等。

      圖3:分子性質(zhì)預測效率對比示意圖。其中基于量子化學計算的DFT計算特定分子性質(zhì)需要數(shù)個小時,而利用機器學習方法只需要遠小于1秒的時間。該圖出自O(shè)GB@NeurIPS 2022 Challenge,預測分子的HOMO-LUMO能隙。

      在過去的幾年中,一種主流的方法是將分子建模為 2D 圖結(jié)構(gòu),其中以原子作為節(jié)點,而邊作為化學鍵,將整個分子性質(zhì)預測建模為圖級(Graph-level)預測任務(wù),并應(yīng)用 GNN(Graph Neural Network)通過擬合 DFT 的計算方式預測分子的性質(zhì)。但目前,這種方法只有較高的預測效率,預測性能距離實際應(yīng)用還有較大的差距。

      圖4:現(xiàn)有分子性質(zhì)預測方法的一般流程。基于DFT的量子化學計算方法首先對分子的三維結(jié)構(gòu)進行優(yōu)化以獲得低能構(gòu)象,然后基于構(gòu)象計算特定的分子性質(zhì)。2D模型近似DFT的整個過程,通過輸入的2D分子圖直接預測分子性質(zhì);3D模型在2D分子圖的基礎(chǔ)上還需要進一步輸入3D分子構(gòu)象,以獲得更好的預測性能。

      由于分子的 3D 結(jié)構(gòu)反映了原子和官能團之間的相互作用和相對位置,因此 3D 結(jié)構(gòu)對分子性質(zhì)的理解至關(guān)重要。考慮到這一點,一系列方法針對分子的 3D 結(jié)構(gòu)信息設(shè)計 3D 模型,從而獲得更好的預測效果。然而,3D 結(jié)構(gòu)的獲取需要依賴 DFT 等量子化學計算手段,這種昂貴的計算成本導致分子的 3D 結(jié)構(gòu)在許多實際的下游任務(wù)中往往是不可獲取的。

      結(jié)合上述兩種主流路線各自的優(yōu)缺點,一個最近比較新穎的角度是將包含已測定 3D 結(jié)構(gòu)信息的數(shù)據(jù)集作為預訓練數(shù)據(jù)集,基于 3D 結(jié)構(gòu)設(shè)計預訓練任務(wù),從而讓模型理解 DFT 由 2D 分子圖計算優(yōu)化 3D 結(jié)構(gòu)的過程,并將該先驗信息遷移到下游 2D 分子性質(zhì)預測任務(wù)上,從而兼具效率和性能。

      目前,主流的同期工作例如 GraphMVP[3]?和3D Infomax[4]?都通過對齊分子 2D 視圖和 3D 視圖的圖級表示向量來設(shè)計預訓練目標函數(shù),并通過在主流 benchmark 上的實驗證明了 3D 預訓練方案的有效性。

      綜上,本文繼續(xù)沿著分子 3D-Pretraining 的 Pipeline,設(shè)計了三個基礎(chǔ)的生成式預訓練任務(wù),并基于分子總能量設(shè)計目標函數(shù)來自動搜索各預訓練任務(wù)的權(quán)重,從而構(gòu)建多預訓練任務(wù)的自動融合框架,并在廣泛的下游任務(wù)上獲得了顯著的預訓練收益。

      3.? 本文的方法

      3.1??生成式預訓練任務(wù)的設(shè)計

      DFT 優(yōu)化分子 3D 結(jié)構(gòu)的核心是在勢能面上尋找局部最小值[5],分子能量出于勢能面上局部最小值時的 3D 結(jié)構(gòu)也被稱為分子構(gòu)象。其中,構(gòu)象所包含的 3D 幾何信息可以被以下三個描述符完整地描述:兩個原子之間的化學鍵長、兩個化學鍵之間形成的夾角,以及三個化學鍵形成的二面角。

      生成式預訓練任務(wù)使模型能夠理解分子從 2D 拓撲到 3D 幾何的基于 DFT 的優(yōu)化過程。由于分子幾何是由電子的量子力學行為決定的,因此生成式預訓練任務(wù)可以通過學習 3D 構(gòu)象的生成來間接學習量子化學性質(zhì)的預測。基于此,本文設(shè)計了三個生成式預訓練任務(wù)來分別生成這鍵長、鍵角、二面角這三個描述符,具體如下所示:

      圖5:分子結(jié)構(gòu)和勢能面關(guān)系示意圖。勢能面將分子能量定義為多個坐標軸的函數(shù),分子3D構(gòu)象的優(yōu)化就是在勢能面上尋找局部最小值,而3D構(gòu)象中的幾何信息可以通過連接兩個原子的鍵長、三個相連原子的鍵角和三個連續(xù)鍵的二面角來描述

      其中,h 代表對應(yīng)節(jié)點的表示向量,f 為對應(yīng)的預測網(wǎng)絡(luò)(這里的設(shè)置是MLP)。可以看到,這三個任務(wù)的核心思路都是利用 backbone 提取的節(jié)點表示來設(shè)計具體的回歸任務(wù),通過將描述符中包含的 3D 結(jié)構(gòu)信息當做解讀信號,從而讓 backbone 具有編碼 3D 結(jié)構(gòu)信息的能力,并將這種能力作為先驗嵌入到模型并遷移到實際的下游任務(wù)中。

      同時,考慮到當鄰居數(shù)為|N|時,分子的鍵角和二面角的計算復雜度呈 Ο(|N|^2 )和Ο(|N|^3 ) 增長,使得大規(guī)模的 3D 預訓練實現(xiàn)成本過高。本文基于 RGC(Runtime Geometry Calculation)重新設(shè)計了鍵角和二面角的目標函數(shù),用每個原子的所涉及的鍵角和與每個化學鍵設(shè)計的二面角的和來代替所有鍵角和二面角的預測,從而將計算復雜度降低到線性級別。

      3.2??自動化多預訓練任務(wù)融合框架

      由于第四范式同時定義了多個預訓練任務(wù),且各預訓練任務(wù)的損失函數(shù)對于模型參數(shù)的梯度優(yōu)化方向并不一致,因此各自預訓練任務(wù)的權(quán)重分配是一個需要考慮的問題。如何自動化且最更好地分配多預訓練任務(wù)的權(quán)重,以預期在下游任務(wù)上獲得更好的性能增益,是設(shè)計多預訓練任務(wù)融合框架的核心。

      由于鍵長、鍵角和二面角都是局部描述符,因此這里需要一個明確的 surrogate metric 來評估預訓練后的 backbone 對于分子 3D 結(jié)構(gòu)整體的編碼能力而不是局部編碼能力。

      對此,本文考慮得到分子總能量和分子 3D 結(jié)構(gòu)之間的對應(yīng)關(guān)系,基于分子總能量設(shè)計了一個目標函數(shù),并基于此設(shè)計了 bi-level 的油畫框架來搜索三個生成式預訓練任務(wù)各自的權(quán)重。

      最終,第四范式整體預訓練的 pipeline 如下圖所示。在預訓練階段,第四范式首先基于預訓練分子的低能構(gòu)象設(shè)計了三個生成式預訓練任務(wù),并基于分子低能構(gòu)象對應(yīng)的分子總能量設(shè)計了一個 surrogate metric 來搜索三個預訓練任務(wù)的各自權(quán)重;而在下游的微調(diào)階段,由于我們已經(jīng)在預訓練階段引入了分子幾何先驗,因此通過微調(diào)即可在實際下游任務(wù)中獲得性能增益。

      圖6:3D-PGT的預訓練框架示意圖

      4.? 實驗結(jié)果

      在本文中,第四范式針對性的設(shè)計了一系列實驗來證明 3D 預訓練這一技術(shù)路線和本文設(shè)計的預訓練任務(wù)及自動融合框架的有效性,從而面臨當只有 2D 分子圖可以用于預測時,可以避免為每個分子生成 3D 構(gòu)象的巨大計算成本,并能通過微調(diào)獲得明顯的性能收益。

      本文主要在 3 個包含 3D 結(jié)構(gòu)信息的數(shù)據(jù)集上進行預訓練,并主要在 12 個下游任務(wù)上進行微調(diào)和效果驗證,數(shù)據(jù)集的詳細統(tǒng)計數(shù)據(jù)如下所示:

      圖7:數(shù)據(jù)集的統(tǒng)計細節(jié)

      4.1 量子化學性質(zhì)預測的表現(xiàn)

      本文首先在流行的基準數(shù)據(jù)集QM9上評估了3D-PGT的量子化學領(lǐng)域的性質(zhì)預測能力。第四范式首先從QM9包含的134k單一分子構(gòu)象樣本中隨機選取50k個攜帶構(gòu)象信息的分子樣本用于預訓練,并從剩余的樣本中選取50k個分子樣本并屏蔽其3D結(jié)構(gòu)信息用于微調(diào)和評測。結(jié)果如下:

      圖8:QM9數(shù)據(jù)集實驗對比結(jié)果,評價指標為MAE(平均絕對誤差)

      從實驗結(jié)果中,第四范式觀測到以下現(xiàn)象 :1)首先,3D-PGT以GPS作為backbone進行預訓練和微調(diào),但相較于GPS的baseline,3D-PGT在8種量子化學性質(zhì)的預測上平均減少了17.7%的MAE;2)同時,3D-PGT也明顯優(yōu)于其他2D預訓練方法,以GraphCL為例,其不包含3D結(jié)構(gòu)信息的預訓練所能帶來的性能提升是有限的;3)相較于GraphMVP和3D Infomax兩種前沿的3D預訓練方法,我們的預訓練框架仍然具有性能優(yōu)勢;4)值得注意的是,當給定準確的3D結(jié)構(gòu)時,3D模型SMP取得了顯著的性能優(yōu)勢,但當提供給SMP的3D信息來源是粗糙的RDKit計算結(jié)果時,3D-PGT在8個預測任務(wù)中的6個都擊敗了SMP,體現(xiàn)了3D預訓練范式在效率和性能上優(yōu)勢。

      圖9:不同方法在HOMO預測任務(wù)上的推理時間和性能排名

      4.2 在其他廣泛下游任務(wù)上的泛化能力

      除了預測與分子 3D 結(jié)構(gòu)密切相關(guān)的量子化學性質(zhì)外,第四范式還將下游任務(wù)進一步推廣到藥理學、物理學和生物學等領(lǐng)域,且這些任務(wù)的輸入只包含 2D 分子圖。

      第四范式在 GEOM 數(shù)據(jù)集中隨機選擇 50 k個具有單個構(gòu)象的分子進行預訓練,并對 8 個主流下游分子性質(zhì)分類任務(wù)和 6 個回歸任務(wù)上進行微調(diào),且這些下游任務(wù)包含的數(shù)據(jù)量都較少,具體結(jié)果如下:

      圖10:在四個分子性質(zhì)預測任務(wù)(RMSE)和兩個藥物蛋白靶點親和力預測任務(wù)(MSE)上的實驗結(jié)果

      可以看到,3D-PGT 在大多數(shù)下游任務(wù)上都優(yōu)于其他 baseline,且與 GPS 相比,3D-PGT 依舊可以預訓練獲得穩(wěn)定的性能收益。這意味著第四范式所設(shè)計的預訓練框架可以將性能增益推廣到廣泛的下游任務(wù)上(除分子性質(zhì)預測本身外,在兩個藥物和靶蛋白親和力預測任務(wù) Davis 和 KIBA 上也獲得了性能收益),而不局限于和 3D 結(jié)構(gòu)密切相關(guān)的量子化學性質(zhì)預測,且即使在小樣本數(shù)據(jù)上的微調(diào)也能帶來性能增益。

      4.3 在大規(guī)模數(shù)據(jù)挑戰(zhàn)賽上的表現(xiàn)

      在 OGB-LSC 的 Graph-level 預測任務(wù)賽道中,PCQM4Mv2 是一個包含 374 萬分子的大型分子數(shù)據(jù)集,其中的 337 萬個訓練樣本的 3D 幾何信息通過 DFT 計算得到,且為了接近大規(guī)模的虛擬篩選場景,該挑戰(zhàn)沒有提供驗證集和測試集的 3D 構(gòu)象,且要求使用單個 GPU 在 4 小時內(nèi)完成 150k 個分子的 HOMO-LUMO gap 的推斷,這意味著在模型的推理階段計算所有測試樣本的幾何結(jié)構(gòu)是不可行的。3D-PGT 在該數(shù)據(jù)集上的表現(xiàn)與 Leaderboard 排名前列的方法對比結(jié)果如下所示:

      圖11:在PCQM4Mv@驗證集上的實驗結(jié)果

      可以看到,與現(xiàn)有的不考慮 3D 結(jié)構(gòu)信息的 GNN 和 Transformer 系列方法相比,3D-PGT 通過引入生成式預訓練任務(wù)得到了明顯的性能提升。其中針對GPS 的 baseline,3D-PGT 通過設(shè)計的自動預訓練框架降低了 10.6 的 MAE,且在單模型的性能上由于OGB@NeruIPS 2022冠軍方案GPS++。

      與此同時,Open Catalyst Challenge 2022是一個致力于利用分子模擬發(fā)現(xiàn)高性能催化劑的挑戰(zhàn)賽。該比賽的核心任務(wù)是之一利用機器學習模型預測催化劑分子活性。

      訓練集包含 200 萬個分子,且記錄了每個分子樣本的 3D 結(jié)構(gòu)和總能量。最終,結(jié)合 AutoGraph 的算法,3D-PGT 在該挑戰(zhàn)賽上取得了第三的成績,再次印證了該預訓練框架的有效性和競爭力。

      圖12:Open Catalyst Challenge 2022 Leaderboard結(jié)果

      5.? 結(jié)論

      在這項工作中,第四范式提出了 3D-PGT,一種自動化的 3D 預訓練框架,專注于提升在實 3D 結(jié)構(gòu)不可用的分子性質(zhì)預測任務(wù)上的表現(xiàn)。

      3D-PGT 設(shè)計了多個生成式預訓練任務(wù),這些任務(wù)可以將幾何先驗帶入微調(diào)階段。同時,為了更好地自動融合這些預訓練任務(wù)并使其效益能夠具有普適性,第四范式基于分子總能量設(shè)計了一個預訓練的 surrogate metric 來搜索每個預任務(wù)的自適應(yīng)權(quán)重。

      本文基于現(xiàn)有主流的量子化學數(shù)據(jù)集和一系列廣泛的下游任務(wù)設(shè)計了實驗,且實驗結(jié)果表明,3D-PGT 通過預訓練引入潛在的幾何先驗不僅有利于量子化學性質(zhì)的預測,而且有利于藥理學、物理化學和生物物理學等領(lǐng)域的預測。此外,在 OGB 排行榜上,3D-PGT 在大規(guī)模分子預測方面優(yōu)于頂級解決方案的所有 baseline。

      在未來的工作中,考慮到在 NLP 領(lǐng)域 GPT 的預訓練范式的成功,我們會將該框架和 3D 分子預訓練范式推廣到實際的下游應(yīng)用中,例如開發(fā)用于儲存可再生能源的催化劑等。

      標簽: 第四范式
      第四范式開發(fā)用于分子性質(zhì)預測的生成式3D預訓練模型
      掃描二維碼查看原文
      分享自DoNews
      Copyright ? DoNews 2000-2025 All Rights Reserved
      蜀ICP備2024059877號-1
      主站蜘蛛池模板: 国产一区二区三区不卡视频| 东乡县| 在线无码免费的毛片视频| 色欲av久久一区二区三区久| 九九日本黄色精品视频| 国产仑乱无码内谢| 国产欧美亚洲精品a| 日区中文字幕一区二区| 99精品国产兔费观看久久99| 色欲久久人妻内射| 少妇高潮喷水正在播放| 黄男女激情一区二区三区| 开心婷婷五月激情综合社区| 亚洲精品tv久久久久久久久久 | 国产初高中生在线视频| 亚洲成人av在线资源网| 欧美日韩亚洲国产| 老色鬼在线精品视频在线观看 | 亚洲av熟女国产一二三| 成人深夜节目在线观看| 五月丁香啪啪| 国产精品视频免费一区二区三区| 极品vpswindows少妇| 东京热无码国产精品| 亚洲欧洲日产国码无码久久99| 亚洲成人av在线资源网| 40岁大乳的熟妇在线观看| 99久久无色码中文字幕| 日本亚洲欧洲免费无线码| 国产综合内射日韩久| 亚洲精品一区二区三区蜜臀| 中国熟女仑乱hd| 好吊妞人成视频在线观看| 国内自拍小视频在线看| 91网站在线看| 精品天堂色吊丝一区二区| 人妻少妇偷人精品一区| 亚洲人成网线在线播放VA| 亚洲悠悠色综合中文字幕| 国产精品第一二三区久久| 亚洲精品www久久久久久|