国产手机在线ΑⅤ片无码观看,国产污视频在线观看

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

雷鋒網(wǎng)報(bào)道：還記得AlphaFold成名的那一戰(zhàn)么？

2018年的11月2日，在第13屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽（CASP）上，AlphaFold獲得了預(yù)測(cè)43種蛋白中的25種蛋白結(jié)構(gòu)的最高分，在98名參賽者中排名第一。對(duì)于DeepMind的預(yù)測(cè)方法，由于當(dāng)時(shí)沒有具體論文發(fā)布，眾多學(xué)者認(rèn)為是計(jì)算能力突出使得AlphaFold獲得冠軍。

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

1月15日，DeepMind關(guān)于AlphaFold模型與代碼通過了同行評(píng)審發(fā)布在了雜志《nature》上面。并且模型和代碼已經(jīng)開源。

代碼：https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

模型：https://www.biorxiv.org/content/10.1101/846279v1.full.pdf

根據(jù)DeepMind的介紹，在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的物理性質(zhì)方面使用了兩種不同的方法來構(gòu)建預(yù)測(cè)模型。并且兩種方法都是基于深度神經(jīng)網(wǎng)絡(luò)來設(shè)計(jì)的，另外，預(yù)測(cè)模型主要完成對(duì)基因序列中蛋白質(zhì)的特性的預(yù)測(cè)，這些特性包括：a：成對(duì)的氨基酸之間的距離；b：連接這些氨基酸的化學(xué)鍵之間的角度。

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

兩種圖片展示方式都表達(dá)了AlphaFold預(yù)測(cè)的準(zhǔn)確度，像素亮度代表氨基酸之間的距離，像素顏色越亮，兩個(gè)殘基（residues）對(duì)就越近。第一行圖片是真實(shí)距離，中間一行圖片展示的是平均距離。

具體操作步驟為用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)中的每一對(duì)殘基的概率分布，然后將這些概率合并為一個(gè)分?jǐn)?shù)，從而能夠估計(jì)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確性。另外，還訓(xùn)練了一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò)，基于所有距離的總和來評(píng)估預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)與實(shí)際的結(jié)構(gòu)的接近程度。然后使用評(píng)分系統(tǒng)（也是用神經(jīng)網(wǎng)絡(luò)構(gòu)建）找到最優(yōu)的預(yù)測(cè)。

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

雷鋒網(wǎng)(公眾號(hào)：雷鋒網(wǎng))：整個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的過程

第二種方法是采用梯度下降優(yōu)化分?jǐn)?shù)，從而達(dá)到更準(zhǔn)確的精度。更具體的是將梯度下降應(yīng)用在整個(gè)蛋白質(zhì)結(jié)構(gòu)鏈的預(yù)測(cè)過程，而不僅僅是蛋白質(zhì)展開的“碎片”。

模型簡(jiǎn)介

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

https://www.biorxiv.org/content/10.1101/846279v1.full.pdf

根據(jù)DeepMind公開的論文《Improved protein structure prediction using predicted inter-residue orientations》。AlphaFold由深度學(xué)習(xí)和傳統(tǒng)算法混合而成：CNN+Rosetta。

具體來說構(gòu)建神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)殘基間的方向和距離，然后用Rosetta對(duì)蛋白質(zhì)結(jié)構(gòu)同源建模、結(jié)構(gòu)修復(fù)。同時(shí)設(shè)計(jì)一種Rosetta的優(yōu)化方法來補(bǔ)充Rosetta能量函數(shù)的預(yù)測(cè)約束，進(jìn)而生成更精確的模型。

盡管訓(xùn)練數(shù)據(jù)集全部為天然的蛋白質(zhì)，但該模型始終將更高的概率分配給新設(shè)計(jì)的蛋白質(zhì)，并找到?jīng)Q定殘基的關(guān)鍵折疊和建立蛋白質(zhì)結(jié)構(gòu)“理想性（ideality）”的獨(dú)立定量衡量標(biāo)準(zhǔn)。

更為具體的，模型的由兩個(gè)關(guān)鍵部分組成：一個(gè)是深度殘差卷積神經(jīng)網(wǎng)絡(luò)，即將多序列比對(duì)（ multiple sequence alignments）作為輸入；輸出的信息為蛋白質(zhì)中的殘基對(duì)中的相對(duì)距離和方向。

另一個(gè)是在網(wǎng)絡(luò)輸出的基礎(chǔ)上針對(duì)殘基對(duì)的距離和方向最小化的約束建立快速Rosetta模型（fast Rosetta model）在訓(xùn)練數(shù)據(jù)集方面，DeepMind使用的蛋白質(zhì)數(shù)據(jù)庫(kù)（PDB）里面有15051個(gè)蛋白質(zhì)鏈條信息，其中有30%是被標(biāo)注的數(shù)據(jù)。

關(guān)于對(duì)模型的測(cè)試，DeepMind使用的是兩個(gè)獨(dú)立的測(cè)試集：第一個(gè)來自CASP13，第二個(gè)來自CAMEO實(shí)驗(yàn)。另外，在CASP13數(shù)據(jù)集上，DeepMind使用完整的蛋白質(zhì)序列而不是結(jié)構(gòu)域序列來模擬。

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

圖注：A：用角度和距離表示從一個(gè)殘基到另一殘基的轉(zhuǎn)換。B：神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)根據(jù)MSA預(yù)測(cè)殘基間的幾何形狀；C：預(yù)測(cè)過程概覽

在殘基間的幾何預(yù)測(cè)方面，DeepMind使用深度殘差神經(jīng)網(wǎng)絡(luò)。與大多數(shù)預(yù)測(cè)方法不同，DeepMind除了預(yù)測(cè)化學(xué)鍵之間的距離之外，殘基對(duì)之間的方位也屬于其預(yù)測(cè)的范圍。如上圖所示，殘基1與殘基2之間的方位由3個(gè)二面角以及2個(gè)平面角表示。其中ω表示沿虛軸（連接兩個(gè)殘基的原子）旋轉(zhuǎn)角度。平面角定義了從殘基1看到殘基2的Cβ原子的方向。另外，與d和ω不同，θ和φ坐標(biāo)是不對(duì)稱的，其取決于殘基的順序。綜上6個(gè)參數(shù)d，ω， ${/theta }_{12}$ ${/phi }_{12}{,/phi }_{21}{/theta }_{21}$ 定義了兩個(gè)殘基的主干原子的相對(duì)位置，這6個(gè)參數(shù)也是神經(jīng)網(wǎng)絡(luò)所要預(yù)測(cè)的。

神經(jīng)網(wǎng)絡(luò)的輸入是從MSA提取的特征，并且執(zhí)行動(dòng)態(tài)運(yùn)算。輸入的一維特征包括：蛋白質(zhì)氨基酸序列的獨(dú)熱編碼、位置特定頻率矩陣（position-specific frequency matrix）、配位熵（positional entropy）。隨后這些一維特征被水平和垂直平鋪，然后堆疊在一起以產(chǎn)生2×42=84個(gè)2維特征映射。此外，DeepMind從MSA中提取配對(duì)統(tǒng)計(jì)信息，這些信息從輸入MSA構(gòu)造的縮小協(xié)方差矩陣的逆導(dǎo)出的耦合來表示。首先計(jì)算一個(gè)站點(diǎn)（one-site）和兩個(gè)站點(diǎn)（two-site）的頻率計(jì)數(shù)，計(jì)算公式如下：

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

其中，A和B分別表示氨基酸的屬性，δ是克羅內(nèi)克函數(shù)，Wm是MSA中序列數(shù)目的倒數(shù)，與序列m至少有80%的序列同源性。其中

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

然后計(jì)算樣本協(xié)方差矩陣，公式如下：

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

接下來在收縮(即通過在對(duì)角線上附加恒定權(quán)重進(jìn)行正則化)之后求其逆(也稱為精度矩陣)：

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

范數(shù)轉(zhuǎn)換：

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

最后修正：

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

在具體的訓(xùn)練過程中，DeepMind使用交叉熵進(jìn)行評(píng)估，其評(píng)估結(jié)果是總損失等于4個(gè)擁有同樣權(quán)重的分支網(wǎng)絡(luò)的損失之和。另外，使用學(xué)習(xí)率為1e-4的Adam優(yōu)化器，Dropout保持85%的概率。并隨機(jī)地對(duì)輸入MSAs在對(duì)數(shù)尺度上平均進(jìn)行采樣，長(zhǎng)度超過300個(gè)氨基酸的大蛋白質(zhì)會(huì)被隨機(jī)切片。然后對(duì)于距離分布，將概率值通過以下等式將概率值轉(zhuǎn)換為分?jǐn)?shù)：

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

上述公式中的a是常數(shù)（=1.57），di是第i個(gè)bin的距離，

pi是第i個(gè)bin的距離的概率，N是bin的總數(shù)。

對(duì)于方向的分布，不考慮歸一化的情況下，概率轉(zhuǎn)分?jǐn)?shù)的公式為：

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

最后將所有的分?jǐn)?shù)通過Rosetta轉(zhuǎn)化成平滑勢(shì)能，并用約束限制勢(shì)能最小化。綜上整個(gè)模型我們可以歸結(jié)為：扔進(jìn)一個(gè)蛋白質(zhì)序列，生成一個(gè)結(jié)構(gòu)、一個(gè)評(píng)分，通過評(píng)分判斷是否滿意，不滿意就再生成一個(gè)。

代碼簡(jiǎn)介

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

根據(jù)DeepMind提供的Github中介紹，這份代碼包括預(yù)測(cè)網(wǎng)絡(luò)、相關(guān)的模型權(quán)重以及在《自然》雜志上發(fā)表的CASP13數(shù)據(jù)集的實(shí)現(xiàn)。此外，還詳細(xì)的介紹了數(shù)據(jù)的下載地址，以及如何輸入數(shù)據(jù)；運(yùn)行系統(tǒng)如何操作也給出了詳細(xì)的指導(dǎo)。雷鋒網(wǎng) AI科技評(píng)論在下方再次給出github地址，感興趣的讀者趕緊去上手試一試吧！

https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Nature》

亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Natur

模型簡(jiǎn)介

代碼簡(jiǎn)介

DeepMind開源AlphaFold，蛋白質(zhì)預(yù)測(cè)模型登上《Natur