在上一篇文章中,我們探討了傳統(tǒng)機(jī)器學(xué)習(xí)的基本概念及其多種算法。在本篇中,將重點(diǎn)介紹人工神經(jīng)網(wǎng)絡(luò)的基本原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu),方便各位生物醫(yī)療領(lǐng)域的老師選擇應(yīng)用。
01 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN)的名稱源于其建模形式受到人腦神經(jīng)元連接與行為的啟發(fā),最初是為了探索大腦的功能而設(shè)計(jì)的。然而,現(xiàn)今在數(shù)據(jù)科學(xué)中廣泛使用的神經(jīng)網(wǎng)絡(luò)作為大腦模型的初衷已被更新的應(yīng)用代替,現(xiàn)在它們主要作為機(jī)器學(xué)習(xí)模型,在某些特定領(lǐng)域展現(xiàn)出優(yōu)越的性能。最近,深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練技術(shù)的快速進(jìn)展,引發(fā)了人們對(duì)神經(jīng)網(wǎng)絡(luò)模型的廣泛興趣。本文將詳細(xì)描述基本的神經(jīng)網(wǎng)絡(luò)及其在生物醫(yī)療研究中的多種應(yīng)用。
02 神經(jīng)網(wǎng)絡(luò)基本原理
神經(jīng)網(wǎng)絡(luò)具有模擬幾乎任何數(shù)學(xué)函數(shù)的能力。這意味著,通過合理的配置,神經(jīng)網(wǎng)絡(luò)可以精確模擬生物醫(yī)療中的復(fù)雜過程。這一特性使得神經(jīng)網(wǎng)絡(luò)幾十年來備受關(guān)注。人工神經(jīng)元作為神經(jīng)網(wǎng)絡(luò)的基本單元,可以視為一個(gè)簡化的數(shù)學(xué)公式,它接收輸入值,對(duì)其進(jìn)行計(jì)算并輸出結(jié)果。這個(gè)過程可以如下表達(dá):輸入值為xi, 權(quán)重為wi,偏置項(xiàng)為b, 激活函數(shù)為σ,用以實(shí)現(xiàn)非線性變換,提升神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜函數(shù)的能力。神經(jīng)元分層排列,每層的輸出為下一層的輸入,從而使信息逐層傳遞,最終得到輸出。這種排列方式稱為“神經(jīng)網(wǎng)絡(luò)架構(gòu)”。
03 神經(jīng)網(wǎng)絡(luò)架構(gòu)方法
多層感知器(MLP)是最基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型,包含多層全連接的神經(jīng)元。輸入神經(jīng)元代表數(shù)據(jù)特征,每對(duì)神經(jīng)元之間的連接代表可訓(xùn)練的權(quán)重。訓(xùn)練的過程就是優(yōu)化這些權(quán)重。盡管新型模型在多種應(yīng)用中取得了優(yōu)勢(shì),MLP因其訓(xùn)練簡單快速而仍廣泛應(yīng)用于生物醫(yī)學(xué)建模。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)則專注于處理具有局部結(jié)構(gòu)的數(shù)據(jù)。CNN通過一個(gè)或多個(gè)卷積層將小區(qū)域內(nèi)的局部特征進(jìn)行分析,特別適合圖像數(shù)據(jù)。在生物醫(yī)學(xué)中,CNN已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因變異識(shí)別以及醫(yī)學(xué)圖像分類等任務(wù)中取得顯著成就,表現(xiàn)常與專業(yè)人士相當(dāng)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)適合處理有序的序列數(shù)據(jù),例如文本或時(shí)間序列數(shù)據(jù)。RNN逐個(gè)處理序列數(shù)據(jù),并輸出整個(gè)序列的表征。在生物醫(yī)學(xué)領(lǐng)域,RNN常應(yīng)用于基因或蛋白質(zhì)序列分析,能夠提取進(jìn)化和結(jié)構(gòu)信息,助力新型蛋白質(zhì)設(shè)計(jì)。
圖卷積網(wǎng)絡(luò)(GCN)則聚焦于處理無明顯結(jié)構(gòu)的關(guān)聯(lián)數(shù)據(jù),如分子及其化學(xué)鍵的結(jié)構(gòu),或蛋白質(zhì)間相互作用網(wǎng)絡(luò)。GCN通過圖的結(jié)構(gòu)影響信息在網(wǎng)絡(luò)內(nèi)的流動(dòng),對(duì)相鄰節(jié)點(diǎn)特征進(jìn)行整合分析,為生物醫(yī)學(xué)研究提供重要支持。
自編碼器是一種特殊的神經(jīng)網(wǎng)絡(luò),其目標(biāo)是壓縮數(shù)據(jù)為更小的形式,再還原為原始尺寸。自編碼器的訓(xùn)練過程中,能夠識(shí)別數(shù)據(jù)中的重要特征,并在訓(xùn)練完成后,解碼器可以用于生成新的數(shù)據(jù),在生物醫(yī)學(xué)研究中,例如DNA甲基化狀態(tài)預(yù)測和單細(xì)胞RNA測序分析中得到了廣泛應(yīng)用。
04 訓(xùn)練和改進(jìn)神經(jīng)網(wǎng)絡(luò)
在選擇合適的神經(jīng)網(wǎng)絡(luò)模型后,通常會(huì)通過單個(gè)訓(xùn)練樣例進(jìn)行初步訓(xùn)練。雖然此階段的模型并不適合預(yù)測,但能夠幫助發(fā)現(xiàn)潛在的編程錯(cuò)誤。訓(xùn)練損失函數(shù)應(yīng)迅速趨近于零,一旦模型通過基本調(diào)試,就可以開始對(duì)整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練,以最小化損失函數(shù)。
監(jiān)控訓(xùn)練集和驗(yàn)證集的損失變化,有助于防止過擬合現(xiàn)象,這一現(xiàn)象通常會(huì)在訓(xùn)練損失持續(xù)下降而驗(yàn)證損失開始上升時(shí)出現(xiàn)。采用提前停止、模型正則化和dropout等技術(shù),都可以有效預(yù)防過擬合。
綜上所述,我們先后介紹了機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),包括其核心概念與術(shù)語,以及傳統(tǒng)機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的詳細(xì)應(yīng)用。希望各位老師借此機(jī)會(huì)深入理解和應(yīng)用機(jī)器學(xué)習(xí)核心技術(shù),為未來在生物醫(yī)療領(lǐng)域的研究與應(yīng)用做好準(zhǔn)備,同時(shí)也歡迎關(guān)注尊龍凱時(shí),獲取更多相關(guān)信息。