美女黄视频免费_国产在线精品一区二区三区_亚洲永久精品国产_国产一区二区三区久久_亚洲黄色片子_国产精品第一国产精品

  • 產品|
  • 采購|
  • 企業|
  • 資訊|
  • 展會|

客服QQ:544721284

您所在的位置:首頁 > 資訊 > 分析預測 > 一種復雜數據預測模型的構建方法與流程

一種復雜數據預測模型的構建方法與流程

日期: 2021-03-29 瀏覽人數: 171 來源: 編輯:

分享到:
核心提示:  新一代測序技術的出現,使研究人員能夠處理收集的大數據(例如,使臨床研究人員能夠處理收集自患者的上百個生物樣本),并進行

  新一代測序技術的出現,使研究人員能夠處理收集的大數據(例如,使臨床研究人員能夠處理收集自患者的上百個生物樣本),并進行如全基因組表達水平、甲基化水平或體細胞突變的分析,這里稱為高維組學數據(HDOD,high dimension omics data)。雖然可獲得的臨床樣品量通常有限,但由于每個樣本被觀測的變量的數目可以達到數千或數百萬,因此臨床研究的瓶頸,已經從樣品采集轉移到了數據管理和數據分析上。利用HDOD連同其它臨床變量建立特定臨床結果的預測模型,已經是生物醫學信息學的研究人員的眾多分析目標之一。

  建立預測模型已經成為一些學科的定量研究員共享的研究點。研究員一直在積極利用來自數據庫的大數據集進行預測模型的開發,采用的方法包括機器學習算法、支持向量機和遺傳算法。此外,基于對數據庫技術和可視化工具的熟練掌握,研究員可以有效地構建HDOD,通過縮放p計算分析HDOD,并使得HDOD衍生的結果可視化,從而使生物醫學研究人員可以對HDOD進行處理,并可以直觀地觀測結果。

  構建預測模型已經是現有技術,通常是根據已知預測多變量的結果,構建基于回歸的預測模型,且大多采用廣義線性模型(GLM)。Hastie和Tibshirani放寬了參數假設,描述了廣義相加模型(GAM),用非參數回歸方法結合幾十年的研究。近年來,統計學家一直在研究使用懲罰似然技術(包括LASSO、GBM和彈性網絡技術)來使HDOD自動的選擇協變量。這些方法是轉化研究中用于處理維度災難的主要工具。

  雖然計算機科學與統計學之間存在交叉,但之間的基本區別在于,計算機科學通常從系統的角度探索帶有多變量的圖譜,而統計學傾向于遵循節省原則確定幾個協變量預測模型。統計學面臨的一個主要挑戰是如何控制根據HDOD選擇預測器的假陽性錯誤率的過度膨脹,其將導致“過度擬合”預測模型。與此相反,計算機科學或生物信息學中,則主要對HDOD圖譜感興趣,常常想要量化直觀的圖譜,重復生成圖譜獨立的數據集。

  本發明保留這兩種分析方法的特點,提出一種混合算法,包括兩個步驟:在第一步驟中,要確定一組代表對象HDOD圖譜的“范例”,所述“范例”一般通過無監督學習的聚類分析法獲得。為了代表集群圖譜,選擇單一集群的質心作為范例。每個范例通過p個元素的HDOD向量分類。范例的數目(q)通常小于等于樣本量(n)。參照各范例,可以計算每個對象的相似性度量,生成具有維度(n×q)的相似性度量的矩陣,通常情況下,pn≥q。本步驟可以有效地將高維稀疏矩陣HDOD(n×p)轉換成“稠密數據矩陣”(n×q)。在第二步驟中,使用懲罰似然方法來選擇出那些符合預測結果的范例。由于維數從p大幅減小到q,懲罰似然方法可以很好地選擇出包含信息的范例,大大減少了懲罰計算的步驟。本過程首先基于“無監督學習”的范例,然后通過“有監督學習”選擇與結果關聯的包含信息的范例。由于結果回歸范例特異性的相似性,這種方法被稱為“面向對象的回歸”,或簡稱為OOR。

  隨著新一代測序技術,一些生物技術學家/生物技術公司已經將其創新研究轉向于生產人類基因組的完全分相二倍體,即,一對帶有多個單核苷酸多態性(SNPs)的分相單倍型。在功能基因內,多個分相SNP等位基因,連同所有單型核苷酸,代表可用于破譯官能轉錄物或蛋白序列的完全分相序列。實際上,目前這種雙等位基因多態性可以構建成多等位基因多態性,能對遺傳分析提供更多的信息。最好的范例基因包括主要用于組織相容性復合體(MHC)的人類白細胞抗原(HLA)基因,位于染色體6上的6p22.1和6p21.3之間。例如,下面將要詳述的HLA*DRB1基因,由一對等位基因組成,各等位基因對應一分相序列。根據最近的計數統計(,HLA*DRB1擁有超過1868個等位基因,編碼1364個蛋白質。雖然對它們的功能已經進行了幾十年的研究,但其特殊的多態性對如I型糖尿病(T1D)等疾病的遺傳關聯性的研究,則是個新的課題。此外,因為與許多較不常見的等位基因關聯的樣本數量有限,以及多個等位基因測試的多重性的原因,阻礙了多態性從基礎研究到臨床應用的轉化。

  為了克服上述問題,需要一個新的分析框架。在大多數科學事業,如遺傳學中,通常采用簡化論方法進行分析,即專注于與單一染色體、基因、等位基因或核苷酸的疾病的關聯性。但這種簡化論方法在同時處理太多元素時受到挑戰,不適于用于同時處理太多的元素。近年來組學研究中,越來越多的科學團體開始關注多基因及其與表型聯合關聯的“系統生物學”,即“整體”的方法。從“整體”方法的角度看,當兩個對象共享相同的疾病表型時,可能是因為兩者有相似的基因分布(所述基因分布是基于多基因的基因型進行分類的),這促進了上述面向對象的回歸(OOR)的應用和發展。

  OOR的核心思想如下簡述:基于一組選定的基因/SNP,構造一組以多基因/SNP的基因型分布為特征的范例。通過比較個體的基因型和范例,有效地將基因型的域轉化為相似性值的域。通過這些相似性度量,OOR評估疾病表型是否與每個范例的相似性度量相關聯。如果發現范例的相似性與表型顯著關聯,意味著該范例的基因型代表一種風險/保護基因型的類別。

  OOR實際上與一些統計文獻以及計算機科學中的機器學習文獻中的方法存在關聯。從根本上講,如果所有范例的基因型分布是由內部衍生,并包括所有觀測到的基因型,可以認為上述OOR是基于Kimeldorf和Wahba(1971)所描述的表現定理中的核表示進行的改進。基于同樣的類比,OOR與核邏輯回歸和支持向量機也存在密切聯系。聯系到計算機科學的文獻,由于密切相關的“鄰居”傾向于擁有相同的表型,OOR與近鄰法擁有相同的動機。在處理復雜、稀疏、高維的數據時,通過“相似性度量”搜索數據庫,對數據挖掘是至關重要的。近年來,統計和數據挖掘的融合促進了核機器學習技術在文本挖掘、蛋白質序列分析以及全基因組關聯分析方面的應用。

  盡管OOR與核機器方法緊密聯系,但仍有區別。首先,比核機器學習方法先進的是,OOR的范例可以從外部獲得或從內部數據衍生。其次,通過把所有計算得到的相似性度量作為協變量,OOR通過懲罰似然法使用“變量選擇算法”,如LASSO、脊回歸或彈性網絡,來側重于不同于零的有意義的項。第三,以“整體觀”對待復雜的變量,OOR提供了一種天然量化工具來發現和驗證復雜的變量之間的相互作用,所述復雜的變量之間的相互作用已成為在生物醫學研究和系統生物學的一個長期的研究課題。最后,從OOR分析得到的預測模型很適合于將基于相似性的搜索應用到大型數據庫。

  在下文中,本發明第一部分示出了OOR的統計學動機,勾畫出了OOR框架,確定了選擇范例的方法,并構建出預測模型。此外,本發明還介紹了從協變量轉換到相似性度量,然后建立預測模型的部分流程。除了詳細介紹了對范例以及預測器的選擇,還介紹了如何評估選擇懲罰參數的穩定性以及如何通過自助法評估所含信息范例的一致性。為了說明OOR,應用部分介紹了I型糖尿病的研究,并說明了OOR在探索疾病與HLA基因的關聯以及構建預測模型的應用。結果部分介紹了應用于HLA-DRB1基因以及八個HLA基因的所有結果。

  首先,通過公式將所有對象X的HDOD回歸到質心的協變量;其中Xi表示第i個對象,是回歸系數,表示對應Xi的初始回歸系數表示對應Xi、第k的回歸系數,X[k]表示第k個對象,εi是對應Xi的殘差向量;k表示t個質心中的某個質心;

  然后,針對每個Xi估算來自上述線性回歸的殘差平方的總和(SRSi),并且計算由這些信息代表的殘差變化的分數;當第i個對象Xi滿足公式i=argmax(SRSi/SRS0),subject to(SRSi/SRS0)≥f時,其加入到所述范例中;其中SRS0是不包含范例的SRS,f是一預先選擇的閾值。

  本發明方法的范例可以從外部獲得或從內部數據衍生。其次,通過把所有計算的相似性度量作為協變量,本發明方法可通過懲罰似然法使用“變量選擇算法”,如LASSO、脊回歸或彈性網絡,來側重于不同于零的有意義的項。第三,以“整體觀”對待復雜的變量,本發明方法提供了一種天然量化工具來發現和驗證復雜的變量之間的相互作用,所述復雜的變量之間的相互作用已成為在生物醫學研究和系統生物學的一個長期的挑戰。最后,根據本發明方法得到的預測模型很適合于通過基于相似性的搜索應用到大型數據庫。

  圖1示出了面向目標的回歸的流程圖,其中a)協變量矩陣的高維組學數據(HDOD),b)通過無監督學習方法組織HDOD,c)通過雙向聚類分析聚類的HDOD,以進行范例的確定,d)計算每個范例的相似性度量,將它們當作協變量,e)相似性度量的稠密協變量矩陣,可用于構建預測模型,f)在廣泛線性模型下,使用懲罰似然來選擇包含信息的范例,g)在訓練集和驗證集上進行ROC分析,以檢查預測模型的有效性;

  圖15示出了訓練集(頂部圖)和中驗證集(底部圖)的II類HLA基因(HLA-DRB1,-DRB345,-DQA1,-DQB1,-DPA1和-DPB1的T1D預測模型的評價,箱圖顯示了訓練集和驗證集的風險評分分布,ROC曲線示出了通過不同的懲罰參數下圖譜偏差函數的反復交叉驗證估算(上部區域的圖)得到的估算懲罰參數的經驗分布;

  圖17示出了1000個自助樣本的平均系數估算的成對XY坐標圖,其中X軸為一個懲罰值,Y軸為另一懲罰值(Y軸),懲罰參數對數值示于對角線示出了當懲罰參數固定為15個對數獨特系數之一時,通過LASSO選擇的范例的所有預測模型的ROC分析與選擇的范本由LASSO,計算在訓練集(彩色曲線)以及在驗證集(黑色虛線示出了懲罰參數固定為時1000個自助樣本的估算的LASSO估算系數的大小,顏色強度對應系數的大小,綠色表示正值,而紅色表示負值。

  下面結合具體實施例進一步描述本發明,以更清楚的闡述本發明的優點和特點。下述實施例僅為具體的范例,并不對本發明的保護范圍構成任何限制。本領域技術人員應該理解的是,在不偏離本發明的精神和范圍下可以對本發明技術方案的細節和形式進行修改或替換,均落入本發明的保護范圍內。

  ,…,xip),基于HDOD的典型特征,其中協變量的數目通常比樣品量大很多。在每個第i個對象上還觀測到對應的目標Yi的結果變量,它可以是二元的、分類的、連續的或截尾的(即,部分被觀測到的)。所有觀測到的數據的似然可寫成其中上述求和函數中是對n個對象求和(即i=1到n),f(YiX

  )是條件均值,并且h(Xi,θ)是由未知參數θ索引的協變量函數。1.1.2、表現定理:Kimeldorf和Wahba(1971)已經表明,當協變量函數是未知的并且未被限定,且已知觀測的樣品為(X1,X2,…,X

  的相似性:當觀測到X與Xk相同時,所對應的項是θkK(X,Xk)=θk;當X與Xk完全不一樣,θkK(X,Xk)=0;當X與Xk是相同或幾乎相同,對應項可以合并為θkK(X,Xk)+θkK(X,Xk)≈(θk+θk)K(X,Xk)=αkK(X,Xk)。最后,可期望的是,如果第k個個體的協變量特性不與對應的結果相關聯,系數θk很可能等于零,這里的系數θk是用于量化結果與第k個個體的相似性度量K(X,Xk)的關聯。Zhu和Hastie使用上述觀測中的一些情況,通過對一些K(X,Xk)項的分組來描述一向量機的輸入方法。現今的理論基礎和相關研究提出了OOR方法,其可表示為其中sk(X

  ,Zk)是第i個對象Xi與第k個范例Zk的相似性度量,q是范例的數量(將在后文描述),并且(α,βk)是待被估算的未知回歸系數。當回歸系數βk不等于零時,意味著當所述Xi的HDOD的特性與Zk相似時,Xi通過上述OOR與結果關聯。OOR將結果回歸到對象X與范例的相似性,而不是作為協變量回歸到HDOD。正如預測的那樣,本例中的回歸系數是針對于與范例的相似性的,此類情況類似于計算機科學家經常使用的數據查詢。正如預測的那樣,OOR是對范例特異性關聯的“整體解釋”,而不是對協變量特異性關聯的“整體解釋”。1.1.3、臨床直覺:OOR動機來源于臨床醫生的直覺。臨床醫生通常收集來自醫療記錄、體檢以及診斷實驗室測試的多方面的信息,這種信息即為一種HDOD數據,然后基于這一信息加上他們掌握的過去的案例經驗進行臨床判斷。一個有經驗的臨床醫生會將新患者與先前治療的患者或教科書或文獻中的典型案例作比較,并且通過樣本量為1來減少比較的次數,作出合理的臨床判斷。可見,在本質上,臨床醫生的過程也是OOR過程。1.2、OOR框架

  圖1提供了OOR過程的示意圖。作為輸入數據的HDOD是一個關于多個單一、連續的元素的大型協變量矩陣(圖1a)。作為對于任何有意義的聚類分析的常規要求,過濾掉那些是噪聲信息或不可能包含信息的協變量是很重要的。當沒有結果數據時,OOR首先通過無監督聚類分析來對HDOD確定范例Z

  ,...,Zq)的陣列。基于選定的相似性度量K(Xi,Zk)(見如下討論),可以計算每個第i個對象Xi與每個第k個范例Zk的相似性度量(圖1d)。通過把相似的度量作為協變量,可得到稠密協變量矩陣(圖1e)。在廣義線性模型下通過適當地選擇關聯函數,可以再選擇包含信息的范例,來形成預測模型(圖1f)。在下文中,通過訓練集的ROC分析,對OOR預測模型的敏感度和特異性進行初步估算,然后對驗證集進行ROC分析。下面的章節集中描述了OOR框架的重要組成部分。1.3、無監督學習無監督學習方法不參照結果數據,其目的在于探索跨基因和跨對象的HDOD協變量的相關結構。單純從統計框架來說,無監督學習方法可以不參照結果數據,利用對數似然函數的第二部分,基于HDOD的相關結構來構建HDOD。以往,聚類分析通過相關性組織基因和/或樣品,得到的樣品集群可以實現識別目標的質心。因為聚類分析,故,質心與該集群內的樣本有相對高的相關性(或相似性),并作為示例來表示多個樣本。當處理HDOD時,通常會出現很多遠離集群的含有相對獨特的HDOD特性的對象,此類“獨特的對象”可定義為不易由質心或它們的組合來表示其HDOD特性的對象。這種獨特的對象被作為范例時,可用下面的回歸方法來確定這些對象。假設預先已確定了一組起始的t個質心作為范例,表示為[1],[2],...,and[t],首先,通過下式將所有對象的HDOD回歸到質心的協變量,而不是回歸到那些由HDOD代表的集群:

  /SRS0)≥f, [5]其中SRS0是不包含范例的SRS,f是一個預先選擇的閾值(例如,0.5)。需注意的是,由于該分析未參照結果選擇范例,故并不影響任何下游的監督學習(參見下文)。并且,除了從內部推導范例,還可以包括來自外部資源的范例。1.4、監督學習

  在確定范例之后的下一個步驟是,估算這些范例的相似性是否與目標結果以任何方式相關聯。這樣的關聯分析即稱為監督學習(監督學習的來由:計算機科學家創造該詞是出于對大眾的吸引力)。根據不同的結果函數,如二元函數、分類函數、連續函數或斷尾函數,監督學習可以使用廣義線性模型(GLM)來估算與范例相似性結果的關聯。在選擇變量時,我們建議使用懲罰似然方法控制過擬合問題,特別是使用最不絕對收縮和某選擇算法(例如,LASSO)來選擇包含信息的范例。下面對單一結果(Y

  是用于確保上述函數整合到相同單位的歸一化常數。上述功能可以通過下面邊際均值來充分限定通過上述回歸方程,便限定了與相似性度量關聯的邊際均值。一旦嵌入GLM,可以援引似然理論的整體含義來支持參數的估算和推斷。當應用GLM來選擇包含信息的范例時,可預測的是,許多范例可能不與結果相關聯。可以使用LASSO來選擇那些包含信息的范例,LASSO可以理解為是懲罰似然估算的一種版本,并在OOR模型中采用估算回歸系數使得以下懲罰似然函數最大化:

  其中,對所有隨機樣本通過常規對數似然函數進行第一求和,對q個回歸系數的所有絕對值進行第二求和,λ用于確定那些非零回歸系數的懲罰幅度的調諧參數,且,估算調諧參數λ可得到基于交叉驗證的最小預測誤差。其中,f表示密度函數,Yi是對應第i個范例的要回歸的結果,Si是對應第i個范例的相似性度量值,á是截距,是回歸系數,n是當前范例對應的樣本的個數,q是所述范例的個數,λ是調諧參數。

  對于OOR,選擇合適的度量以及對象和范例之間相似性的程度來測量相似性是至關重要的,因為它決定了如何計算相似性、如何確定集群、如何確定范例。通常,所述度量的選擇取決于HDOD的特性和對于結果的解釋。本例中,下面介紹了幾種常見的相似性度量。按照慣例,該相似性度量是距離的倒數,即1和0的相似性分別等于零距離和無窮大距離。

  , [8]其中,·代表平方差的和的平方根。由平均值和標準差對協變量歸一化處理時,歐幾里得距離具有相關系數的單調關系,該單調關系通常用來測量相似性。最近,Frey和Dueck使用了負歐幾里得距離的平方,即-Xi-Xi

  其中表示求兩個向量的內積。如果將各個協變量視為“采樣值”,本式相似性度量值與兩個向量之間的相關系數相同。除了上述常用距離或相似性的度量,還有其它的域特異性的度量。在遺傳學的背景下,遺傳學家曾用“血緣同源”,“狀態同源”或親緣關系系數作為遺傳相似性的度量。當處理文字時,也存在很多用于語義相似性的度量。可靈活選擇最適用于給定的OOR中應用的相似性度量。

  CSR的常規設計中,可以對結果與一個或多個協變量的關聯進行估算。CSR的理想特征是,在對回歸中的其它協變量進行控制后,可以將協變量特異性的關聯分離出來。基于此及其他原因,過去幾十年中CSR一直是大部分統計應用的“主力”。然而,在“大數據”時代,CSR的應用遇到了一些挑戰,首先,在處理HDOD時,由于pn,不能使用CSR的一個典型的應用來同時分析所有的協變量。第二,CSR假設的前提條件為,協變量對回歸模型具有影響。當包括多個相關協變量時,該假設可以使CSR的外推結果與很少或甚至沒有被觀測到的協變量進行關聯。當上述假設成立時,則可發揮CSR的作用,否則,CSR的外推可能會被誤導。第三,CSR適用于分析數值的HDOD協變量,而其在非結構化數據,如基因組序列的應用方面受到限制。

  而提出OOR的主要目的就是克服上述限制。OOR將協變量矩陣(n×p)轉換為相似性打分矩陣(n×q),其中q比樣品量n要小得多(圖1)。這種轉換使得OOR能夠處理HDOD。可見,OOR解決了不同于CSR的關聯問題,其主要目的不是為了確定哪些協變量與結果明顯關聯,而是確定出哪個患者群體很可能與結果相關聯。通過使用相似性度量,OOR適用于將結果與任何維度的HDOD進行關聯。相對于多元“外推”的問題,OOR旨在估算涵蓋范例的范圍內的參數,自然緩解了外推的問題。

  與其他癌癥相比,男性和女性由肺癌引起的死亡率均最高,占所有癌癥死亡率的28%左右。由于被診斷時大都已經為晚期,因此肺癌預后很差。肺癌早期的預后會好些,五年存活率約為60%。即使在I期患者中,一些患者的存活期也都相對較短。預測I期患者的預后存活率成為了研究熱點,以便于腫瘤學家為較低存活率的患者可以設計更積極的治療計劃來改善預后。

  為了解決這個問題,從Xena(下載了臨床表型數據和RNA-seq數據。截止2015年6月10日,該網站發布的數據總共包括1299個樣本。在對臨床表型數據和RNA-seq數據關聯,并進行基本的質量控制后,對1124個肺癌病例(571個腺癌病例和553例鱗狀細胞癌病例)進行了研究,在此說明的是,上述的臨床表型數據和基因表達數據都是完整的。將全部數據隨機分配到訓練集和驗證集,以用于下游的分析。圖2示出的訓練集和驗證集的所有患者的診斷年齡分布,表明了兩組患者具有類似的年齡分布。對于性別、腫瘤類型和分期進一步的研究發現,訓練集和驗證集的頻率在很大程度上是類似的(見表1)。關于存活率,與四個協變量相關聯的估算Kaplan-Meier曲線在訓練集和驗證集間也是類似的(見圖3)。

  在當前組合的數據集中,包括了腺癌和鱗狀細胞癌的患者,從數據來看,存活率并不與年齡(P值=0.143)、或者與性別(P值=0.605)、或與腫瘤類型(P值=0.444)顯著關聯,存活率而與腫瘤分期(P值0.001)顯著關聯。首要目標是構建一個預測模型,用于預測I期患者的預后存活率。在訓練集中,有296個I期患者。為了保持用于構建預測模型的樣本量,并不會按腫瘤類型、性別或年齡將腫瘤樣本進行分類,因為這些并不與存活率顯著關聯。

  2.4、基因篩選在進行OOR分析之前,先從訓練集的20531個基因列表中篩選出基因。為了保持這種經驗的特性,將“分期”作為一個關鍵變量進行分析,這是因為分期與存活率具有明顯的關聯,從I期到III期的變化示出了從早期癌癥到晚期癌癥的進展情況。正如預測的那樣,許多基因在癌癥進展中被上調或下調。據推測,甚至在早期的癌癥,癌癥也會出現進展,但它們的形態特征尚不能被觀測到。通過將基因表達水平與期(I期vs其它更高的期)相關聯,計算每個基因的Z分數和相關聯的p值(圖4)。使用p值=0.05的閾值(選此閾值,是考慮到達到傳統顯著水平的所有單個基因),可選擇出831個基因。在去除一些高度關聯的基因后,最終可得到789個基因的列表,并作為OOR分析的輸入數據。

  在于確定范例,故,用樣品(行)的等級聚類來表示存在的多個組,其中對7大聚類進行了突出顯示,由六條黃色線區分。由于視覺圖譜具有較強的定性化的印象,可直觀的顯示出多組對象具有的不同的基因表達特性。雖然將數據圖像化有其優點,但對于使用合成數據來生成可重復的結果,也存在著挑戰。首先,視覺圖譜的感知因人而異。第二,呈現的視覺圖譜取決于所選擇的可視化參數,如所選顏色、所選顏色深淺等。第三,在視覺上幾乎無法區別出系統圖譜和隨機圖譜。實際上,已經隨機選擇了1000個基因進行聚類分析(未示出),并進行了“模擬實驗”。在這些實驗中,可以偶爾看到一些由雙向聚類所產生的圖譜。總的來說,該圖譜與通常得到的圖譜(圖5)區別不太大。2.6、路徑分析除了采用圖譜所提供的視覺印象,還可以想到的是,選擇的基因包括生物學上有用的元素,該基因的選擇是基于I期的關鍵指示器所選擇的。當然,由于p值0.05是隨機選擇的,某些基因估計是純粹被隨機選中的。如果要分析被選中的這789個基因的生物學意義,可以采用一種關于路徑分析的網絡工具TargetMine,(進行路徑分析,所分析出的10個路徑包括對應于基因富集p值小于5%的基因(補充表S1)。表2的第一塊區域列出了這些路徑,包括細胞周期、有絲分裂的細胞周期、M期和減數分裂重組,所有這些都與癌細胞從I期到更高期的加速細胞生長相一致。更需注意是,除了輸卵管上皮細胞,所有相關的組織似乎與氣道的上皮細胞相關聯(表2)。如下補充表示出了各種組織的基因列表(表S1)。表S1各種路徑和組織的基因列表

  如上確定范例的步驟完成后,可得到代表觀測到的集群或單體的273個范例。考慮到大多數范例都不太可能與預后存活率關聯,因此進行邊際關聯處理,僅保留那些有邊際關聯的范例。通過關聯p值為0.05選出22個范例(該22個范例將被LASSO進一步進行選擇)。表4列出了邊際關聯分析的估算系數、風險比、標準誤差和p值。

  由所選的22個范例,計算每個對象與每個范例的相似矩陣,生成“稠密協變量矩陣”,可參見圖1e所示。圖6示出了具有296行×22列的相似性矩陣。灰色、黃色和紅色分別對應于對象與范例的弱、中等和強烈的相似性。通過聚類分析將296個對象和22個范例構建為不同的子集。將22個范例分成三組,其中“列”中的彩條代表每個范例的邊際關聯:紅色為保護關聯,綠色為風險關聯。為了進一步深入了解預后存活率,此處創建了一個為期一年的存活率指標,該指標需要取存活的值(0和綠色)、死亡值(1和紅色)和斷尾值(丟失和黑色),并將彩條放入“行”中。為了方便觀測,圖中突出顯示了兩個高風險區,所述高風險區包括與擁有風險表達特性的范例高度相似的多個對象。與此同時,圖中還突出顯示了具有更好的一年存活率的對象。

  根據所選范例,先通過LASSO從“稠密協變量矩陣”選擇包含信息的范例。結果示于表3的最后一列,其中的11個范例被選為用于預后結果的包含信息的范例(圖7所示)。表中已列出估算的回歸系數,而未選擇的范例其系數則設置為零。可觀測到的是,在第8列中的估算的回歸系數往往比其對應的第三列的來自邊際回歸分析的系數小,這可能反映了LASSO將邊際關聯分配給了與多個范例的關聯,而懲罰一些例如第一范例那樣的不穩定的范例(表示為例1)。

  其中,是第k個包含信息的范例的估算系數。估算的目的在于,通過固定的范例和系數計算當前數據中的每個對象的風險評分。這種風險評分的含義是:與“基準個體”比較時對象的相對風險,所述“基準個體”與任何選定范例沒有相似性。為了估算所計算的風險評分與存活結果之間的關聯,對風險評分進行存活結果的Cox回歸運算。表4的第一行顯示了估算的系數、風險比、標準差、Z分數和p值。正如預測的那樣,p值通過訓練處理而增大。更重要的是在進行驗證集的估算統計中,當p值=0.015時與風險評分的關聯比較明顯,這恰好支持了驗證,而外部驗證對明確驗證預測模型是很重要的。.

  當應用OOR時,LASSO要求必須估算懲罰參數(λ),這個參數的選擇對變量的選擇產生深遠的影響。在真實值未知的情況下,常見的方法是使用交叉驗證法來估算這個懲罰。不幸的是,交叉驗證產生隨機估算懲罰參數所帶來的問題是“估算懲罰參數有多穩定?”。出于這個目的,重復進行了1000次蒙特卡羅模擬實驗,在每次實驗時,使用Rglmnet包的cv.glmnet函數(通過10倍交叉驗證來估算懲罰參數。圖8示出了用對數比例來表示的估算懲罰參數值的經驗分布情況。可見,共有20個不同的懲罰值,范圍從0.016到0.091。懲罰值越小,表示越多范例被選中。在當前的應用中,0.091的懲罰值對應沒有選定范例的空模型,可參見圖7的懲罰值(λ=0

  考慮到懲罰參數值的范圍,預計所選定范例是可變的。為了估算選定范例的穩定性,重復進行了1000次的自助分析。對每一個自助樣本,對其觀測到的基因表達值和對應的存活結果隨機采樣,然后放回該樣本,以確保與訓練集的分析數據集具有相同的樣本量。基于20個固定的懲罰值,通過LASSO從同一個分析數據集中選擇范例。表5列出了計算的Kappa值,Kappa值用來表示估算的選定范例與不同懲罰參數值的一致性,其中Kappa值的范圍從0(無一致性)到1(完全一致)。對應于上述1000次的自助分析,表5中上三角形的參數為Kappa平均值,表5中下三角形的參數為估算的平均Kappa值的標準差。可見,相鄰懲罰值的一致性接近1,該一致性隨著相應的懲罰值的發散而減小。為了保證定量水平的一致性,根據上述1000次的重復分析結果,計算與所有22個范例相關聯的系數的平均估算值。然后,以成對的XY圖(圖9)進行顯示。同樣可見,一致性在定性和定量估算之間基本一致。其中,右上角的XY圖,除了有兩個極端的懲罰值,大多數范例的平均系數保持一致。表5:通過LASSO選擇的范例之間的Kappa平均值,其中右上方的三角區內為不同的懲罰值,下面的三角區為1000個自助樣本的標準偏差。

  如上所述,也可以使用CSR方法,并結合LASSO構建預測模型。為了進行比較,選擇同一組的所篩選出的789個基因,對存活結果使用Cox回歸模型、并應用LASSO選擇預測器,可計算得到6個預測器。然后,對訓練集和驗證集的每一個對象進行預測值的計算,該預測值類似OOR的風險評分。將這些預測值與從OOR獲得的預測值繪制成如圖10所示。其中,來自CSR和OOR的兩組預測值在訓練集和驗證集中均彼此相關聯(r

  對于數據科學家來說,無論他們的學術根基在生物醫學信息學、計算機科學或生物統計學,在轉化生物醫學研究中越來越多地使用組學技術是一個前所未有的挑戰。來自轉化研究的HDOD都有一個共同的特征,即樣本量相對較小,但協變量維度卻非常高。為了應對這一挑戰,引入了面向對象的回歸(OOR)方法,其類似無監督學習方法和監督學習方法的結合。OOR關鍵點在于對范例的確定,該范例可理解為:由他們的HODO特性代表的多個集群對象,或者具有相對獨特的HODO特性的對象。參考這些范例,OOR估算每一個對象與范例的相似性,并側重于確定出包含信息的范例(即與感興趣的結果相關聯的范例)的特異性的相似性。除了探索范例與結果的邊際關聯,OOR也可用于選擇包含信息的范例,并形成預測模型。相比傳統的協變量特異性預測模型,范例特異性預測模型看起來具有更大范圍的預測值(圖10)。為了說明OOR,將其以及從TCGA獲得的基因表達數據一起應用于肺癌研究,建立一預測模型,該模型用于分類已被診斷為I期肺癌但具有明顯不同存活時間的患者(無論是腺癌或鱗狀細胞癌)。首先確定來自訓練集的11個范例,并生成作為相似性測量的加權的和的風險評分,該風險評分可顯著地預測驗證集的存活率(p值=0.0145)。根據假設的預測模型,對驗證集的所有對象的預測風險評分進行計算,其分布可參見圖11左側區域所示。在右側區域中示出的與風險評分1、2、3、4相關聯的估算的存活曲線表明,隨著風險評分的增大,存活率逐步惡化。OOR雖有很多優點,也有一潛在的弱點:用于衡量相似性的度量的選擇是有點武斷的。在關于聚類分析或無監督學習的文獻中,使用了多種相似性度量,不同的相似性度量根據不同的應用環境各有優缺點。從這個角度看,OOR提供的相似性度量的選擇具有一定的靈活度,適合于上述的應用。

  OOR在概念上與其他分析方法相關聯,k近鄰方法(KNN)即為相關聯的一種方法,KNN被廣泛用于計算機科學文獻的數據挖掘,其核心思想是,由某些特性定義的相對“親密鄰居”的對象往往有類似的結果。所述k近鄰方法可以不用于做任何建模假設,而用于構建預測模型,因此也被稱為非參數預測模型。但是,k近鄰方法并沒有考慮到的一個事實是:許多鄰居具有同等的結果關聯(無論是無效假設或備擇假設)。在這方面,OOR可以被認為是k近鄰方法的延伸或回歸函數最近鄰的估算。

  另一種密切相關的方法是成員等級分析法,簡稱為GoM。從概念上講,GoM通過引入一組潛在成員變量,假設該潛在成員變量的分布是合理的,GoM對結果的聯合分布以及協變量建模,在整合了所有GoM潛在成員變量后可計算似然。GoM參數可以理解為是與個體相關聯的屬性,而不是單一協變量的特定邊際。盡管GoM和OOR提取關于個體或對象的屬性信息,擁有相同的概念目標,但是OOR側重于觀測到的結果和協變量的經驗觀測,而無需調用任何潛在隨機變量。

  OOR使用的相似性度量的概念也與統計遺傳學中開發并使用的多種方法相關。雖然本文并不意圖追蹤這些聯系,但需注意,經典和現代遺傳學旨在發現結果相關聯的易感基因,往往會導致相關個體中的相似性,所述相關個體中的相似性比無關個體具有更多遺傳變異體。在遺傳學的早期,隔離和聯系方法用于描述和發現家族聚集性基因。在現代遺傳學,一些研究小組提出,通過評估遺傳標記的相似性并使用相似性回歸來發現疾病基因。雖然有著相似的科學目標,但OOR使用相似性評分來發現哪些范例有更高的疾病風險,而不是發現哪些SNP(單核苷酸多態性)與疾病相關聯。

  OOR與最近流行的被稱為序列核關聯測試(SKAT)方法,也存在著內在的聯系,這是因為OOR和SKAT都采用表現定理作為理論基礎。在很大程度上,SKAT使用表現定理來表示所有SNP的組合和它們的作用,作出關于所有回歸系數的合理多變量假設,并根據無效假設測試他們的偏離。最近,Pan(2011)表明,SKAT測試本質上等同于上述OOR提到的相似性回歸。而OOR比SKAT更進一步,其將結果回歸到相似性評分,而不是假設它們為隨機變量。

  上述已經介紹了用于分析HDOD的新的分析框架。介紹了上述技術推導,以及與現有方法的各種關聯,OOR給我們介紹了探索HDOD的“整體關系”與臨床結果的分析框架。協變量特異性研究已經應用于“簡化論觀點”幾十年,上述方法是對協變量特異性研究的補充。在大數據和系統生物學的時代背景下,該整體的框架不僅會促進HDOD的系統研究,也會生成組學數據的“可重復結果”。

  對從高維多態性基因研究產生的協變量數據進行分析。具體而言,包括將T1D和八個II類HLA基因(HLA*DRB1,*DRB3,*DRB4,*DRB5,*DQA1,*DQB1,*DPA1,*DPB1)(手稿:Zhao et al 2015,待提交)的病例進行對照研究。由于它們結構的多態性,在任何單條染色體中只會出現HLA*DRB3,*DRB4和*DRB5等位基因其中的一個,因此,以下用HLA*DRB345表示所有這三個基因的基因型。其中,每個基因包含兩個等位基因,各等位基因代表一個完全分相核苷酸序列。當第j個基因具有mj個可能的序列變異時,如果一對等位基因處于哈迪—溫伯格平衡(HWE,即統計上獨立),該對等位基因的基因型可以具有m

  +1)/2個可能的基因型多態性之一。在多個基因位點的基因型陣列被稱為基因型分布。如果這些基因處于連鎖平衡(LE,即統計上獨立)時,基因型分布的總數在理論上是其交叉乘積它可以輕易地超過大多數基于人群研究的典型樣本量。然而在實踐中,由于以下生物特性,所觀測的基因型分布的數目比理論總數小得多:1)HLA基因多態性由自然界在種群內高度選擇,2)基因位點內配對的HLA基因的等位基因傾向于偏離HWE,3)因為物理近鄰和基因-基因相互作用,多個HLA基因的基因型分布傾向于偏離LE,4)盡管包括“重組熱點”,MHC區域比基因組的剩余部分具有相對較低的重組率。這種遺傳現狀也導致了許多基因型分布比較神秘,這對HLA關聯分析提出了挑戰。典型關聯分析可理解為對一疾病與一種基因檢查其關聯,或當對另一基因的基因型分層后調查其基因關聯,或對兩個或更多個基因進行單倍型分析。雖然這些“簡化論方法”已經可以為基本疾病關聯提供信息,但是當試圖研究基因-基因相互作用,分離基因特異性關聯,或創建針對多個HLA基因的預測模型時,這些方法往往都是受到限制的。

  將所觀測對象的基因型分布作為一個整體是上述方法的一種補充,并通過系統方法或整體方法研究它們與結果的關聯,即,將所觀測的基因型分布作為范例,計算其他基因型分布與該范例的相似性,并評估與范例的相似性是否與疾病表型相關聯。已知種群研究的樣本量為n,從研究內部可能獲得的范例總數最大為n,這樣既減少了數據維度,又沒有任何信息的缺失。如上所述,這些由八個II類HLA基因形成獨特的基因型分布的實際數目實際上小于樣本量n。如果將所有觀測到的基因型分布作為范例,則可以直接評估所有這些范例的對象的相似性度量與T1D的關聯。這些范例觀測的規范化也促進了OOR的提出。從形式上看,對基因型分布表示為的多個基因進行分析,其中所述多個基因是在第i個對象(i=1,2,...,n)上觀測到的。在所有對象中,識別獨特的基因型分布,并作為第k個范例(K=1,2,...,q)表示為基于觀測到的基因型,可以通過相似性函數測量對象與每個范例的相似性,所述相似性函數表示為該相似性函數在一些文獻中也被稱為核函數。已知OOR的分析對象與疾病表型遺傳關聯,表示為(對照yi=0,病例y

  其中,logit是對疾病的概率的典型logit變換,α是截距,回歸系數βk用于量化疾病與第k個相似性度量的關聯,所述相似性度量為與范例的相似性度量。通過以上回歸的構建,OOR可評估疾病與相似性度量的關聯,所述相似性度量為每個對象與所有范例的相似性度量。當估算的系數非零(β

  =0)時,表示類似于第k個范例的對象疾病的風險無關緊要。通過研究范例相似性,只要它們的相似性可以被測量和定量,則可以通過上述回歸方法克服關于基因型的復雜性的挑戰。1.2、面向對象的回歸框架概述OOR的動機是直接的,而它的表現也非常簡單。目前,要使用OOR必須解決不同的三個方法學問題:1)相似性度量的選擇,2)范例的選擇,3)包含信息的范例的選擇(即非零βk系數),各種不同的選擇會導致生成不同版本的OOR框架。

  1.2.1、相似性度量:單純從理論上考慮,相似性度量的選擇需要確保核函數是對稱和半正定的。在實踐中,大多數的相似性度量都比較合適,且與應用的場景相關。在此,使用適合于遺傳分析的相似性度量。假設是HLA基因位點的范例的基因型分布,則其中在第j個基因位點的基因型用一對等位基因來表示。可使用下面的函數,度量范例的相似性,

  其中I(.)是一個指示函數,并且每個作為遺傳分析中通用的“狀態同源”度量。上述相似性度量的值位于0到1之間,該區間的值對應從無相似性(0值)到同一性(1值)。然而,目前的度量并未體現單個基因或甚至單個等位基因的潛在不同的功能的顯著性。一種描述上述相似性度量的方法是在計算中引入基因特異性或等位基因特異性的權重。另一類相似性度量是使用“血緣同源”度量來度量對象之間的等位基因的相關性。

  范例的選取方法有很多,主要取決于所要分析的目標。第一種方法,鑒于這些HLA基因可能具有不同的基因型分布,可通過對所有對象的聚類分析,以及采用特定的相似性度量來確定主要圖譜。其中,可將每個集群內具有代表性的基因型分布選為范例。第二種方法,將每個獨特的基因型分布選為范例。第三種方法,從文獻中確定一組基因型分布,這樣也可以確保結果可被合理解釋。第四種方法,通過對某些聯合關聯或基因-基因的相互作用的研究,設計一定的基因型分布來作為范例。關于范例的選取方法,后文將有描述。

  除了降維,預測器的數量可以與OOR的樣本量n一樣大。正如預測的那樣,由于這些范例不與疾病表型相關聯,許多回歸系數等于零。因此,在OOR中的一項重要任務即為選擇包含信息的范例。目前,在所有用于變量選擇的技術中,懲罰似然法是應用最為廣泛的。在此,相對比傳統的選擇變量的逐步回歸方法,本文考慮三種懲罰似然法:LASSO、脊回歸和彈性網絡。

  如前所述,OOR方程確定的范例可從外部或內部選擇。從外部選擇范例通常是從文獻選擇,或者基于用于特定解釋的特殊HLA基因型結構進行選擇。而本文的重點是從內部選擇范例,是通過或不通過HLA基因型數據的聚類分析而選擇。

  1.3.1、聚類分析:作為編碼人體先天免疫的必需基因,HLA基因在整個人類的進化過程是高度選擇的。如前所述,HLA的基因型數據傾向于集群,這可以通過成對出現的相似性度量,在n×n相似性矩陣的聚類分析來進行檢測。需說明的是,聚類分析是一種無監督學習,因為它不涉及疾病表型。

  1.3.2、“獨特”的對象:不進行任何聚類分析,而對成對的相似性度量進行觀測,發現那些彼此相同的對。在消除這些相同的對之后,可以利用剩余的基因型分布來代表所有的“獨特的對象”,并把它們作為范例。為了放寬“相同基因型分布”的判定標準,可以選擇一個預先確定的閾值(δ):如果成對相似性量度大于閾值,當兩個基因型分布不相同時,則可以認為是“高度相似”,因此,該對可以只用其中的一個來表示。在實踐中,這個閾值作為OOR的調諧參數。

  ≠0)。即使是范例經過精心挑選后,范例的數量仍可能相對較大,因此變量的選擇是具有一定挑戰性的。主要的挑戰是如何來減少過擬合。在此,考慮了傳統的逐步回歸技術,采用三種懲罰似然法:LASSO、脊回歸和彈性網絡。1.4.1、逐步選擇:最有名的傳統變量選擇的策略大概是由預測器進行的逐步選擇,無論是僅向前,僅向后或雙向,均是基于信息準則(IC)的度量的,基于IC的度量可如Akaike’s IC(AIC)或者Bayesian IC(BIC)。基于大量文獻對似然估算的描述,須注意的是,概率模型可以構建如下帶有AIC懲罰的對數似然函數:其中,K′

  1.4.2、懲罰似然:當范例的數量接近樣本量,首選的變量選擇的方法是使用懲罰似然法,所述懲罰似然法包括三種被廣泛使用的方法:LASSO、脊回歸和彈性網絡。使用上述公式[13]中相同的符號和變量來表示,該懲罰對數似然函數可被寫為其中λ是用以確定懲罰水平的調諧參數,β

  的范數和l2的范數,θ分別取值為0或1或0.5,分別對應LASSO、脊回歸和彈性網絡。優選的,估算的調諧參數λ具有基于交叉驗證的最小預測誤差。1.5、懲罰參數和變量部分眾所周知,在懲罰似然方法的文獻中,調諧參數將估算回歸系數的偏差與他們的估算的方差進行交換。通常,懲罰參數的估算是通過交叉驗證進行的,然而,交叉驗證過程是一個隨機過程,并且因此估算的懲罰參數也是隨機的,因此會不可避免地影響變量的選擇。在這里,建議采用多次重復交叉驗證過程,并基于隨后會利用固定的懲罰參數進一步對變量選擇的穩定性(參見下文)進行評估,估算它的經驗分布。計算上,可用10倍交叉驗證估算懲罰參數(在cv.glmnet默認推薦,GLMNET的R實現),并重復計算,比如100次。所有經驗估算的參數隨后被用于構建經驗分布,以評估這些估算是否來自單一模式分布。1.6、評估固定懲罰參數的變量選擇的穩定性(λ)

  實際中,所有處理復雜或高維數據的變量選擇方法面臨的主要挑戰,是選擇的變量的穩定性。OOR的變量選擇也不例外。在評估上述的懲罰參數估算的經驗分布時,要關注選定的包含信息的范例是否穩定。為了解決這個問題,可使用自助法。簡要地說,從研究群體隨機抽取樣本觀測并放回,這樣可以保持樣本量不變。對于每個自助樣本,進行具有兩個或多個固定懲罰參數和/或使用不同的方法的懲罰似然分析。然后,計算Kappa統計,度量變量是否由兩種或更多的方法一致地選擇。

  正如上面提到的,青少年I型糖尿病(T1D)和HLA基因的病例對照研究促進了OOR研究的發展,其中的細節已被公開(Zhao et al.2015提交)。簡單地說,這項研究確定了970個I型糖尿病患者作為病例,他們的年齡范圍從1歲到18歲,且來自不同位置的診所。并從相應的地區確定了448個未患I型糖尿病者作為對照。遵循人類受試者的審查和批準的要求,從所有研究對象中采集血液樣本,并提取他們的DNA。雖然測試多個分子靶點,本研究使用下一代測序技術以評估HLA基因的高分辨率基因型(HLA DRB1*,*DRB345,*DQA1,DQB1*,DPA1和DPB1)。這項研究的分析目標是研究I型糖尿病與HLA基因的關聯,并構建I型糖尿病特性與這些HLA基因型的預測模型。為了建立驗證集,隨機選擇了479個病例和226個對照作為訓練集,其余部分作為驗證集(222個對照和483個病例)。對照以及病例的所有基因的等位基因頻率在訓練集和驗證集中很大程度是類似的(為了說明,補充表S2包括HLA-DRB1對照以及來自訓練集和驗證集的病例的等位基因頻率)。

  為了對OOR處理復雜的HLA數據的過程進行說明,首先對T1D僅與HLA-DRB1基因的關聯進行分析。表6的對角線的上方和下方分別列出了對照和病例中的HLA-DRB1的基因型分布。對于那些對角線以下的純合基因型,對照和病例中的基因型頻率分別用分子和分母(#/#)表示。該基因型頻率表示出的直觀印象是,只有44個等位基因的基因型分布是稀疏的,且只有159個獨特的基因型,數量上比理論上根據HWE計算的可能的基因型數目990(=44×45/2)要小得多。其次,需注意的是,某些基因型在病例和對照之間呈現出明顯不同的頻率,該頻率意味著它們與T1D的關聯情況。例如,純合體04:01:01/04:01:01在病例和對照中分別具有0.6/9.3的頻率,這意味著15.5的頻率比。在另一個極端,雜合子15:01:01/07:01:01在病例和對照中分別具有0/3.4的頻率,這意味著這個雜合子看起來可預防I型糖尿病。對于那些常見的基因型,基于當前的樣本量對T1D關聯的直接評價是實際可行的,且在文獻中已經被研究。然而,對于許多不太常見的基因型,因為稀疏、樣本量小,以及大量的比較,則很難進行嚴謹的評估。考慮到期望整體檢測T1D與基因的關聯,也在尋找可替代的其他分析方法。

  考慮通過公式[12]訓練T1D與HLA-DRB1的關聯的OOR模型,而無需采用任何假設。由于某些等位基因的等位基因頻率不同以及與HWE的偏差,理論上可能并不存在許多基因型,即,它們的頻率為0(表6),故,OOR則可被簡化為

  對應第k個獨特基因型的頻率,可被視為新的回歸系數,對數據集中所有159個獨特HLA-DRB1基因型求和,其中,這些獨特的基因型被視為OOR的范例。這些159個回歸系數中,除了少數包含信息的范例外,預計大部分等于零。

  在本例中,在各對對象之間,相似性矩陣的元素采用值1表示為相同,采用值0.5表示為共享一個等位基因,采用值0表示不共享等位基因。圖12示出了其中的705個對象的相似性矩陣的熱圖,其中示出了共享兩個等位基因的對象(紅),共享一個等位基因的對象(黑色)和不共享等位基因的對象(綠色)。從HLA-DRB1的角度來看,可以識別出一組相同的對象(紅色正方形落在對角線上),以及另一組只共享一個等位基因的對象(綠色長方形)。

  為了進一步深入了解范例特異性的邊際關聯,借由上述OOR公式,還可以對T1D與每一個范例的相似性度量進行單變量關聯。單變量分析的結果包括了補充表中列出的所估算的對數幾率比、標準偏差、Z分數和p值(表S2),以及范例和相關聯的基因型。為了更直觀地分析,表7中呈現矩陣形式中的四舍五入為整數的Z分數,且為簡單起見,對應于0.05或更好的顯著性水平(沒有校正多重比較),該Z分數的絕對值設置為大于等于2。這些單變量分析的結果顯示了:HLA-DRB1*03:01:01和*04:01:01與T1D正相關,其著色為紅色條紋。另一方面,6個等位基因HLA-DRB1*07:01:01,*11:01:01,*11:04:01,12:01:01,13:01:01和15:01:01:01可預防T1D,著色為綠色條紋。要注意的是風險和保護等位基因的雜合基因型傾向于與T1D正相關。表S3:范例特異性邊際回歸分析得到的估算的回歸系數、標準偏差、Z分數和p值。

  表7通過OOR從邊際關聯分析提取估算的Z分數(四舍五入到整數,等于或大于2)。兩個主要的等位基因(HLA-DRB1*03:01:01和*04:01:01)用于評估較大的風險關聯(紅色條)。6個等位基因(HLA-DRB1*07:01:01,*11:01:01,*11:01:01,*11:04:01,*12:01:01,*13:01:01和*15:01:01)用于評估與I型糖尿病的較大的保護關聯。

  在排除與I型糖尿病沒有關聯的范例之后,OOR的下一步是選擇那些包含信息的范例。出于經驗比較的目的,使用上述的四種不同的估算方法進行選擇:LASSO、脊回歸、彈性網絡和逐步方法。在補充表(表S4) 列出了所有的估算回歸系數。LASSO方法從159個范例中選擇18個預測器和估算系數的方向性,即對數幾率比。其中,正系數往往與那些來自病例的范例相關聯,而負系數往往與來自對照的范例相關聯。

  相比之下,脊回歸方法生成所有范例的估算系數,且對任何范例都不取消選擇。為了說明,在表S4的所有范例由相應的系數進行了排序。不同于LASSO估算方法,脊回歸的估算系數取零附近較小的值。其中,估算系數的方向性往往是與病例/對照源的所有范例相一致的。此外,對于那些由LASSO選擇的范例,脊估算在方向性上與那些通過LASSO獲得結果也是一致的。表S4的第三列示出了由彈性網絡估算的系數,其中選擇了39范例。選擇的這39個范例大多數與LASSO選擇的范例重疊。從數量上看,彈性網絡和LASSO之間的估算系數是高度相關的(未顯示)。而逐步回歸方法選擇了14個范例,其中10個與LASSO選擇的范例重合。盡管這看似有很高的一致性,但與LASSO獲得的范例所對應的系數相比,許多估算系數的值往往相當大。

  為了對通過這四個方法選定的范例的預測模型的性能加以了解,對接受者操作曲線(ROC)進行了分析,并評估所有四個預測模型的敏感度、特異性和曲線示出了在訓練集以及在驗證集的ROC 曲線和相關聯的AUC值,具體包括LASSO(圖13a)、脊回歸(圖13b)、彈性網絡(圖13c)和逐步(圖13d)。在訓練集中,估算的ROC曲線,上述四個方法在很大程度上都相類似。如預測的那樣,在驗證集,估算的AUC值小幅減少至0.866。其中,前述三種方法的AUC值的方差都小于0.001。前述三個方法的ROC分析結果的類似,表明可能有許多具有不同的范例以及類似的預測性能的預測模型。

  為了建立一個I型糖尿病的預測模型,將OOR應用到所有8個II類HLA基因(HLA-DRB1,DRB345,DQA1,DQB1,DPA1和DPB1),使用相同的訓練集研究范例,并建立預測模型,并驗證驗證集中的預測模型。相對于上述相似性度量,此處使用了等式中定義的未加權相似性度量,表示為其中,n=705,并且每個元素取值范圍為0和1之間的值。為了便于可視化,使用分級聚類算法來構建這個相似性矩陣,可參見示出的其熱圖(圖14)。中央對角線集群(通過注釋箭頭突出標示的紅色方塊,)表示存在許多彼此相同或彼此高度相似的對象。此外,通過注釋箭頭還指出了多個高度相似的對象的更小的集群。集群圖譜表明,在右下角的對象往往攜帶較常見的基因型分布,這是因為更多的個體攜帶常見基因型分布,其成對的相似性度量往往較高。另一方面,那些在左上角的對象傾向于具有更小的個體的集群,所述個體帶有相對相似性度量,這可能是因為它們的基因型分布具有相對低的頻率,相對較小的群組的個體攜帶相似基因型分布。其中,右上角的對象有相對較低的相似性度量,這可能是因為具有常見的基因型分布的個體往往與那些具有不太常見的基因型分布的個體相互隔離。

  基于該相似性矩陣,將被觀測的基因型分布的一個子集選為范例。鑒于樣本量相對有限和基因型分布的神秘,將訓練集中所有獨特的基因型分布選為范例。換句話說,選擇的所有范例均是獨特的,并涵蓋訓練集中觀測到的所有基因型分布。操作上,用于進行成對相似性度量的閾值設置為1,訓練集中共有499個范例,且作為描述性關聯分析的一部分,應用OOR進行I型糖尿病與所有范例的單變量關聯分析;并沿HLA基因型列出(表S5)了估算系數、標準誤差、Z分數和它們的p值。其中,范例由Z分數排序,并且Z分數值與病例和對照狀態相一致。

  目前的任務是要用LASSO建立預測模型。在前面的討論中,逐步方法適用于過度擬合預測模型,而并不適用建立預測模型。即使預測性的AUC是所需要的,脊回歸往往為所有范例提供“謹慎估算系數”,且對任何范例都不取消選擇。而彈性網絡相對于脊回歸和LASSO是一種折衷的方法,其具有與LASSO相當的性能。為了對變量選擇進行分析,選擇LASSO建立一個I型糖尿病的預測模型。表3列出了基于LASSO的回歸系數估算,其中該回歸系數估算由回歸系數排序。通過LASSO選擇的共有26個包含信息的范例。通過合并病例(D)/對照(N)和研究識別號碼得到范例識別號碼。顯然,對那些從病例衍生的范例的估算系數傾向于為正,而對那些來自于對照的范例的估算系數傾向于為負。例如,與范例如D1612高度相似的對象,具有相對高的T1D的風險;與范例如N000982相似的對象,將有相對較低的T1D風險。

  其中,對那些所有26個選定的范例求和,在表3中示出估計風險評分為了評估風險評分的經驗分布,示出了訓練集中對照和病例的風險評分的箱圖(圖15)。顯然,訓練集中,病例的風險評分通常比對照的更大,這種差異在統計學看來比較顯著(p值0.001,未示出)。對照的風險評分呈對稱分布,而這些病例中的風險評分有些傾斜。根據風險評分范圍從-5.52到4.1,計算出的靈敏度(ROC曲線-特異性(x軸)構成了訓練集的ROC曲線,該ROC曲線。

  為了驗證上述預測模型,采用了固定的范例和上述模型中的相關聯的加權,計算驗證集所有樣本的風險評分。參見箱圖的左下圖,示出了對照和病例中的風險評分的分布(圖15)。顯然,在驗證集的風險評分的經驗分布與在訓練集中的風險評分的經驗分布在很大程度上是類似的。此外,驗證集的ROC分析顯示了相類似的靈敏度特異性曲線、選擇范例的穩定性

  已知的是,該懲罰參數(λ)的選擇對變量的選擇有直接和深刻的影響。常規的交叉驗證通常用于確定出可實現最小偏差的懲罰值(或其他性能度量,如分類誤差,或AUC)。圖16的頂圖顯示了偏差與不同的懲罰參數值(對數刻度)的XY坐標圖。它示出了最低的估算懲罰參數的對數值,所述對數值取值在-6.0到-5.5之間。此函數的平坦性意味著對應于最小偏差的估算懲罰參數在很大程度上受交叉驗證過程的影響。為了評估它的影響力,重復1000次估算懲罰參數,并估算相應的值。圖16的下圖顯示估算懲罰參數的經驗分布。可見,在訓練集中估算的懲罰值是離散的15個不同的值,這可能是因為相似性矩陣的離散性造成的。

  由于懲罰參數的值會影響變量的選擇,需關注的是,所選擇的變量在不同的懲罰參數值下是否是穩定的,其次,即使具有固定的懲罰參數,“選擇”本身是否穩定。為了解決這個問題,對15個不同的懲罰參數值進行了自助分析。對于1000個自助分析樣本的每個樣本,分別設置固定的值,進行LASSO,并通過懲罰似然選擇包含信息的范例。對于定性比較,選擇使用Kappa統計數據來衡量所選擇的范例的重復性。Kappa值越大表示對應于選定的范例的重復越多,所述范例通過兩個不同的懲罰參數值的LASSO估算選定。在所有自助樣本中估算平均的Kappa值和它們的標準偏差(表4,上部三角內為Kappa值,下部三角內為標準偏差)。結果表明,這15個懲罰值的一致性為相鄰懲罰值的80%左右。正如預測的一樣,一致性隨著懲罰參數值的差異增加而降低。為了進一步了解不同的懲罰值下估算系數的定量一致性,計算所有自助樣本的平均系數,并將不同的懲罰值下的平均系數繪制成對XY圖(在對角框標示)(圖17)。很明顯,如果兩個懲罰值比較接近,則估算系數的平均值彼此高度相關。否則,估算系數隨著懲罰值的不同可能有很大的不同。

  如前所述,有多個類似性能的預測模型。現在的問題是,即使選擇的范例以及相關聯的系數不同,預測模型在懲罰參數值不同時是否也有類似的性能。為此,使用LASSO,在固定的懲罰參數值下,選擇包含信息的范例構建相應的預測模型。對每個預測模型,進行訓練集以及驗證集的ROC分析。圖18示出估算AUC值的15個ROC分析結果。顯然,ROC曲線基本上是類似的。在訓練集中AUC值從0.91變化到0.93,而在驗證集中這些值約為0.89。

  鑒于類似的性能和不同的懲罰參數值下選擇的范例的高度一致性,選擇了中等懲罰參數值來評估1000個自助樣本中單個系數估算的穩定性。圖19示出在執行雙向聚類分析后,1000個自助樣本中的499個范例的估算系數。各個估算系統值在被限定于-2和2之間,以便于可視化。很明顯,在1000個自助樣本中,固定的懲罰值下的估算系數也保持非常的一致。

  在本文中,描述了一種面向對象的回歸(OOR)的新方法,來建立關于生物大數據的共同特征,即高度多態性基因的預測模型。為了解決多態性基因的復雜性,首先,通過OOR確定一組范例,其中,該范例的基因型分布在所觀測到的基因型中具有代表性。然后,通過OOR選擇每個對象和范例之間的取決于場景的基因的相似性度量,作為一個新的“度量”來度量所有對象和范例的相似性,并創建協變量矩陣。然后,通過采用現代懲罰似然方法,通過OOR選擇一組包含信息的范例來構建預測模型。然后,作為“經典”的回歸方法,使用OOR分析“范例”與疾病的單變量關聯以及多變量的關聯。不同于常規側重于單個基因的回歸,OOR的回歸系數在量化疾病與范例相似性的關聯時,需要結合上述新的度量來進行分析,即結合上述與范例的相似性來確定風險等級(見下文關于整體評估的詳細討論)。從這個角度來看,OOR是對常規的回歸方法的一種補充。

  在給定的說明性的例子中,使用了在瑞典進行的一項病例-對照的I型糖尿病研究,探討了疾病與HLA基因的關聯。簡單地說,為了說明OOR 及其解釋,初步研究的重點側重于I型糖尿病與單個基因HLA-DRB1的關聯上。作為以基因為中心的回歸的補充方法,OOR的單變量分析揭示了T1D與單個攜帶HLA-DRB1*03:01:01,*04:01:01,*07:01:01,*11:01:01,*11:04:01,*12:01:01,*13:01:01和*15:01:01基因的關聯圖譜。在該例中,使用了HLA-DRB1建立了I型糖尿病預測模型,其中通過四個不同的變量的方法來選擇包含信息的范例。在針對上述例子的應用中,LASSO選擇了23個包含信息的范例,與風險升高相關聯的范例趨向于來自于病例,而那些與風險降低相關聯的范例往往是來自對照。另外,還發現,通過逐步方法選擇的范例與那些由LASSO選擇的范例趨于重疊,但是相關聯的系數估算的絕對值往往更大。令人驚奇的是,在評估預測模型的性能時還發現,AUC會下降到0.5,表明預測模型完全失效。這大概與預測模型對訓練數據過擬合相關。同時,脊回歸方法會保留所有范例,并產生與所有范例相關聯的謹慎回歸系數。而彈性網絡方法比LASSO會選擇更多包含信息的范例,但比脊回歸方法少,相當于是這兩種方法之間的妥協。另外可見,預測模型的性能與由三種方法選擇的范例性能在很大程度上是類似的。為了在簡約、詮釋和性能之間保持平衡,在本本發明所述應用中選擇使用LASSO方法。

  基于HLA-DRB1的初步研究的結果,對所有HLA基因(DRB1,DRB345,DQA1,DQB1,DPA1和DPB1)建立了一個預測模型,隨后評估其性能,以及評估在不同懲罰參數值下所選擇的預測器的穩定性。在訓練集中,OOR選擇了26個包含信息的范例作為預測器,該預測模型擁有極好的敏感度和特異性特性,對應的AUC為0.93。固定范例和回歸系數后,將預測模型應用在獨立選擇的驗證集上,通過ROC分析顯示與那些訓練集中類似的靈敏度和特異性,此時AUC為0.89。如果由外部的數據集進一步驗證后,這個預測模型可隨時用于在一般人群中篩查T1D。

  雖然OOR有上述優勢,但其也有局限性。通過構建這個模型,OOR將基因為中心的回歸問題轉化為“對象與范例的基因型分布的相似性”的問題。因此,結果的解釋取決于相似性度量。例如,如果建立與范例的正關聯,結果意味著,任何人只要其基因型分布與范例相似,則處于疾病的高風險。因此,這樣的正關聯不能精確定位與疾病階段相關聯的特定的基因多態性或其組合。畢竟,OOR不會解釋哪些基因是重要的。當然,傳統的回歸方法更加合適用于精確定位病因基因。

  另一個問題是與相似性度量的選擇相關。在疾病與HLA基因的關聯分析的場景下,將等位基因身份計數的未加權平均值作為相似性度量。雖然這樣是直觀的,但可以考慮使用其他度量替代,如使用基于HLA基因型血緣同源性推斷得到的、對象間血緣同源性的加權平均值。正如預測的那樣,相似性度量的選擇影響了對結果的解釋,實現了場景特異性的靈活性。

  OOR的特性之一是,當相似性度量構建后,OOR需要確定“范例”作為用于構建模型的預測器。OOR默認假定范例的數目比樣品量小(qn)。通常情況下,選擇范例代表一組具有取決于相似性度量的基因型分布的一個或多個對象。對于8個HLA基因,訓練數據集的705個對象中有一些是相同的,但許多在各自集群內彼此相似(參見圖14為例)。在上述例子的應用中,用于相似性度量的閾值選擇1.0時,會從705個對象中選出499個范例。在不缺失信息的情況下,q個范例包含這些復雜的基因型的所有統計信息。假設樣本量增加的速度比范例的數目增加的速度更快,仍然可以依靠常規的漸進解法進行統計評估。需要注意的是,范例特異性的預測器彼此間高度相關,例如,范例的相關矩陣。在實踐中,用于相似性度量的閾值可以選擇低于1.0,用于確定較小的一組范例,以進一步進行分析,這尤為符合較大樣本量的需求。

  OOR的另一個重要特性是,OOR結果對于等位基因特異性或基因型特異性的傳統回歸分析的結果是互補的。HLA基因的基因型特異性回歸分析,通常僅限于那些常見的基因型,諸如HLA-DRB1*03:01:01/03:01:01或*04:01:01/04:01:01,其中為了統計分析,還要求觀測數量足夠大。為了克服此限制,等位基因特異性回歸分析假設了模型的額外效果,并量化疾病與個別等位基因的關聯。但是,額外效果的假設可能不適合某些等位基因。當然,等位基因特異性回歸分析(當包括多個基因時,等同于單倍型特異性回歸分析)對于不常見等位基因也同樣存在著挑戰性。與此相反,OOR則繞過上述限制,將分析目標側重于評估疾病與對象和范例的基因型相似性的關聯。

  對于結果的解釋,OOR和協變量特異性回歸方法有一定的不同。協變量特異性回歸側重于個別協變量的特定影響,以及如果統計學上顯著,對于個別回歸系數的解釋為相應的協變量有顯著的關聯,即“簡約”論。與此相反,OOR評估疾病與對象和范例組的相似性的關聯,如果發現一個或多個回歸系數從零顯著偏離,其結果意味著,與該范例的相似性指示了較高或較低的疾病的風險,即個人風險的“整體”論。事實上,正是OOR的這種“整體性”,規避了傳統回歸分析的復雜性的問題。

  OOR使用的相似性度量的概念也與統計遺傳學中開發并使用的多種方法相關。雖然本文并不意圖追蹤這些聯系,但需注意,古典和現代遺傳學旨在通過利用家族內對象的相關性發現結果相關聯的易感基因,因為共享的疾病基因在被發現之前,可能會導致相關個體中相似性的增加。在遺傳學的早期,隔離和聯系方法用于描述和發現家族聚集性基因。在現代遺傳學,一些研究小組提出,通過評估遺傳標記的相似性并使用相似性回歸來發現疾病基因。雖然有著相似的科學目標,但OOR使用相似性評分來發現哪些范例有更高的疾病風險,而不是發現哪些SNP(單核苷酸多態性)與疾病相關聯。

  OOR還與一些現有的分析方法存在聯系。在統計遺傳學文獻的背景下,OOR與序列核關聯測試(SKAT)共享相同的理論基礎,即表現定理。最近開發的用于檢測GWAS基因-基因之間作用的方法中,SKAT在遺傳分析方面受到巨大好評,因為它使用該定理來非參數化地表示SNP的所有基因間作用的綜合影響,并檢測基因-基因之間的作用的存在,這是一個GWAS遺傳分析的挑戰性的問題。最近,Pan(2011)表明,SKAT測試與相似性回歸方法本質是等同的。除了共享相同理論基礎,OOR還具有完全不同的分析目標,即評估疾病與“范例特異性相似性”的關聯,并因此直接對范例的相似性度量建模,而不是為范例特異性系數假設一個隨機分量。

  在更廣闊的背景下,OOR與核邏輯回歸和支持向量機密切相關。所有三種方法共享相同的表現定理,利用該定理的一般表達形式,統稱為核機器。然而,OOR通過相似性度量將核函數的選擇形式化,利用集群戰略確定范例,并通過懲罰似然方法選擇那些包含信息的范例。可見,基于前人研究所取得的成就之上,OOR提供了一種新的方法來分析疾病與復雜協變量的關聯。

  對于計算機科學文獻的數據挖掘來說,OOR與k近鄰方法(KNN)也有著密切的聯系。k近鄰方法的核心思想是由某些特性定義的相對“親密鄰居”的對象趨向于有類似的結果。從本質上說,可以用k近鄰方法進行預測,而不用做任何建模假設,因此該方法也被稱為非參數預測方法。然而,k近鄰方法的效率沒有其它建模方法高,其原因之一是它并沒有考慮到這樣一個事實,即許多鄰居具有同等疾病關聯(即結果關聯)(無論是無效假設或備擇假設),而通過鄰居的組合是可以提高預測精度的。相比之下,OOR利用周邊信息(即,相似性度量)與多個包含信息的范例關聯。在概念層面,OOR可以被看作是k近鄰回歸函數估算的延伸。

  另一種密切相關的方法是成員等級分析法,簡稱為GoM。從概念上講,GoM通過引入一組潛在成員變量,假設該潛在成員變量的分布是合理的,GoM對結果的聯合分布以及協變量建模,在整合了所有GoM潛在成員變量后,可推導邊際似然用于估算和參考,而不是單一協變量的特定邊際解釋。在此方面,OOR類似GoM,利用相似性度量獲得分析目標,但其在建模假設和相關實施上是不同的。OOR的主要優點在于,無需假設潛在成員的分布,而完全基于經驗證據進行推斷。

  OOR在下述兩方面有很大的發展。首先,在邏輯回歸模型下構建OOR,用于二元疾病表型的應用。通過將邏輯回歸擴展到廣義線性模型,OOR可以應用于與其它類型的表型的研究,如連續、分類或截尾的表型,并適當選擇關聯函數,對表型和協變量的關系進行建模。第二,在其他類型的復雜協變量,例如文本串(例如,來自網絡搜索)、電子信號或二維圖像方面的應用。此外,協變量可以是高維數據,其維度的數目可遠遠大于樣本量。對于這些不同的應用,關鍵是要選擇背景相關的相似性度量,來定義對象之間的關于其協變量特性的“相似性度量”。研究OOR的長期目標是使其適用于大數據所產生的各種表型與各類協變量。

  顯然,本發明的上述實施例僅僅是為清楚地說明本發明所作的舉例,而并非是對本發明的實施方式的限定。對于本領域技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無法對所有的實施方式予以窮舉。凡是屬于本發明的技術方案所引伸出的顯而易見的變化或變動仍處于本發明的保護范圍之列。

免責聲明:
本網站部分內容來源于合作媒體、企業機構、網友提供和互聯網的公開資料等,僅供參考。本網站對站內所有資訊的內容、觀點保持中立,不對內容的準確性、可靠性或完整性提供任何明示或暗示的保證。如果有侵權等問題,請及時聯系我們,我們將在收到通知后第一時間妥善處理該部分內容。

微信

關注地攤庫官方微信賬號:“ditanku”,每日獲得互聯網最前沿資訊,熱點產品深度分析!
0條 [查看全部]  相關評論
主站蜘蛛池模板: 免费毛片视频 | 99re热精品视频国产免费 | 视频一区二区三区在线观看 | 91精品国产综合久久久久久 | 国产福利在线观看视频 | 日韩精品一区二区三区四区五区 | 久草免费在线 | 欧美一区视频 | 日韩欧美一区二区三区四区 | 色爱综合网 | 欧美日韩一级视频 | 福利网址 | 日韩精品视频在线观看免费 | 日韩在线你懂的 | 国产成人高清视频 | 91麻豆精品国产91久久久更新时间 | 日韩精品在线播放 | av电影中文字幕在线观看 | 99精品久久久 | 电影91| 日韩精品在线视频观看 | 欧美成人免费一级人片100 | 欧美一级高潮片免费的 | 欧美一区二区三区在线观看视频 | 日韩在线观看第一页 | 全黄大全大色全免费大片 | caoporn免费在线视频 | 国产一区二区三区免费 | 中文字幕在线一区二区三区 | 91精品国产91久久久久久最新 | 日韩一区二区精品视频 | 国产精品99久久久久久久vr | 欧美激情视频一区二区三区在线播放 | 激情久久久 | 午夜网址 | 日本黄色的视频 | 亚洲第一av| 欧美一区永久视频免费观看 | 99久久综合| 午夜久久久 | 亚洲一区欧美 |