傳統(tǒng)的基因測序技術采用“混池”(bulk)測序,得到的是一群細胞中基因表達水平的平均值,掩蓋了細胞之間的異質性,這對于理解生物細胞的多樣性存在明顯的局限性。單細胞轉錄組測序(single-cell RNA-seq)能夠獨立地提供每個細胞的基因表達圖譜,這樣就可以揭示各個細胞間的微小差異,找到單個細胞的獨特性,對于我們理解細胞的起源、功能、發(fā)育等有著至關重要的作用。
然而,在單細胞層次上,轉錄組的隨機波動會遠遠大于細胞群體的平均行為,由于每個細胞的mRNA拷貝起始量較低以及測序技術原因,單細胞轉錄組測序數(shù)據(jù)通常存在drop-out現(xiàn)象,即很多表達的mRNA沒有被捕捉到,導致檢測出來的基因表達量為零或者接近零。因此,如何從高度稀疏的單細胞轉錄組數(shù)據(jù)中精確地恢復這些缺失的信號,從而促進下游生物信息挖掘,是單細胞轉錄組數(shù)據(jù)分析面臨的重要挑戰(zhàn)。
低秩矩陣填補技術在推薦系統(tǒng)中應用廣泛,比如著名的Netflix 問題。Netflix公司的電影網(wǎng)站上有非常多的用戶,由于大多數(shù)用戶只評價了部分電影,Nextflix公司希望從已有的評價數(shù)據(jù)中推測出用戶可能喜歡的其他電影。用戶的喜愛程度受有限種因素的影響,那么“用戶-影片”的評分矩陣是低秩的,故低秩矩陣填補技術被認為是解決該問題的有效方法。類似地,在單細胞轉錄組數(shù)據(jù)中,由于細胞種群和共表達基因的存在,數(shù)據(jù)矩陣也趨向于低秩矩陣,那么低秩填補策略可能適用于單細胞數(shù)據(jù)的填補問題。
單細胞數(shù)據(jù)的一大特點是存在很大的異質性,課題組成員敏銳地洞察到這一數(shù)據(jù)特征對于單細胞數(shù)據(jù)填補的重要性,決定從細胞子群的角度來解決單細胞轉錄組數(shù)據(jù)的drop-out問題。這個想法也可以從電影推薦系統(tǒng)的角度來理解:我們可以把每個基因看成一個電影,每個用戶看成一個細胞,不同年齡段的用戶對各類電影的喜好程度是不同的。類似地,同一類細胞的基因表達譜有較高的相似度,不同類細胞的基因表達譜有一定的差異。因此,從單細胞數(shù)據(jù)中識別包含相似細胞的子群,基于細胞子群中基因表達的相似性能夠有效地填補缺失值。這一思路也與數(shù)學上的基于分塊低秩矩陣填補數(shù)據(jù)具有較高精確性的結論是一致的【3】。另一方面,某個電影的口碑越好,評分越高,看的人越多,那么對于它的評分越多,缺失值就越少。反之,評分低的那些電影,看的人可能相對較少,評分缺失值也就越多。因此,某個電影的評分缺失值在某種程度上與該電影的評分高低有關系。基于此考慮,張世華課題組大膽推測單細胞數(shù)據(jù)中的drop-out應該也和基因的先驗表達有密切關系。此前研究確實也表明表達水平低的基因更傾向于有較大的數(shù)據(jù)缺失率,而且不同的細胞類型的缺失率不同【4】。因此,利用這個先驗關系能夠幫助估計出缺失的表達水平的范圍。PBLR就是基于細胞子群的有界低秩填補模型,綜合考慮了單細胞數(shù)據(jù)的這幾個特點(圖1)。
通過PBLR填補后的數(shù)據(jù)可以很好地用于下游生物信息挖掘。作者采用PBLR分析了8組模擬數(shù)據(jù)和9組真實數(shù)據(jù),結果顯示,與主流的6種單細胞數(shù)據(jù)填補方法相比, PBLR能夠更為精確地恢復缺失的數(shù)據(jù),能有效提升數(shù)據(jù)低維可視化、提取基因間關系等下游分析能力(圖2和圖3)。
小結:總結而言,張世華課題組巧妙地類比推薦系統(tǒng)中著名的Netflix問題,充分利用單細胞轉錄組數(shù)據(jù)的分布特點,創(chuàng)新性地提出基于細胞子群和基因表達缺失先驗信息的單細胞轉錄組測序數(shù)據(jù)填補的方法,有效地解決了數(shù)據(jù)缺失及稀疏的問題、提升了單細胞轉錄組數(shù)據(jù)分析的精確性。該方法對于深入挖掘單細胞轉錄組數(shù)據(jù)所蘊含的生物醫(yī)學知識具有重要意義。
張世華,中國科學院數(shù)學與系統(tǒng)科學研究院研究員、中國科學院隨機復雜結構與數(shù)據(jù)科學重點實驗室副主任、中國科學院大學崗位教授。主要從事生物信息學與機器學習交叉研究,主要成果發(fā)表在Advanced Science、National Science Review、Nature Communications、Nucleic Acids Research、Bioinformatics、IEEE TPAIM、IEEE TKDE、IEEE TNNLS、IEEE TFS、AoAS等雜志。目前擔任BMC Genomics等雜志編委。曾榮獲中國青年科技獎、國家自然科學基金優(yōu)秀青年基金、國家萬人計劃青年拔尖人才、全國百篇優(yōu)秀博士論文獎、中國科學院盧嘉錫青年人才獎等。
張麗華博士為該論文的第一作者。她于2018年7月博士畢業(yè)于中國科學院數(shù)學與系統(tǒng)科學研究院,現(xiàn)在在加州大學爾灣分校數(shù)學系開展博士后研究。主要研究興趣為生物組學大數(shù)據(jù)的數(shù)學建模、算法及應用研究,主要論文發(fā)表于Genome Biology、Nucleic Acids Research、Science Advance等。