差異表達(differentially expressed,DE)基因的(de)檢測和(hé)評估一直是單細胞scRNA-seq數據分(fēn)析中關鍵的(de)一步,準确可(kě)靠的(de) DE 基因結果對(duì)下(xià)遊分(fēn)析具有深遠(yuǎn)影(yǐng)響。scCODE算(suàn)法提出全新的(de)單細胞scRNA-seq數據一站式個(gè)性化(huà)DE基因分(fēn)析系統,通(tōng)過對(duì)單細胞數據多(duō)次建模分(fēn)析,自動評估最優化(huà)分(fēn)析結果,爲科研人(rén)員(yuán)深入解析單細胞數據提供準确高(gāo)效的(de)新工具。
2022年5月(yuè)23日,複旦大(dà)學郝潔/鄒欣團隊與辰山植物(wù)園陳可(kě)組在Briefings in Bioinformatics(計算(suàn)生物(wù)學一區(qū),IF=11.6)上發表了(le)題爲:”scCODE: an R package for data-specific differentially expressed gene detection on single-cell RNA-sequencing data”的(de)研究論文。該研究評估40餘種DE分(fēn)析策略,基于自主研發的(de),無需先驗信息的(de)兩個(gè)新的(de)評估參數,開發了(le)scRNA-seq數據個(gè)性化(huà)最優DE基因篩選系統平台——scCODE (圖1)。
圖1: Evaluation of DE gene detection performance and schematic of scCODE
在以往的(de)研究中,過濾低表達的(de)基因被認爲有助于DE分(fēn)析,但其真正影(yǐng)響尚未得(de)知,基因過濾也(yě)無統一标準。本研究第一部分(fēn)從FPR、TPR和(hé)AUROC等評估标準分(fēn)析了(le)不同基因過濾方法對(duì)DE結果的(de)影(yǐng)響。結果發現,恰當的(de)基因過濾和(hé)DE方法的(de)組合可(kě)以得(de)到更好的(de)DE結果,而不恰當的(de)組合卻會起到相反的(de)效果。當DE分(fēn)析策略所推測的(de)DE基因表達分(fēn)布與實際的(de)基因表達分(fēn)布更接近時(shí),才能得(de)到更準确的(de)DE基因結果(圖2)。
圖2: Investigation of DE gene distribution detected by different combinations of methods, based on simulated-EMTAB8077_heart_kidney.
實際應用(yòng)中,探索未知領域的(de)scRNA-seq樣本,其概率分(fēn)布不同,且缺乏先驗知識,無法通(tōng)過已有的(de)評估标準如AUROC去挑選最優的(de)分(fēn)析方法。在本研究中,研究者設計了(le)新的(de)評估參數CDO和(hé)AUCC,可(kě)以在無需先驗知識的(de)創新性研究中,獲得(de)針對(duì)不同數據的(de)最優分(fēn)析策略,更高(gāo)的(de)真正例率(TPR)和(hé)很低的(de)假陽性率(FPR)。
在對(duì)小鼠肺癌發育CD4+T細胞分(fēn)析時(shí),最優的(de)分(fēn)析策略檢測到的(de)DE基因可(kě)以清楚地區(qū)分(fēn)兩組細胞,并且随著(zhe)使用(yòng)更多(duō)基因,細胞聚類的(de)更加清晰。然而,差的(de)分(fēn)析策略的(de)結果并非如此,未激活的(de) CD4+ T 細胞仍與活化(huà)的(de)CD4+ T細胞聚集在一起(圖3)。同時(shí)在小鼠心髒和(hé)腎髒内皮細胞以及人(rén)類肺癌macrophage m1 m2數據分(fēn)析中也(yě)得(de)到了(le)類似的(de)結果。
圖3:scCODE validated on real scRNA-seq data comparing activated CD4+ T cells with naïve cells.
該平台已經發布于GitHub(https://github.com/XZouProjects/scCODE)。目前已收到多(duō)個(gè)用(yòng)戶反饋良好。論文的(de)通(tōng)訊作者爲複旦大(dà)學附屬中山醫院郝潔研究員(yuán),複旦大(dà)學附屬金山醫院鄒欣副研究員(yuán)和(hé)辰山植物(wù)園陳可(kě)副研究員(yuán)。上海交通(tōng)大(dà)學生命科學技術學院2019級碩士鄒佳偉爲論文第一作者。
該研究得(de)到了(le)國家自然科學基金,上海交通(tōng)大(dà)學醫學院高(gāo)水(shuǐ)平地方高(gāo)校創新團隊,上海市綠化(huà)和(hé)市容管理(lǐ)局科研專項等項目支持.
全文鏈接:
https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbac180/6590434