
2023年3月7日,來自俄羅斯科學(xué)院托木斯克國(guó)家醫(yī)學(xué)研究中心癌癥研究所癌癥進(jìn)展生物學(xué)實(shí)驗(yàn)室、托木斯克國(guó)立大學(xué)轉(zhuǎn)化細(xì)胞與分子生物醫(yī)學(xué)實(shí)驗(yàn)室、俄羅斯人民友誼大學(xué)分子與細(xì)胞醫(yī)學(xué)研究所單細(xì)胞生物學(xué)實(shí)驗(yàn)室等機(jī)構(gòu)的科學(xué)家們聯(lián)合在線發(fā)表了題為“Comparison of the Illumina NextSeq 2000 and GeneMind Genolab M sequencing platforms for spatial transcriptomics”的研究成果。該研究基于真邁生物的GenoLab M和Illumina的NextSeq 2000兩個(gè)測(cè)序平臺(tái)分別對(duì)3例卵巢癌樣本進(jìn)行10x?Genomics Visium空間轉(zhuǎn)錄組測(cè)序,并對(duì)得到的測(cè)序數(shù)據(jù)進(jìn)行比較分析。研究發(fā)現(xiàn)GenoLab M在測(cè)序數(shù)據(jù)質(zhì)量方面的表現(xiàn)與NextSeq 2000不相伯仲。在后續(xù)的降維分析、細(xì)胞亞群分析及差異表達(dá)基因方面也與NextSeq 2000分析結(jié)果均保持了高度的一致性,證明其應(yīng)用于空間轉(zhuǎn)錄組的實(shí)力。
背景介紹
單細(xì)胞轉(zhuǎn)錄組測(cè)序(scRNA-seq)是在單個(gè)細(xì)胞水平進(jìn)行高通量轉(zhuǎn)錄組測(cè)序的一項(xiàng)新技術(shù),能夠有效解決細(xì)胞異質(zhì)性以及組織轉(zhuǎn)錄組測(cè)序(bulk RNA-seq)被掩蓋的細(xì)胞群內(nèi)轉(zhuǎn)錄組異質(zhì)性難題。該技術(shù)有助于發(fā)現(xiàn)新的稀有細(xì)胞類型,深入了解細(xì)胞生長(zhǎng)與分化過程中的表達(dá)調(diào)控機(jī)制。然而,在進(jìn)行scRNA-seq測(cè)序的細(xì)胞解離過程中不僅存在與細(xì)胞應(yīng)激、細(xì)胞死亡/細(xì)胞聚集等相關(guān)的阻礙因素,同時(shí)還會(huì)丟失空間信息。此外,一些組織中的特定細(xì)胞類型,尤其是免疫細(xì)胞,難以從組織中解離出來,更限制了scRNA-seq測(cè)序的廣泛應(yīng)用。技術(shù)更迭,空間轉(zhuǎn)錄組技術(shù)橫空出世,更是在2020年被Nature Method評(píng)為年度技術(shù)。其中基于10X 單細(xì)胞平臺(tái)的空間轉(zhuǎn)錄組技術(shù)成為了主流。該技術(shù)不僅能夠檢測(cè)完整組織切片的總mRNA,而且還能將組織的空間信息和形態(tài)學(xué)內(nèi)容與mRNA整合在一起,最終繪制出基因表達(dá)的空間位置信息。為研究細(xì)胞功能、細(xì)胞表型和組織微環(huán)境等提供了關(guān)鍵的信息。
真邁生物的GenoLab M測(cè)序儀作為一個(gè)新的測(cè)序平臺(tái),在轉(zhuǎn)錄組與lncRNA測(cè)序、WGS和WES方面表現(xiàn)優(yōu)異,是否可以應(yīng)用到空間轉(zhuǎn)錄組呢?對(duì)此,研究使用3份卵巢癌樣本,分別在GenoLab M與NextSeq 2000上完成空間轉(zhuǎn)錄組測(cè)序,比較兩個(gè)平臺(tái)測(cè)序結(jié)果的一致性。
結(jié)果概要
01實(shí)驗(yàn)設(shè)計(jì)與測(cè)序質(zhì)量
表1 三例卵巢癌樣本兩個(gè)測(cè)序平臺(tái)的測(cè)序質(zhì)量比較
本研究將3份卵巢癌的石蠟切片樣本,分別構(gòu)建10xGenomics Visium的測(cè)序文庫(kù)。隨后將3個(gè)文庫(kù)一分為二,分別使用GenoLab M與NextSeq 2000測(cè)序平臺(tái)進(jìn)行測(cè)序。2個(gè)平臺(tái)同一個(gè)樣本測(cè)序數(shù)據(jù)總量接近,NextSeq 2000中有效barcode的百分比和有效UMI的百分比分別高出GenoLab M 0.74%和0.1%。而Q30堿基的百分比在barcode、探針和UMI對(duì)比中也比GenoLab M分別高出1.6%、2.2%和2.6%。以上的差異主要是GenoLab M測(cè)序數(shù)據(jù)深度與測(cè)序reads duplication相對(duì)較低。
* Barcode是含有空間位置標(biāo)簽的一段核酸序列,區(qū)分不同的spots,每個(gè)spots包含數(shù)十個(gè)細(xì)胞用于定位;
* Probe探針是用于結(jié)合mRNA的的序列;
* UMI是區(qū)分不同mRNA,用于絕對(duì)定量的核酸序列;
02reads mapping與基因表達(dá)絕對(duì)定量
兩個(gè)平臺(tái)組織的spots下reads的比例基本一致,差異不顯著。每個(gè)spots和組織的平均reads數(shù)與測(cè)序深度也基本一致。除樣本B1-2外,GenoLab M平臺(tái)中每個(gè)spot的UMI計(jì)數(shù)和基因的中位數(shù)以及檢測(cè)到的基因數(shù)都比NextSeq 2000高。而NextSeq 2000在Reads Mapped Confidently to Probe Set 的表現(xiàn)中略高于GenoLab M。這與探針reads更高的測(cè)序質(zhì)量一致。盡管如此,在Reads Mapped Confidently to the Filtered Probe Set的對(duì)比中 GenoLab M仍然有比NextSeq 2000更好的表現(xiàn)。
表2 reads mapping和UMI計(jì)數(shù)的測(cè)序質(zhì)量矩陣比較
03基因、UMIs、reads在組織的spots上的檢測(cè)情況
兩個(gè)測(cè)序平臺(tái)組織的spots下總的UMI和基因數(shù)目具有很高的一致性(Figure 1A)。三個(gè)樣本的基因-UMI關(guān)系在兩個(gè)平臺(tái)的一致性也很高(Figure 1B)。此外,GC譜也高度一致(Figure 1C),說明兩個(gè)測(cè)序平臺(tái)都沒有明顯的測(cè)序偏向性。
接著研究者去除低表達(dá)基因和基因數(shù)目較少的spots后,比較兩個(gè)平臺(tái)的基因交并集情況。結(jié)果表明平臺(tái)特有基因相對(duì)于交集占比都比較小,其中GenoLab M的特有基因稍多(Figure 1D)。在兩個(gè)平臺(tái)上測(cè)序的spots基因交集之間存在很強(qiáng)的相關(guān)性。三個(gè)樣本A1-1、A1-2 和 B1-2 樣本的平均相關(guān)系數(shù)分別為 0.82、0.90 和 0.99(Figure 1E)。
圖1 兩個(gè)測(cè)序平臺(tái)檢測(cè)到的reads數(shù)目,UMI和基因的比較
A 組織spots上轉(zhuǎn)錄本(基于UMI計(jì)數(shù))和基因數(shù)的一致性分析;
B 組織spots上基因的UMI分布;
C reads的GC含量譜;
D 平臺(tái)間共有和特有基因的維恩圖;
E SCT轉(zhuǎn)化基因交集的Pearson相關(guān)系數(shù)分布;
04降維、細(xì)胞亞群聚類和差異表達(dá)分析
三個(gè)樣本在兩個(gè)平臺(tái)的測(cè)序結(jié)果分析后得到的細(xì)胞亞群幾乎一致,都是16個(gè)亞群(Figure 2A),來自不同測(cè)序平臺(tái)分析的樣本的組織spots所在的位置也非常接近(Figure 2B)。A1-1含有7個(gè)亞群、A1-2有4個(gè)亞群、B1-2有5個(gè)亞群。差異表達(dá)基因(DEG)檢測(cè)方面,NextSeq 2000和GenoLab M分別檢測(cè)到的特有DEG約占所有檢測(cè)的DEG的16%;共有的占比更高為68%(Figure 2C-E)。
* DEG的篩選條件,F(xiàn)DR<0.01且log fc=''>0.25(差異倍數(shù)>1.19);
* FDR False Discovery Rate錯(cuò)誤發(fā)現(xiàn)率;
* LTF Log2(Fold Change) 差異倍數(shù)fold change的log2值;
圖2 非線性降維、聚類和差異表達(dá)分析
A 未做批次校正的兩個(gè)平臺(tái)的測(cè)序數(shù)據(jù)UMAP降維和聚類;
B 亞群的空間分布;
C A1-1樣本的平臺(tái)間共有與特有差異表達(dá)基因的維恩圖;
D A1-2樣本的平臺(tái)間共有與特有差異表達(dá)基因的維恩圖;
E B1-2樣本的平臺(tái)間共有與特有差異表達(dá)基因的維恩圖;
05差異表達(dá)基因的深入分析
研究對(duì)平臺(tái)共有與特有的DEG深入分析以評(píng)估特有DEG的來源。通過DEG的計(jì)數(shù)來可視化LFC和FDR的分布。圖3A展示了DEG-LFC在組織spots亞群聚類的分布,發(fā)現(xiàn)所有平臺(tái)特有的DEG的LFC均分布在所選閾值的邊緣。圖3B展示了DEG-FDR在組織spots亞群聚類的分布,平臺(tái)特有DEG的FDR值往往最大(代表顯著性值最低)。綜合來說,平臺(tái)特有DEG比較接近閾值,而共有的DEG則具有較小的FDR和較高的差異倍數(shù)。
圖3 亞群差異表達(dá)的差異倍數(shù)(A)與FDR(B)的分布情況
結(jié)論
研究首次比較了GenoLab M和NextSeq 2000在空間轉(zhuǎn)錄組測(cè)序的性能,兩個(gè)平臺(tái)均采用了可逆終止的邊合成邊測(cè)序的技術(shù)。三份Visium的測(cè)序文庫(kù)在兩個(gè)測(cè)序平臺(tái)上得到了一致的空間轉(zhuǎn)錄組分析數(shù)據(jù)。研究結(jié)果表明GenoLab M的測(cè)序性能與NextSeq 2000接近,適用于進(jìn)行基于10?×?Genomics的空間轉(zhuǎn)錄組測(cè)序。