一、從“像素組學(xué)”到“基因地圖”的距離有多遠(yuǎn)?
過去三年,空間轉(zhuǎn)錄組學(xué)(ST)技術(shù)讓科研人員第一次在組織切片上看到“基因的地理分布”。然而,主流商業(yè)平臺的分辨率多停留在 55–100?μm,一格里往往混雜數(shù)十個細(xì)胞,無法滿足腫瘤微環(huán)境、胚胎譜系或神經(jīng)環(huán)路等對亞細(xì)胞精度的渴望。依賴實驗硬件向更高分辨率邁進(jìn)不僅昂貴,還受到樣本保存方式、測序深度和信息噪聲的多重限制。能否用人工智能在現(xiàn)有低分辨率數(shù)據(jù)和高清病理圖像之間“腦補(bǔ)”出單細(xì)胞級表達(dá)全景?MagNet 與 CausalGeD 便是在此愿景下誕生的兩款算法明星。
二、MagNet:多層注意力圖網(wǎng)絡(luò),專為 HD 級別而生
MagNet 由 Vanderbilt 大學(xué)與上海交大團(tuán)隊聯(lián)合提出,核心思想是用“多尺度特征 + 圖注意力 + Transformer”三重保險突破信息瓶頸。算法先把每張 H&E 切片切分成 spot、bin、region 三層圖像 patch;再用 CNN 提取紋理特征,通過跨尺度 cross?attention 模塊融合;最后構(gòu)建空間鄰接圖,引入 GAT?Transformer 綜合周圍 patch 線索,預(yù)測 8?μm 超高分辨率的基因表達(dá)。作者在自有 HD?ST 數(shù)據(jù)集和公開 CRC 樣本上做了系統(tǒng)評測,平均 Pearson 相關(guān)系數(shù)較 SOTA 提升 8–23%,尤其在稀疏表達(dá)基因上優(yōu)勢更明顯。值得一提的是,MagNet 還在損失函數(shù)里加入“跨尺度一致性約束”,確保預(yù)測值在 bin→spot→region 三級彼此匹配,避免過擬合局部噪聲。
三、CausalGeD:因果圖 × 擴(kuò)散模型,讓重構(gòu)更可信
另一匹配 HD 時代的方案來自北京航空航天大學(xué)與卡內(nèi)基梅隆大學(xué)聯(lián)合團(tuán)隊——CausalGeD。與 MagNet 聚焦“圖像→基因”不同,它主攻“低分辨率 ST 與單細(xì)胞 RNA 融合重構(gòu)”。算法先用因果圖判別 scRNA?seq 與 ST 之間的真實調(diào)控依賴,再將這些因果先驗編碼進(jìn)擴(kuò)散生成模型,引導(dǎo) HD 級表達(dá)采樣。實驗證明,在 10x Visium 小鼠腦與 Slide?seq V2 數(shù)據(jù)上,CausalGeD 將重構(gòu)基因平均相關(guān)性提升 5–32%,同時在空間可變基因檢出率、通路富集吻合度等指標(biāo)上全面超越 CellDART、Tangram 等經(jīng)典工具。該方法為“實驗分辨率不夠高”提供了更可信的數(shù)學(xué)放大鏡。
四、數(shù)據(jù)集與 Benchmark:不僅贏,還要贏得公正
兩篇論文都堅持“同源對比 + 多任務(wù)評測”原則。MagNet 選取自建 HD?ST、10x CRC、BreastCancerVisium 三套數(shù)據(jù),分別在 spot、32?μm、8?μm 三檔評測;CausalGeD 則用 7 組公開 ST × scRNA 對,涵蓋鼠腦、人結(jié)腸、人胰腺等多組織。兩者均對比 8–12 個公開算法,并放出代碼與數(shù)據(jù),方便后來者復(fù)現(xiàn)與橫向擴(kuò)展。這樣嚴(yán)謹(jǐn)?shù)?Benchmark 架構(gòu),為高分辨率預(yù)測領(lǐng)域奠定了可量化的爬梯子。
五、應(yīng)用場景:AI 打開的四扇窗
1. 腫瘤微環(huán)境:在 HD 級別追蹤免疫細(xì)胞與腫瘤干細(xì)胞微簇,可揭示免疫抑制“暗角”。
2. 神經(jīng)環(huán)路:單細(xì)胞尺度的基因與形態(tài)共同建圖,有望解析膠質(zhì)細(xì)胞在軸突引導(dǎo)中的精細(xì)作用。
3. 發(fā)育生物學(xué):結(jié)合系譜追蹤標(biāo)記,小鼠心臟、魚胚等模型可重構(gòu)器官再塑的分子軌跡。
4. 臨床病理:在 FFPE 切片上先用低密度 Visium 測序,再用 AI 放大到單細(xì)胞,為診斷提供高精度亞區(qū)表達(dá)圖。
六、實驗室復(fù)現(xiàn) Tips
MagNet 與 CausalGeD 均開源于 GitHub,依賴環(huán)境集中在 PyTorch2.1 與 PyG2.4,普通 24?GB 顯存即可在中型數(shù)據(jù)集上運行。MagNet 訓(xùn)練 30 epoch 即收斂,推薦使用 4?fold cross?validation;CausalGeD 因擴(kuò)散過程較長,可先用 LMDB 緩存加速。作者均提供示例 notebook,修改路徑即可跑通。
七、尚未解決的挑戰(zhàn)
盡管兩者成績亮眼,但 HD 預(yù)測仍面臨:① 異質(zhì)端粒或長鏈非編碼基因表達(dá)稀疏,AI 預(yù)測易失真;② 病理圖像染色差異可能引入域偏移;③ 推理速度與顯存需求在超大切片(≥1?cm²)上仍是瓶頸。未來,如何結(jié)合 Foundation Model 預(yù)訓(xùn)練、增量學(xué)習(xí)和顯存調(diào)度,將是突破關(guān)鍵。
八、寫在最后:讓“虛擬測序”成為可能
從 Visium Spot 到 HD Bin,只隔著一道算法的門檻。MagNet 和 CausalGeD 把病理圖像、因果推斷與生成模型巧妙拼合,為空間轉(zhuǎn)錄組插上 AI 的翅膀。當(dāng)高清 ST 仍昂貴而稀缺時,它們以可復(fù)現(xiàn)的方式把“基因地圖”分辨率推至單細(xì)胞,甚至亞細(xì)胞。如果說 2020 年是空間組學(xué)的元年,那么 2025 年或許將見證“AI 虛擬測序”普及的拐點。下一步,等你把自己實驗室的切片投喂進(jìn)去,看看還能挖出多少隱藏的空間密碼。