
在轉(zhuǎn)錄組、代謝組、蛋白組等組學(xué)數(shù)據(jù)分析中,拿到差異基因/差異代謝物列表只是第一步,如何從海量數(shù)據(jù)中挖掘生物學(xué)意義,找到研究的核心方向,是每一個科研人都要攻克的難題。而KEGG富集分析,就是解開這個難題的關(guān)鍵鑰匙,也是高分SCI論文中核心分析內(nèi)容。很多科研新手對著富集分析結(jié)果一頭霧水:氣泡圖怎么看?富集因子、P值代表什么?如何從結(jié)果里篩選關(guān)鍵通路?怎么把分析結(jié)果寫進(jìn)論文里?
本期KEGG連載干貨,就帶大家從零開始,超詳細(xì)解讀KEGG富集分析,吃透原理、看懂圖表、掌握解讀邏輯,輕松搞定組學(xué)數(shù)據(jù)下游分析!
一、什么是KEGG富集分析?為什么非做不可?
在做KEGG富集分析前,首先要明白它的核心意義,避免盲目分析。
簡單來說,KEGG富集分析,就是把我們篩選出的差異基因/差異代謝物,映射到KEGG數(shù)據(jù)庫的各個生物學(xué)通路中,統(tǒng)計哪些通路被顯著富集,從而判斷這些差異分子主要參與哪些生命活動、調(diào)控哪些生物學(xué)過程。
KEGG富集分析的核心作用
1. 簡化海量數(shù)據(jù):從成百上千的差異分子中,鎖定關(guān)鍵生物學(xué)通路,縮小研究范圍;
2. 挖掘生物學(xué)意義:將組學(xué)數(shù)據(jù)與生命活動關(guān)聯(lián),解釋實驗表型背后的分子機制;
3. 支撐論文結(jié)論:是高分論文闡述分子調(diào)控機制、驗證實驗猜想的核心依據(jù);
4. 指引后續(xù)研究:為后續(xù)基因驗證、通路干預(yù)、靶點挖掘提供明確方向。
可以說,沒有KEGG富集分析的組學(xué)數(shù)據(jù),只是一堆沒有靈魂的數(shù)字,做完富集分析,組學(xué)研究才真正有了科研價值!
二、KEGG富集分析核心原理
KEGG富集分析的核心原理是通過統(tǒng)計學(xué)檢驗,判斷一組特定的基因(例如DEGs)是否在某些KEGG通路上表現(xiàn)出顯著的富集,從而揭示這組基因可能共同參與的生物學(xué)功能和相互作用網(wǎng)絡(luò)。簡單理解就是:判斷某一通路中,差異基因/代謝物的占比,是否顯著高于該通路在整個基因組/全代謝組中的占比。如果差異顯著,就說明這個通路在我們的實驗處理中,發(fā)生了明顯的調(diào)控變化,也就是顯著富集的通路,這也是我們后續(xù)重點關(guān)注的對象。
三、超詳細(xì)!KEGG富集分析結(jié)果圖表解讀
KEGG富集分析的結(jié)果,最直觀的就是氣泡圖和柱狀圖,也是論文中最常展示的圖表,吃透這兩張圖,就能輕松完成結(jié)果解讀。
富集氣泡圖
氣泡圖是KEGG富集分析的圖表,兼具美觀與信息含量,橫坐標(biāo)、縱坐標(biāo)、氣泡大小、顏色,每一個元素都有明確含義:

1. 縱坐標(biāo)(Y軸):富集到的KEGG通路名稱,一般按顯著程度排序;
2. 橫坐標(biāo)(X軸):富集因子(Rich Factor),指該通路中,差異基因/代謝物數(shù)量與該通路總基因/代謝物數(shù)量的比值,數(shù)值越大,代表富集程度越高;
3. 氣泡大?。捍韺?yīng)通路中,差異分子的數(shù)量,氣泡越大,說明該通路里的差異基因/代謝物越多;
4. 氣泡顏色:代表富集顯著性P值/Q值,顏色越偏向紅色(暖色),P值越小,富集結(jié)果越顯著;顏色越偏向藍(lán)色(冷色),P值越大,富集結(jié)果越不顯著。
? 解讀技巧:優(yōu)先關(guān)注X軸數(shù)值大、氣泡大、顏色紅的通路,這類通路就是實驗處理下,最核心的差異調(diào)控通路。
(二)富集柱狀圖
柱狀圖更適合展示Top 10/Top 20顯著富集通路,排版簡潔,信息一目了然:

1. 縱坐標(biāo):KEGG通路名稱;
2. 橫坐標(biāo):通路中差異分子的數(shù)量;
3. 柱子顏色:同樣代表富集顯著性P值,顏色越紅,富集越顯著。
? 解讀技巧:直接看柱子長度+顏色,快速鎖定差異分子數(shù)量多、顯著性高的核心通路。
四、關(guān)鍵參數(shù)解讀:避開解讀誤區(qū)
除了圖表,這3個核心參數(shù),是判斷富集結(jié)果是否可靠、是否有研究價值的關(guān)鍵,新手一定要牢記:
1. P值(P-value)
統(tǒng)計學(xué)顯著性指標(biāo),P值越小,代表通路富集結(jié)果越可靠,一般篩選標(biāo)準(zhǔn)為P<0.05,數(shù)值越小,顯著性越強。
部分分析結(jié)果會展示校正后的Q值/FDR值,用于排除假陽性,優(yōu)先參考Q值,結(jié)果更嚴(yán)謹(jǐn)。
2. 富集因子(Rich Factor)
反映通路的富集程度,數(shù)值越大,差異分子在該通路中的占比越高,但不能只看富集因子,必須結(jié)合P值綜合判斷。
3. 富集基因數(shù)/代謝物數(shù)
該通路中包含的差異分子數(shù)量,數(shù)量越多,說明該通路受實驗處理的影響越大,研究價值相對更高。
?? 避坑提醒:不要只單一看某一個參數(shù)!比如某通路富集因子很高,但P值極大,說明結(jié)果不可靠;只有富集因子高+P值顯著+差異分子數(shù)量多,三者同時滿足,才是真正的核心通路。
五、高分論文:KEGG富集結(jié)果解讀思路
拿到分析結(jié)果后,如何梳理邏輯,把解讀內(nèi)容寫進(jìn)論文里?分享通用高分解讀邏輯,直接套用:
1. 整體概述:先總述差異基因/代謝物主要富集到哪些大類通路(比如代謝通路、信號通路、疾病相關(guān)通路等);
2. 重點突出:挑選Top5-10條顯著的通路,詳細(xì)說明通路名稱、富集程度、參與的生物學(xué)過程;
3. 關(guān)聯(lián)實驗表型:將富集通路與自己的實驗表型結(jié)合,解釋“為什么會出現(xiàn)這樣的通路富集",闡述分子機制;
4. 研究意義升華:說明這些核心通路,在本研究中的作用,為后續(xù)研究提供哪些理論依據(jù)。
示例(論文寫作模板):
本次KEGG富集分析結(jié)果顯示,差異基因主要顯著富集于糖酵解通路、PI3K-Akt信號通路、細(xì)胞凋亡通路等(P<0.05)。其中,PI3K-Akt信號通路富集因子最高,差異基因數(shù)量最多,提示該通路可能是調(diào)控XX疾病發(fā)生發(fā)展的核心通路,參與細(xì)胞增殖與凋亡的生物學(xué)過程,與本研究中細(xì)胞增殖活性變化的表型高度吻合。
六、新手常見問題&解決方案
1. 問題1:富集結(jié)果無顯著通路,P值全都很大?
解決方案:檢查差異分子篩選閾值是否過嚴(yán)、物種選擇是否正確、輸入的基因ID格式是否匹配,適當(dāng)放寬篩選閾值重新分析。
2. 問題2:富集通路太多,不知道該選哪些?
解決方案:優(yōu)先選擇與研究方向高度相關(guān)、P值顯著、富集因子高的通路,聚焦3-5條核心通路深入分析即可,無需全部羅列。
3. 問題3:通路名稱太專業(yè),看不懂通路功能?
解決方案:直接在KEGG搜索通路名稱,查看通路詳情、分子調(diào)控網(wǎng)絡(luò),也可結(jié)合文獻(xiàn),了解該通路的研究進(jìn)展。
大家在做KEGG富集分析時,還遇到過哪些解讀難題?歡迎在評論區(qū)留言,一起交流解決!
