干貨分享-運用DAVID數據庫進行GO、KEGG富集分析

DAVID數據庫(https://david.ncifcrf.gov/home.jsp)是一個功能注釋工具,提供了全面的功能注釋、可視化和綜合發現的功能。DAVID是The Database for Annotation, Visualization and Integrated Discovery的縮寫,也即注釋、可視化、綜合發現數據庫。通過DAVID數據庫,用戶可以輕松地對給定的基因列表進行功能注釋、功能富集分析、功能聚類以及基因名稱轉換等相關操作。這些功能為我們理解海量基因背后的生物學意義提供了便利。用戶可以將自己的基因列表輸入到數據庫中,通過分析和解釋這些基因的功能和相互關系,從而揭示基因之間的潛在關聯和功能。此外,DAVID數據庫還提供了交互式的可視化工具,幫助用戶直觀地理解和展示基因的功能注釋結果。

DAVID數據庫

GO富集分析主要從生物學過程(Biological Process,BP)、細胞組分(Cellular Component,CC)、分子功能(Molecular Function,MF)三個維度揭示各基因集中基因在基因本體(Gene Ontology,GO)上的富集情況。

KEGG富集分析則是用于分析基因或蛋白在KEGG通路中的富集情況的一種常見的生物信息學分析方法。其中,KEGG Pathway是用于反映分子相互作用、反應及關系網絡的路徑圖,主要包含代謝(Metabolism)、遺傳信息處理(Genetic Information Processing)、環境信息處理(Environmental Information Processing)、細胞過程(Cellular Processes)、有機系統(Organismal Systems)、人類疾?。℉uman Diseases)、藥物開發(Drug Development)七個方面的內容。

 

本文示范使用DAVID數據庫進行GO和KEGG富集分析,并通過簡單柱狀圖展示結果,實現可視化。

 

二、?功能富集分析流程

1.準備好待分析的基因,進入DAVID數據庫,點擊“Start Analysis”開始分析;

富集分析

 

2.點擊“Upload”,將待分析的基因粘貼進去或者選擇直接以文件的形式上傳;

 

3.在“Select Identifier”中選擇“OFFICIAL_GENE_SYMBOL”(需注意按照你所提交的基因格式進行選擇);在“Select Species”選擇待分析的物種(需注意此處物種名應為拉丁名),如:小鼠(Mus musculus);在“List Type”中勾選“Gene List”;點擊“Submit List”提交基因列表;

4.等待片刻,然后點擊“Functional Annotation Tool”(見圖1),可以看到一個分析結果的匯總,點擊旁邊的“+”按鈕即可展開相應的各個選項,按需勾選即可,后面括號所示內容即為各個版塊分別勾選的內容數目,點擊“Chart”即可看到相應分析結果(見圖2),我們要進行的GO和KEGG分析分別在“Gene_Ontology”和“Pathways”選項中,將其一一勾選(見圖3、圖4),其余暫時不需要分析的選項可取消勾選(見圖4-5);

5.點擊“Functional Annotation Chart”,即可得到完整的富集分析結果,右鍵點擊“Download File”,點擊“鏈接另存為”即可保存分析結果。

完整的富集分析結果2 完整的富集分析結果

三、?結果可視化

得到富集分析結果后,可以采用R語言實現結果可視化,當然,如若不會R語言也沒關系,可以采用最基本的Excel表格實現結果可視化,具體操作如下:

1.用Excel表格打開剛剛下載好的文件,可以看到該文件包含了GO富集和KEGG富集分析的所有結果,選擇P<0.05,FDR<0.05的數據進行作圖(注意:此處示例文件數據不太好,故而不再篩選數據,全部數據均用于作圖,大家掌握基本操作即可);

GO富集和KEGG富集分析的所有結果

2.作圖我們僅需保存“Category”、“Term”、“Count”三個版塊的內容。選擇此三列的內容,新建副本進行粘貼保存,后續所有操作均在副本上進行(注意:將數據另存副本再進行相關操作是大家日常學習中需要刻意培養的一個好習慣,這樣可以最大限度保證原始數據的完整性,尤其是在生物信息學分析過程中涉及數據篩選且數據量比較大時,可以最大限度防止原始數據丟失,另外也可以清晰地保留數據篩選完整流程);

GO富集和KEGG富集分析的所有結果排序

 

3.鑒于結果相對比較分散,為方便作圖,可以對該表格進行適度調整。全選表格→點擊“數據”→“排序”→按照自己喜歡的方式進行排序即可;

GO富集和KEGG富集分析排序2

 

4.對于“Category”部分我們只需保存標志性標識BP、CC、MF和KEGG以達到簡化的目的,可通過“分列”實現。在“Term”列前新建兩列,選中“Category”列,點擊“數據”→“分列”→“分隔符號”→按照“_”號進行分列,再對結果進行適當調整,刪除無關內容;

BP、CC、MF和KEGG 簡化

5.再對BP、CC、MF和KEGG分別按照“Count”進行排序,以使做出來的柱狀圖更加規整;

BP、CC、MF和KEGG分別按照“Count”進行排序

 

6.全選→點擊“插入”→選擇“柱狀圖”,再對柱狀圖進行美化即可完成GO和KEGG富集分析的可視化。

GO和KEGG富集分析的可視化

 

更多信息查看:艾美捷科技:http://www.51antibodies.com/ http://www.51kits.com/

艾美捷科技優勢代理品牌

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: