1、讀取數(shù)據(jù)
原始數(shù)據(jù)結(jié)構(gòu)如下圖:
第一列為基因ID,?第五列及以后為各個樣本的表達量數(shù)據(jù),數(shù)值以FPKM表示。

讀取數(shù)據(jù)命令如下:
rawdata=
read.csv(?‘AllSample.genes_expression.csv’,???header=T)
2、數(shù)據(jù)清洗
原始數(shù)據(jù)中包含一些不參與分析的列,以及某些基因的表達量在所有樣本中均為零,需要在分析前去除。
操作代碼如下:
#將第一列數(shù)據(jù)作為行名保存
row.names(rawdata)<-rawdata$?Gene_ID
#刪除第一列位置信息和第四列正負鏈的數(shù)據(jù),并進行行列轉(zhuǎn)置?tmp<-t(rawdata[,c(-1,-2,-3,-4)])
#刪除在所有樣本中表達量均為0的基因?cleandata<-tmp[,colSums(tmp!=0)>0]
這樣我們就得到了一個“干凈”的樣本×基因表達矩陣,便于后續(xù)分析。
3、PCA?分析
R語言內(nèi)置的prcomp()函數(shù)可以快速完成PCA計算,代碼如下:
data.pca<?-prcomp(cleandata,center=T,?scale.=)
#cleandat????為進行分析的數(shù)據(jù)集
#center?一個邏輯值,控制變量是否應(yīng)該移位到零中心
#scale.一個邏輯值,控制是否對數(shù)據(jù)進行標(biāo)準(zhǔn)化
prcomp??函數(shù)的返回值是一個特殊的對象,可以利用summary?函數(shù)來查看分析的結(jié)果。

具體參數(shù):
#Standard???????deviation?標(biāo)準(zhǔn)差,其平方為方差=特征值
#Proportion????of????Variance方差貢獻率
#Cumulative????????Proportion?方差累計貢獻率
輸出結(jié)果包括各主成分的標(biāo)準(zhǔn)差、方差貢獻率等,幫你判斷應(yīng)該保留多少主成分。
使用ggplot2包,輕松將PCA結(jié)果轉(zhuǎn)換為直觀的散點圖。
#加載ggplot?軟件包?library(ggplot2)
#根據(jù)PC1?及PC2生成散點圖,由于ggplot在繪圖時只接收數(shù)據(jù)框格式的數(shù)據(jù)集,因此需要使用as.data.frame函數(shù)來進行轉(zhuǎn)換。
ggplot(?as.data.frame(?data.pcaSx),aes(x=PC1,y=PC2))+?geom_point()
圖片生成:

一張清晰的PCA圖就誕生了!樣本分布、組間差異一目了然。
PCA圖不僅能展示樣本聚類,還能通過顏色、形狀區(qū)分不同實驗組,助力發(fā)現(xiàn)潛在離群樣本或批次效應(yīng),是表達數(shù)據(jù)分析的必備技能!如想學(xué)習(xí)更多生信分析技能,請登錄百邁客生物云課堂知識庫,在線學(xué)習(xí)更多生信分析技巧。
]]>