用PCA做为GWAS的协变量,相当于将品种结构考虑进去。它类似将不同品种作为协变量,或者将群体结构矩阵Q作为协变量。
下面看一下利用基因型SNP数据进行PCA计算,以及可视化的分析。
很多软件可以分析PCA,这里介绍一下使用plink软件和R语言,进行PCA分析,并且使用ggplot2绘制2D和3D的PCA图。
绘制后的图如下:
2-D PCA图:
图片解释,将每个品种用不同的颜色表示,同时绘制置信区间圆圈,X坐标是PC1,解释24.9%的变异,Y坐标是PC2,解释10.61%的变异。可以看到,三个品种在PCA图里面分的比较开,C品种的有两个A和B的点,应该是异常数据。
3-D PCA图:
图片解释,将每个品种用不同的颜色表示,X坐标是PC1,解释24.9%的变异,Y坐标是PC2,解释10.61%的变异,Z坐标是PC3,解释1.02%的变异。可以看到,三个品种在PCA图里面分的比较开,C品种的有两个A和B的点,应该是异常数据。
基因型数据:
共有3个品种A,B,C,共有412个个体。其中:
SNP个数为:41013
计算思路:
1,对数据进行清洗,将其转化为0,1,2的形式
2,计算G矩阵
3,计算PCA的特征向量和特征值
4,根据特征值计算解释百分比
5,根据特征向量和品种标签,进行PCA的绘制
绘制代码如下:
首先,使用plink命令,将基因型数据转化为012的raw格式:
结果生成plink.raw文件。
然后使用R语言,计算PCA,并绘制PCA图。
聚类分析思路:
1,计算个体的亲缘关系矩阵G矩阵
2,因为数据太多,随机选择100个,用于聚类
默认的作图,太挤。
画圈图:
可以看到,A,B,C三个品种,可以分开,分得很开。
以上就是本篇文章【基因型数据绘制PCA图和聚类分析图】的全部内容了,欢迎阅览 ! 文章地址:http://ktsh.xhstdz.com/news/1543.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 物流园资讯移动站 http://ktsh.xhstdz.com/mobile/ , 查看更多