侃大山,随便聊聊。有啥新奇特的Idea都可以分享。
参考教程:https://blog.csdn.net/hgz2020/article/details/145706720
侃大山,随便聊聊。有啥新奇特的Idea都可以分享。
参考教程:https://blog.csdn.net/hgz2020/article/details/145706720
主要目的为基于LDfiltered后的SNP进行PCA主成分分析。
结构分析的基本原理为先预设群体由若干亚群(k=x)构成,通过模拟算法找出在k=x的情况下,最合理的样本分类方法。最后再根据每次模拟的最大似然值,找出最适用这群体的K值。
该方法假设在各个亚群内部个体应该符合哈代-温伯格平衡(哈温平衡的概念),那么这个亚群内的基因频率分布应该可通过哈温平衡检验。 基因型位点不能是连锁的。同一个体基因组上的不同SNP可能来源不同亚群体,这是由于杂交混血过程带来的效应。为了达到哈-温平衡,对不同的位点的分类方法是不同的, 软件是对每个位点单独进行分群的。
Structure分析,输入的数据就是样本的基因型数据一般来讲是snps,需要注意的是输入的必须是不存在连锁不平衡的独立位点。所以,使用所有的SNP是不对的。如果使用大量存在连锁不平衡的位点,就违背了这个软件最初的假设。需要根据连锁不平衡衰减分析的结果,仅从所有SNP中挑选一部分独立的位点用于structure分析。
数据准备:过滤连锁不平衡的位点后的vcf文件。
使用seqkit对原始蛋白组序列进行批量长度筛选,剔除短片段序列,得到标准化高质量蛋白序列