By masiyi, 9 July, 2024
Forums

在使用RIdeogram对牛油果T2T的结果进行可视化以后发现其与拟南芥、杨树的基因密度分布情况具有较大的差异,具体表现在由密度图看到牛油果只有1、3、8、12这四条染色体上有较为明显的密度分布(黄色(适中)及红色(密度大)区域)且占区域很小,多数区域都是蓝色(基因密度低)。

针对此问题,首先对结果文件进行核对:

基因密度结果文件部分如下:

Chr	Start	End	Value
Pa01	1	1e+06	79
Pa01	1000001	2e+06	100
Pa01	2000001	3e+06	74
Pa01	3000001	4e+06	61
Pa01	4000001	5e+06	68
Pa01	5000001	6e+06	80
Pa01	6000001	7e+06	60
Pa01	7000001	8e+06	63
Pa01	8000001	9e+06	85

显而易见它是以染色体进行分割计算的,并且每1000000bp为染色体的一个基本组成单位来呈现最终密度的结果(就是看这个范围内有多少个gene)。在上述四条明显有高密度区域的染色体中我发现有极高的value值(559等高出近十倍的值)的出现,这是导致最终整体多数区域显蓝色(密度低)的原因,由于展示的是相对的一个基因密度,所以有这些过于庞大的值出现的时候就会导致整体显示的偏低(相对值受极大或极小值的影响很大)。

为验证此推测,以同样方法对ncbi上的牛油果参考基因组进行的计算和绘图,结果图跟拟南芥和杨树都是一样的,结果比较正常,对结果文件进行查看,发现里面的值确实没有极大或者极小值,最大就是一百左右,比上面的极大值要小很多。

 

针对结果展示不好的问题,目前有两种方式进行改进:

第一种:在绘图前,对数据进行优化,剔除这种极端值,但是有个弊端就是这样得到的结果图虽然好看了,却失真了。

第二种:对每条染色体进行分开绘图(有极大极小值的染色体分开计算及绘制,其他的一起)

gene_karyotype <- gene_karyotype[9:11,]

如上对其进行部分提取和绘制(上面的这个就是对第九条、第十条和第十一条进行单独绘制),以此类推对所有非极值的结果进行绘制,对含有极值的部分剔除为新的一套数据进行绘图,这样它就会只影响这几条染色体的密度呈现而不会影响其它的