在使用RIdeogram对牛油果T2T的结果进行可视化以后发现其与拟南芥、杨树的基因密度分布情况具有较大的差异,具体表现在由密度图看到牛油果只有1、3、8、12这四条染色体上有较为明显的密度分布(黄色(适中)及红色(密度大)区域)且占区域很小,多数区域都是蓝色(基因密度低)。
针对此问题,首先对结果文件进行核对:
基因密度结果文件部分如下:
Chr Start End Value
Pa01 1 1e+06 79
Pa01 1000001 2e+06 100
Pa01 2000001 3e+06 74
Pa01 3000001 4e+06 61
Pa01 4000001 5e+06 68
Pa01 5000001 6e+06 80
Pa01 6000001 7e+06 60
Pa01 7000001 8e+06 63
Pa01 8000001 9e+06 85
显而易见它是以染色体进行分割计算的,并且每1000000bp为染色体的一个基本组成单位来呈现最终密度的结果(就是看这个范围内有多少个gene)。在上述四条明显有高密度区域的染色体中我发现有极高的value值(559等高出近十倍的值)的出现,这是导致最终整体多数区域显蓝色(密度低)的原因,由于展示的是相对的一个基因密度,所以有这些过于庞大的值出现的时候就会导致整体显示的偏低(相对值受极大或极小值的影响很大)。
为验证此推测,以同样方法对ncbi上的牛油果参考基因组进行的计算和绘图,结果图跟拟南芥和杨树都是一样的,结果比较正常,对结果文件进行查看,发现里面的值确实没有极大或者极小值,最大就是一百左右,比上面的极大值要小很多。
针对结果展示不好的问题,目前有两种方式进行改进:
第一种:在绘图前,对数据进行优化,剔除这种极端值,但是有个弊端就是这样得到的结果图虽然好看了,却失真了。
第二种:对每条染色体进行分开绘图(有极大极小值的染色体分开计算及绘制,其他的一起)
gene_karyotype <- gene_karyotype[9:11,]
如上对其进行部分提取和绘制(上面的这个就是对第九条、第十条和第十一条进行单独绘制),以此类推对所有非极值的结果进行绘制,对含有极值的部分剔除为新的一套数据进行绘图,这样它就会只影响这几条染色体的密度呈现而不会影响其它的