对牛油果基因密度结果差异较大的问题的探究与解决

By masiyi, 9 July, 2024

Forums

在使用RIdeogram对牛油果T2T的结果进行可视化以后发现其与拟南芥、杨树的基因密度分布情况具有较大的差异，具体表现在由密度图看到牛油果只有1、3、8、12这四条染色体上有较为明显的密度分布（黄色（适中）及红色（密度大）区域）且占区域很小，多数区域都是蓝色（基因密度低）。

针对此问题，首先对结果文件进行核对：

基因密度结果文件部分如下：

Chr	Start	End	Value
Pa01	1	1e+06	79
Pa01	1000001	2e+06	100
Pa01	2000001	3e+06	74
Pa01	3000001	4e+06	61
Pa01	4000001	5e+06	68
Pa01	5000001	6e+06	80
Pa01	6000001	7e+06	60
Pa01	7000001	8e+06	63
Pa01	8000001	9e+06	85

显而易见它是以染色体进行分割计算的，并且每1000000bp为染色体的一个基本组成单位来呈现最终密度的结果（就是看这个范围内有多少个gene）。在上述四条明显有高密度区域的染色体中我发现有极高的value值（559等高出近十倍的值）的出现，这是导致最终整体多数区域显蓝色（密度低）的原因，由于展示的是相对的一个基因密度，所以有这些过于庞大的值出现的时候就会导致整体显示的偏低（相对值受极大或极小值的影响很大）。

为验证此推测，以同样方法对ncbi上的牛油果参考基因组进行的计算和绘图，结果图跟拟南芥和杨树都是一样的，结果比较正常，对结果文件进行查看，发现里面的值确实没有极大或者极小值，最大就是一百左右，比上面的极大值要小很多。

针对结果展示不好的问题，目前有两种方式进行改进：

第一种：在绘图前，对数据进行优化，剔除这种极端值，但是有个弊端就是这样得到的结果图虽然好看了，却失真了。

第二种：对每条染色体进行分开绘图（有极大极小值的染色体分开计算及绘制，其他的一起）

gene_karyotype <- gene_karyotype[9:11,]

如上对其进行部分提取和绘制（上面的这个就是对第九条、第十条和第十一条进行单独绘制），以此类推对所有非极值的结果进行绘制，对含有极值的部分剔除为新的一套数据进行绘图，这样它就会只影响这几条染色体的密度呈现而不会影响其它的