首页 >> 科学传播 >> 科普动态

科普动态

【中新社】青年学者:化石数字化研究有望更好破解生物演化密码

发表日期:2021-09-09来源:放大 缩小
经典通信系统模型与基于信息论框架的古生物学。 研究团队 供图

  中新网北京9月7日电 (记者 孙自法)化石作为古生物学研究最主要且几乎唯一的材料,长久以来不可避免地受到保存环境的影响,其中的噪声造成形态学特征的不完整与失真,进而影响后续的系统发育和功能形态方面研究。

  针对这一问题,古生物领域多位青年学者最新合作研究提出,如同现代通信系统在数字信号取代模拟信号之后迎来大发展一样,未来基于信息论的古生物学数字化研究,可对化石中的噪声影响等形态学信息进行量化,有望帮助学界更好地破解生物演化的密码。

  由美国自然历史博物馆余琮煜、北京大学地球与空间科学学院江左其杲、中国科学院古脊椎动物与古人类研究所王海冰等共同完成的“形态学特征中的信息”成果论文,近日在国际学术期刊《生态学与演化》在线发表,明确提出可将信息论与通信系统工程作为古生物形态学研究的理论基础。

加性高斯白噪声信道模型下的特征矩阵中的信道容量与特征数的关系。 研究团队 供图

  他们介绍说,此前尽管部分研究讨论了不同地区与年代中化石保存的完整性,但其中绝大多数停留在数据收集与统计上,并没有将化石中受到噪声的影响量化。

  最新合作研究则通过讨论多个脊椎动物形态学特征矩阵中的信息熵(信息量)、互信息信道容量等参数,提出目前的形态学矩阵并没有很好地区分信源编码与信道编码,不同特征之间差异较大的信息熵往往被忽视,矩阵中过多的特征数量可能导致信息传递的低效。他们分析称,古生物学中最基础的问题与通信相类似,在于现代近似或者精确重现地质年代中的古生物包括它们的演化历史与形态功能等诸多方面。

  在古生物学系统发育研究中,绝大多数研究只能依靠形态学数据,与此相反的是,在现代生物或者最近灭绝的生物的系统发育研究中,研究人员可以利用DNA或者蛋白质序列这样易于数字化的数据。因此,DNA或者蛋白质序列非常接近于现代通信系统中的数字信号,而形态学数据更接近于模拟信号。

  本次合作研究首先计算出多个脊椎动物形态学特征矩阵中每个特征的信息熵,拥有更多特征状态的特征有明显较高的信息熵。进一步研究,又计算出每个特征矩阵中特征对之间的互信息,发现特征之间的相关性广泛存在。由于信息熵直接度量了单个变量的信息量多少,因此可以在系统发育的特征权重方面提供参考依据。

特征矩阵中的多个特征的联合信息熵与互信息分布。 研究团队 供图

  此外,该研究还比较了平等加权、隐含加权与信息熵加权在多个脊椎动物类群中的系统发育结果。尽管最终结果十分接近,但信息熵加权由于完全不需要任何先验知识,且直接建立了特征权重与信息熵之间的关系,比其他加权方式拥有更好的解释性和更少的额外假设。

  合作研究团队指出,随着观测手段的进步,古生物学家需要处理飞速增加的数据,但目前大量的古生物数据依然依靠研究人员的手工处理。尽管大量的数字化手段已在古生物学研究中被实践,例如形态学特征矩阵和基于标志点的形态几何学、CT扫描等,“如何在海量的数据中寻找我们需要的信息依然是很有挑战性的工作”。

  他们表示,学界利用已经发展成熟的信息论与通信系统工程作为理论基础,可为形态学数据的数字化提供理论支持,也将为基于形态学的系统发育研究提供指导。(完)

附件: