首页 >> 新闻动态 >> 科研进展

科研进展

当化石形态学遇上信息论

发表日期:2021-09-07来源:放大 缩小

  长久以来,化石作为古生物学研究最主要也是几乎唯一的材料不可避免地受到保存环境的影响,其中的噪声造成了形态学特征的不完整与失真,进而影响后续的系统发育和功能形态方面研究。尽管部分研究讨论了不同地区与年代中化石保存的完整性,但其中绝大多数停留在数据收集与统计上,并没有将化石中受到噪声的影响量化。甚至在大量古生物学研究中,信息一词也常常与数据,信号,观测结果等等概念混淆,并没有清晰的定义。这些基础概念的模糊导致了在系统发育研究中,不同作者对于“特征”、“物种”等概念缺乏共识,学界始终缺乏合适的理论框架与方法对化石中的形态学信息进行定量化的研究。

1. 经典通信系统模型与基于信息论框架的古生物学

  近日,国际学术期刊《生态学与演化》(Ecology and Evolution)在线发表了由美国自然历史博物馆余琮煜,北京大学地球与空间科学学院江左其杲,古脊椎所王海冰等合作的题为“形态学特征中的信息(Information in morphological characters)”的论文,提出了可以将信息论与通信系统工程作为古生物形态学研究的理论基础。文章讨论了多个脊椎动物形态学特征矩阵中的信息熵,互信息,信道容量等参数,提出目前的形态学矩阵并没有很好地区分信源编码与信道编码,不同特征之间差异较大的信息熵往往被忽视,矩阵中过多的特征数量可能导致了信息传递的低效。

  尽管人造通信系统存在的时间几乎与人类的历史一样久远,但对通信系统完整的数学描述直到1948年才被克劳德香农提出。一个典型的通信系统可以分为信源,发送设备,信道,接收设备,信宿,其中信道在现实中往往伴随着噪声。信源中的原始消息(message)经过发送设备编码之后进入信道,接收设备收到编码信号(signal)之后进行解码将消息传递给信宿,由于现实通信中几乎无法避免噪声,为了确保解码后的消息与编码前的消息的一致性,精心设计的编码是非常必要的。香农提出编码过程可以进一步细分为信源编码与信道编码,而且这两个步骤可以分开进行互不影响。信源编码需要以尽可能低的成本(编码长度)表示出所有可能出现的消息,也就是要完整表达出信源的信息熵,其典型例子有电报通信中的摩斯电码。信道编码的主要目的是对抗信道中的噪声,恰当地引入冗余可以保证即使一部分信号丢失或者失真,接收设备依然可以解码得到原始消息,从而保证有效的通信。

  香农认为通信中最基础的问题是在一处近似或者精确地重现另一处的消息,类似的,我们认为古生物学中最基础的问题是在现代近似或者精确地重现在地质年代中的古生物,包括他们的演化历史与形态功能等诸多方面。在古生物学系统发育研究中,绝大多数研究只能依靠形态学数据,与此相反的是,在现代生物或者最近灭绝的生物的系统发育研究中,研究人员可以利用DNA或者蛋白质序列这样易于数字化的数据。因此,DNA或者蛋白质序列非常接近于现代通信系统中的数字信号,而形态学数据更接近于模拟信号。形态学的数字化通常依靠形态学特征矩阵来完成,但是如何选择特征,每个特征中有多少信息量,各个特征之间的相关性,这些问题都是模糊不清的。

  该研究首先计算了多个脊椎动物形态学特征矩阵中每个特征的信息熵(信息量),拥有更多特征状态的特征有明显较高的信息熵。对于矩阵中多个特征的联合信息熵的结果显示仅仅少数形态学特征即可描述信源信息熵,绝大多数特征并没有提供额外的信息。这与古脊椎动物学研究中报道新物种的习惯符合,即利用少数特征作为鉴定特征,而在系统发育研究中则会使用数量大得多的特征。类似地,这样的区别可以用通信系统工程当中的信源与信道编码过程解释。进一步地,研究计算了每个特征矩阵中特征对之间的互信息,发现特征之间的相关性广泛存在,但习惯上对于解剖结构的划分并没有体现出较好的模块性。 

2. 特征矩阵中的多个特征的联合信息熵与互信息分布

  基于加性高斯白噪声信道模型,研究估算了不同特征矩阵对应的信道容量,发现信道容量均被特征数量饱和。香农的理论告诉我们超越信道容量的通信速率必然带来噪声,而在加性高斯白噪声信道模型中,随着带宽的提高,信道容量并不会无限提高,过宽的带宽不仅浪费通信资源也无法改善通信的质量。这与目前被研究人员偏爱的超大型特征矩阵相悖。

  由于信息熵直接度量了单个变量的信息量多少,因此可以在系统发育的特征权重方面提供参考依据。研究比较了平等加权(equal weighting),隐含加权(implied weighting)与信息熵加权在多个脊椎动物类群中的系统发育结果。尽管最终结果十分接近,但信息熵加权由于完全不需要任何先验知识,且直接建立了特征权重与信息熵之间的关系,比其他加权方式拥有更好的解释性和更少的额外假设。 

3. 加性高斯白噪声信道模型下的特征矩阵中的信道容量与特征数的关系

  随着观测手段的进步,古生物学家需要处理飞速增加的数据,但目前大量的古生物数据依然依靠研究人员的手工处理。尽管大量的数字化手段已经在古生物学研究中被实践,例如形态学特征矩阵,基于标志点的形态几何学,CT扫描等等,如何在海量的数据中寻找我们需要的信息依然是很有挑战性的工作。利用已经发展成熟的信息论与通信系统工程作为理论基础,为形态学数据的数字化提供了理论支持,也为基于形态学的系统发育研究提供了指导。正如现代通信系统在数字信号取代模拟信号之后迎来的大发展,未来基于信息论的古生物学有希望帮助我们更好地破解生物演化的密码。

  本文第一及通信作者为美国自然历史博物馆古生物部博士研究生余琮煜,共同作者有北京大学博雅博士后江左其杲和中科院古脊椎所副研究员王海冰,参与工作的还有德国汉堡大学与美国自然历史博物馆的科研人员。

论文链接:https://onlinelibrary.wiley.com/doi/10.1002/ece3.7874
附件: