对于古生物学家而言,如何通过形态性状准确还原远古化石的“生命之树”是一项核心挑战 。连续性状在系统发育推断中具有重要作用,但由于软件支持有限以及高效处理缺失数据的挑战,它们往往被离散化甚至舍去,造成信息的弱化或缺失。
近日,中国科学院古脊椎动物与古人类研究所张驰研究员和北京大学生命科学学院本科生王子烨在国际专业期刊《古生物学》(Paleobiology)上发表了最新的研究成果,题为《An implementation of the Brownian motion model for Bayesian phylogenetic inference using continuous traits with missing states》。他们开发了贝叶斯系统发育软件 MrBayes的新功能,即支持连续性状演化的布朗运动模型。该方法能够高效处理任意比例的缺失数据,并支持性状之间和数据分区之间的演化速率差异,同时兼容无钟模型与宽松钟模型。
他们通过随机模拟验证了该方法的准确性,并将其应用于翼龙和古人类的实证数据集,结果显示连续性状可以提升系统发育树的解析度。这一进展拓展了形态数据与全证据系统发育研究的分析工具,并适用于诸多不同的分类群。
本研究得到了国家重点研发计划和国家自然科学基金的支持 。
论文链接:https://doi.org/10.1017/pab.2025.10088

图1: 无缺失状态和有缺失状态时的剪枝算法。此处使用一个连续性状进行示例(其状态值位于五个分类单元树的末端)。我们假设树根位于分类单元 A 的分支上。算法以后根方式遍历树的内部节点,即依次访问I、J、K和根。对于具有两个后代节点i和j的内部节点k,我们计算对比量(xₖ = mᵢ − mⱼ)、祖先状态(mₖ)以及变换后的分支长度(vₖ)。这些对比量服从相互独立的正态分布。根据滑轮原理(pulley principle),根的位置不会影响似然值,因此可以放置在树上的任意位置。当分类单元B和D的状态缺失时,我们只需剪去连接它们的分支,从而得到一棵具有A、C和E三个末端的星形树。更严格的计算可参考原文。

图2: 比较翼龙的系统发育树:将贝叶斯支端定年分析得到的50%多数和意树(A)与 TNT 分析的最简约树的严格和意树(B)进行对比。两种分析均使用了翼龙的连续(经标准化)和离散形态性状。在支端定年分析中,采用的松弛钟模型为独立对数正态分布,并在两个性状分区之间共享。

图3: 比较古人类的系统发育树:使用连续(经标准化)与离散形态性状得到的50%多数和意树(A)以及使用离散化的连续性状与离散性状得到的50%多数和意树(B)。两项分析均采用白噪声松弛钟模型,并在两个性状分区之间独立。原研究(右侧)施加了 10个拓扑约束,这些约束基于使用连续与离散性状在TNT中获得的最简约树(Ni et al. 2021)。