1. 首页 / 帮助

不平衡健康数据的倾斜模型

非对称统计模型为具有罕见“阳性”的不平衡数据提供了更好的拟合,例如纵向健康数据集。

有时,当标准的现成模型无法切割时,需要更复杂但更准确的模型。这是来自 KAUST 统计项目的研究人员的信息。

一个有趣的例子是包含罕见疾病发生的大型健康数据集。特别是在多年跟踪许多患者的纵向研究中,在大型数据集中寻找少数疾病实例对标准统计方法提出了挑战。

“在纵向研究中,我们可能希望找到某种疾病与几个潜在影响因素之间的关系,”Zhongwei Zhang 博士说。Raphael Huser 的学生。“为此,我们可能会随着时间的推移从数百名受试者那里收集数据。由此产生的反应数据将是二元的——疾病或无疾病——并且同一受试者的反应是相关的,因为它们是从同一个人那里收集的。”

对于这种相关的二元响应数据,最先进的模型是多元概率模型。但是,当数据不是对称分布或不平衡时,此模型可能不适合,其中正数与负数大致相同。

“由于这种对称链接模型,多元概率模型可能并不总是为高度不平衡的数据提供最佳拟合,这可能导致平均响应的估计存在重大偏差,”张解释说。“有必要为这类数据开发灵活的非对称链接模型。在这项研究中,我们开发了一种新的多元斜椭圆链接模型,可以更好地解释数据。”

斜椭圆链接模型是一种灵活的模型,能够捕捉数据中的不平衡,例如大多数结果为零但一小部分重要部分等于 1 的情况。使用作为特例嵌入的多元概率模型,该模型的数学灵活性使其可用于平衡和不平衡数据。

“在灵活性和简约性之间经常存在权衡,”张说。“如果您正在寻找具有高效推理的易于解释的模型,那么就选择手头的简约模型。但如果您正在寻找根据特定标准具有最佳性能的模型,则可能存在更复杂的更合适的模型。”

该研究发表在Biometrics上。

本文由'昌焦铭'发布,不代表演示站立场,转载/删除联系作者,如需删除请-> 关于侵权处理说明