Jul 13, 2025 2:56 AM
Jul 14, 2025 3:54 AM

汉族 2 型糖尿病的预测模型:关于跨人群适用性和特定人群风险因素的研究

摘要

背景:全球2型糖尿病(T2DM)发病率不断上升,这凸显了建立能在不同人群中加强早期检测和预防的预测模型的必要性。本研究旨在确定汉族人群中2型糖尿病的发病预测因素,评估这些因素在不同年龄和性别人群中的影响,并探究其在欧洲人群中的适用性。

方法:我们利用台湾生物银行(TWB)约65,000名参与者的数据开发了一个预测模型,该模型的受试者工作特征曲线下面积(AUC)达到90.58%。
在TWB队列中通过LASSO回归确定了关键预测因子,
并利用台湾成人预防性医疗服务(APHS)项目和英国生物银行(UKB)的400多万条记录进行了验证。

结果:我们的分析突出了13个重要的预测因子,包括糖化血红蛋白(HbA1c)和血糖水平等已确定的因素,以及呼气峰流量等较少被常规考虑的变量。
观察到TWB和UKB队列中HbA1c水平和多基因风险评分的影响存在显著差异。
此外,通过APHS数据详细分析的这些预测因子在年龄和性别方面的特定影响显示出显著差异;例如,腰围和确诊的混合性高血脂在年轻女性中的影响大于男性,而在男性各年龄组中的影响则保持一致。

结论:我们的研究结果为汉族乃至更广泛的东亚人群的糖尿病诊断和管理提供了新的见解,强调了在开发用于早期检测和个性化干预策略的预测模型时,种族和人口统计学多样性的重要性。

介绍

全球2型糖尿病(T2DM)患病率的不断攀升,促使人们加大了对有效早期检测和预防策略的探索力度[1]。作为一种受遗传、环境和生活方式等多种因素综合影响的复杂代谢疾病,2型糖尿病在风险预测和管理方面面临着重大挑战[2]。研究通过随机试验表明,生活方式干预和药物干预能够有效减轻或延缓高危人群中2型糖尿病的发病[3,4]。尽管如此,虽然这些干预措施在人群层面至关重要,但在覆盖那些可能需要更密集、资源投入更多的干预方式的高危个体方面,仍存在差距。能否成功定位这些个体,取决于风险模型能否精准地将他们归类为高危人群[5]。

风险预测模型的最新进展显著提升了我们识别显性和新发2型糖尿病的能力。这些模型涵盖从传统的基于回归的方法到更复杂、计算密集型的人工智能技术[6,7]。它们在风险因素的选择策略上各不相同:有些仅依赖家族史、体重指数(BMI)、年龄和性别等非侵入性预测因子,以实现更广泛、更易获取的筛查策略[8-10]。相比之下,另一些模型则纳入空腹血糖、胆固醇水平和多基因风险评分(PRS)等生物标志物,以优化和提高预测准确性,旨在更精准地识别2型糖尿病风险[11-13]。

尽管2型糖尿病风险预测模型不断发展,但在不同种族背景下,其普适性和预测性能仍面临挑战。研究表明,不同种族人群具有独特的生物学、环境和生活方式风险特征[14-16]。此外,在同一种族人群中,风险因素还会因年龄和性别而存在显著差异,例如,代谢类风险因素对年轻女性的影响与对老年男性的影响可能大不相同[17]。认识到这些差异对于制定个性化的糖尿病一级预防和管理策略至关重要,这也为开发针对性的预测模型提供了依据,进而更好地满足不同人群的健康需求。

本研究利用台湾生物银行(TWB)的数据,该数据富含多种预测变量,构建了一个综合模型来预测2型糖尿病的发病风险。通过对比英国生物银行(UKB)的数据,本研究旨在评估不同种族人群中预测因子的一致性。值得注意的是,在台湾成人预防性医疗服务(APHS)项目涵盖的400多万人中,研究对这些人按性别分组,并以5年为间隔将其划分为40岁至85岁以上的10个年龄组,分别分析了不同性别和年龄的风险因素差异。这种针对不同人口统计学特征的深入分析,为汉族人群乃至更广泛的东亚人群的糖尿病风险预测和管理提供了新的视角。

方法

Study populations

我们的研究人群来源于三个重要来源:台湾生物银行(TWB)、英国生物银行(UKB)和台湾健康促进署的成人预防性医疗服务(APHS)项目。台湾生物银行始于2008年,已招募了超过15万名来自台湾、年龄在20岁以上的个体。这些参与者通过问卷提供了包括健康状况和家族疾病史在内的详细信息,还在招募时接受了全面的健康检查,包括体格检查以及血液和尿液分析。在这些参与者中,约11.5万人接受了全基因组关联研究单核苷酸多态性阵列基因分型。随后,他们的数据与2009至2020年的国民健康保险研究数据库(NHIRD)中的医疗记录相关联。国民健康保险研究数据库是一个丰富的资源,包含各种医疗服务的综合医疗记录和费用报销申请,包括门诊、住院和门诊护理,以及用于报销的药房数据。我们提取了参与者加入研究前3年和加入研究后3年与门诊、门诊护理和住院服务相关的诊断数据(使用国际疾病分类第9版(ICD9)和第10版(ICD-10)代码)。

英国生物银行(UKB)是一个大规模的生物医学数据库和研究资源,是英国开展的最全面的健康计划之一。它成立于2006年,涵盖了50多万名招募时年龄在40至69岁之间的志愿者的详细遗传和健康信息。其目标是促进对遗传、环境和生活方式因素在疾病发展中作用的研究。参与者提供了大量数据,包括血液样本、基因图谱、详细的病史以及健康状况的定期更新[19]。

最后,台湾健康促进署提供成人预防性医疗服务(APHS)项目,针对40至65岁人群每3年进行一次健康检查,65岁以上人群则每年检查一次。该服务包括问卷调查、体格检查和实验室检测。2013至2018年间,我们获取了超过400万人的成人预防性医疗服务数据,确保同一个体在研究年份中没有数据重叠。随后,该数据集与参与者在国民健康保险研究数据库(NHIRD)中的医疗记录相关联,从中提取了他们加入成人预防性医疗服务项目前3年和后3年的诊断信息,这与台湾生物银行(TWB)队列所采用的方法一致。关于这三个研究队列的质量控制程序的更多细节,请参见补充方法。

Outcome definitions

为确保本研究能准确识别2型糖尿病(T2DM)的新发病例,我们从所有研究队列中排除了招募时已患有糖尿病的个体。这一排除标准适用于那些自我报告患有糖尿病、有糖尿病病史或初始血液检测显示血糖水平升高的个体,从而有效剔除了2型糖尿病的现患病例,以便聚焦于新发2型糖尿病病例。有关这些排除参数的详细说明,请参见补充方法。

对于台湾生物银行(TWB)队列,我们将招募后3年内的2型糖尿病(T2DM)新发病例定义为:根据其国际疾病分类(ICD)记录,在365天内至少有3次糖尿病门诊诊断,或至少1次与糖尿病相关的住院治疗[20]。这种方法确保了对2型糖尿病新发病例的准确识别,该流程也应用于成人预防性医疗服务(APHS)数据集,以保持结局评估的一致性。

关于英国生物银行(UKB)队列,鉴于从全科医生(GP)和住院患者数据源获取的国际疾病分类(ICD)记录时长存在差异,我们同样根据参与者招募后3年内的ICD编码来定义2型糖尿病(T2DM)的发病情况。此外,我们还利用三次随访问卷的数据来确认糖尿病发病病例,从而通过综合方法在研究时间范围内识别2型糖尿病新发病例。有关台湾生物银行(TWB)和英国生物银行(UKB)中2型糖尿病发病定义的更多细节,也可参见补充方法。

Prediction model construction in the Taiwan Biobank

台湾生物银行(TWB)收集了全面的临床特征数据,包括问卷调查、体格检查和实验室检测结果,因此其数据集比成人预防性健康服务(APHS)的数据集更为详细。这一丰富的数据集有助于确定汉族人群中2型糖尿病(T2DM)发病的重要预测因素。
此外,我们还纳入了采用PRS-CSx算法计算得出的2型糖尿病多基因风险评分(PRS)[21]。为解决变量中存在的数据缺失问题,我们使用了R 4.3.2版本(奥地利维也纳,R统计计算基金会)中的mice包[22],该包通过链式方程执行多变量插补,确保了缺失数据插补方法的全面性。有关从台湾生物银行整理预测特征的更多详细说明,请参见补充方法。

在构建预测模型时,我们将80%的样本分配到训练数据集,剩余20%分配到测试数据集。这种划分方式使得训练数据集包含52,089个样本,测试数据集包含13,023个样本。为了确定最相关的特征,我们应用了LASSO回归,通过R语言中的glmnet包,采用10折交叉验证来选择最佳超参数lambda。我们采用lambda.1se准则进行特征选择,该准则会选择交叉验证误差在最小值一个标准误差范围内的正则化程度最高的模型。通过LASSO回归确定的特征在训练数据集中进一步采用逻辑回归进行评估。只有那些超过严格的邦费罗尼校正阈值的特征才被纳入最终的预测模型。我们使用受试者工作特征曲线下面积(AUC)来评估预测模型的性能,该指标能够衡量模型区分将发展为2型糖尿病(T2DM)的个体和不会发展为2型糖尿病的个体的准确性。

the rigorous Bonferroni correction threshold

Effects of the important features across different ethnicities and age and sex groups

  1. 我们对台湾生物银行(TWB)中确定的关键特征与英国生物银行(UKB)中得出的关键特征的影响进行了对比分析。这项对比旨在探究这些特征对不同种族人群2型糖尿病(T2DM)发病率的影响差异。效应量通过逻辑回归计算得出,其中纳入了我们预测模型中包含的最终特征集。
  2. 此外,成人预防性健康服务(APHS)数据集的大样本量有助于详细分析我们的预测特征在不同年龄和性别人群中的影响。
    1. APHS队列按性别分为男性组和女性组。
      1. 在每个组中,我们进一步按年龄对样本进行分类,以40岁为起点,每5年为一个间隔。随后,在每个亚组中进行逻辑回归分析,采用与我们主要预测模型相同的特征集,从而能够深入了解这些因素如何在不同人群统计学群体中影响2型糖尿病风险。

Prediction model construction in the UK Biobank

我们还利用英国生物银行(UKB)的数据来筛选重要特征并构建预测模型,以便将筛选出的特征和模型性能与从台湾生物银行(TWB)得出的结果进行比较。有关从英国生物银行整理预测特征的详细说明,请参见补充方法。与构建台湾生物银行模型的流程类似,英国生物银行的数据按8:2的比例划分为训练集和测试集,随后通过LASSO回归进行特征筛选,并借助逻辑回归构建模型。

Ethics approval

台湾生物银行和英国生物银行研究的所有参与者均已签署知情同意书。本研究已获得台湾国家卫生研究院机构审查委员会的批准(参考编号:EC1091202-E)。

结果

表1呈现了台湾生物银行(TWB)和英国生物银行(UKB)样本的人口统计学特征及健康指标,包括按年龄分层的数据。台湾生物银行参与者的平均招募年龄为48.93岁,明显低于英国生物银行的57.86岁,这是因为台湾生物银行的招募年龄范围更广(20至70岁),而英国生物银行主要针对40至70岁人群。在招募后3年内,台湾生物银行的2型糖尿病(T2DM)发病率在总体样本中显著高于英国生物银行(3.81% vs. 1.37%),且这一模式在不同年龄组中保持一致。

数值以数量(百分比)或均值±标准误表示。TWB,台湾生物银行;UKB,英国生物银行;T2DM,2型糖尿病;BMI,体重指数;WHR,腰臀比;ICD,国际疾病分类;HbA1c,糖化血红蛋白;SBP,收缩压;DBP,舒张压;LDL-C,低密度脂蛋白胆固醇;HDL-C,高密度脂蛋白胆固醇;PEF,呼气峰流量。a男性参与者的总人数及百分比,b台湾生物银行为高血脂,英国生物银行为高胆固醇,c基于医疗记录中ICD编码确定的疾病,d台湾生物银行为空腹血糖,英国生物银行为随机血糖。

此外,尽管台湾生物银行(TWB)记录的是空腹血糖水平,但其平均血糖和糖化血红蛋白(HbA1c)水平高于测量随机血糖水平的英国生物银行(UKB)。这种差异可能是导致台湾生物银行中观察到的糖尿病发病率更高的原因之一。

相比之下,在总样本和按年龄分层的样本中,英国生物银行的平均体重指数(BMI)读数均超过台湾生物银行,尽管两个队列的平均腰臀比(WHR)值相近。

此外,英国生物银行报告的自我报告高血压和临床诊断高血压的比例高于台湾生物银行。与台湾生物银行中报告高血脂的参与者相比,英国生物银行中报告高胆固醇水平的参与者比例更高,尽管台湾生物银行中临床诊断的高血脂患病率更高。

值得注意的是,台湾生物银行中有糖尿病家族史的参与者比例高于英国生物银行。然而,英国生物银行的平均血压和血脂水平总体上高于台湾生物银行,这表明这两个人群的心血管风险因素存在差异。

图1展示了我们的分析流程图并总结了研究结果。在2型糖尿病(T2DM)的预测建模中,台湾生物银行(TWB)的样本被用于特征选择和模型训练。对台湾生物银行训练数据进行的LASSO回归分析成功从441个特征中筛选出16个特征,作为3年内2型糖尿病新发病例的潜在预测因子。通过逻辑回归对这16个特征进行进一步联合评估后,发现其中13个特征的P值小于调整后的阈值3.125E-03(该阈值考虑了对16个特征的多重检验校正)。这13个具有统计学意义的特征的β估计值及其95%置信区间(CI)如图2所示。

图1. 分析流程图及研究结果总结。预测建模将台湾生物银行(TWB)与国民健康保险研究数据库(NHIRD)相关联,对约65,000个样本的441个特征进行了分析。数据被分为训练集(80%)和测试集(20%)。通过带有10折交叉验证的LASSO回归从训练集中筛选出13个显著特征,受试者工作特征曲线下面积(AUC)达到90.58%。利用英国生物银行(UKB)的数据进行跨种族比较,该数据与全科医生(GP)和医院住院记录相关联,涵盖约86,000个样本。在13个特征中,11个在英国生物银行中具有显著性,其中8个显示出相似的影响,3个显示出不同的影响;2个特征不具有显著性。亚组分析利用台湾成人预防性医疗服务(APHS)项目的数据(涉及超过430万个样本),评估了不同年龄和性别人群中各特征的影响。BMI,体重指数;SGPT,血清谷丙转氨酶;WHR,腰臀比;HbA1c,糖化血红蛋白。

图2进一步探究了所确定的13个特征的影响,并与图1跨种族比较部分中概述的英国生物银行(UKB)的估计值进行了对比。在这些特征中,有11个在英国生物银行中也始终是显著的预测因子,其效应量明显不为零。这种一致的显著性凸显了它们作为不同人群2型糖尿病(T2DM)风险可靠指标的潜力。然而,值得注意的是,自我报告的高血脂和临床诊断的混合性高血脂在英国生物银行中并不显著。 值得关注的是,两个队列中糖化血红蛋白(HbA1c)水平的效应量存在显著差异,英国生物银行(3.14)显著高于台湾生物银行(TWB)(2.55)。相反,血糖的效应量在台湾生物银行(0.61)高于英国生物银行(0.18)。这种差异可能反映了所使用的测量方法:台湾生物银行采用的空腹血糖是更直接的2型糖尿病指标,而英国生物银行采用的是随机血糖。
此外,2型糖尿病多基因风险评分(PRS)在台湾生物银行的效应量(0.91)显著大于英国生物银行(0.23),这表明两个人群中遗传因素对糖尿病风险的影响存在差异。这种细致的分析强调了在预测糖尿病风险时考虑遗传和临床因素的重要性,同时也凸显了这些因素在不同种族人群中影响的潜在变异性。

图3展示了通过逐步整合从台湾生物银行(TWB)中确定的13个显著特征,受试者工作特征曲线下面积(AUC)值所实现的逐步提升。这些特征按照台湾生物银行训练数据集中关联P值所确定的显著性顺序被添加到预测模型中,并在台湾生物银行测试数据集和整个英国生物银行(UKB)数据集中评估了它们的预测性能。

图3. 通过向台湾生物银行和英国生物银行的预测模型中逐步添加显著特征,受试者工作特征曲线下面积(AUC)值的逐步提升。HbA1c,糖化血红蛋白;PEF,呼气峰流量;PRS,多基因风险评分;WHR,腰臀比;BMI,体重指数;ICD,国际疾病分类;TG,甘油三酯;SGPT,血清谷丙转氨酶。

糖化血红蛋白(HbA1c)水平和血糖浓度成为最显著的预测因子,在显著性方面分别位居第一和第二。将它们纳入预测模型后,台湾生物银行的AUC为88.00%,英国生物银行为82.61%,表明其具有强大的预测能力。作为第三显著的预测因子,呼气峰流量(PEF)的加入进一步提升了模型性能,使台湾生物银行的AUC升至88.99%,但在英国生物银行中仅带来微小改善,AUC略微提升至82.62%。
有趣的是,2型糖尿病(T2DM)多基因风险评分(PRS)被确定为台湾生物银行中第四显著的特征,其排名高于年龄、腰臀比(WHR)和糖尿病家族史等其他传统预测因子。这凸显了遗传因素在预测糖尿病风险方面日益重要的地位。然而,值得注意的是,在台湾生物银行和英国生物银行数据集中,多基因风险评分及后续特征所带来的AUC增量相对较小。

表2详细列出了台湾生物银行(TWB)中整体样本以及按年龄组分层样本的受试者工作特征曲线下面积(AUC)值。在整体样本中,该模型的AUC为90.58%。值得注意的是,AUC值呈现出随年龄增长而下降的趋势。40岁以下人群的AUC最高,为92.11%,而60至70岁年龄组的AUC最低,为83.62%。AUC随年龄增长而降低主要归因于敏感性的下降,从40岁以下年龄组的82.60%降至60至70岁年龄组的66.66%。相比之下,各年龄组的特异性相对稳定,范围在84.82%至90.68%之间。这种模式表明,尽管该模型正确识别未患2型糖尿病(T2DM)个体的能力(特异性)在各年龄段均保持较高水平,但正确识别患2型糖尿病个体的能力(敏感性)会随着年龄的增长而下降。

在英国生物银行(UKB)数据集的2型糖尿病(T2DM)预测建模中,也对训练数据应用了LASSO回归,从初始的18,300个特征中成功筛选出47个特征作为3年内2型糖尿病新发病例的潜在预测因子。通过逻辑回归对这些筛选出的特征进一步检验后发现,其中12个特征的P值低于调整后的阈值1.063E-03,该阈值考虑了多重检验校正。这11个具有统计学意义的特征的β估计值及其95%置信区间(CI)如图S1所示。 在已确定的特征中,有几个与台湾生物银行(TWB)数据集发现的特征重叠,包括糖化血红蛋白(HbA1c)、血糖、多基因风险评分(PRS)、糖尿病家族史、体重指数(BMI)、血清谷丙转氨酶(SGPT)、腰臀比(WHR)和糖尿病前期。此外,英国生物银行的分析还突出了其他人群特异性特征,如高密度脂蛋白胆固醇(HDL-C)和网织红细胞计数。该模型在测试数据集中的性能达到了88.69%的受试者工作特征曲线下面积(AUC)(95%置信区间为85.43%至91.12%),与台湾生物银行数据集报告的90.58%的AUC相当。

0.05/16
在相关研究中,多重检验校正被用于处理多个特征检验时可能出现的假阳性问题。例如,在台湾生物银行(TWB)的分析中,对16个特征进行多重检验校正后,确定了P值的调整阈值为3.125E-03,只有P值小于该阈值的特征才被纳入最终模型;而在英国生物银行(UKB)的分析中,考虑多重检验校正后,调整后的P值阈值为1.063E-03,以此筛选出具有统计学意义的特征。这种校正方式有助于确保研究结果的可靠性,减少因多次检验而导致的错误结论。

补充表1呈现了按年龄和性别分层的台湾成人预防性健康服务(APHS)样本的人口统计学特征及健康指标。值得注意的是,在相同年龄组中,APHS样本的2型糖尿病(T2DM)发病率始终高于台湾生物银行(TWB)样本(例如,40至49岁年龄组中,APHS为5.25%,TWB为2.64%)。造成这种差异的一个因素可能是APHS的研究方法——由于在招募时无法获得空腹血糖和糖化血红蛋白(HbA1c)的测量数据,因此未排除未确诊糖尿病患者(即无糖尿病病史但基线时空腹血糖和HbA1c水平升高的个体)。这种方法与TWB不同,且可能导致APHS中观察到的2型糖尿病发病率更高。 在自我报告和临床诊断的高血压患病率中也观察到了类似的模式。此外,APHS队列的平均甘油三酯(TG)水平高于TWB。相反,与TWB相比,APHS的自我报告和临床诊断的高血脂患病率更低,平均低密度脂蛋白胆固醇水平也更低。

我们进而分析了13个显著特征中8个特征的比值比(OR),以了解它们在台湾成人预防性健康服务(APHS)的不同年龄和性别人群中对2型糖尿病(T2DM)发病率的影响(如图1的亚组分析部分所述)。由于该数据集存在局限性,特别是APHS数据中缺少糖化血红蛋白(HbA1c)、呼气峰流量(PEF)、多基因风险评分(PRS)和糖尿病家族史的数据,这些因素未纳入本次比较。此外,由于已按年龄组进行了分层,因此未纳入年龄分析。由于缺少臀围测量数据,无法评估腰臀比(WHR),故改用腰围测量数据。我们的研究结果揭示了这6个特征在不同人群统计学群体中对2型糖尿病发病率影响的明显差异,具体结果详见图4。

图4. 不同年龄和性别人群中风险预测因子的比值比(OR)及其95%置信区间(CI)。(A)血糖,(B)高血脂(自我报告),(C)混合性高血脂(国际疾病分类[ICD]),(D)甘油三酯,(E)腰围,(F)体重指数(BMI),(G)血清谷丙转氨酶(SGPT),(H)糖尿病前期。(下页续)

值得注意的是,在大多数年龄组中,女性的血糖比值比普遍高于男性,80岁以上人群的这一数值则非常接近。对于自我报告的高血脂,55岁以下人群中女性的比值比最初高于男性,但在55至80岁之间这一趋势发生逆转,男性的比值比更高,而80岁以上人群的这一比例则趋于一致。此外,临床诊断的混合性高血脂的影响主要在女性中较为显著,大多数男性的比值比接近1,表明关联性微乎其微。同样,甘油三酯(TG)的比值比在女性中始终高于男性,仅在70岁以上男性中观察到显著的正向影响。

就腰围测量值而言,女性的比值比(OR)随年龄增长呈下降趋势,而男性的比值比在所有年龄组中均保持稳定。在不同年龄组中,男性和女性的体重指数(BMI)相关比值比差异极小,且在55岁之前呈下降趋势,55岁之后则保持稳定。血清谷丙转氨酶(SGPT)水平在男女不同年龄组中总体保持一致,但55岁以下女性的比值比高于55岁以上女性。最后,在临床诊断的糖尿病前期方面,男性和女性的比值比相近,且在不同年龄组中结果一致。

讨论

在本研究中,我们利用台湾生物银行(TWB)提供的全面临床数据集,精心构建了一个用于预测3年内2型糖尿病(T2DM)新发风险的模型。通过严格的筛选与分析,我们确定了13个显著的2型糖尿病预测因子,涵盖了从血液和身体测量指标到详细疾病史等多个方面。此外,我们还与英国生物银行(UKB)进行了对比分析,考察了这些预测因子在两个队列中的效应量。值得注意的是,大多数已确定的预测因子在台湾生物银行和英国生物银行中显示出一致的效应量,这表明这些指标作为不同人群2型糖尿病风险的评估指标具有一定的普遍适用性
此外,我们还利用大规模的台湾成人预防性健康服务(APHS)数据集,详细研究了这些预测因子在不同年龄和性别人群中的影响。

在我们的分析中,观察到台湾生物银行(TWB)的2型糖尿病(T2DM)发病率显著高于英国生物银行(UKB)。一个可能的原因是两个队列对新发2型糖尿病的定义存在差异。在台湾生物银行中,国民健康保险研究数据库(NHIRD)的门诊和住院记录完全覆盖了每位参与者3年的随访期,且该疾病仅通过国际疾病分类(ICD)编码来定义。相比之下,在英国生物银行中,苏格兰(2017年5月)、威尔士(2017年9月)和英格兰(2016年8月至2017年6月/7月)的全科医生(GP)记录覆盖的结束日期不同,而医院住院数据的结束日期分别为苏格兰2022年8月、威尔士2022年5月和英格兰2022年10月。因此,在英国生物银行中,除了使用国际疾病分类记录外,还考虑了随访问卷中自我报告的糖尿病来定义新发2型糖尿病。

此外,英国临床诊断的2型糖尿病(T2DM)发病率呈下降趋势,尤其是2013年之后,这可能也是造成观察到的差异的原因之一。英国一项回顾性队列研究报告称,临床新诊断的2型糖尿病发病率较2013年的峰值下降了三分之一[23],其他两项研究也证实了这一趋势[24,25]。这一下降部分可能是由于更多病例被诊断为糖尿病前期而非2型糖尿病,同期糖尿病前期的诊断量增加了两倍也印证了这一点此外,英国仅依赖糖化血红蛋白(HbA1c)进行诊断——与空腹血糖相比,这种方法在检测糖尿病方面的敏感性可能更低,尤其在老年人和特定种族人群中——这也可能导致英国的糖尿病发病率被低估[23],进而解释了其发病率低于台湾生物银行(TWB)的原因。

相反,2005年至2014年期间,台湾临床诊断的2型糖尿病(T2DM)发病率呈上升趋势,这可能是由于肥胖和代谢综合征患病率不断增加所致[26]。值得注意的是,2009年至2018年期间,英国60至79岁年龄组临床诊断的2型糖尿病发病率为男性每千人年12.49至13.69例,女性每千人年8.85至11.01例[23],而台湾的这一比例显著更高(男性每千人年25.52至26.91例,女性每千人年25.26至26.78例)[26]。这一观察结果与以下事实相符:2021至2022年英国的糖尿病确诊比例约为6.4%[27],而2014年台湾的这一比例约为9.32%[28]。

台湾生物银行(TWB)招募对象的平均年龄较小,这暗示台湾人群中糖尿病的发病或确诊时间更早,这可能反映出该人群存在独特的遗传易感性或易诱发糖尿病的生活方式。台湾生物银行参与者的血糖和糖化血红蛋白(HbA1c)水平较高,表明他们更易出现糖耐量异常,这意味着尽管该群体的平均体重指数(BMI)较低,但可能存在独特的代谢特征,从而增加了患糖尿病的风险。 有趣的是,虽然英国生物银行(UKB)队列中,体重指数、高血压和高血脂等传统风险因素更为突出,但台湾生物银行的糖尿病发病率更高(尤其是有糖尿病家族史的人群),这凸显了遗传易感性可能起到的作用。此外,两地在医疗实践、医疗可及性和预防措施方面的差异,也可能是导致观察到的发病率差异的重要原因

本研究开发的预测模型相较于葡萄糖检测或糖化血红蛋白(HbA1c)测量等传统方法具有多项关键优势,尤其在早期检测和个性化医疗策略方面表现突出。与仅依赖血糖水平或糖化血红蛋白的方法不同,该模型整合了包括遗传因素、呼气峰流量(PEF)以及详细代谢特征在内的多种预测因子,能够更细致地理解糖尿病风险。这种全面的方法有助于在疾病可能仍处于无症状的早期阶段就检测出2型糖尿病(T2DM)风险。 此外,纳入呼气峰流量和各种代谢指标等非传统预测因子,能够更全面地评估个体风险,这是仅通过传统血液检测无法实现的。通过利用这些多样化的预测因子,该模型有助于制定更具针对性且可能更有效的干预策略,从而提高定向管理甚至预防糖尿病的能力。

在我们的分析中,我们发现一组可改变和不可改变的风险因素是2型糖尿病(T2DM)新发的显著预测因子,每种因素都具有独特的临床意义。可改变的风险因素包括糖化血红蛋白(HbA1c)升高、血糖升高、高血脂、甘油三酯(TG)水平偏高、血清谷丙转氨酶(SGPT)升高、体重指数(BMI)增加、腰臀比(WHR)升高以及存在糖尿病前期,这些因素凸显了生活方式和医疗干预在糖尿病预防中的重要性。已有研究表明,通过调整饮食、增加体力活动、减轻体重和药物治疗等方式,能够有效控制这些因素,从而显著降低进展为2型糖尿病的风险[29-31]。 另一方面,年龄、糖尿病家族史和多基因风险评分(PRS)等不可改变的因素,强调了对易患糖尿病人群进行早期筛查和个性化风险评估的必要性。通过对这些风险因素进行分类,我们的研究结果为临床实践提供了一种双重策略:积极管理可改变的因素,同时密切监测存在不可改变风险的人群,以降低2型糖尿病的总体发病率。

我们的分析发现,糖化血红蛋白(HbA1c)和血糖是台湾生物银行(TWB)中最重要的两个显著预测因子,它们使TWB的受试者工作特征曲线下面积(AUC)达到87.36%,英国生物银行(UKB)的AUC达到82.61%。这两个预测因子一直被纳入其他基于亚洲人群的预测模型中[9],在我们和其他研究中,使用英国生物银行数据训练的预测模型也选择了它们[12,32]。这些结果强调了糖化血红蛋白和血糖作为独立风险预测因子的重要性,凸显了它们在评估2型糖尿病(T2DM)风险中的关键作用。仅将这两个因子结合使用就显示出相当高的预测准确性。 事实上,美国糖尿病协会发布的《2024年糖尿病护理标准》[33]中将糖化血红蛋白列为糖尿病诊断的首要检测指标,其次是空腹血糖,这支持了我们的分析结果。然而,最近一项基于全球汇总数据的研究表明,仅依靠空腹血糖或糖化血红蛋白可能会显著低估糖尿病的实际负担,特别是在目前诊断率较低的中低收入国家[34]。这一发现进一步支持了我们的主张,即在常规健康检查(如台湾的成人预防性健康服务项目)中应同时纳入这两项血糖指标,以提高2型糖尿病的风险预测水平

除了糖化血红蛋白(HbA1c)和血糖外,我们的分析还强调,通过呼气峰值流速(PEF)衡量的肺功能是台湾生物银行(TWB)中预测2型糖尿病(T2DM)的第三大显著因子,其显著性在英国生物银行(UKB)中也得到了证实。这与以往的研究结果一致,即肺功能指标(包括第一秒用力呼气量(FEV1)、用力肺活量(FVC)以及FEV1/FVC比值)与2型糖尿病的发病风险相关[35,36]。 尽管存在这种关联,但肺功能参数却很少被纳入2型糖尿病的风险预测模型中。这种疏漏可能源于历史上对代谢因素的关注,而忽略了呼吸系统健康指标。因此,我们的研究结果主张在构建2型糖尿病风险模型时采用更广泛的多学科方法,认为纳入肺功能指标可能会提高预测的准确性,并为理解2型糖尿病病理生理学的全身性本质提供新的见解。

为进一步探讨吸烟和肺功能对研究结果的潜在影响,我们在台湾生物银行(TWB)和英国生物银行(UKB)数据集中开展了额外分析。在TWB中,当仅将年龄作为协变量时,吸烟与2型糖尿病(T2DM)发病率显著相关(当前吸烟者与其他人群的比值比为1.40,P=5.14E-124)。然而,LASSO回归模型未将吸烟纳入其中,这可能是因为吸烟与腰臀比(WHR)、呼气峰值流速(PEF)、体重指数(BMI)、甘油三酯(TG)和血清谷丙转氨酶(SGPT)等其他因素存在相关性,意味着吸烟对2型糖尿病风险的影响可能通过这些变量(尤其是肺功能)间接体现。 同样,我们在UKB中的分析表明,PEF受多种因素影响,包括年龄、性别、BMI、吸烟状况、糖化血红蛋白(HbA1c)等代谢指标,以及PM2.5等环境暴露(补充表2)。这些发现表明,PEF反映的是年龄、生活方式和代谢因素的累积效应,而非与2型糖尿病存在直接的机制性关联。鉴于PEF受到多种因素的影响且变异性较大,其与2型糖尿病风险的关系可能反映了更广泛的全身性变化。例如,吸烟会引发肺部和全身性免疫变化,导致肺部功能失调和肺功能下降,而与年龄相关的PEF下降以及与肥胖相关的肺部力学变化,进一步凸显了其与代谢风险之间复杂的关联[37]。 将PEF视为受多种因素影响的综合性健康指标,而非聚焦于直接机制,我们的研究结果强调了在2型糖尿病风险预测模型中考虑肺功能及相关变量的重要性。未来有必要采用纵向设计和全面的肺功能检测开展研究,以更好地阐明这些相互作用,并提高PEF在代谢风险评估中的预测价值。
#idea

我们的分析凸显了糖化血红蛋白(HbA1c)水平和多基因风险评分(PRS)对台湾生物银行(TWB)与英国生物银行(UKB)中2型糖尿病(T2DM)发病率的影响存在差异。与TWB相比,HbA1c在UKB中产生的影响更为显著,这表明两地人群在基线时的代谢特征或糖尿病进展阶段可能存在差异。另一方面,PRS在TWB中影响更大,这反映出遗传风险因素的影响力可能会因人群的遗传结构不同而有所变化。 此外,研究表明,相较于欧洲人群样本,在TWB样本中,PRS每变化一个标准差,2型糖尿病患病率的比值比更高[38]。这些研究结果强调了在2型糖尿病研究中考虑种族和遗传多样性的重要性,并凸显了有必要开展进一步研究,以探索不同人群中这些风险因素的差异。

利用英国生物银行(UKB)进行的特征选择过程,识别出了几个特定人群变量,这些变量在台湾生物银行(TWB)中未被选中,包括高密度脂蛋白胆固醇(HDL-C)、网织红细胞计数以及血管/心脏问题。这些发现与以往使用英国生物银行开展的研究结果一致,那些研究也将高密度脂蛋白胆固醇和网织红细胞计数确定为未来2型糖尿病(T2DM)的重要预测因子[39,40]。英国生物银行中这些额外特征的识别,凸显了人群特异性因素在糖尿病风险预测中的影响。这表明,尽管存在糖化血红蛋白、血糖和体重指数等在不同人群中通用的核心预测因子,但纳入人群特异性变量能够提高为不同种族群体量身定制的模型的预测准确性。

我们的预测模型在不同年龄组的准确性分层结果,凸显了年龄、性别与糖尿病风险因素之间微妙的动态关系,揭示了不同人群风险预测的复杂情况。值得注意的是,年轻人群的预测准确性更高,这主要是因为与老年人群相比,他们对风险因素的敏感性更强。年轻人群预测准确性的提升可能源于其他环境和生活方式因素的相对影响,而这些因素在老年人群中更为显著。 进一步探究不同年龄和性别人群中各种风险因素的影响发现,自我报告的高血脂和体重指数(BMI)等因素在年轻人群中的影响更为明显。有趣的是,腰围和临床诊断的混合性高血脂等特定因素仅在年轻女性中显示出更大的影响,而在男性各年龄组中的影响则保持一致。这表明,可能受激素变化影响的性别特异性生理因素,对代谢风险因素有显著影响[41]。此外,女性腰围对糖尿病风险的预测能力随年龄增长而下降,这可能是由于绝经后身体脂肪分布和代谢功能发生改变所致。 这些见解表明,有必要开发针对不同人群独特风险特征的定制化预测模型,从而提高糖尿病风险预测的精度,并为更有效的干预策略提供潜在途径。

本研究的发现必须结合其方法学局限性来解读,尤其是那些源于队列特征多样性的局限性。台湾生物银行(TWB)、英国生物银行(UKB)和台湾成人预防性健康服务(APHS)项目各自具有独特的参与者特征、诊断标准和随访流程。
具体而言,各队列对糖尿病的定义以及所采用的诊断工具(如空腹血糖与糖化血红蛋白(HbA1c)测量)存在显著差异。这种差异可能导致糖尿病病例的分类不同,进而可能扭曲发病率以及我们模型中所用预测因子的感知有效性。
此外,各队列的随访间隔和评估时间并不统一,这可能会影响对风险因素出现和2型糖尿病(T2DM)进展的纵向分析。环境因素,如饮食、医疗可及性和生活方式的地区差异,对糖尿病风险有显著影响,但在国际队列中也难以控制。这些差异会影响糖尿病的基线风险和进展,使跨人群比较以及研究结果在其他环境中的适用性变得复杂。
此外,我们研究的回顾性设计引入了与依赖历史医疗记录和自我报告数据相关的潜在偏倚。这些数据来源容易因回忆偏倚或记录不完整而出现不准确,从而可能影响结果的有效性。尽管存在这些挑战,我们的研究仍有助于理解不同人群中的糖尿病预测因子,并强调了进行特定情境下糖尿病风险评估和预测建模的必要性。

总之,我们在台湾生物银行内的综合分析以及与英国生物银行的比较见解,揭示了2型糖尿病风险预测的关键方面及其决定因素的多面性。通过整合广泛的临床、代谢和遗传预测因子,我们开发了一个稳健的模型,该模型强调了采用多因素方法来理解和预测2型糖尿病的重要性。我们的研究结果不仅突出了糖化血红蛋白、血糖和肺功能(呼气峰值流速(PEF))等显著预测因子,还揭示了它们在不同人群、年龄组和性别人群中影响的复杂差异。这项研究强调,迫切需要个性化和针对特定人群的风险评估模型,这些模型应考虑导致2型糖尿病风险的独特遗传、环境和生活方式因素。展望未来,我们的工作主张在预测模型中纳入更广泛的风险因素,并强调将此类模型纳入预防性医疗策略的潜在益处。通过这样做,我们旨在更早地识别和干预2型糖尿病高风险个体,最终促进更好的健康结局并减轻这一慢性疾病的全球负担。