沙龙clubs|沙龙娱乐国际

精品地漏

当前位置:主页 > 大发体育平台 >

科学网新冠状病毒感染后症状模拟分析过程与结

文章出处:沙龙娱乐国际 人气:发表时间:2020-02-04 16:23

 I. 模拟数据的生成:

为了更清晰地展现分析结果,病毒感染后临床症状采用常用的case-control模式,分别模拟重度和轻度患者。考虑到有个别临床表型数据(如年龄)跟感染后症状高度相关,我们设置了2个强相关特征,此外,还设置了20个不同程度的线性相关特征,3个非线性相关特征,和20个噪音不相关特征。一共设立了45个特征数据。感染患者样本分成三类,分别用不同的随机种子数生成:包括500个训练(training)样本,300个验证(validation)样本,和300个独立验证(independent test)样本。

考虑到实际可能会存在部分数据缺失,在模拟数据中引进了少量缺失数据(表示为NA),并在分析的时候通过imputation的方法补缺。

II. 人工智能分析过程和结果:

我们分别采用了两种方法进行分析。

(一)  选择四种常用机器学习方法:rf(随机森林),SVM(支持向量机),K个最近邻居(KNN),glmnet,并采用greedy ensemble方法对其进行整合,对训练样本进行特征提取,优化参数,通过验证样本选择最优特征和模型,并通过独立样本检验得到最终预测结果。

a)     对特征进行相关性排序,结果见图1,可以看到

            

  (a)                                                                               (b)

1  (a) 基于glmnet算法的特征重要性排序,两种强相关特征和线性相关特征排在前面; (b) glmnetrf两种不同算法得到的重要性排序高度相关,揭示结果的稳定性

     b)     将特征按重要性排序,分组,用4种不同算法建模,最后采用greedy ensemble方法整合4种模型。对验证组样本的预测结果见图2。由图2可以得出结论,经过4种算法集成后的ensemble算法在25个特征的组合得到了最优模型。这个结论基本符合我们模拟生成的特征:2个强相关,20个线性相关,3个非线性相关。

              

4.png

 

                                                    (a)                                                                                  (b)

2  验证组样本不同特征组合的预测表现:(a) auROC; (b) Accuracy

同类文章排行

最新资讯文章