科学网新冠状病毒感染后症状模拟分析过程与结
I. 模拟数据的生成:
为了更清晰地展现分析结果,病毒感染后临床症状采用常用的case-control模式,分别模拟重度和轻度患者。考虑到有个别临床表型数据(如年龄)跟感染后症状高度相关,我们设置了2个强相关特征,此外,还设置了20个不同程度的线性相关特征,3个非线性相关特征,和20个噪音不相关特征。一共设立了45个特征数据。感染患者样本分成三类,分别用不同的随机种子数生成:包括500个训练(training)样本,300个验证(validation)样本,和300个独立验证(independent test)样本。
考虑到实际可能会存在部分数据缺失,在模拟数据中引进了少量缺失数据(表示为NA),并在分析的时候通过imputation的方法补缺。
II. 人工智能分析过程和结果:
我们分别采用了两种方法进行分析。
(一) 选择四种常用机器学习方法:rf(随机森林),SVM(支持向量机),K个最近邻居(KNN),glmnet,并采用greedy ensemble方法对其进行整合,对训练样本进行特征提取,优化参数,通过验证样本选择最优特征和模型,并通过独立样本检验得到最终预测结果。
a) 对特征进行相关性排序,结果见图1,可以看到
(a) (b)
图1 (a) 基于glmnet算法的特征重要性排序,两种强相关特征和线性相关特征排在前面; (b) glmnet和rf两种不同算法得到的重要性排序高度相关,揭示结果的稳定性
b) 将特征按重要性排序,分组,用4种不同算法建模,最后采用greedy ensemble方法整合4种模型。对验证组样本的预测结果见图2。由图2可以得出结论,经过4种算法集成后的ensemble算法在25个特征的组合得到了最优模型。这个结论基本符合我们模拟生成的特征:2个强相关,20个线性相关,3个非线性相关。
(a) (b)
图2 验证组样本不同特征组合的预测表现:(a) auROC; (b) Accuracy
同类文章排行
- 荷兰用时装改造红灯区 惹怒妓女[图]
- 宁可备而不用,也要坚决防止短缺(权威发布)
- 善邻是福(大使随笔)
- 科比坠机事故初步报告或本周发布葬礼细节仍未商定
- 外媒:美国即将亮剑!核大战的确可能发生!
- 金牌绿叶曾守明演出中途暴毙 最后画面曝光
- 安徽已协助重点防控物资企业紧急招工800余人
- 中央赴湖北指导组实地察看火神山医院
- 国家能源局:优先安排好疫情重点地区煤炭供应
- 从繁荣到死寂 被毁灭的千年古城
最新资讯文章
- 商务部印发《关于进一步强化生活必需品市场供应保障工作的通
- 打赢疫情防控阻击战维护经济稳定发展大局——央行副行长潘功
- 交通运输部公布各地应急运输电话简化“通行证”办理流程
- 交通运输部:一线投入疫情防控人员超58万
- 交通运输部:春运前22日全国累计发送旅客12.58亿人次同期下降
- 交通运输部:目前全国高速公路及普通国省干线总体运行平稳有
- 全国铁路装运疫情防控保障物资超1万吨
- 中国企业全力支援抗击疫情(锐财经)
- 全国工商联:助力抗击疫情商会会员企业累计捐款41.31亿元
- 财政部要求进一步做好疫情防控经费保障工作
- 刘瑞明:不应过度关注疫情带来的短期经济影响
- 【大数据看春运】半程观察:全国客流同比下降明显
- 防控疫情哪些路该封?哪些路不能封?
- WHO表态后对中国经济影响几何?
- 交通运输部印发通知:做好疫情防控形势下公路保通保畅工作
- 13架包机、近80吨医疗物资中航集团驰援武汉抗击疫情
- 王微:危中有机疫情防控将会激发创新业态
- 交通运输部:全国累计发送旅客1513.2万人次
- 保生产!医疗物资企业开足马力打赢疫情防控阻击战
- 刘晓光:PHEIC认定有利于加强国际合作和各方援助