您的位置：病毒性肺炎 > 疾病检查 > 基于机器学习方法的慢性阻塞性肺炎分期预测 >

基于机器学习方法的慢性阻塞性肺炎分期预测

医院订阅哦！

导读：采用基于机器学习的分类判断算法，建立慢阻肺分期模型，提高慢阻肺诊断和分期的准确度。选择确诊慢阻肺住院患者例，以国际GOLD分期为依据，收集与慢阻肺分期密切相关的临床特征参数指标，对参数进行筛选，医院的临床确诊结果，采用机器学习方法（k-最近相邻法、SVM）训练并测试慢阻肺的分期模型。数据为不平衡数据，虽采用分层比例抽样，但针对此类数据SVM的准确率更高为85.26%。说明机器学习提供的模型能为慢阻肺分期提供较准确的分类依据。

慢性阻塞性肺疾病（chronicobstructivepulmonarydisease，简称慢阻肺）是一种以持续气流受限为特征的可以预防和治疗的疾病，其气流受限多呈进行性发展，与气道和肺组织对烟草烟雾等有害气体或有害颗粒的慢性炎性反应增强有关。至今为止，慢阻肺的确诊主要根据FEV1，根据其他症状难以确诊。患者间存在较大个体差异，而有时症状与客观检查也有差距。因此，以患者的主观陈述可能会出现错误分期，从而导致病情延误甚至造成不恰当治疗。诊断慢阻肺根据临床表现、危险因素接触史、体征及实验室检查等资料，综合分析确定。使用这种分期方法含有主观性和复杂性，医生诊断时依据自己对诊断标准的理解对慢阻肺分期。实践经验和知识水平的不同，医生对疾病分期的结果存在差异；另一方面，慢阻肺分期标准自身存在缺陷。患者疾病的分期是一种定性评价，疾病的病情是动态变化的，因此定性分级针对每个不同的患者很难给出适合的评价，而同一期患者病情的严重程度也无法区分。另外，慢阻肺的致病因素复杂多样，单一指标难以准确评估病情，需要患者进行多项检查确诊，缺乏简单有效的综合评价指标。因此，寻找一种能快速准确的评估方法，对提高临床疗效有重要的意义。

机器学习把数据转换为智能行为，在已有的数据中获得经验并能够利用它们，在以后类似经验中能够提高它的表现。采用机器学习方法中的有监督学习方法，选择准确度高的分期模型，旨在提高慢阻肺分期的准确度。

对象和方法

医院年至年住院的慢阻肺患者数据例，根据临床医生诊断标准，将慢阻肺患者标记为“1”，慢阻肺急性加重用“2”标记。技术路线见图1，具体实验步骤：收集临床数据，进行数据预处理，将患者分为训练集和测试集；对训练集进行训练获得慢阻肺分期诊断模型；使用已经构建的测试集对慢阻肺分期进行预测；对预测结果进行评价。

图1技术路线图

收集临床资料：基本检查资料：体温、脉搏、呼吸、血压、血糖；既往史：包括过敏史、哮喘史；家族史：家族是否有慢阻肺患者；发病年龄；并发症：肺结核、高血压、糖尿病。

样本数据筛选：通过筛选选择与慢阻肺危险等级相关的特异性参数。采用卡方检验进行单因素分析，筛选出对慢阻肺危险等级有显著影响（p0.05）的自变量。将年龄、平素身体状况、是否患有高血压、是否患有糖尿病、是否咳嗽、是否有痰、体温是否正常、脉搏是否正常、呼吸是否正常、收缩压、舒张压、红细胞、白细胞、血红蛋白共14项临床指标进行单因素分析。最终筛选出有统计学意义的诊断模型因变量为：年龄、平素身体状况、是否患高血压、是否患糖尿病、咳嗽、痰、体温、脉搏、呼吸、收缩压、舒张压、红细胞、白细胞、血红蛋白。

样本数据预处理：研究收集的住院数据大量信息存在既往病史和患者主诉中，针对文字性的特征描述，需要对这部分指标进行处理，转换成相应的特征；住院数据存在重复值和异常值，依据患者病历号删除重复值和异常值；对于缺失值，由于患者主诉包含主要判别信息，因此对于缺失患者主诉的患者采用删除方法。

数据预测方法：k-Nearest-Neighbors（kNN）是一种非参数分类方法，在多数情况下是简单但有效的分类方法。k值是自动确定的，针对不同的数据而变化，并且在分类准确度方面是最佳的。它的原理是首先假设给定一个类标签已知的训练数据集，然后计算每个给定标签的样本数据到待分类数据之间的距离，根据距离待分类实例的k个最近的已知标签的训练实例的类别，通过多数表决的方式进行预测，得到最终的预测结果。

支持向量机SVM最初由Cortes等人提出。它是基于最小结构风险原则，依据有限的样本信息在模型复杂性（即特定训练样本的学习准确性）与学习能力（即识别任意样本无错误的能力）之间的最佳折衷，获得最佳的分类能力。支持向量机将向量映射到更高维空间以使其可线性分离，并在空间中找到可将样本分为两类的超平面，然后尽可能地解决二次优化问题。SVM算法理论上可以获得全局最优解，避免落入局部最优界面，在小型或线性不可分样本集的情况下可以获得更好的分类结果，并可应用于函数拟合，回归分析等。支持向量机在整体准确性，灵敏度和特异性方面表现出更好的性能。虽然优化参数需要较长时间，且训练效率远，但实际测试效率仍然很高，整体性可以满足分类需求。

慢阻肺分期模型评价：使用准确度来度量分类的性能。将正确的预测部分除以预测总数得到的数值就是准确度。该数值表示分类器正确或错误分类的百分比。使用灵敏度和特异性权衡模型。

结论

慢性阻塞性肺疾病的定义慢性阻塞性肺疾病是呼吸系统的一种慢性疾病,在全球患病率和死亡率呈明显上升趋势,严重影响患者的劳动能力和生活质量,由于临床上对该病名使用的不统一性,在医生和患者中造成概念模糊，也影响流行病学的调查。同时，临床分期的不明确，主要依附于医生的临床医生的既往经验，没有定量的分期方法，也影响了针对不同分期的不同治疗。住院数据大量信息存在既往病史和患者主诉中，分析各因素与慢阻肺分期的关系，为临床选择慢阻肺的治疗方案提供参考。通过单因素的分析，筛选出有统计学意义（p＜0.05）的变量。将经过检验与慢阻肺分期有关的变量纳入模型后，对模型进行训练。

使用k-最近相邻法模型和SVM分类模型进行训练，输出结果见表1和表2所示。由表可知，k-最近相邻法的准确率为84.82%，灵敏度为37.30%，特异度为%；SVM的准确率为85.27%，灵敏度为37.77%,特异度为99.36%。因此相较于k-最近相邻法，SVM同时具有良好的灵敏度和特异度。针对慢性阻塞性肺炎的分期，k-最近相邻法和SVM都有较好的准确率，总得来看有较好的分期效果，但是两个模型灵敏度都较低，仅有37.30%和37.77%。但是，k-最近相邻法和SVM两个模型的特异度都很高，达到了%和99.36%。鉴于以上实验结果，针对慢阻肺分期预测，慢阻肺患者能被成功预测的更少，而慢阻肺加重患者能更成功地被预测。

表1k-最近相邻法模型结果输出

表2SVM模型结果输出

导致慢阻肺发病的原因十分多样，患者的临床表现也存在差异，很难统一疾病分期。正确得出慢阻肺的分期可以找到更有针对性和有效的治疗方法，同时更好地了解这种疾病。慢阻肺分期输入的是经过卡方检验有特异性变量并在临床上得到广泛认同的参数，保证模型建立的基础是可靠的。基于机器学习的模型通过对测试数据集的自学习获得疾病重要特征，可以辅助医生做出判断慢阻肺分期。

由于部分患者患病时无慢阻肺临床症状(37.7％)，导致医生对慢阻肺的诊断率不足，且在接诊该类患者时，也容易忽略对他们提出全面的防治建议，往往使其成为早期防治的盲区。因此，医生应

转载请注明：http://www.usgho.com/jbjc/13749.html

上一篇文章：头条支原体肺炎合并右肺静脉血栓

下一篇文章：没有了