医院的工作人员而言,其实想要发表文章的话,有时候并不是一定需要去做实验的。医院的一些患者的临床数据,对这些数据进行相关的分析。同样也是可以进行科学研究的。例如今天要介绍的这篇:
文章主要内容对于这篇文章而言,作者主要是通过不同的机器学习模型来构建了幽门螺杆菌治疗后(HP)发生胃癌风险的模型。对于这类的构建模型的人群样本的文章。常规来说也就是三步:
收集符合标准的样本
基于不同的方法来构建模型
模型评价
收集符合标准的样本人群分析的文章,肯定是要基于自己的研究目的收集符合研究目的的人群样本信息。拿这篇文章来说,这个文章主要收集的还是在HP感染后进行了根治治疗的人群。经过筛选,作者获得了个样本
在这些人群当中,收集他们的的个体信息基于这些信息来预测胃癌的发生。对于基本信息的收集,往往都需要展示这些数据的基线数据。所以在这个文章当中,作者就展示了他们收集到的这些样本的信息基线数据。
基于不同的算法构建模型目前对于模型构建而言,有很多的算法都可以用于模型的构建。这篇文章而言,作者就使用了多个算法来构建不同的模型(SVM、SGB、XGBoost、RF、Lasso)。
?
在基于不同的算法构建模型之后,最后通过ROC曲线来评价不同算法得到的模型的好坏。最后选择一个更好的模型。
以上基本上就是这个文献的主要内容了。后面作者针对于特别好的模型来进行了具体的分析。同时也评价了不同模型对于内镜误诊率的不同。
总的来说对于这类临床样本性的文章的话,主要的创新点主要还是对于分析的切入点。至于什么切入点好。那就是临床医生在日常看病的过程中哪个方面是急需需要解决的问题。这个是临床医生比其他基础或者数据分析人员的优势。基于一个好的切入点,收集数据。至于说后续的数据分析,有能力的临床医生可以自己分析。要是临床比较忙的话。那可以合作的嘛
Hogg