从疫情数据的产生、应用到可视化,我们发现了数据应用的完整链路

从疫情数据的产生、应用到可视化,我们发现了数据应用的完整链路

前言:作为被疫情影响的普通人,笔者和大家一样,度过了一个难忘而焦虑的春节。现在根据18日最新数据,可以看出疫情持续向好,虽仍不能外出,但也可以松一口气。这个时候正是思考的好时机。本文想和大家聊聊在疫情过程中,数据作为一种特殊的资源,如何让它去发挥价值。

疫情数据的产生、用途、可视化

1.1 发现历程

就像《流感》等电影里描绘的一样,人们对传染病的发现总是后知后觉。

12月8日,武汉官方通报了首例不明原因肺炎患者发病,此时该患者还未出现传染迹象,未能获得医生、研究人员的特别关注。

直到12月26日,一条数据在电子病历系统中存储下来,记录的医生惊讶地发现,当天上午居然已经有另外三条类似的数据,都包含了发热、咳嗽、华南海鲜市场三个相同的关键字,她感觉出了异常,果断上报。

12月29日下午,类似的数据增长到了7条,在医院召开多部门会诊后,副院长决定,直接到省、市卫健委的疾控处报告。这家医院是湖北省中西医结合医院,最早上报疫情的医生是呼吸与重症医学科主任张继先。

1.2 数据来源

1.2.1 医疗数据

在央视采访中,张继先医生说:“我们医生写病历,有病历系统,填出来的时候就发现了,这些人的共同点都是在华南海鲜待过。”张医生提到的电子病历是患者所有健康相关的完整数据档案,患者被治疗的全过程都会被记录下来,这意味着医院在诊疗病人的同时,能获取更加完整的数据。

EMR是国家推动的医院信息化升级中的一个核心系统。在2018年到2019年,国务院和国家卫健委总共有9条政策详细提到了国家对于电子病历的硬性要求。2019年,全国总计有7000多家医院申报了国家的电子病历评级。正是因为有了升级,系统对数据的采集更加完善,才有更快发现传染的可能。如果没有这样的数据,我们发现疫情可能会更晚,影响会更大。

此外,除了电子病历系统,医院的HIS、LIS、PACS系统也是这次疫情的重要数据来源。

1.2.2 医疗之外的大数据

发现传染病只是开始,疫情的防控才是重中之重。国际社会风险治理的经验总结,应对不确定性的社会风险强度和程序上主要有两种原则:防范原则和预防原则。

防范原则强调的是政府和社会与对于风险治理的行为必须以科学为依据,在科学上有充分证据证明因果关系之后才能采取行动,即:宁可漏,不可错。

但有些事情在短期内无法在科学上确定因果关系,预防原则应运而生。在特定时期基于一些相关性的证据就可以采取行动,即:宁可错,不可漏。这次,我们国家为了保证人民的生命安全,基本采取了预防原则。

预防原则的第一步,就是控制传染源,但在十四亿人口、交通高度发达的国家,要找到传染源,我们需要大量的数据支撑。

所以,在这场抗疫战争中,我们见到了各式各样的数据:公共交通数据(飞机、高铁、火车、客车、出租)、三大运营商数据、社区采集和个人举报数据(个人体温、个人路径轨迹、个人密切接触者、集会活动)、社交数据(微博、微信、微信运动、QQ)、互联网数据(搜索、在线问诊)、其他数据……

1.3 数据用途与可视化

将医疗小数据与各式各样的大数据结合,就能够创造出不少实用的抗疫数据应用:同行航班查询、同行车次查询、周边社区确诊查询、疫情全国分布等等,相信多数人已经使用过了,这里就不赘述了。

多数应用的推广都离不开数据的可视化,除了常规的柱状图、折线图、饼图之外,这次最让人关注的始终都是疫情地图。

来自丁香医生公众号18号的截图


有个有趣的事实,最早的数据可视化就是在1854年由John Snow医生制作的霍乱死亡病例地图。通过地图,snow医生获得了重要的认知,霍乱传染与水源有关。

除此之外,相关的病例数据还会进入到科研中,医生、科研人员将对患者的病历数据进行分析,发表研究性论文,得出对于疾病的准确认知。例如2月11日,国家疾控等机构在MedRxiv上合作发表的最新一篇论文,对8866例患者进行详尽的分析,得到了以下关键数据:

1、新冠肺炎基本再生数R0估计值为3.77(95% CI:3.51-4.05),在调整潜伏期和感染期参数后的敏感性分析中得到的R0范围为2.23-4.82;

2、从出现症状到确诊的时间中位数为5天(2-9天)。估计新冠肺炎潜伏期的中位数为4.8(3.0-7.2)天;

3、观察到的确诊患者病死率为1.44%(95% CI:1.10-1.86%),估计调整后总体的病死率为3.06%(95% CI:2.02-4.59%)。

人类对于病毒的恐惧,多数是来自于未知。现在大家对于新冠肺炎的理解越来越深入,对于它也就逐渐不再害怕。

疫情数据流转中遇到的问题

2.1 数据标准问题

在这次疫情过程中,最容易引发争议的,恐怕就是前期和中期疫情的数据变化和真实情况相差过大。在这里捋一下时间线和关键事件:

12月8日 官方通报首例不明原因肺炎12月26日 张继先发现严重性 27日上报12月31日 武汉卫健委发现肺炎27例1月5日 武汉卫健委公布病毒性肺炎诊断59例1月11日 武汉卫健委公布新冠病毒感染的肺炎41例,出院2例,重症7例,死亡1例1月12-17日 武汉卫健委每日通报,无新增新冠病毒感染的肺炎病例1月18日 武汉卫健委公布 16日新增病例4例,1月19日 国家卫健委宣布开始下放检测试剂盒。1月20日 武汉卫健委公布 18日新增病例59例 19日新增77例1月20日 钟南山肯定新型冠状病毒人传人……

不难看出,报告的确诊病例增长趋势和传染病的常规增长模型有显著差别。究其原因,关键在于病例数据的判断标准问题。

最初,在对病毒缺少了解的情况下,医院根据病毒性肺炎来作为诊断依据;

1、在1月11日,“不明原因的病毒性肺炎”病原体初步判定为新型冠状病毒之后,武汉卫健委的诊断标准采用了国家第一批专家组的诊断条件:(1)有华南海鲜市场的接触史(2)有发烧症状(3)病毒基因组测序 。由于病毒基因测序时间长、从医院角度诊断困难,且处于武汉市两会、湖北省两会期间,所以在接下来到17日,武汉卫健委没有发布新增病例;

2、在1月22日国家颁布了《新型冠状病毒感染的肺炎诊疗方案(试行第三版)》,里面明确了确诊病例需要样本的核酸检测阳性,或者通过病毒基因测序。因此我们看到的数据增长明显加快;

4、国家不断根据实际情况修改诊疗方案,一直到了第五版,将湖北和其他省份区分开,且给湖北增加临床诊断病例,因此,我们又看到了12日的暴增,其实质是放开核酸限制,直接关注能够临床诊断的患者。

图源:丁香医生

到了现在,我们可以发现疑似病例开始持续低于确诊病例,也就意味着,医院的处理能力跟上来了,现在的数据已经贴近了真实状况。在这个过程中,数据的波动只是表象,而数据背后的标准波动才是问题的核心。

最近有不少数据分析师想预测疫情结束日期,笔者认为没有必要,理解了数据的变化核心,就能理解这样的数据做预测是难以做准的,前中期获得的数据并不算是完整的疫情数据。同时,对于疫情,我们应该始终保持警惕,结束时间有合理预期即可,不必精准预测。

2.2 院内数据统计问题

在疫情期间,笔者一直在为合作的多家医院做技术方案上的支撑,所以也了解到他们在疫情期间的数据痛点。

现在院外上报的流程是,医院将EMR、HIS(医院信息系统)、LIS(实验室检验系统)等系统内的数据汇总之后,上传到卫健委、疾控中心。国家卫健委在2月3日发布了《关于加强信息化支撑新型冠状病毒感染的肺炎疫情防控工作的通知》后,多数地区已经开始采用网络直报的方式,变得较为方便。

但是多数医院对于他们正在处理的患者数量、确诊疑似病例分布、内部科室人员配比、排班情况、防护物资等状况反而无从知晓,甚至出现通过excel打印纸质表单、手写统计的方式(注意:病毒可以通过接触传播),而低效的数据工作会给他们的工作带来不少负担和危险,也让管理者难以获得全貌,无法快速调度,甚至连排班都做不了。也因此才有了上海华山医院张文宏主任排班排不下去了,让党员先上的“粗暴”做法。这个问题的实质是多数医院较为依赖厂商的服务,缺少快速开发数据采集和处理数据的能力。

从医院反馈的需求来看,医院遇到的内部数据堵塞点非常多,因此笔者将在第三部分分享帆软为医院服务的数据方案关键内容,希望能够帮助医疗机构进行数据工作。

疫情数据应用方案

真正要将疫情数据发挥出价值,就一定要从数据层面思考完善。本次疫情数据的用法应该分为两块,一是“治”,二是“防”。负责“防”的方案,帆软已经推出了疫情应用,点击下方按钮即可了解安装使用。在这里主要补充介绍负责“治”的医院方案。

点击了解疫情应用

根据医院目前已有的数据需求,笔者将其分解为三大方向。

第一块是填报微系统的需求。

医院目前的主流信息系统已经极其复杂,但其功能大多是围绕着医院的常规运行部分,对于很多可以运营的数据并没有做额外的采集,也就造成了医院的许多临时性的需求数据无法采集。那么填报微系统主要就是为了将医院日常可能通过excel进行收集的部分数据,或者突发性、临时性的数据进行采集,并保留到数据库中。

比如像临时的物资管理系统,依靠医院自身的信息化人员,两天就可以开发完成,有了这个小系统,防护物资的入库和出库都不再是问题,统计汇总十分方便。

比如像患者的随访系统,患者随访的表单可能每个科室都会不一样,而针对特定的人群和病种,随访的频次和时间也不一样。这次疫情,医院仍然要承担出院患者的随访,这个时候花20分钟设计一张自动化的表单,就会让随访工作变得极为方便。

同样,在这次疫情中,许多医院搭建的填报微系统也发挥了作用。

医院的第二块需求是自动化业务报表,目的就是为了让医院从复杂繁琐的报表任务中解脱出来,并且能够结合医院自身情况,进行报表的快速调整和修改。

实验室报告样本分析——医院自行开发
实时住院查询——医院自行开发

同样的,在疫情过程中,自动化报表也在医院发挥着重要作用,在此,笔者特地梳理出了医院详细的分析指标模块,供其他医院参考。

第三块是管理型的数据应用,将医院的EMR、HIS、LIS系统的数据连接上,再结合填报微系统采集的数据,很方便地就能给医院管理者分析出目前的医院运行状况和指挥发力点。

全院门诊监控看板——医院自行开发


地区疫情医院监控看板——帆软提供

此外,帆软推出了企业版的防疫应用方案,有兴趣的朋友可以点击下方按钮了解安装使用。

点击了解疫情应用

现在,疫情之战已经能看到胜利的曙光,但这绝不会是世界上最后一场疫战。经历了03年的非典、13年的禽流感、20年的新冠肺炎,笔者认为,我们现在能够做的是通过技术不断提高发现传染病的能力,因为早控制一点,就能让感染的数字少一点,损失的生命就会少一点。正如张文宏主任在演讲中所说,总要有一批人保持焦虑,人类才能长久的活下去。

发布于 02-19

文章被以下专栏收录