不规则采样时间序列的插值预测网络
摘要
本文提出了一种新的深度学习体系结构,来解决具有稀疏和不规则采样的多元时间序列的监督学习问题。该架构基于插值网络的使用,随后是预测网络的应用。
- 插值网络允许在插值阶段跨多元时间序列的多个维度共享信息,而任何标准深度学习模型都可以用于预测网络。这项工作的动机是分析电子健康记录中的生理时间序列数据,这些数据是稀疏的、不规则采样的和多变量的。我们研究了这个架构在分类和回归任务上的性能,表明我们的方法优于一系列基线和最近提出的模型。
介绍
在过去几年中,在开发专门的模型和架构方面取得了重大进展,这些模型和架构可以适应稀疏和不规则采样的时间序列作为输入。
- 不规则采样的时间序列是指在其观测时间之间具有不规则间隔的样本序列。当连续观测之间的间隔通常很大时,不规则采样的数据被认为是稀疏的。在监督学习设置中特别感兴趣的是直接使用多元稀疏和不规则采样时间序列作为输入来执行端到端学习的方法,而不需要单独的插值或插补步骤。
- 在这项工作中,我们提出了一个新的模型架构,用于监督学习多元稀疏和不规则采样数据的插值预测网络。该架构基于使用组织成插值网络的几个半参数插值层,然后应用可以利用任何标准深度学习模型的预测网络。
- 在这项工作中,我们使用GRU网络作为预测网络。插值网络允许包含在每个输入时间序列中的信息有助于模型中所有其他时间序列的插值。插值和预测网络的参数通过由监督和非监督成分组成的复合目标函数被端到端地学习。
- 医院系统捕捉密集的生理数据流仍然很少。相反,电子健康记录中的生理时间序列数据通常既稀疏又不规则采样。观察时间在生理变量之间缺乏一致性的额外问题也非常普遍。
相关工作
这项工作感兴趣的问题是从稀疏和不规则采样的多元时间序列中学习监督机器学习模型。如引言中所述,稀疏且不规则采样的时间序列是指在其观测时间之间具有大且不规则间隔的样本序列。这种数据通常出现在电子健康记录中,对于监督和非监督学习方法来说,这都是一个重大问题。稀疏和不规则采样的时间序列数据也出现在一系列具有类似复杂观测过程的其他领域,包括气候科学、生态学、生物学和天文学。
一个密切相关(但不同)的问题是在存在缺失数据的情况下执行监督学习。主要区别在于缺失数据问题通常是相对于固定维特征空间定义的。在不规则采样的时间序列问题中,观测值通常出现在连续时间内,对于某些域可能没有“正常”或“预期”采样频率的概念。
在监督学习中处理缺失数据的方法包括插补方法的预应用和特征和标签的联合学习模型。联合模型可以通过生成学习来优化特征和标签的联合似然性,也可以通过区分学习来优化标签的条件似然性。通过将时间轴离散成不重叠的区间,可以将不规则采样问题转化为缺失数据问题。然后,没有观测值的区间被称为包含缺失值。这种方法强制选择离散化间隔长度。
- 当间隔很长时,丢失的数据会更少,但在同一间隔内也可以有多个观察值,这必须使用临时方法进行说明。
- 当间隔较短时,大多数间隔最多包含一个值,但许多间隔可能为空。
将不规则采样问题转化为丢失数据问题的另一种选择是构建能够直接使用不规则采样的时间序列作为输入的模型。机器学习和统计文献包括几个具有这种能力的模型。在概率环境下,高斯过程模型能够通过使用均值和协方差函数来表示连续时间数据(Rasmussen,2006)。这些模型具有类似于用核来定义的非概率类似物。例如,Lu等人。提出了一种基于核的方法,可用于产生两个不规则采样时间序列之间的相似性函数。Li&Marlin随后将该方法推广到高斯过程模型之间的核的情况。Li&Marlin展示了如何使用重新参数化技巧来扩展这些想法,以实现对堆叠在高斯过程层之上的深度神经网络模型(前馈、卷积或递归)的端到端训练。
另一项单独的工作着眼于使用更多的局部插值方法,同时仍然直接在连续时间输入上操作。例如,Che等人提出了几种基于门控递归单元(GRU)网络的方法,并结合了简单的推算方法,包括平均推算和用过去值向前填充。Che等人还考虑了一种方法,该方法将由观测值和观测这些值的时间戳组成的序列作为输入。先前观察到的输入值随着时间向总体平均值衰减。
这些现有方法在插值层内使用高斯过程表示。由此产生的计算可能是昂贵的,并且如上所述,在多变量情况下的协方差函数的设计可能是具有挑战性的。相比之下,我们提出的模型使用了半参数、确定性、前馈插值层,允许在层内和层间进行非常灵活的插值。我们的体系结构中的插值层产生规则采样的插值,可以作为任意的、未修改的、深度分类和回归网络的输入。这与切等人的做法形成了鲜明对比。其中直接修改了循环网络架构,降低了该方法的模块性。最后,与Lipton等人类似。我们的模型包括有关观测发生的时间的信息。然而,我们使用半参数强度函数将观测事件序列直接建模为连续时间点过程,而不是预先离散化输入并根据二进制观测掩模或一组缺失数据指标来查看这些信息。
符号
- 设D={(Sn,yn)|n=1,…,N}表示包含N个数据案例的数据集。单个数据案例包括单个目标值yn(分类时为离散值,回归情况下为实值),以及多维、稀疏和不规则采样的多变量时间序列sn。多变量时间序列的不同维度d可以在不同的时间具有观测值,以及不同的观测总数Ldn。因此,我们将n个数据案例的时间序列d表示为tuple,sdn=(tdn,xdn),其中tdn=[t1dn,…,tLdndn]是定义观测的时间点列表,xdn=[x1dn,…,xLdndn]是相应的观测值列表。
模型体系结构
- 结构由两个主要组件组成:插值网络和预测网络。插值网络相对于一组参考时间点r=[r1,…,rt]对多变量、稀疏和不规则采样的输入时间序列进行插值。我们假设所有的时间序列都定义在一个共同的时间间隔内(例如,对于MIMIC-III数据集,在入院后的第一个24或48小时内)。在这项工作中,两层内插网络,每一层执行不同类型的内插。
- 第二个部件是预测网络,它将插值网络的输出作为其输入,并产生目标变量的预测yn。预测网络可以由任何标准的监督神经网络结构(全连接前馈、卷积、递归等)组成。因此,就不同预测网络的使用而言,该体系结构是完全模块化的。为了训练内插网络,除了来自预测网络的监督学习信号之外,该体系结构还包括自动编码组件以提供非监督学习信号。
插值网络
插值网络的目标是提供在参考时间点r=[r1,…,rt]定义的每个D维多变量输入时间序列的插值的集合。在这项工作中,我们对每个D维输入时间序列使用总计C=3的输出。
- 这三个输出捕获平滑趋势、瞬变和观测强度信息。我们定义fθ为插值网络输出S’n的函数,输出S’n是一个固定大小数组,对于所有输入Sn,其维数(DC)×T。
插值网络中的第一层分别对每个时间序列执行三个半参数单变量变换。每个变换都基于一个径向基函数(RBF)网络,以适应连续时间观测。变换是低通(或平滑)插值σd、高通(或非平滑)插值γd和强度函数λd。对于每个数据情况和每个输入时间序列d,这些变换在参考时间点计算。平滑插值σd使用具有参数αd的RBF核,而非平滑插值γd使用具有参数κ*αd的RBF核,κ>1。
- 径向基函数核(RBF kernel),也被称为高斯核或平方指数核是常见的核函数。RBF核被应用各类核学习算法中,包括支持向量机、高斯过程回归等。
- 径向基函数 (RBF), 通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数。径向基函数插值法
第二内插层通过考虑所有时间序列上的可学习相关性ρdd‘,在每个参考时间点合并所有时间序列上的所有D维时间序列上的信息。这导致针对每个输入维度的交叉维插值χd。我们还将每个输入维度的瞬态分量Td定义为来自第一层的高通(或非平滑)插值γd和平滑交叉维度插值χd之间的差。
在下一节介绍的实验中,我们使用每个维度d,总共三个插值网络输出作为预测网络的输入。我们使用平滑的跨通道内插值χd来捕获平滑趋势,使用瞬变分量Td来捕获瞬变,使用强度函数λd来及时捕捉有关观测点的信息。
预测网络
所有D维输入多变量时间序列都被重新表示为在规则间隔的参考时间点集合T=r1,…,rt上定义C输出(在我们的实验中,如上所述,我们使用C=3。同样,我们将插补网络输出的完整集合称为S’n=fθ(r,sn),其可以表示为大小为(DC)×T的矩阵。
预测网络必须获取S’A输入并输出目标值yn的预测值y’n用于数据情况。该模型的这个组件有许多可能的选择。例如,矩阵可以转换成单个长向量,并作为输入提供给标准多层前馈网络。时间卷积模型或像GRU或LSTM这样的递归模型可以应用于矩阵S’n的时间片。在这项工作中,我们利用GRU网络作为预测网络进行实验。
参数学习
为了学习模型参数,我们使用了一个由监督组件和非监督组件组成的复合目标函数。这是由于在给定可用训练数据量的情况下,仅受监督组件不足以学习插值网络参数的合理参数。所使用的非监督分量对应于类似自动编码器的损失函数。但是,通过将RBF核参数设置为非常大的值,半参数RBF插值层能够精确拟合输入点。
为了避免这种解决方案,并迫使内插层学会正确地内插输入数据,有必要在学习期间保持一些观测数据点dn,然后只计算这些数据点的重构损失。这是大容量自动编码器的一个众所周知的问题,过去的工作已经使用了类似的策略来避免在没有学习有用结构的情况下简单地记忆输入数据的问题。
我们假设预测网络的损失(分类使用交叉熵损失,回归使用误差平方)。我们采用插值网络自动编码器损失(我们使用标准平方误差)。
实验和结果
在本节中,我们提供了基于稀疏和不规则样本多变量时间序列的分类和回归任务的实验。在这两种情况下,预测网络的输入是稀疏且不规则采样的时间序列,而输出是代表预测类别或回归目标变量的单个标量。我们在两个公开可用的真实世界数据集上测试了模型框架:Mimic-III以及UWave手势是由分为八类的简单手势模式组成的单变量时间序列数据集。我们以MIMIC-III死亡率和住院时间预测任务为例,对多变量时间序列进行分类和回归。我们使用uWave手势分类任务来评估相对于单变量基线模型的训练时间和性能。
基准模型
我们将我们提出的模型与一些基线方法进行了比较,包括使用基本特征学习的现成分类和回归模型,以及基于定制神经网络模型的较新方法。
非神经网络基线模型
对于非神经网络基线,我们评估Logistic回归、支持向量机(SVM)、随机森林(RF)和AdaBoost用于分类任务。对于住院时间预测任务,我们使用了线性回归、支持向量回归、AdaBoost回归和随机森林回归。所有这些模型的标准实例都需要固定大小的特征表示。在丢失数据的情况下,我们使用时间离散化和前向填充来创建固定大小的表示,并将该表示用作非神经网络基线的特征集。
神经网络基线模型
我们使用简单的内插或推算方法,与几个建立在GRU上的现有深度学习基线进行比较。此外,我们还与目前最先进的死亡率预测模型进行了比较。他们的工作建议使用递归神经网络(RNNs)通过在输入层或隐藏层引入时间衰减来处理不规则采样和丢失的数据。我们还评估了可伸缩的端到端高斯过程适配器以及多任务高斯过程RNN分类器,分别用于不规则样本的单变量和多变量时间序列分类。
- GP-GRU:以GRU为分类器的端到端高斯过程(高斯过程中任意随机变量的线性组合都服从正态分布,高斯过程的性质与其协方差函数有密切联系,在构造高斯过程时,一些特定形式的协方差函数被称为核函数)。
- GRU-M:用训练示例中变量的全局平均值替换缺失的观测值。
- GRU-F:设置为该时间序列内最后观察到的测量值的缺失值(称为正向填充)。
- GRU-S:用全局平均值替换缺失的值。输入与掩蔽变量和指示特定变量缺失多长时间的时间间隔连接在一起
- GRU-D:为了捕捉更丰富的信息,在GRU的输入层和隐藏层都引入了衰减。不是用最后一次测量来替换遗漏的值,而是随着时间的推移,遗漏的值向经验平均值衰减。
- GRU-HD:GRU-D的变体,只在隐藏层引入衰减。
评估指标
图2:UWAVEGENTURE数据集上的分类性能。具有几乎相同性能的模型用相同的点显示,例如(GRU-M,GRU-F)和(GRU-D,GRU-HD)。
表1:MIMIC-III上死亡率(分类)和住院时间预测(回归)任务的性能。损失:交叉熵损失,MedAE:绝对误差中位数(天),EV:解释方差
总结
在本文中,我们提出了一种新的框架来处理稀疏和不规则样本时间序列中的监督学习问题。建议的框架是完全模块化的。它使用内插网络来适应使用稀疏和不规则采样数据作为监督学习输入所产生的复杂性,然后应用预测网络,该预测网络在由内插网络提供的规则间隔且完全观察到的多通道输出上运行。所提出的方法还解决了现有方法的一些困难,包括中使用的高斯过程插值层的复杂性,以及Che等人的方法缺乏模块性。我们的框架还引入了新的元素,包括使用半参数前馈插值层,以及将不规则采样的输入时间序列分解为多个采样时间序列。有很多不同的信息渠道。我们的结果显示,与一系列基线和最先进的方法相比,分类和回归任务在统计上都有显著的改善。
将生理时间序列和临床笔记与深度学习相结合,提高ICU死亡率预测
期刊:arXiv 2021
摘要
重症监护室电子健康记录存储患者的多模式数据,包括临床记录、稀疏和不规则采样的生理时间序列、实验室测量值等。迄今为止,大多数从重症监护室EHR数据中学习预测模型的方法都集中在单一模式上。
在本文中,我们利用最近提出的插值-预测深度学习架构(Shukla和Marlin 2019)作为基础,探索如何将生理时间序列数据和临床笔记集成到统一的死亡率预测模型中。我们研究早期和晚期融合方法,并演示临床文本和生理数据的相对预测值如何随时间变化。我们的结果表明,与单独使用单一模式相比,后期融合方法可以在死亡率预测性能方面提供统计学上的显著改善。
介绍
电子健康记录(EHRs)存储与个人病史相关的多模式数据,包括临床记录、生理测量、实验室结果、放射学图像等。重症监护室电子健康记录特别有趣,因为它们包含多个生理变量(心率,血压,血氧饱和度等)随时间的测量值。通过创建基于机器学习和数据挖掘技术的改进决策支持工具,对这些数据的分析有可能改善护理。然而,数据的复杂性导致了对孤立分析单一数据模式的关注。
在本文中,我们探讨了将生理时间序列数据和临床文本整合到统一的死亡率预测模型中的预测价值。具体来说,我们通过时间利用临床笔记的内容,并将它们包含的信息与生理时间序列数据融合。我们基于最近提出的插值-预测深度学习架构作为稀疏建模框架和不规则采样的生理时间序列。我们研究了几种表达临床文本的方法,以及整合两种数据模式的早期和晚期融合方法。我们从介绍生理时间序列建模、临床文本和融合方法的相关工作开始。接下来,我们将介绍所提出的方法,包括对插值预测网络的简要回顾。最后,我们在MIMIC-III数据集上展示了死亡率预测实验,证明了临床文本和生理数据的相对预测值在入院后的前48小时内是如何变化的。我们表明,较之单独使用单个模态,后期融合方法可以提供显著的改进。
相关工作
这项工作感兴趣的问题是通过将临床时间序列与非结构化临床文本数据相融合来学习有监督的机器学习模型。在本节中,我们回顾了临床文本和不规则采样的生理时间序列的稀疏建模和分析的相关工作,以及融合方法的相关工作。
临床文本:过去几年,随着临床笔记的访问越来越多,在理解临床文本数据和使用这些数据来改善临床结果预测方面取得了重大进展。自然语言处理和信息提取技术已成功应用于包括临床概念提取、关系提取、问题回答、预测建模等任务。使用叙事笔记预测临床结果的方法包括使用基于规则的医学概念提取或机器学习技术。然而,这种方法在规则构建、关键词选择、文本注释或有监督机器学习的特征工程方面需要大量的工作。
主题建模等无监督方法可以用来解决这个问题。主题建模(Ghassemi等人,2012)方法依赖于从临床文本数据中提取主题特征。Lehman等人结合了主题建模和医学概念提取方法来预测住院死亡率。最近,包括word2vec和GloV e (2014)在内的单词嵌入方法在众多自然语言处理任务中取得了成功,受此启发,Minarro Gimenez、Marin Alonso和Samwald (2014)学习了一种用于医学文本数据的嵌入模型。De Vine等人(2014)使用期刊摘要来训练嵌入。Choi,Yi-I Chiu和Sontag (2016)评估了单词嵌入在捕捉医学概念之间关系的效率。Boag等人(2018)比较了由单词包(BOW)、word2vec和所学LSTM的最终隐藏层生成的临床笔记表示,用于下游临床预测任务。他们的结果表明,没有简单的获胜代表。BoW和word2vec在预测住院死亡率方面取得了相似的表现。在最近的其他工作中,Ghassemi等人(2015)使用高斯过程将临床笔记序列建模为主题的时间序列。在这项工作中,我们将临床笔记视为单词或句子的序列,并使用递归网络来预测住院死亡率。我们使用简单平均值(Pennington,Socher和Manning 2014)以及单词嵌入的加权平均值生成句子嵌入。与Boag等人(2018年)相似,我们比较了单词包和手套模型。最后,与Kalchbrenner、Grefenstette和Blunsom (2014)相似,我们也使用卷积模型进行预测,其中临床笔记以单词嵌入的方式表示。
不规则采样的生理时间序列:稀疏和不规则采样的时间序列是在它们的观测时间之间具有大的和不规则的间隔的样本序列。这种数据通常出现在电子健康记录中,对于监督学习方法和非监督学习方法来说都是一个重大问题(Marlin等人,2012年)。一个密切相关的问题是在存在缺失数据的情况下执行监督学习(Little和Rubin 2014)。事实上,通过离散化时间轴并指示没有观察到样本的间隔丢失,分析稀疏和不规则采样数据的问题可以转化为丢失数据的问题(通常伴随着信息或推理效率的损失)。马林等人(2012年)以及利普顿、卡勒和韦特泽尔(2016年)采用了这种方法来处理不规则采样。
随着缺失数据量的增加,学习通常会变得更加困难,因此选择离散化间隔长度必须作为这种方法的超参数来处理。预离散化的替代方法是构建能够直接使用不规则采样时间序列作为输入的模型。
- 例如,Lu等人(2008)提出了一种基于核的方法,该方法可用于产生两个不规则采样时间序列之间的相似性函数。李和马林(2015)随后对此进行了概括高斯过程模型之间核情况的探讨。Li和Marlin (2016)展示了深度神经网络模型(前馈、卷积或递归)如何通过端到端训练叠加在高斯过程层之上,而Futoma等人(2017)展示了如何将这种方法从单变量推广到多变量。上述模型的一个重要特性是,它们允许将来自所有可用时间点的所有信息合并到全局插值模型中。
- 另一个独立的研究方向是使用更多的局部插值方法,同时仍然直接对连续时间输入进行操作。例如,Che等人(2018年)提出了几种基于门控递归单位(GRU)网络(Chung等人,2014年)的方法,结合了简单的插补方法,包括均值插补和用过去的值进行正向填充。Che等人(2018年)还考虑了一种方法,该方法将由观察到的值和观察到这些值的时间戳组成的序列作为输入。先前观察到的输入值随着时间朝着总平均值衰减。在另一个变体中,隐藏状态类似地衰减到零。Yoon,Zame和van der Schaar (2017)提出了另一种基于多方向RNN的类似方法,该方法除了在流内运行之外,还在流间运行。
在这项工作中,我们使用最近提出的插值预测网络来建模稀疏和不规则采样的生理时间序列(Shukla和Marlin 2019)。该框架解决了一些困难,包括Li和Marlin (2016)和Futoma等人(2017)中使用的高斯过程插值层的复杂性,以及Che等人(2018)的方法缺乏模块化。
融合模型:学习多模态表示是一个基本的研究问题。Ngiam等人(2011)引入了一个多模态深度学习框架,将视频和音频结合起来用于语音识别。具有语言和视觉子空间的多模态学习已经被用于提高图像字幕任务的性能。Srivastava使用多模态(文本和图像)的融合表示作为区分任务的输入。Silberer使用堆叠自动编码来融合多模态数据,而Kiela和Bottou (2014)采用简单的串联策略,并使用卷积模型提取视觉特征和文本的跳格模型来实现经验改进。
另一项工作是将时间序列数据和文本信息结合起来。唐、杨和周(2009)分析了新闻报道以提高对股价的预测,而罗德里格斯、马高和佩雷拉(2018)使用简单的串联方法来组合时间序列和文本数据,用于通过学习它们的潜在表示来预测出租车需求。在临床数据空间中,Fiterau等人(2017年)展示了如何结合年龄、性别、身高等结构化信息。用时间序列数据可以提高性能。徐等(2018)通过整合连续监测数据和离散临床事件序列,开发了临床预测模型。Rajkomar等人(2018年)结合了多种模式,如人口统计、供应商订单、诊断、程序、药物、实验室值、临床文本数据和生命体征,并在多项任务中表现出改进的表现。
金等(2018)将非结构化临床文本数据与生理时间序列数据相结合,用于院内死亡率预测,类似于目前的工作。相对于这项工作,我们考虑了多种临床文本表示,将我们的时间序列模型基于插值预测网络(Shukla和Marlin 2019),并关注临床文本和生理数据的相对值如何随时间变化。此外,我们考虑了早期和晚期融合方法,扩展了Kiela和Bottou (2014)和Fiterau等人(2017)的前期工作。
模型
- 插值预测网络框架。该架构基于使用组织成插值网络的几个半参数插值层,然后应用可以利用任何标准深度学习模型的预测网络。
插值网络和预测网络,在融合的情况下,我们使用这个目标来单独预训练插值预测网络参数。
文本模型(预训练纯文本模型,用于提供纯文本基线):我们考虑了几种不同的非结构化文本建模方法,包括基于单词包和单词嵌入表示的方法。
TF-IDF:首先使用从单词包(词袋)计算出的TFIDF特征表示每个文本文档。我们在TF-IDF输入上应用一个大小为128的单隐层(1NN)全连接网络,然后是预测网络的其余部分。
单词嵌入(WE):首先将每个文档表示为矩阵,其中行是文档中的单词,列是单词嵌入维度。
未加权句子嵌入(USE):首先将每个文档表示为矩阵,其中行是文档中的句子,列是句子嵌入维度。
加权句子嵌入(WSE):每个文档表示为一个矩阵,其中行是文档中的句子,列是句子嵌入维度。
混合模型:插值预测网络与用于表示非结构化文本的基于嵌入的模型相结合
后期融合:该架构如图2(左)所示。在这种方法中,预测网络使用与Shukla和Marlin (2019)使用的相同的GRU架构来提取生理时间序列数据的固定维潜在表示。该表示与文本嵌入层连接,并且使用线性层将组合的潜在表示连接到预测目标。
早期融合:如图2(右)所示,我们考虑对生理时间序列和临床笔记中包含的信息进行更深入的整合。在这种方法中,我们的预测网络可以在通过GRU层合并生理时间序列数据之前访问临床文本数据。
实验和结果
数据集
在MIMIC-III数据集中,为患者的每一个独特的入院到出院事件分配一个独特的ID。每集的数据都被视为独立的。在训练-测试分割中,我们根据医院入院ID分割数据(即80% (27510)的ID用于训练,20% (8597)用于测试)。训练集中另外留出20% (6877个数据案例)用作验证集。
我们只使用单个入院到出院事件的数据,所以我们构建的数据案例在时间上是不重叠的。
我们的实验基于公开可用的MIMIC-III数据集。该数据集包含稀疏和不规则采样的生理信号、出院总结、进展记录、药物治疗、诊断代码、住院死亡率、住院时间、人口统计信息等。它包括大约58,000份住院记录。我们专注于使用临床文本和时间序列数据预测住院死亡率。我们从Shukla和Marlin (2019)中使用的数据集1开始,该数据集由住院到出院住院时间超过48小时的住院记录组成。从这个数据集中,我们获得了42,984条实验记录,这些记录是在移除了新生儿和不包含临床记录的入院记录后获得的。入院可能相当于零次或多次重症监护室发作。在本文中,我们只考虑住院期间至少一次入住重症监护室的数据病例。类似于Shukla和Marlin (2019),我们从每个记录中提取了12个标准生理变量。表1显示了变量和采样率(每小时)。
我们使用入院时已知的文本数据,如主诉、既往病史和当前病史。为了避免任何信息泄露,我们小心地从出院总结中提取这些信息。
我们还从非出院报告中提取进展记录,如呼吸、心电图、回声、放射学和护理报告。我们使用这些报告上的日期和时间戳来创建一组在入院后6到48小时内可用的笔记。请注意,生理数据和临床笔记以保守的方式对齐。如果一个临床记录有相关的日期和时间,我们假设信息在指定的时间是可用的。对于有日期但没有时间可用的笔记,我们假设信息在指定日期结束时可用。数据集中的一些心电图和回声报告会出现这种情况。
- SpO2:血氧饱和度,HR:心率,RR:呼吸频率,SBP: 收缩压,DBP:舒张压,Temp:体温,TGCS:CRR:UO:,FIO2:吸入氧浓度百分比,Glucose:葡萄糖,pH:酸碱度(12个非规则采样的生理时间序列)
具体预处理细节
所有模型都经过训练,以最小化交叉熵损失。对于所有的模型,我们独立地调整超参数——隐藏层的数量、隐藏单元、卷积滤波器、滤波器大小、学习率、辍学率和验证集上的正则化参数。
评估指标
我们的实验集中在纯文本模型、纯时间序列模型和融合模型对住院死亡率预测问题的相对预测性能上。
我们将融合模型与许多分别对生理时间序列或临床文本数据建模的基线方法进行比较。Shukla和Marlin (2019)表明,对于稀疏和不规则采样的时间序列,插值预测网络在分类和回归任务上优于一系列基线和最近提出的模型。因此,我们使用插值预测网络作为我们的纯时间序列基线模型。
我们使用在测试集上计算的泛化性能的估计来评估所有模型。我们根据ROC曲线下的面积(AUC分数)报告测试集的性能。
我们介绍死亡率预测实验的结果。我们从纯文本和时序基线结果开始,然后是融合模型结果。
1.纯文本基线:表2显示了描述的纯文本模型的分类性能。我们在入院时可用文本数据的情况下评估所有模型。这些结果表明,基于TFIDF的模型明显优于嵌入方法。这可能是因为健康特定的概念在所使用的标准手套嵌入中没有得到很好的体现。另一个可能的原因可能是使用缩写术语,这在临床笔记中非常常见。因此,我们在根据入院后所有可用的进展记录进行预测时,仅考虑TF-IDF模型。我们可以看到,随着时间的推移,随着更多的文本数据变得可用,使用TF-IDF模型的预测性能显著提高。
2.仅时间序列基线:表3评估了描述的仅时间序列插值预测网络的预测性能。正如预期的那样,预测性能随着观察到的生理数据量的增加而增加。我们注意到,这里报告的结果与Shukla和Marlin (2019)的结果不同,因为移除不包含临床数据的医院入院记录需要额外的数据过滤笔记和新生儿数据。与表2中的结果相比,我们可以看到入院时可用的临床文本的预测值超过了入院后42小时内可用的生理数据的预测值。下一组实验旨在评估这两种模式融合后是否能提高性能。
3.融合方法:基于在纯文本基线实验中观察到的基于TF-IDF的模型的成功,我们检查了使用基于TF-IDF的模型嵌入临床文本数据的融合方法的性能。我们首先评估一种融合方法的性能,这种方法只能访问入院时可用的临床文本数据,但会增加入院后48小时内的生理时间序列数据。表3显示了在该实验场景下早期和晚期融合模型的分类性能。图3显示了早期和晚期融合相对于纯时间序列和纯文本基线的性能。我们可以看到,在入院后的前30小时内,晚期融合方法比早期融合方法获得了更好的性能,而晚期融合方法则显著提高了纯时间序列基线。然而,我们看到,随着生理数据量的增加,包含生理数据的所有三个模型的预测性能都在提高。此外,我们看到融合模型和仅时间序列模型之间的性能差距随着时间的推移而减小,这表明初始融合与入院时可用的文本数据所提供的优势随着时间的推移而减小,因为该信息变得不太相关。最后,我们注意到,后期融合模型始终优于纯文本基线,而早期融合模型最初表现出比纯文本TF-IDF基线更低的性能,但继续匹配,然后优于纯文本基线。
对于这个实验,我们只考虑基于TF-IDF的文本嵌入模型,并将讨论限制在后期融合方法,因为这些模型在我们迄今为止的实验中取得了最好的性能。我们考虑文本只在入院时可用,但生理时间序列的数量不断增加。以及不断增加生理时间序列和文本记录的情况。
- 纳入入院时0时已知的文本数据,然后是入院后6至48小时内已知的所有笔记的文本。
总结
在本文中,我们开发了用于调查重症监护室电子病历中临床笔记内容和生理时间序列数据的相对预测值的方法。我们已经考虑了仅基于临床文本的模型,仅基于生理时间序列的模型,以及结合两种模态的新融合方法。我们的实验侧重于使用这种方法来评估临床文本和生理数据的相对预测值,作为入院后时间的函数。我们的重点是预测入院后超过48小时的住院死亡率事件。我们的结果表明,随着观察到更多的生理数据,入院时已知的文本记录中信息的相对价值会随着时间的推移而降低。然而,合并新可用的文本数据可以显著提高预测性能。最后,我们的结果有力地支持了融合两种数据模式导致最佳整体预测性能的结论。