当前位置：首页 > news >正文

从ICU监护到出院账单：用Python+SQL拆解MIMIC-IV里的真实医疗数据闭环

news 2026/6/2 1:45:47

从ICU监护到出院账单：Python+SQL解析MIMIC-IV医疗数据全流程实战

医疗数据分析师经常面临一个核心挑战：如何从海量临床数据中提取有价值的业务洞察？MIMIC-IV作为全球最开放的危重症医疗数据库，为这个挑战提供了绝佳的研究素材。本文将带您用Python和SQL工具链，完整复现一个重症患者从入院到出院的数据分析闭环。

1. 环境准备与数据加载

在开始分析之前，我们需要搭建一个高效的工作环境。推荐使用Jupyter Notebook作为交互式分析平台，配合以下Python库：

# 核心数据分析库 import pandas as pd import numpy as np # 数据库交互 from sqlalchemy import create_engine import psycopg2 # 可视化 import matplotlib.pyplot as plt import seaborn as sns # 医疗专用分析 import lifelines # 生存分析

MIMIC-IV采用PostgreSQL存储，建立连接时需要特别注意性能优化：

# 创建数据库引擎（示例配置） engine = create_engine( "postgresql+psycopg2://user:password@localhost:5432/mimiciv", pool_size=10, max_overflow=20, connect_args={"options": "-c statement_timeout=30000"} )

提示：对于大型查询，建议设置statement_timeout参数防止长时间挂起。分析ICU数据时，30秒的超时设置通常足够。

数据加载策略对分析效率影响显著。以下是按需加载的优化方案：

def load_icu_stays(limit=None): query = """ SELECT ie.subject_id, ie.hadm_id, ie.stay_id, ie.intime, ie.outtime, EXTRACT(EPOCH FROM (ie.outtime - ie.intime))/3600 AS los_hours, adm.admission_type, adm.insurance FROM mimiciv_icu.icustays ie INNER JOIN mimiciv_hosp.admissions adm ON ie.hadm_id = adm.hadm_id """ if limit: query += f" LIMIT {limit}" return pd.read_sql(query, engine)

2. ICU患者生命体征分析

重症监护的核心是持续监测生命体征。我们从chartevents表中提取关键指标，需要注意处理数据质量问题：

# 定义关键生命体征的itemid VITAL_SIGNS = { 220045: '心率', 220050: '血压(收缩压)', 220051: '血压(舒张压)', 220052: '平均动脉压', 220210: '呼吸频率', 223761: '体温(摄氏度)', 223900: 'SpO2' } def get_vital_signs(stay_ids): item_ids = list(VITAL_SIGNS.keys()) query = f""" SELECT ce.stay_id, ce.charttime, ce.itemid, ce.valuenum, ce.valueuom FROM mimiciv_icu.chartevents ce WHERE ce.stay_id IN ({','.join(map(str, stay_ids))}) AND ce.itemid IN ({','.join(map(str, item_ids))}) AND ce.valuenum IS NOT NULL ORDER BY ce.stay_id, ce.charttime """ return pd.read_sql(query, engine)

常见的数据清洗挑战包括：

单位不一致（如体温有摄氏度和华氏度）
异常值（如心率2000次/分显然是录入错误）
设备差异（不同监护仪测量精度不同）

处理后的数据可进行趋势分析：

def plot_vital_trends(df, stay_id): patient_data = df[df['stay_id'] == stay_id].copy() patient_data['指标名称'] = patient_data['itemid'].map(VITAL_SIGNS) plt.figure(figsize=(12, 8)) sns.lineplot( data=patient_data, x='charttime', y='valuenum', hue='指标名称', style='指标名称', markers=True, dashes=False ) plt.title(f'患者{stay_id}生命体征趋势') plt.xticks(rotation=45) plt.tight_layout() return plt.gcf()

3. 诊断与费用关联分析

医疗成本分析需要关联诊断(diagnoses_icd)与费用(drgcodes)数据。首先我们需要理解DRG编码系统：

DRG属性	说明	分析价值
drg_severity	疾病严重程度(1-4)	预测住院时长
drg_mortality	死亡风险等级(1-4)	预后评估
drg_code	诊断相关分组代码	费用核算基准

构建分析数据集：

def load_diagnosis_cost_data(): query = """ SELECT diag.subject_id, diag.hadm_id, dicd.long_title AS diagnosis, drg.drg_code, drg.description AS drg_description, drg.drg_severity, drg.drg_mortality, adm.admission_type, adm.insurance, EXTRACT(EPOCH FROM (adm.dischtime - adm.admittime))/86400 AS los_days FROM mimiciv_hosp.diagnoses_icd diag INNER JOIN mimiciv_hosp.d_icd_diagnoses dicd ON diag.icd_code = dicd.icd_code AND diag.icd_version = dicd.icd_version LEFT JOIN mimiciv_hosp.drgcodes drg ON diag.hadm_id = drg.hadm_id INNER JOIN mimiciv_hosp.admissions adm ON diag.hadm_id = adm.hadm_id WHERE drg.drg_type = 'HCFA' """ return pd.read_sql(query, engine)

进行费用影响因素分析时，可以采用机器学习方法：

from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import train_test_split def analyze_cost_factors(df): # 数据预处理 df = pd.get_dummies(df, columns=['admission_type', 'insurance']) features = ['drg_severity', 'drg_mortality', 'los_days'] + \ [c for c in df.columns if c.startswith('admission_type_') or c.startswith('insurance_')] X_train, X_test, y_train, y_test = train_test_split( df[features], df['los_days'], test_size=0.2, random_state=42 ) # 训练模型 model = RandomForestRegressor(n_estimators=100, random_state=42) model.fit(X_train, y_train) # 特征重要性分析 importance = pd.DataFrame({ 'feature': features, 'importance': model.feature_importances_ }).sort_values('importance', ascending=False) return importance

4. 患者流转路径可视化

通过transfers表可以重建患者在院内完整的移动轨迹。以下是关键字段说明：

eventtype: 区分入院(admission)、转科(transfer)、出院(discharge)
careunit: 科室类型（如MICU内科ICU、SICU外科ICU）
intime/outtime: 时间戳记录

def plot_patient_journey(subject_id): query = f""" SELECT t.eventtype, t.careunit, t.intime, t.outtime, adm.admission_type FROM mimiciv_hosp.transfers t INNER JOIN mimiciv_hosp.admissions adm ON t.hadm_id = adm.hadm_id WHERE t.subject_id = {subject_id} ORDER BY t.intime """ journey = pd.read_sql(query, engine) # 转换时间格式 journey['duration'] = (journey['outtime'] - journey['intime']).dt.total_seconds()/3600 journey['start_hour'] = (journey['intime'] - journey['intime'].min()).dt.total_seconds()/3600 journey['end_hour'] = journey['start_hour'] + journey['duration'] # 绘制甘特图 plt.figure(figsize=(12, 4)) for i, row in journey.iterrows(): plt.plot( [row['start_hour'], row['end_hour']], [i, i], marker='o', label=row['careunit'] if pd.notnull(row['careunit']) else row['eventtype'] ) plt.yticks(range(len(journey)), journey['careunit'].fillna(journey['eventtype'])) plt.xlabel('小时数') plt.title(f'患者{subject_id}院内流转路径') plt.grid(True) return plt.gcf()

对于批量分析，可以计算各科室流转效率：

WITH transfer_stats AS ( SELECT careunit, AVG(EXTRACT(EPOCH FROM (outtime - intime))/3600) AS avg_stay_hours, COUNT(*) AS transfer_count FROM mimiciv_hosp.transfers WHERE careunit IS NOT NULL GROUP BY careunit ) SELECT careunit, avg_stay_hours, transfer_count, avg_stay_hours * transfer_count AS total_bed_hours FROM transfer_stats ORDER BY total_bed_hours DESC

5. 构建端到端分析流水线

将上述模块整合成自动化分析流水线：

class MIMICAnalyzer: def __init__(self, engine): self.engine = engine def analyze_patient(self, subject_id): # 获取基础信息 demographics = self._get_demographics(subject_id) # 分析ICU停留 icu_stays = self._get_icu_stays(subject_id) # 生命体征分析 vital_signs = self._get_vital_signs(icu_stays['stay_id'].tolist()) # 诊断与费用 diagnosis_cost = self._get_diagnosis_cost(subject_id) # 流转路径 journey = self._get_transfer_journey(subject_id) return { 'demographics': demographics, 'icu_stays': icu_stays, 'vital_signs': vital_signs, 'diagnosis_cost': diagnosis_cost, 'journey': journey } # 各具体方法实现...

实际项目中，这种分析可以帮助医院管理者：