Escalas pronósticas en la disfunción multiorgánica: estudio de cohortes

Sánchez-Casado, M.; Hostigüela-Martín, V.A.; Raigal-Caño, A.; Labajo, L.; Gómez-Tello, V.; Alonso-Gómez, G.; Aguilera-Cerna, F.M.

doi:10.1016/j.medin.2015.03.005

Información del artículo

Resumen

Texto completo

Bibliografía

Descargar PDF

Estadísticas

Figuras (2)

Tablas (5)

Tabla 1. Diagnósticos clínicos más frecuentes (>1%)

Tabla 2. Descripción de las variables de ingreso, las evolutivas y las escalas de gravedad en el total de los pacientes, los que sobreviven y los fallecidos

Tabla 3. Prueba de bondad de ajuste de Hosmer-Lemeshow en las diferentes escalas pronósticas

Tabla 4. Área bajo la curva con intervalo de confianza del 95%, con nivel de significación, para cada escala de gravedad evaluada

Tabla 5. Determinación de la razón estandarizada de mortalidad y su intervalo de confianza del 95% para las escalas de gravedad evaluadas

Mostrar másMostrar menos

Resumen

Objetivo

Valorar el grado en que las escalas pronósticas son capaces de predecir la mortalidad hospitalaria.

Diseño

Estudio de cohortes retrospectivo de 2 años.

Ámbito

UCI médico-quirúrgica de un hospital de tercer nivel.

Pacientes

Todos los pacientes con síndrome de disfunción multiorgánica en el primer día de ingreso.

Variables de interés

APACHE II y IV, SAPS II y III, MPM II y muerte hospitalaria.

Resultados

Se incluyeron 568 pacientes. Mortalidad hospitalaria: 39,8% (226 pacientes). Discriminación (área bajo la curva; IC 95%): APACHE IV (0,805; 0,751-0,858), SAPS II (0,755; 0,697-0,814), MPM II (0,748; 0,688-0,809), SAPS III (0,737; 0,675-0,799) y APACHE II (0,699; 0,633-0,765). El MPM II es el que mejor calibra, seguido por el SAPS III. APACHE II, SAPS II y APACHE IV presentan una muy mala calibración. Razón estandarizada de mortalidad (IC 95%): APACHE IV 1,9 (1,78-2,02); APACHE II 1,1 (1,07-1,13); SAPS III 1,1 (1,06-1,14); SAPS II 1,03 (1,01-1,05); MPM 0,9 (0,86-0,94).

Conclusiones

APACHE IV tiene la mejor capacidad discriminativa y mala calibración. MPM II tiene una buena discriminación y la mejor calibración. En cuanto al SAPS II, mantiene la segunda mejor discriminación y una mala calibración. El APACHE II muestra unos valores de calibración y discriminación que desaconsejarían su utilización en la actualidad, y el SAPS III mantiene una adecuada calibración y una discriminación moderada. La valoración de estos resultados podría marcar el inicio de nuevos estudios a nivel regional/nacional en determinadas poblaciones de pacientes críticos.

Palabras clave:

Escalas pronósticas

Mortalidad hospitalaria

UCI

Disfunción multiorgánica

APACHE

SAPS

MPM

Abstract

Objective

An evaluation is made of the hospital mortality predicting capacity of the main predictive scoring systems.

Design

A 2-year retrospective cohort study was carried out.

Setting

A third level ICU with surgical and medical patients.

Patients

All patients with multiorgan failure during the first day in the ICU.

Main variables

APACHE II and IV, SAPS II and III, MPM II and hospital mortality.

Results

A total of 568 patients were included. Mortality rate: 39.8% (226 patients). Discrimination (area under the ROC curve; 95% CI): APACHE IV (0.805; 0.751-0.858), SAPS II (0.755; 0.697-0.814), MPM II (0.748; 0.688-0.809), SAPS III (0.737; 0.675-0.799) and APACHE II (0.699; 0.633-0.765). MPM II showed the best calibration, followed by SAPS III. APACHE II, SAPS II and APACHE IV showed very poor calibration. Standard mortality ratio (95% CI): APACHE IV 1.9 (1.78-2.02); APACHE II 1.1 (1.07-1.13); SAPS III 1.1 (1.06-1.14); SAPS II 1.03 (1.01-1.05); MPM 0.9 (0.86-0.94).

Conclusions

APACHE IV showed the best discrimination, with poor calibration. MPM II showed good discrimination and the best calibration. SAPS II, in turn, showed the second best discrimination, with poor calibration. The APACHE II calibration and discrimination values currently disadvise its use. SAPS III showed good calibration with modest discrimination. Future studies at regional or national level and in certain critically ill populations are needed.

Keywords:

Predictive scoring systems

Hospital mortality

ICU

Multi-organ failure

APACHE

SAPS

MPM

Texto completo

Introducción

La mejora de la calidad asistencial en el paciente crítico requiere la valoración mediante metodología cuantitativa de la estructura empleada, el proceso de cuidado y la evolución del paciente1. La evolución está claramente determinada por la gravedad inicial de la enfermedad. Medir la gravedad es una constante preocupación en el enfermo crítico, y tiene múltiples beneficios2. En primer lugar, nos ayuda a realizar un pronóstico, fundamentalmente en términos de mortalidad. Además, permite conocer el perfil de nuestros pacientes, con un impacto en la gestión de los recursos materiales y de personal utilizados. La valoración pronóstica, al permitir ajustar la mortalidad real a la esperada, elabora un indicador de calidad de los cuidados que facilita la comparación con otras instituciones (benchmarking)1. Por último, tiene una importante función al facilitar la investigación sobre los resultados, al asegurar que los pacientes con factores de gravedad similares sean comparados. Para estandarizar la medida de gravedad se diseñaron las escalas de gravedad.

En la actualidad se utilizan mayoritariamente 3 grandes grupos de escalas de gravedad, que han tenido diferentes versiones3. Son la escala Acute Physiology and Chronic Health Evaluation (APACHE), la Simplified Acute Physiology Score (SAPS) y la Mortality Prediction Models (MPM). Estas escalas transforman su valor numérico, mediante una función logit, en probabilidad de mortalidad hospitalaria, agrupando los pacientes en términos de probabilidad de muerte. Estas escalas predictivas surgen del análisis de las grandes series de cohortes de pacientes con diferentes enfermedades médico-quirúrgicas4. Sus limitaciones principales son su falta de predicción individual o su utilización sobre poblaciones de pacientes no incluidas en los estudios elaborados para su diseño o grupos de pacientes con enfermedades concretas5.

Aunque existen muchos factores relacionados con la mortalidad (edad, comorbilidad, diagnóstico de admisión en la Unidad de Cuidados Intensivos [UCI], etc.), la gravedad de las anormalidades fisiológicas son su determinante fundamental6. Dentro del enfermo crítico, este tipo de anormalidades se presentan en su máxima expresión en el enfermo con síndrome de disfunción multiorgánica (SDMO). Estos pacientes presentan una alta mortalidad relacionada con el número de órganos afectos7. Aunque estos enfermos forman parte de la población de pacientes de las que son derivadas las escalas de gravedad (justificando alrededor de un tercio del total de los pacientes en una UVI de tercer nivel), no hemos encontrado estudios previos basados exclusivamente en ellos4.

El objetivo de nuestro estudio es valorar el grado en que las escalas pronósticas más utilizadas en la actualidad son capaces de predecir de forma real la mortalidad hospitalaria en la UCI en pacientes que desarrollan un SDMO en las primeras 24h de ingreso.

Pacientes y métodos

Estudio de cohortes retrospectivo, realizado en la UCI del Hospital Virgen de la Salud, Toledo. Se analizaron durante 2 años de forma consecutiva las historias clínicas de los pacientes médico-quirúrgicos con SDMO, mayores de 16 años y con un tiempo mínimo de estancia en UCI de 12h. Se define el SDMO como la presencia de al menos 2 órganos disfuncionantes, durante las primeras 24h de ingreso en la UCI, objetivada mediante la escala SOFA8. Se excluyeron todos los pacientes con variables perdidas necesarias para el cálculo de las escalas de gravedad, los pacientes remitidos de otras UCI con más de 24h de evolución, aquellos con muerte encefálica y los reingresados en la UCI durante la misma estancia hospitalaria.

Los pacientes eran seguidos durante su evolución en UCI y planta hospitalaria, hasta su fallecimiento o alta, registrándose su situación final. Se recogían variables generales de ingreso (sexo, edad, presencia de infección, situación basal –asintomático para las actividades de la vida diaria–, procedencia, diagnóstico de ingreso, necesidad de ventilación mecánica, lugar de alta de UCI, estancias en UCI y hospitalarias, exitus y lugar del mismo) y aquellas necesarias para realizar las escalas de gravedad de APACHE II3 y IV9, SAPS II10 y III11 (escala europea) y MPM II12. La MPM II utilizada es al valorada a las 24h, para de esta forma ser comparada con la SAPS y la APACHE, pues las 3 se valorarían en las primeras 24h.

Los datos cuantitativos son expresados como media (desviación estándar), y los datos categóricos, como recuento (porcentaje). Para realizar las comparaciones entre variables categóricas utilizamos el test de chi cuadrado, con la aproximación de Fisher para tablas 2×2 cuando se consideró indicado. Para realizar comparaciones de variables cuantitativas utilizamos la prueba t de Student.

Se calculó el valor de todas las escalas de puntuación y las probabilidades de muerte predichas. Para evaluar la validez del modelo estudiamos la discriminación y la calibración.

La discriminación es la capacidad de distinguir los sujetos que fallecen de los que sobreviven, describiendo la precisión de una predicción dada. Por ejemplo, si el modelo predice una mortalidad del 35%, la predicción es perfecta si la mortalidad observada es del 35%. Se valora mediante la curva ROC (intervalo de confianza del 95% [IC 95%]), y el área bajo la curva puede considerarse como una medida global del poder de discriminación del modelo.

La calibración del modelo es el aspecto del ajuste que valora la concordancia entre las probabilidades observadas en la muestra y las probabilidades predichas en los modelos, describiendo cómo se ejecuta la escala pronóstica sobre un amplio rango de mortalidades predichas. Así, una buena calibración es precisa en mortalidades del 10, 50 y 80%, por ejemplo. La hemos valorado mediante la prueba de bondad de ajuste de Hosmer-Lemeshow, que presenta su mejor ajuste cuando la probabilidad es igual a 1 (la no significación indica un mejor ajuste)13. Para llevarla a cabo se agrupan las probabilidades de fallecimiento en 10 grupos definidos de probabilidades de mortalidad (deciles de riesgo), intentando categorizar un número aproximado de pacientes en cada grupo.

Complementamos la valoración de la calibración mediante la realización de la standardized mortality ratio (SMR, «razón estandarizada de mortalidad»); es el cociente entre la mortalidad observada y la predicha. Si presenta un valor de 1 la calibración es buena con un acuerdo perfecto, pues las mortalidades observadas serían iguales a las predichas. Si es menor de 1, ocurre una sobrestimación de la mortalidad, y si es mayor de 1, lo contrario, se subestima la mortalidad.

El análisis estadístico se realizó con el programa SPSS® v. 20 (IBM Corporation, 2011). Se ha considerado significativo todo valor de p>0,05.

Resultados

La población de estudio durante el periodo evaluado estaba formada por 568 pacientes, por cumplir las condiciones de inclusión y no presentar ninguna de exclusión. En la tabla 1 figuran los diagnósticos más frecuentes. La mortalidad global hospitalaria fue del 39,8% (226 pacientes); 165 (29,1%) fallecieron en la UCI, y 61 (10,7%), en la sala hospitalaria, tras el alta post-UCI. Las características de ingreso, evolutivas y las escalas de gravedad se muestran en la tabla 2.

Tabla 1.

Diagnósticos clínicos más frecuentes (>1%)

Insuficiencia cardiaca congestiva	56 (9,8)
Neumonía comunitaria	50 (8,8)
Parada cardiorrespiratoria	36 (6,4)
Peritonitis secundaria	33 (5,8)
Shock cardiogénico isquémico	20 (3,5)
Shock hemorrágico postoperatorio	19 (3,3)
EPOC agudizada	18 (3,2)
Neumonía nosocomial	18 (3,2)
Sepsis urológica obstructiva	18 (3,2)
Sepsis de origen desconocido	17 (3)
Pancreatitis aguda	16 (2,8)
Isquemia intestinal	17 (2,6)
Infección de partes blandas	14 (2,5)
Sepsis urológica no obstructiva	13 (2,3)
Shock cardiogénico no isquémico	11 (1,9)
Hepatectomía	10 (1,8)
Aneurisma abdominal roto	10 (1,8)
Tromboembolismo pulmonar	9 (1,6)
Insuficiencia respiratoria médica	9 (1,6)
Obstrucción intestinal	9 (1,6)
Insuficiencia respiratoria postoperatoria	7 (1,2)
Insuficiencia respiratoria posquirúrgica	7 (1,2)
Cirugía abdominal mayor	7 (1,2)
Hemoperitoneo	7 (1,2)
Colecistitis aguda	6 (1,1)
Aneurisma aórtico abdominal roto	6 (1,1)
Colangitis	6 (1,1)
Cirugía maxilofacial	6 (1,1)
Shock hemorrágico perigestacional	6 (1,1)

EPOC: enfermedad pulmonar obstructiva crónica.

Los datos se expresan como n (%).

Tabla 2.

Descripción de las variables de ingreso, las evolutivas y las escalas de gravedad en el total de los pacientes, los que sobreviven y los fallecidos

Variable	Muestra total (N=568)	Supervivientes (n=342)	Fallecidos (n=226)
Sexo varón	367 (64,6%)	222 (64,9%)	145 (64,2%)
Edad (años)*	64 (16,4)	60,4±17,4	69,6±12,7
SFB: asintomático actividad diaria	415 (73,1%)	257 (75,1%)	157 (69,8%)
Procedencia**
Planta	200 (35,1%)	99 (28,9%)	101 (44,7%)
Urgencias	194 (34,1%)	133 (38,9%)	60 (26,5%)
Quirófano	143 (25,2%)	90 (26,3%)	53 (23,5%)
Otro hospital	31 (5,5%)	20 (5,8%)	12 (5,3%)
Enfermo séptico	234 ((41,1%)	141 (41,2%)	93 (41,2%)
Ventilación mecánica durante ingreso UCI*	448 (78,9%)	238 (69,6%)	211 (93,3%)
Estancia UCI (días)**	8,4 (12,8)	7,2±8,9	10,2±17
Estancia hospitalaria post-UCI (días)*	12,4 (19,9)	16,6±18,4	6,2±20,3
Lugar alta UCI
Planta	383 (94,3%)	320 (93,6%)	62 (98,4%)
Otro hospital	23 (5,7%)	22 (6,4%)	1 (1,6%)
SOFA*	8 (3,4)	6,9±2,8	9,7±3,6
APACHE II*	18,6 (8,2)	16,3±6,9	22,6±8,8
APACHE IV*	60,8 (23,8)	52,3±19,1	75±24,2
SAPS II*	45,2 (18,2)	38,9±14,5	55,3±18,8
SAPS III*	63,5 (14,7)	59,1±12,8	70,4±14,9
MPM II*	43,2 (28,8)	33,7±25,4	58,2±27,3

APACHE: Acute Physiology and Chronic Health Evaluation; MPM: Mortality Prediction Model; SAPS: Simplified Acute Physiology Score; SFB: situación funcional basal; SOFA: Sequential Organ Failure Assessment; UCI: Unidad de Cuidados Intensivos.

Comparaciones entre el grupo de supervivientes y el de fallecidos:

*

p<0,001.

**

p<0,01.

La calibración, evaluada para las escalas de gravedad mediante la prueba de la bondad de ajuste de Hosmer-Lemeshow, se muestra en la tabla 3. En la figura 1 se muestra la valoración de las distintas curvas ROC según el modelo predictivo, y en la tabla 4 se muestra el área bajo la curva, con el IC 95% y su significación para cada escala. En la tabla 5 se determina la SMR para cada escala pronóstica con su IC 95%. En la figura 2 se muestran las diferentes curvas de calibración.

Tabla 3.

Prueba de bondad de ajuste de Hosmer-Lemeshow en las diferentes escalas pronósticas

Deciles predictivos mortalidad (%)	N	Supervivientes observados	Supervivientes predichos	Muertes observadas	Muertes predichas	PBA H-L/gl/p
APACHE IV (n=471)
0-1,89	47	43	46,5	4	0,5
1,9-3,65	47	44	45,7	3	1,3
3,66-6	48	44	45,6	4	2,4
6,04-8,97	47	36	43,5	11	3,5
9,03-12,92	47	30	41,8	17	5,2
12,94-17,49	47	30	39,9	17	7,1
17,67-23,88	47	23	37,4	24	9,6
24,04-33,95	47	21	33,7	26	13,3	130,54/gl=8/p=2,18624×10−24
35,71-47,3	47	13	27,5	34	19,5
48,11-97,18	47	9	16,1	38	30,9

APACHE II (n=498)
4-9,9	52	48	48,2	4	3,8
10-13	49	37	43,3	12	5,7
14,6-17	49	36	41,2	13	7,8
18,6-21	50	28	40	22	10
23-26,2	50	34	37,5	16	12,5
28,9-35,5	49	35	33,7	14	15,3
36-42,4	46	31	28,1	15	17,9
46-53	56	32	29,1	24	26,9	27,126/gl=8/p=0,0006721
53,3-70,3	48	21	17,8	27	30,2
73-99,1	49	11	9,3	38	39,7

SAPS III (n=257)
0,47-7,6	32	29	30,4	3	1,6
8,5-12,7	24	20	21,4	4	2,6
13,9-18,1	23	15	19,3	8	3,7
19,7-24,7	25	17	19,5	8	5,5
26,7-34,1	30	19	20,8	11	9,2
36,1-40,2	21	15	13	6	8
42,2-50,2	29	15	15,6	14	13,4
52,2-57,9	22	14	9,8	8	12,2	10,6/gl=8/p=0,2254
59,7-66,4	26	9	9,9	17	16,1
67,9-87,6	25	4	5,5	21	19,5

SAPS II (n=258)
0-6	28	28	26,9	0	1,1
7-11	25	21	22,7	4	2,3
12-15	25	18	21,7	7	3,3
17-21	25	18	20,2	7	4,8
23-31	28	16	20,4	12	7,6
33-40	24	14	15,3	10	8,7
41-51	28	14	15,2	14	12,8
53-66	25	14	10,2	11	14,8	44/gl=8/p=5,689×10−7
68-83	26	11	6,7	15	19,3
84-99	24	4	1,9	20	22,1

MPM II (n=258)
1,02-6,72	26	24	25	2	1
6,97-13,52	26	20	23,2	6	2,8
13,79-22,55	26	22	21,2	4	4,8
23,2-29,71	25	18	18,4	7	6,6
30,06-38,82	26	17	17,1	9	8,9
39,14-51,59	26	16	14,5	10	11,5
51,6-59,88	26	15	11,3	11	14,7
60,2-67,62	26	10	9,2	16	16,8	7,964/gl=8/p=0,43739
67,73-86,73	25	9	5,5	16	19,5
87,55-99,58	26	7	1,2	19	24,8

APACHE: Acute Physiology and Chronic Health Evaluation; gl: grados de libertad; MPM: Mortality Prediction Model; PBA H-L: prueba de bondad de ajuste de Hosmer-Lemeshow; SAPS: Simplified Acute Physiology Score.

Figura 1.

Valoración de la discriminación mediante la curva receiver operator characteristic –ROC– para los diferentes modelos predictivos.

(0,11MB).

Tabla 4.

Área bajo la curva con intervalo de confianza del 95%, con nivel de significación, para cada escala de gravedad evaluada

	Área	IC 95%		p
APACHE IV	0,805	0,751	0,858	0,00001
SAPS II	0,755	0,697	0,814	0,00001
MPM II	0,748	0,688	0,809	0,00001
SAPS III	0,737	0,675	0,799	0,00001
APACHE II	0,699	0,633	0,765	0,00001

APACHE: Acute Physiology and Chronic Health Evaluation; IC 95%: intervalo de confianza del 95%; MPM: Mortality Prediction Model; SAPS: Simplified Acute Physiology Score.

Tabla 5.

Determinación de la razón estandarizada de mortalidad y su intervalo de confianza del 95% para las escalas de gravedad evaluadas

	Número de pacientes	Supervivientes observados	Supervivientes esperados	Muertos observados	Muertos esperados	SMR	IC 95%
APACHE IV	471	293	343,6	178	93,3	1,9	1,78-2,02
APACHE II	498	313	328,2	185	169,8	1,1	1,07-1,13
SAPS III	257	157	165,2	100	91,8	1,1	1,06-1,14
SAPS II	258	158	161,2	100	96,8	1,03	1,01-1,05
MPM II	258	158	146,6	100	111,4	0,9	0,86-0,94

APACHE: Acute Physiology and Chronic Health Evaluation; IC 95%: intervalo de confianza del 95%; MPM: Mortality Prediction Model; SAPS: Simplified Acute Physiology Score; SMR: standardized mortality ratio («razón estandarizada de mortalidad»).

Figura 2.

Curvas de calibración con el 95% del intervalo de confianza para las mortalidades observadas (línea con marcadores cuadrados con líneas discontinuas). La línea sin marcadores representa la mortalidad predicha; la línea con marcadores redondos representa el porcentaje de sujetos para cada decil de mortalidad.

(0,51MB).

Discusión

En nuestra serie hemos incluido pacientes con SDMO en las primeras 24h de ingreso. Este periodo es el habitualmente tomado por las escalas pronósticas para la valoración de los datos fisiológicos, pues coincide con el de mayor deterioro fisiológico. Aunque las predicciones que utilizan datos fisiológicos en la primera hora de la admisión han mostrado ausencia de diferencias estadísticamente significativas con los peores valores de las primeras 24h14, en un periodo de 24h se observan menos valores perdidos y un mayor poder explicativo15.

Nuestra serie muestra una alta mortalidad hospitalaria, falleciendo casi 4 de cada 10 enfermos, sobre todo en el periodo intra-UCI, altas estancias en UCI (más de una semana), hospitalarias post-UCI (alrededor de 2 semanas), con altos porcentajes de ventilación mecánica durante el ingreso (alrededor del 79%), y altas escalas pronósticas de disfunción (SOFA; en torno a 8). Esto es similar a lo publicado en otras series, con enfermos en estos estadios evolutivos y nivel de gravedad16.

Los diagnósticos más frecuentes son similares a los que existen en cualquier UCI polivalente (médico-quirúrgica). Los pacientes que fallecen presentan un perfil ya conocido, con más edad, procedencia de planta, mayor porcentaje de ventilación mecánica, mayor estancia en UCI, menor estancia post-UCI (posiblemente debido a su muerte), con mayor número de órganos disfuncionantes (casi un 30% más) y peor valor de las escalas pronósticas17. Para hacer un estudio más detallado de la validez de los modelos debemos estudiar la discriminación y la calibración. No debemos olvidar que una pobre calibración y discriminación puede deberse a una calidad diferente de los cuidados esperados, pero también a una mala aplicabilidad del modelo a una población dada de pacientes18.

APACHE, SAPS y MPM son los 3 grupos de escalas más utilizados. Los problemas relacionados con la facilidad de utilización, el número de variables necesarias (142 en APACHE IV, 20 en SAPS III y 13 en MPM II 24h, por ejemplo) y el pago por su utilización han limitado el uso de las versiones más recientes, mejoradas. Entre el conjunto de las diferentes versiones, la APACHE II es la más utilizada19. APACHE II manifestó sus imperfecciones en predecir subgrupos específicos de pacientes (fallo hepático, sepsis, etc.) y mostró que la mortalidad predicha es menor a la observada en los pacientes de UCI transferidos desde otras estancias hospitalarias (fenómeno conocido como lead time bias)20,21 (por eso excluimos a los pacientes transferidos de otros centros). Algo similar pudiera ocurrir con SAPS II, que es más utilizada que SAPS III. Esto plantearía no solo las limitaciones propias de su menor complejidad (utilización de versiones «menos refinadas»), sino que utilizaríamos comparaciones de nuestros pacientes con otros de hace más de 2 décadas. Todas las escalas de gravedad requieren revisiones periódicas, recalibraciones y puestas al día en relación con la mejora de los cuidados (tratamiento y otros factores que influyen en la mortalidad, como los efectos de las nuevas tecnologías). Y estas revisiones deberían ser las utilizadas en los trabajos contemporáneos que se realizan. La no actualización de las escalas predictivas produciría una pérdida gradual de la calibración con el tiempo, resultando en una sobrestimación de la mortalidad para cualquier escala de gravedad dada22,23, fenómeno de sobrepronóstico que no hemos encontrado de forma clara en nuestro estudio.

Hemos utilizado los principios más importantes para considerar en la valoración de una escala de gravedad, midiendo de forma eficaz mediante una adecuada discriminación y calibración el pronóstico en términos de mortalidad hospitalaria. Los sistemas predictivos han mostrado, en general, una excelente discriminación, siendo sus problemas fundamentales a nivel de la calibración, sobre todo en el caso de la APACHE, pero que se mantiene en las demás escalas pronósticas (SAPS III, etc.)22.

Existen importantes diferencias entre las distintas escalas pronósticas en relación con la recogida de datos, el cálculo de la mortalidad, la eficacia y el coste24. Mientras que APACHE requiere la recogida de un amplio número de datos fisiológicos y generales, los otros instrumentos utilizan un menor número de variables y una codificación más sencilla, que facilita la recogida25. El paso de sistemas pronósticos simplificados a otros más complejos es un largo camino con numerosos problemas. Así, el desarrollo de la informática nos ha permitido la utilización de sistemas predictivos matemáticamente complejos, pero no se ha acompañado de desarrollos paralelos en la automatización del registro de los datos14. Esto nos dificulta la recogida en escalas pronósticas como la APACHE IV, donde la complejidad es máxima. Otros sistemas, como el MPM o el SAPS, en contraste, enfatizan su simplicidad. Existen pocos estudios que comparen las 3 escalas pronósticas; APACHE IV, en general, muestra la mejor precisión predictiva, aunque MPM (II y III) ha probado ser una buena alternativa eficaz cuando se considera un bajo coste y una menor complejidad de los datos recogidos25,26.

No existen estudios previos de utilización de escalas pronósticas en pacientes únicamente con SDMO, aunque forman parte, en mayor o menor proporción, de todas las series publicadas en UCI. De hecho, ocurre con frecuencia lo contrario, y así, por ejemplo, alrededor de dos tercios de la cohorte de pacientes de validación de APACHE IV están en bajo riesgo en el momento de la admisión (mortalidad<10%)27,28.

La mejor discriminación la observamos en APACHE IV, obteniendo valores adecuados (0,805); SAPS II (0,755), MPM II (0,748) y SAPS III (0,737) presentan una discriminación progresivamente peor, y ya en valores menos ajustados. APACHE II presenta los peores niveles de discriminación (0,699).

En nuestra serie, MPM II es el modelo pronóstico que mejor calibra, seguido por SAPS III. APACHE II, SAPS II y APACHE IV presentan una muy mala calibración, mostrando este último el peor resultado.

En relación con la SMR, todos presentan unos valores en torno a 1, menos APACHE IV, que con un valor de 1,9 (IC 95% 1,78-2,02) infraestima la mortalidad de forma más clara. De una forma general, APACHE II y SAPS III tienden a subestimar la valoración, y MPM II a sobrestimarla, aunque todos, discretamente. La SMR es un parámetro de gestión clínica mandatorio en algunos países, tanto europeos como americanos (todas las UCI pertenecientes a la administración de veteranos), y se suele utilizar como una medida internacional de calidad29, aunque hay autores que argumentan una preocupación por su utilización en exclusiva como índice de calidad14. Muchos usuarios simplemente aspiran a una SMR<130. Pero es bien conocido, y a pesar de su amplia aceptación, que la SMR tiene algunas limitaciones intrínsecas30. Así, los pacientes de alto riesgo contribuyen desproporcionadamente a la SMR debido a que muchos de estos enfermos fallecen. Por ello es importante comunicar por separado la SMR para pacientes de bajo, moderado y alto riesgo. Así, el impacto de una desproporción de pacientes de alto riesgo tendrá un efecto diluido y no dependerá tanto del tipo de enfermos visto en cada UCI. Esto es importante al ser cada vez más los trabajos que hablan sobre una menor precisión de la calibración en los extremos de severidad9,27,31.

Si analizamos las curvas de calibración, podemos establecer un grupo de mortalidad de moderado riesgo (entre 10 y 50% de mortalidad hospitalaria) y un grupo de alto riesgo (>50% de mortalidad hospitalaria), que pueden ser analizados por separado27. APACHE IV es la escala pronóstica que presenta de una forma más intensa una infraestimación de la mortalidad predicha en el grupo de moderado riesgo; esto se mantiene en el grupo de alto riesgo, pero de una forma menos pronunciada. Observamos el mismo patrón, aunque menos intenso, en APACHE II y SAPS II, en ambos grupos de mortalidad. SAPS III solo tiende a infrapredicción en el grupo de moderado riesgo, comportándose bien en el grupo de alto riesgo. MPM II presenta un comportamiento diferente, mostrando una sobrepredicción, sobre todo en el grupo de alto riesgo. Es curioso que en la mayoría de las series de cohortes de enfermos, en las mayores probabilidades de muerte predicha, la mortalidad observada fue menor que la calculada18. En las curvas de calibración observamos que los IC 95% son muy amplios (menor precisión), por lo que probablemente necesitaríamos más pacientes para poder obtener resultados más ajustados y precisos.

Nuestro estudio tiene limitaciones. El tamaño muestral, aunque moderado, no es óptimo para estos estudios; ha sido realizado en una sola institución en España, fuera de la zona geográfica en la que algunas de estas escalas se validaron, lo cual repercute sobre la precisión del modelo32–34. Por otra parte, la utilización de escalas de gravedad que agrupen a los pacientes en enfermedades homogéneas, aunque tiene un interés que va creciendo con el tiempo, también es una limitación clara.

Es inevitable, y para muchos, deseable, que la predicción de escalas de riesgo se incremente con el tiempo, y lleve a ser juez de nuestras actividades clínicas35. Es importante buscar con un buen ajuste la máxima proximidad entre la realidad y el modelo propuesto. Para ello es vital evaluar las herramientas que utilizamos en nuestros pacientes, y hacerlo en los de mayor gravedad es algo de gran interés, pues tendemos a infravalorar la mortalidad real. Cada país debería asegurarse de que el modelo se ajusta a sus propios datos, pues una buena calibración del modelo produciría significados fiables y adecuadas probabilidades estimadas36. A falta de sistemas calibrados localmente, hemos realizado comparaciones indirectas de la evolución observada con el pronóstico esperado predicho por los diferentes modelos, aplicados en las poblaciones de enfermos utilizadas para desarrollar el modelo de riesgo. Esto sería importante realizarlo en la población de interés, para así poder implementar la valoración de la calidad utilizando la evolución en la UCI ajustada al riesgo, no solo valorando mortalidad, sino estancias, readmisiones en UCI u otros parámetros evolutivos37,38.

En nuestra serie de pacientes con SDMO corroboramos que APACHE IV tiene la mejor capacidad discriminativa, y confirmamos su mala calibración. MPM III no ha sido testado, pero comprobamos que MPM II tiene una buena discriminación y la mejor calibración de todos las escalas testadas. En cuanto a SAPS II, mantiene la segunda mejor discriminación y una mala calibración. APACHE II muestra unos valores de calibración y discriminación que desaconsejarían su utilización en la actualidad, y SAPS III mantiene una adecuada calibración y una discriminación moderada. Pensamos que la valoración de estos resultados podría marcar el inicio de nuevos estudios más amplios y multicéntricos en determinadas poblaciones de pacientes críticos.

Financiación

No se ha utilizado ningún tipo de financiación, parcial o total, para este artículo.

Conflicto de intereses

No existen relaciones económicas ni personales que puedan sesgar o influir en nuestras actuaciones.

Bibliografía

[1]

G.S. Power, D.A. Harrison.

Why try to predict ICU outcomes?.

Curr Opin Crit Care., 20 (2014), pp. 544-549

http://dx.doi.org/10.1097/MCC.0000000000000136 | Medline

[2]

M.C. Conry, N. Humphries, K. Morgan, Y. McGowan, A. Montgomery, K. Vedhara, et al.

A 10 year (2000-2010) systematic review of interventions to improve quality of care in hospitals.

BMC Health Serv Res., 12 (2012), pp. 275

http://dx.doi.org/10.1186/1472-6963-12-275 | Medline

[3]

J.M. Kahn.

Predicting outcome in critical care: Past, present and future.

Curr Opin Crit Care, 20 (2014), pp. 542-543

http://dx.doi.org/10.1097/MCC.0000000000000140 | Medline

[4]

P. Sikka, W.M. Jaafar, E. Bozkanat, A.A. El-Solh.

A comparison of severity of illness scoring systems for elderly patients with sever pneumonia.

Intensive Care Med., 26 (2000), pp. 1803-1810

Medline

[5]

J.I. Salluh, M. Soares.

ICU severity of illness scores: APACHE, SAPS and MPM.

Curr Opin Crit Care., 20 (2014), pp. 557-565

http://dx.doi.org/10.1097/MCC.0000000000000135 | Medline

[6]

R.M. Scheffler, W.A. Knaus, D.P. Wagner, J.E. Zimmerman.

Severity of illness and the relationship between intensive care and survival.

Am J Public Health., 72 (1982), pp. 449-454

Medline

[7]

A.M. Ferreira, Y. Sakr.

Organ dysfunction: General approach, epidemiology, and organ failure scores.

Semin Respir Crit Care Med., 32 (2011), pp. 543-551

http://dx.doi.org/10.1055/s-0031-1287862 | Medline

[8]

J.L. Vincent, R. Moreno, J. Takala, S. Willatts, A. de Mendonça, H. Bruining, et al.

The SOFA (Sepsis-related Organ Failure Assessment) score to describe organ dysfunction/failure. On behalf of the Working Group on Sepsis-Related Problems of the European Society of Intensive Care Medicine.

Intensive Care Med., 22 (1996), pp. 707-710

Medline

[9]

J.E. Zimmerman, A.A. Kramer, D.S. McNair, F.M. Malila.

Acute Physiology and Chronic Health Evaluation (APACHE) IV: Hospital mortality assessment for today's critically ill patients.

Crit Care Med., 34 (2006), pp. 1297-1310

http://dx.doi.org/10.1097/01.CCM.0000215112.84523.F0 | Medline

[10]

J.R. Le Gall, S. Lemeshow, F. Saulnier.

A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study.

JAMA, 270 (1993), pp. 2957-2963

Medline

[11]

D. Ledoux, J.L. Canivet, J.C. Preiser, J. Lefrancq, P. Damas.

SAPS 3 admission score: An external validation in a general intensive care population.

Intensive Care Med, 34 (2008), pp. 1873-1877

http://dx.doi.org/10.1007/s00134-008-1187-4 | Medline

[12]

S. Lemeshow, D. Teres, J. Klar, J.S. Avrunin, S.H. Gehlbach, J. Rapoport.

Mortality Probability Models (MPM II) based on an international cohort of intensive care unit patients.

JAMA, 270 (1993), pp. 2478-2486

Medline

[13]

S. Lemeshow, D.W. Hosmer Jr..

A review of goodness of fit statistics for use in the development of logistic regression models.

Am J Epidemiol, 115 (1982), pp. 92-106

Medline

[14]

J.E. Zimmerman, A.A. Kramer.

A history of outcome prediction in the ICU.

Curr Opin Crit Care., 20 (2014), pp. 550-556

http://dx.doi.org/10.1097/MCC.0000000000000138 | Medline

[15]

W.A. Knaus, E.A. Draper, D.P. Wagner, J.E. Zimmerman.

APACHE II: A severity of disease-classification system.

Crit Care Med., 13 (1985), pp. 818-829

Medline

[16]

D.E. Fry.

Multiple organ dysfunction syndrome: Past, present and future.

Surg Infect (Larchmt)., 1 (2000), pp. 155-161

http://dx.doi.org/10.1089/109629600750018088 | Medline

[17]

M.F. Rehman, M.S. Siddiqui.

Predicting death and disability, is it really possible? A medical ICU prognostication model study.

Crit Care Med., 42 (2014), pp. 2449-2450

http://dx.doi.org/10.1097/CCM.0000000000000577 | Medline

[18]

P.A. Patel, B.J. Grant.

Application of mortality prediction to individual intensive care units.

Intensive Care Med, 25 (1999), pp. 977-982

Medline

[19]

J.S. Cowen, M.A. Kelley.

Errors and bias in using predictive scoring systems.

Crit Care Clin., 10 (1994), pp. 53-72

Medline

[20]

J.J. Escarce, M.A. Kelley.

Admission source to the medical intensive care unit predicts hospital death independent of APACHE II score.

JAMA, 264 (1990), pp. 2389-2394

Medline

[21]

M. Capuzzo, V. Valpondi, A. Sgarbi, S. Bortolazzi, V. Pavoni, G. Gilli, et al.

Validation of severity scoring systems SAPS II and APACHE II in a single-center population.

Intensive Care Med., 26 (2000), pp. 1779-1785

Medline

[22]

A.P. Nassar Jr., A.O. Mocelin, A.L. Nunes, F.P. Giannini, L. Brauer, F.M. Andrade, et al.

Caution when using prognostic models: A prospective comparison of 3 recent prognostic models.

J Crit Care., 27 (2012), pp. 423

http://dx.doi.org/10.1016/j.jcrc.2011.11.013 | Medline

[23]

A.A. Kramer.

Predictive mortality models are not like fine wine.

Crit Care., 9 (2005), pp. 636-637

http://dx.doi.org/10.1186/cc3899 | Medline

[24]

L.G. Glance, T.M. Osler, A. Dick.

Rating the quality of intensive care units: Is it a function of the intensive care unit scoring system?.

Crit Care Med., 30 (2002), pp. 1976-1982

Medline

[25]

M.W. Kuzniewicz, E.E. Vasilevskis, R. Lane, M.L. Dean, N.G. Trivedi, D.J. Rennie, et al.

Variation in ICU risk-adjusted mortality: Impact of methods of assessment and potential confounders.

Chest., 133 (2008), pp. 1319-1327

http://dx.doi.org/10.1378/chest.07-3061 | Medline

[26]

J. Rojas-Suarez, A.J. Paternina-Caicedo, J. Miranda, R. Mendoza, C. Dueñas-Castel, G. Bourjeily.

Comparison of severity-of-illness scores in critically ill obstetric patients: A 6-year retrospective cohort.

Crit Care Med., 42 (2014), pp. 1047-1054

http://dx.doi.org/10.1097/CCM.0000000000000124 | Medline

[27]

M.J. Breslow, O. Badawi.

Severity scoring in the critically ill: Part 1--Interpretation and accuracy of outcome prediction scoring systems.

Chest, 141 (2012), pp. 245-252

http://dx.doi.org/10.1378/chest.11-0330 | Medline

[28]

G. Niewiński, M. Starczewska, A. Kański.

Prognostic scoring systems for mortality in intensive care units--The APACHE model.

Anaesthesiol Intensive Ther., 46 (2014), pp. 46-49

http://dx.doi.org/10.5603/AIT.2014.0010 | Medline

[29]

H. Flaatten.

The present use of quality indicators in the intensive care unit.

Acta Anaesthesiol Scand, 56 (2012), pp. 1078-1083

http://dx.doi.org/10.1111/j.1399-6576.2012.02656.x | Medline

[30]

M.J. Breslow, O. Badawi.

Severity scoring in the critically ill: Part 2: Maximizing value from outcome prediction scoring systems.

Chest, 141 (2012), pp. 518-527

http://dx.doi.org/10.1378/chest.11-0331 | Medline

[31]

D.H. Beck, G.B. Smith, B.L. Taylor.

The impact of low-risk intensive care admissions on mortality probabilities by SAPS II, APACHE II and APACHE III.

Anaesthesia., 57 (2002), pp. 21-26

Medline

[32]

D.A. Harrison, A.R. Brady, G.J. Parry, J.R. Carpenter, K. Rowan.

Recalibration of risk prediction models in a large multicenter cohort of admissions to adult, general critical care units in the United Kingdom.

Crit Care Med., 34 (2006), pp. 1378-1388

http://dx.doi.org/10.1097/01.CCM.0000216702.94014.75 | Medline

[33]

S. Brinkman, A. Abu-Hanna, E. de Jonge, N.F. de Keizer.

Prediction of long-term mortality in ICU patients: Model validation and assessing the effect of using in-hospital versus long-term mortality on benchmarking.

Intensive Care Med, 39 (2013), pp. 1925-1931

http://dx.doi.org/10.1007/s00134-013-3042-5 | Medline

[34]

J.L. Moran, P. Bristow, P.J. Solomon, C. George, G.K. Hart.

Mortality and length-of-stay outcomes, 1993-2003, in the binational Australian and New Zealand intensive care adult patient database.

Crit Care Med., 36 (2008), pp. 46-61

http://dx.doi.org/10.1097/01.CCM.0000295313.08084.58 | Medline

[35]

D.C. Angus, M.R. Pinsky.

Risk prediction: Judging the judges.

Intensive Care Med., 23 (1997), pp. 363-365

Medline