Los números no mienten… pero vos podés malentenderlos
El arte de la estadística · David Spiegelhalter (2019) · Sir David Spiegelhalter es estadístico en Cambridge y uno de los comunicadores de datos más reconocidos del mundo. Pasó parte de su carrera asesorando investigaciones públicas sobre muertes hospitalarias y errores médicos. Sabe de lo que habla.
¿Cuántas veces te engañó una estadística?
Un titular dice que comer panceta aumenta el riesgo de cáncer un 18%. Otro dice que el desempleo bajó en 3.000 personas. Un estudio concluye que la universidad aumenta el riesgo de tumor cerebral. ¿Todo esto es cierto? ¿Es útil? ¿Cómo distinguís la señal del ruido?
Si alguna vez leíste una noticia basada en datos y no sabés si creerla, este libro es para vos. Spiegelhalter no enseña fórmulas: enseña a pensar. La estadística, dice, no es matemática aplicada; es una forma de ver el mundo. Y en la era de los macrodatos, no saber leer números es una desventaja enorme.
El libro nació como respuesta a una paradoja: tenemos más datos que nunca, y más confusión que nunca. Las herramientas son más accesibles, pero los errores de interpretación son más frecuentes. Spiegelhalter quería un libro que reemplazara décadas de manuales áridos con algo que cualquier persona inteligente pudiera leer.
La estadística empieza con una pregunta, no con datos
Todo el libro está organizado alrededor del ciclo PPDAC: Problema → Plan → Datos → Análisis → Conclusión. Parece obvio, pero la mayoría de los errores estadísticos ocurren porque se saltea alguno de estos pasos.
El ejemplo más claro: en 1993, en el Hospital Real de Bristol, morían el doble de bebés que en otros centros de cirugía cardíaca del Reino Unido. Spiegelhalter integró el equipo estadístico de la investigación pública. Antes de calcular nada, tuvieron que responder: ¿qué cuenta como «niño»?, ¿qué es «cirugía cardíaca»?, ¿cuándo se atribuye una muerte a la operación? Sin definiciones precisas, los datos no significan nada.
Problema → definir la pregunta con precisión · Plan → diseñar cómo recolectar datos · Datos → reunir y limpiar · Análisis → explorar y modelar · Conclusión → interpretar y comunicar con honestidad. Cada conclusión genera nuevas preguntas: el ciclo vuelve a empezar.
El 18% de aumento puede significar casi nada
En 2015 la OMS clasificó la carne procesada como «carcinógeno de grupo 1», al mismo nivel que el tabaco. Los medios hicieron un escándalo. La letra chica decía que comer 50 gramos de panceta por día aumenta el riesgo de cáncer colorrectal en un 18%. ¿Suena grave?
- +18% de riesgo de cáncer
- Suena alarmante
- Comparte categoría con el tabaco
- Genera miedo inmediato
- De 6 personas en 100, pasa a 7
- Un caso adicional por cada 100
- El tabaco causa 20× más muertes
- Contexto: hay miles de factores
Spiegelhalter enseña que la diferencia entre riesgo relativo y riesgo absoluto no es un tecnicismo: es la diferencia entre el pánico y la perspectiva. Los medios casi siempre comunican riesgo relativo, que suena mayor. La forma de entenderlo es preguntar siempre: «¿18% sobre qué base?»
Harold Shipman fue médico de cabecera en el norte de Inglaterra. Entre 1975 y 1998 inyectó diamorfina (heroína médica) a al menos 215 pacientes ancianos. Lo atraparon por falsificar un testamento, no por los crímenes.
Spiegelhalter era parte del equipo estadístico de la investigación pública. ¿Podría la estadística haberlo detectado antes? Sí: si graficabas la hora del día en que morían sus pacientes, el pico era abrumadoramente después del mediodía, cuando Shipman hacía visitas domiciliarias solo. Ningún otro médico del área mostraba ese patrón.
La lección: no necesitás sofisticación matemática para detectar patrones que «entran por los ojos». A ese tipo de evidencia Spiegelhalter la llama «interocular»: te da entre los ojos. Lo que hace falta es saber mirar los datos correctos.
Los datos siempre dicen algo diferente de lo que creés que dicen
Spiegelhalter dedica varios capítulos a la distancia entre lo que medís y lo que querés medir. Una encuesta sobre hábitos sexuales en el Reino Unido mostró que los hombres declaraban, en promedio, 6 parejas más que las mujeres. Matemáticamente, eso es imposible en una población cerrada. Alguien está mintiendo, o los dos grupos redondeando diferente.
El punto no es criticar la encuesta: es entender que los datos siempre son una representación imperfecta de la realidad. Definir qué cuenta, quién responde, cómo se pregunta, en qué orden, todo eso moldea el resultado antes de que empiece el análisis.
En una encuesta en el Reino Unido, el 52% apoyó «dar el derecho a voto a los jóvenes de 16 años». Cuando la misma pregunta se formuló como «reducir la edad de voto de 18 a 16», solo el 37% estuvo de acuerdo. Misma propuesta, distinto encuadre, quince puntos de diferencia. Spiegelhalter llama a esto «framing» y lo analiza en profundidad.
Correlación no es causalidad, pero tampoco es nada
El capítulo sobre causalidad es uno de los más densos y también de los más útiles. Spiegelhalter explica que existe una jerarquía de evidencia: la correlación observacional está en la base, los ensayos aleatorizados están arriba. En el medio hay técnicas como la «aleatorización mendeliana» que permiten hacer inferencias causales sin experimentos.
Ejemplo concreto: los hospitales más ocupados tienen tasas de supervivencia más altas. ¿Es porque la experiencia mejora los resultados, o porque los mejores hospitales atraen más pacientes? Los datos solos no responden. Hace falta diseño experimental.
Judea Pearl, citado en el libro, distingue tres niveles: asociación («¿qué pasó?»), intervención («¿qué pasa si hacemos X?») y contrafactual («¿qué habría pasado si no lo hubiésemos hecho?»). Los algoritmos actuales están atrapados en el primer nivel. La estadística clásica, bien aplicada, puede llegar al segundo y al tercero.
Todo estimador lleva un margen de error que nadie te muestra
En enero de 2018, la BBC reportó que el desempleo en el Reino Unido «bajó en 3.000 personas». Nadie cuestionó la cifra. La letra chica decía que el margen de error era ±77.000. El cambio real podría haber sido desde una caída de 80.000 hasta un aumento de 74.000. La noticia no tenía ningún sentido estadístico.
Spiegelhalter explica cómo funcionan los intervalos de confianza y el bootstrap, y por qué ignorar la incertidumbre lleva a decisiones malas. No es tecnicismo: es honestidad sobre qué sabemos y qué no.
El Titanic es uno de los datasets más famosos de la historia. Spiegelhalter lo usa para explicar algoritmos de clasificación, regresión logística y sobreajuste. El 73% de las mujeres sobrevivió; el 19% de los hombres.
Construir un árbol de clasificación con las variables disponibles (clase, edad, sexo, precio del boleto) permite predecir supervivencia con bastante precisión. Pero hay algo más interesante: calcular cuánto se desvió cada persona del promedio esperado para alguien con sus características.
El más afortunado fue un hombre adulto en tercera clase que sobrevivió, cuando estadísticamente casi nadie en su posición lo hacía. La estadística convierte una tragedia en un laboratorio de pensamiento humano.
Por qué la ciencia tiene una crisis de reproducibilidad
Los capítulos sobre pruebas de hipótesis y valores-p son los más críticos del libro. Spiegelhalter no los presenta como herramientas neutrales: son herramientas que durante décadas se usaron mal, generando una montaña de «descubrimientos» que nadie puede replicar.
El problema central: si analizás suficientes variables, vas a encontrar correlaciones significativas por puro azar. Esta práctica tiene nombre: «dragado de datos» o p-hacking. Un estudio mostró que casi la mitad de los psicólogos encuestados admitió haber reportado solo los resultados que salían significativos.
Un valor-p de 0.05 no significa que hay un 5% de probabilidad de estar equivocado. Significa que, si la hipótesis nula fuera cierta, los datos serían tan extremos solo el 5% de las veces. Es una distinción sutil pero enorme. Spiegelhalter propone pensar en términos bayesianos como alternativa más intuitiva.
«Los números no pueden hablar por sí mismos. Nosotros hablamos por ellos. Les conferimos significado.»
Nate Silver · La señal y el ruido (citado en el libro)«Apenas conozco nada tan capaz de atrapar la imaginación como la maravillosa forma de orden cósmico expresada por la ley de frecuencia del error. Reina con una serenidad y sencillez completas en medio de la más salvaje de las confusiones.»
Francis Galton · sobre la distribución normal (citado por Spiegelhalter)¿Este libro es para vos?
Si te preguntás qué hay detrás de los titulares con porcentajes, este libro te da el vocabulario para hacer las preguntas correctas.
Médicos, periodistas, gestores de políticas públicas, analistas. Cualquiera que use datos para justificar decisiones y quiera hacerlo bien.
Si estás cursando estadística y querés entender para qué sirve todo esto antes de sumergirte en fórmulas, este es el libro complementario ideal.
No hace falta saber matemática avanzada. Hace falta querer pensar con más rigor sobre el mundo. Eso sí se necesita.
No todo es perfecto
El libro es largo y, a veces, la promesa de «sin matemáticas» no se cumple del todo. Los capítulos sobre inferencia bayesiana y pruebas de hipótesis requieren concentración. Si bien Spiegelhalter evita las ecuaciones, algunos conceptos son inevitablemente abstractos.
Otro punto: el libro es muy anglocéntrico. Los ejemplos son el NHS, las elecciones del Reino Unido, las estadísticas laborales británicas. Para un lector latinoamericano, el contexto es menos inmediato. Eso no le quita valor conceptual, pero exige más esfuerzo de abstracción.
Lo que definitivamente tiene: ejemplos reales bien elegidos, honestidad sobre las limitaciones de la disciplina, y un autor que claramente disfruta lo que hace. No es un libro que te dice «la estadística lo resuelve todo». Es un libro que te dice cuándo confiar y cuándo dudar.
- ¿La próxima vez que veas un porcentaje en una noticia, vas a preguntar: «¿aumento relativo o absoluto?»?
- ¿Qué decisiones tomás cotidianamente basadas en estadísticas que nunca cuestionaste?
- ¿Sabés cuál es el margen de error de las encuestas que usás para formarte opinión política?
- ¿Cuándo fue la última vez que confundiste correlación con causalidad, y qué consecuencias tuvo?
- ¿Qué cambiaría en tu trabajo si empezaras a reportar siempre la incertidumbre junto con el estimador?
- ¿Cuánto de lo que «sabés» sobre salud, dieta o riesgo viene de estudios observacionales que podrían estar confundidos?
- ¿Podés identificar un caso reciente en los medios donde el framing positivo o negativo cambió tu percepción de un dato?
- Si tuvieras que diseñar una encuesta sobre un tema sensible, ¿qué errores cometerías que este libro te ayuda a evitar?
- ¿Qué significa para vos «pensar como estadístico» en tu área de trabajo o estudio?
- ¿Creés que la alfabetización estadística debería enseñarse en la escuela secundaria? ¿Por qué no se hace?
Spiegelhalter cierra con una idea que atraviesa todo el libro: los datos no hablan solos. Siempre hay alguien que los recopila, alguien que los analiza y alguien que los comunica. En cada uno de esos pasos hay decisiones, sesgos posibles, y oportunidades de manipulación. La única forma de defenderse es entender el proceso. Este libro no te convierte en estadístico. Pero sí te convierte en un lector más difícil de engañar.









