A vueltas con el 0.05 – parte I

Esta entrada mucho me temo que tiene demasiada carga teórica. Vamos, un rollo que no veas, pero es que me hace falta porque tengo que refrescar (quizás llegar a comprender de una vez) todo esto y que en alguna ocasión he tenido que enseñar (quizás mal). Allá tú si sigues, porque esto va sobre ese tremendo melón de la Estadística que son los contrastes de hipótesis. Los frecuentistas, los de “toda la vida”. Veremos desfilar a Neyman y Pearson (no el de la correlación, Karl, sino ¡su hijo! Luego me meteré con el padre, por cierto, además de con Galton, porque vaya dos…) y cómo no, a Ronald Fisher.

Por supuesto, y como siempre, mi rollete viene motivado por mi contacto con dos colegas a los que admiro profundamente. Uno es Carlos Gil Bellosta, quien hizo una gran presentación sobre R, Stan y modelos bayesianos en la última reunión del grupo R madRid, y en la misma, además de (literalmente) poner a parir los enfoques fosilizados del contraste de hipótesis, surgió la pregunta de dónde viene ese mito del p = 0.05. Probablemente este sea quizás de uno de los mitos, de los copia y pega ad infinitum, sin contar su origen o el contexto en el que surgen, en toda la estadística y en todas las ciencias experimentales que al final hacen uso de estas técnicas estadísticas.

El otro es Karel quien mantiene un precioso blog, cafecondatos, y que recientemente se enfrascó en esto de los contrastes estadísticos para ver si hay “efecto lunes” en la Bolsa. Me trajo tantos recuerdos que hasta saqué a la palestra al señor Bonferroni y sus correcciones del alfa. Pero el caso es que tuve que repasar otra vez todo el tema de los contrastes, que quizás nunca me quedó claro del todo. Ya, ya, si sé rechazar hipótesis nulas con alegrí­a y sin miramientos, pero ¿qué pasa con eso de la potencia del contraste? Ah, y algo que surgió en la reu. ¿de dónde sale eso del sempiterno 0.05? Y recordé que habí­a leí­do sobre esto, de hecho lo tuiteé y me repasé creo que dos años de tuits hasta que lo encontré.

Además, el pasado 2015 los p-values estuvieron “en el candelabro”, ¿qué les pasó a los pobres que no les pasara en los 82 años anteriores –artí­culo de Neyman-Pearson de 1933? Pues entre otras cosas que una revista de Psicologí­a prohibió a sus autores publicar resultados con el infame p-value (qué feo queda decir prohibió, mejor aseguró “descartar”). Vamos, que parecería que en Psicología se van a cargar el p-value y toda la parafernalia estadística asociada no por inanición, no, sino por gula pura y dura.

Aquí­ tenéis el artí­culo original, de pago. Pero resultan más interesantes las revisiones de Nature 1 y 2. Resulta que dicen que un contraste con alfa 0.05 “es demasiado fácil de conseguir” y que “se usa a menudo para justificar investigación de baja calidad”. Y yo pienso: ¡pues claro! Porque aceptar un alfa de 0.05 implica que te permites equivocarte en el 5% de tus decisiones, 1 de cada 20 (literalmente lo que dijo Fisher; sigue leyendo si te interesa verlo).

Pero es que resulta que la realidad puede ser muchí­simo peor: entre el 50% y el 75% de los resultados experimentales en Psicologí­a social no son reproducibles. Bueno, al menos en Psicología tenemos experimentación porque en otras “ciencias” no, o muchí­simo menos.

Por cierto que si hasta Nature se lió con eso de los p-values (baja hasta ver “Clarifications” en 1), qué no les pasará a los estudiantes que se enfrenten a este contubernio. Claro, lo que pasa es que se enseña estadí­stica y experimentación sin hacer ni un simple experimentito replicable y cuando finalmente lo tienes que hacer pues torturas los datos hasta que confiesan, vaya si confiesan, lo que tú quieres. Pero es que leed con un poco de detenimiento los artículos anteriores, o este más sesudo en R-bloggers,  ¿explican adecuadamente el procedimiento de Neyman-Pearson?  ¿O el de Fisher? Porque, cáspita, no hay una única manera de hacer contraste de hipótesis en estadística. Mi objetivo es intentar comprender al menos los clásicos, los de Fisher y Neyman-Pearson para meterme con ellos (o no).

¡Ah! y no soo los psicólogos nos hemos pasado tres pueblos haciendo contrastes estadísticos “a troche y moche”, hay pecadores a punta pala -mirad aquí­ o probad a toquetear en esta herramienta interactiva de p-hacking, hasta el punto de que esto de buscar denodadamente que te salga un contraste < 0.05 tiene muchos nombres: Data fishing, snooping o p-hacking.

Así­ que me planteo intentar responder a estas preguntas:  ¿qué culpa tienen los pobres contrastes de hipótesis de que se usen mal?  ¿Por qué se ha llegado a esta situación?  ¿Algún libro explica suficientemente bien de dónde vienen y en qué contexto se propusieron?

Me serviré de la maravillosa recopilación histórica sobre “la significación estadística” de Arthur Charpentier, que, aunque está en francés y no acabo de leerlo bien, es de lo mejor que he leí­do al respecto y además incluye fotos (sí,  ¡imágenes!) de los libros originales que es algo impagable. Este “artesano del dato” (artisanat de la donnée; preciosa definición de nuestro trabajo) que es Arthur Charpentier, se remonta a s. XVIII, Laplace etc, pero la chicha comienza en el s. XIX.

Cita Arthur a Edgeworth que querí­a comparar la estatura de criminales frente a población “normal”. Ay estos británicos que querían encontrar la forma de detectar posibles criminales tan simplemente como con la estatura o ¡la cara! El rostro, vamos.  Sí­, este empeño dio lugar a una de las mayores chaladuras de la pseudo-ciencia, llamada Frenologí­a. Bueno, resulta que este tal Edgeworth se encontró una diferencia de medias de 2 pulgadas (5,08 centí­metros), que “excede por bastante 3 veces el módulo de la curva de “normales”, que es 0.2”. Vamos que si eres bajito (y no te digo si eres bajito y feo) puede ser que la líes parda con más probabilidad.

Aquí es donde me doy el gusto de meterme con Galton, Karl Pearson y sí, también con Fisher. Todos ellos catedráticos de eugenesia. Galton en concreto era un racista temible y precursor al menos del lado de la ciencia y el conocimiento de todos los desastres que vinieron posteriormente. Pearson padre y Galton murieron antes de ser testigos de la barbarie nazi, pero Fisher sí fue testigo. Aunque el departamento de Eugenesia del que era profesor se disolvió en 1939, mantuvo sus ideas sobre las diferencias raciales toda su vida. Ojo que la Eugenesia como aplicación de (normalmente) pseudo-ciencia en la sociedad continuó en algunos paí­ses hasta la década de los 70 (tomen nota, Suecia y USA, además de Sudáfrica). En fin, del mismo modo que la Fí­sica seguro que le debe mucho a la bomba atómica, la Estadística le debe mucho al empeño por “mejorar la raza humana”. Perdonad la digresión pero tenía que hacerla.

Pero está claro que la gloria estadí­stica de la famosa p es Ronald Fisher. No os perdáis las fotos de los textos reales de Sir Ronald dándole vueltas sobre a partir de qué valor un resultado se puede considerar significativo. Resulta que Fisher tenía una forma de escribir muy discursiva, parecido a lo que hacemos ahora muchos creando tutoriales, y que no hacía definiciones, axiomas o corolarios, así que en una de estas vueltas, y con un criterio ajustado a un contexto muy concreto, el de la investigación agrícola -aquí tenéis el libro completo de 1925 Statistical Methods for Research Workers, se plantea “1 entre 20” como un lí­mite aceptable de error admisible.

 

fisher-afe_225-1024x351

Que traducido más o menos sería (perdón que meta mis comentarios entre el texto; total no es un texto sagrado):

“si uno entre veinte (el famoso .05) no parecen posibilidades (“odds”) suficientemente altas, podríamos, si lo preferimos, trazar la línea en uno en cincuenta (.02) o uno en cien (.01). Personalmente el escritor (qué retórico, usa la tercera persona para expresar una opinión) prefiere establecer un umbral bajo de significación en el punto 5% e ignorar enteramente todo resultado que falle al alcanzar este nivel. Un hecho cientí­fico debiera ser considerado experimentalmente establecido solo si un experimento adecuadamente diseñado raramente falla en dar este nivel de significación”.

Y estos pensamientos parece que quedaron escritos en piedra, y se repiten en los textos de estadística. Se ignoran muchas muchas cosas que lo rodean: Fisher desarrolló sus trabajos estadí­sticos, los que más influencia tuvieron (ANOVA, distribución F, primeras versiones de contraste de hipótesis) con datos de explotaciones agrícolas. No parece descabellado plantearse admitir errar el 5% de las veces en este campo,  ¿no? Pero imagí­nese el lector un 5% de fallos en un ensayo clínico de un medicamento con humanos. Y otro punto esencial: el diseño es lo esencial en un experimento, que es lo que hací­a Fisher. Exportar estos conceptos a otros campos como sociología, economía, psicología, en los cuales la manipulación experimental es entre difícil e imposible, requiere como mí­nimo pararse a pensar. Además: Fisher trabajaba con lo que ahora denominamos “small data”,  “toy datasets” -uno de ellos el torturadísimo iris, con los que se puede trabajar a mano, porque hay que recordar que ninguno de estos cerebros desarrolló sus trabajos con siquiera una calculadora.

Si leéis con detenimiento los impagables extractos de Arthur Charpentier o  la wikipedia sobre la historia de los contrastes estadísticos veréis que la forma de trabajar de Fisher es más sencilla que lo que luego propusieron en 1933 Jerzy Neyman y Egon Pearson. Fisher proponí­a un mecanismo para poner a prueba una única hipótesis, denominada nula, que puede ser cualquiera siempre que sea exacta. Lo más habitual es que sea una hipótesis de que no hay efectos, diferencias, o que los resultados observados se deben simplemente al azar, pero se puede plantear cualquier hipótesis siempre y cuando tengas un mecanismo estadístico para ponerla a prueba.

“Se debe recalcar que la hipótesis nula nunca se va a demostrar, sino posiblemente refutar, mediante la experimentación. Todo experimento se puede decir que existirá para dar a los hechos una posibilidad de refutar la hipótesis nula”

Por decirlo de alguna manera, está pensado para descartar resultados (hipótesis nulas) que se deban al azar, y reunir evidencia, que no demostración, de efectos de interés para el investigador.

Neyman y Pearson la liaron al introducir posibles hipótesis alternativas, que pueden ser en un sentido u otro (unidireccionales, que el efecto sea mayor o menor) o bidireccionales (que sencillamente hay efecto sin importar para un lado u otro). Y un esquema con dos tipos de error:

  • tipo I, que se cometerí­a al rechazar una hipótesis nula cuando es verdadera. Detectar efectos cuando no los hay, o tener un “Falso Positivo”
  • tipo II, que se cometerí­a al no rechazar una hipótesis nula cuando es falsa. No detectar efectos cuando los hay, o tener un “Falso Negativo”

Me encanta esta imagen para ilustrar los dos tipos de error:

b_fl6yxuwaenrks

Y esto es lo que efectivamente hace el esquema de Neyman y Pearson muy completo, al considerar los 4 posibles resultados, y de hecho los errores de tipo I y II son independientes, en este esquema debes jugar con ambos.

Y ahora llegan las letras griegas. Ay, sí, el vicio de los estadí­sticos.

  • alpha es la máxima probabilidad aceptable de cometer un error de tipo I.
  • beta es la máxima probabilidad aceptable de cometer un error de tipo II.

Hablando en otros términos, alpha está relacionado con la especificidad de un test, hasta qué punto puedes estar seguro de que cuando detectas un efecto se debe a la manipulación que estás realizando. Beta está en cambio relacionado con la sensibilidad del test, hasta qué punto tu mecanismo permite detectar efectos, diferencias entre un grupo u otro. Otra forma de hablar de ellos:

  • alpha es nivel de significación de un test
  • 1-beta es la potencia de un test

Dejadme que saque algunas conclusiones preliminares:

  • No hay un único esquema de contraste de hipótesis. Hemos planteado dos, uno unidireccional y con hipótesis nula exacta (el de Fisher) y otro más complejo con competencia de diferentes hipótesis (el de Neyman-Pearson). No son lo mismo y debes saber cuándo usar uno u otro. En concreto debes plantearte bien el tamaño del efecto en la hipótesis alternativa para usar adecuadamente Neyman-Pearson. Y de hecho hay más, sobre todo los radicamente diferentes bayesianos. Si no te quieres complicar la vida, puedes usar el de Fisher.
  • La Estadística incluso la más básica proporciona más herramientas de investigación: los intervalos de confianza, por ejemplo.
  • La capacidad de determinar relaciones causa-efecto con evidencia estadí­stica la da el diseño experimental, no la técnica de contraste de hipótesis.
  • El error máximo permitido debe ser establecido antes de las pruebas estadí­sticas, nunca después.

Y sobre todo, ante todo, el alfa es el error máximo que te permites para toda tu serie de contrastes de hipótesis, poque lo que estás haciendo es fijarte un máximo error permitido, de tal modo que con 0.05 asumes que te equivocarás 1 de cada 20 veces. Así­ que si repites el ejercicio n veces llegará (¡y rapidísimo!) el momento en que casi seguro que te equivocas en al menos una en tu serie de contrastes.

Y si no mira:

alfa <- .05
n_contrastes <- 1
prob_equiv_al_menos_1_vez <- (1 - (1- alfa)^n_contrastes) 
prob_equiv_al_menos_1_vez
## [1] 0.05
for (i in c(1, 5, seq(from = 10, to = 100, by = 10))){
  print(paste("Para un alfa de", alfa))
  n_contrastes <- i
  print(paste("n contrastes =", i, "prob de equivocarte será¡", (1 - (1- alfa)^i)))
}
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 1 prob de equivocarte será 0.05"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 5 prob de equivocarte será 0.2262190625"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 10 prob de equivocarte será 0.401263060761621"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 20 prob de equivocarte será 0.641514077591458"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 30 prob de equivocarte será 0.785361236057063"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 40 prob de equivocarte será 0.871487843434897"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 50 prob de equivocarte será 0.923055024723287"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 60 prob de equivocarte será 0.953930201013048"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 70 prob de equivocarte será 0.972416309563225"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 80 prob de equivocarte será 0.983484625614986"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 90 prob de equivocarte será 0.990111635290341"
## [1] "Para un alfa de 0.05"
## [1] "n contrastes = 100 prob de equivocarte será 0.994079470779666"

Parecerá una locura plantearse ese número de contrastes, pero por ejemplo para hacer todas las comparaciones dos a dos de medias de algo entre lunes y viernes se hacen 10 comparaciones:

combn(c("lunes", "martes", "miércoles", "jueves", "viernes"), 
##      [,1]     [,2]         [,3]     [,4]      [,5]         [,6]    
## [1,] "lunes"  "lunes"      "lunes"  "lunes"   "martes"     "martes"
## [2,] "martes" "miércoles" "jueves" "viernes" "miércoles" "jueves"
##      [,7]      [,8]         [,9]         [,10]    
## [1,] "martes"  "miércoles" "miércoles" "jueves" 
## [2,] "viernes" "jueves"     "viernes"    "viernes"

lo cual requiere reducir tu alfa a (1/número de comparaciones) para mantener tu error máximo. Esto es lo que hace Bonferroni, y esto es algo que se ignora de manera sistemática en muchos contextos…

Pero … ¿y qué hacemos con la potencia? ¿Ese Beta vale para algo?

Por hoy ya está bien de tanta teoría. Mañana más…

4 thoughts on “A vueltas con el 0.05 – parte I

  1. Incorporo aquí algunos enlaces buenísimos que he encontrado mientras preparo la segunda parte de este rollete alfas y betas:

    – Post de Daniel Lakens (http://daniellakens.blogspot.com.es/) sobre el incremento de “hallazgos” científicos publicados con alfas entre 0.041 y 0.049. Da que pensar, y apunta a un hecho clarísimo: lo que no resulta significativo, las evidencias en contra de la tradicional hipótesis de que sí habrá algún efecto, *no* se publican, mejor dicho, parece que se publican cada vez menos:
    http://daniellakens.blogspot.com.es/2015/02/a-peculiar-surge-of-incorrect.html

    (incluye resultados de ciencias sociales, biológicas y físicas; con grandes diferencias entre ellas, claro. Pero fijaos en el disparo en ciencias biológicas http://3.bp.blogspot.com/-CEIYUMBM6Z8/VOMOJPM70YI/AAAAAAAACZs/YUua-MQ-P2k/s1600/Fig9.png)

    – Lo estuve buscando para ponerlo *lo primero* pero no lo encontré. Los maravillosos gráficos interactivos (D3) sobre estadística de Kristoffer Magnusson (http://rpsychologist.com/). Este es el *maravilloso* sobre contrastes estadísticos, alfas betas y todas esas gaitas: http://rpsychologist.com/d3/NHST/

    Like

  2. Estoy leyendo ahora mismo un reciente informe de la National Academies Press, con el título Statistical Challenges in Assessing and Fostering the Reproducibility of Scientific Results: Summary of a Workshop (2016) , que te puedes descargar gratuitamente de aquí (exige registro pero nada más; no te confundas con el enlace con precio, ese es para comprar el libro impreso):
    http://www.nap.edu/catalog/21915/statistical-challenges-in-assessing-and-fostering-the-reproducibility-of-scientific-results

    Y leo lo siguiente:
    Increasing the Threshold for Scientific Significance
    Several speakers (Dennis Boos, Andreas Buja, Steven Goodman, Valen Johnson, and Victoria Stodden) and participants discussed the inadequacy of the current p-value standard of 0.05 to demonstrate scientific significance. Some alternative proposals included reducing the standard p-value (Buja) by at least an order of
    magnitude (Johnson), switching to a p-value range (Boos), or switching to a Bayes factor equivalent (Johnson). There was some opposition to changing the standard, specifically due to the possibility that additional resources would be needed to meet the requirement for larger sample sizes.

    Así que el tema está candente: hay que revisar esa “manía” del 0.05, quizás reducirlo, y además plantearse aumentar tamaños de muestras porque esa es la consecuencia básica de aumentar especificidad, necesitaremos potencia, aumentar tamaños de muestras (o plantearse experimentos distribuidos y exactamente replicables).

    Like

  3. ¡Pues sí que está calentito este tema de los p-values, NHST y todo este rollo! Me encuentro hoy con un puñado de enlaces, y me entero además que la ASA (American Statistical Association nada menos) ha manifestado postura oficial para revisar esto del .05
    http://amstat.tandfonline.com/doi/pdf/10.1080/00031305.2016.1154108

    El comienzo es estupendo:
    Q: Why do so many colleges and grad schools teach p = .05?
    A: Because that’s still what the scientific community and journal editors use.

    Q: Why do so many people still use p = 0.05?
    A: Because that’s what they were taught in college or grad school.

    He de decir que esta no es la única tautología que encuentras en los libros habituales de estadística. Lo de los niveles de medida es otro “copia y pega” eterno que da lugar a infinidad de confusiones.

    Hoy me he vuelto un poco loco en mi twitter (https://twitter.com/ConcejeroPedro) y he comentado al menos estas respuestas o elaboraciones sobre lo de la ASA:

    – Estos de DataScienceCentral que por cierto llevan vendiendo su libro la torta, declaran la muerte de p-05, pero no sé para qué, porque proponen usar intervalos de confianza (al 95%) que es más o menos ¡lo mismo! Por supuesto, los intervalos son herramienta más generalmente aplicable que los contrastes, pero se basan en lo mismo!
    http://www.datasciencecentral.com/profiles/blogs/the-death-of-the-statistical-test-of-hypothesis

    – La polémica en r-bloggers
    http://www.r-bloggers.com/its-not-the-p-values-fault-reflections-on-the-recent-asa-statement-relevant-r-resources/
    Por cierto excelente lista de R packages for Simultaneous and Selective Inference (“SASI” R packages) -o también, comparaciones múltiples

    – Y más comentarios en r-bloggers
    http://www.r-bloggers.com/further-comments-on-the-asa-manifesto/
    con un ejemplo con dataset movielens que, francamente, no acabo de verlo.

    Like

Leave a comment