"Investigación reproducible" como análisis reproducible
La investigación reproducible es un término utilizado en algunos dominios de investigación para referirse específicamente a la realización de análisis de manera que
- el código transforma datos sin procesar y metadatos en datos procesados,
- el código ejecuta análisis de los datos y
- El código incorpora análisis en un informe.
Cuando se comparten dichos datos y códigos, esto permite a otros investigadores:
- realizar análisis no informados por los investigadores originales
- verificar la exactitud de los análisis realizados por los investigadores originales
Este uso se puede ver en las discusiones de tecnologías como Sweave . Por ejemplo, Friedrich Leisch escribe en el contexto de Sweave que "el informe puede actualizarse automáticamente si cambian los datos o el análisis, lo que permite una investigación realmente reproducible". También se puede ver en la Vista de tareas CRAN sobre investigación reproducible que establece que "el objetivo de la investigación reproducible es vincular instrucciones específicas con el análisis de datos y los datos experimentales para que la beca pueda ser recreada, mejor entendida y verificada".
Uso más amplio del término "reproducibilidad"
La reproducibilidad es un objetivo fundamental de la ciencia. No es nuevo Los informes de investigación incluyen secciones de métodos y resultados que deben describir cómo se generaron, procesaron y analizaron los datos. Una regla general es que los detalles proporcionados deben ser suficientes para permitir que un investigador adecuadamente competente tome la información proporcionada y reproduzca el estudio.
La reproducibilidad también está estrechamente relacionada con los conceptos de replicabilidad y generalización.
Por lo tanto, el término "investigación reproducible", tomado literalmente, como aplicado a tecnologías como Sweave, es un nombre inapropiado, dado que sugiere una relevancia más amplia de la que cubre. Además, al presentar tecnologías como Sweave a los investigadores que no han utilizado tales tecnologías, estos investigadores a menudo se sorprenden cuando llamo al proceso "investigación reproducible".
Un término mejor que "investigación reproducible"
Dado que la "investigación reproducible", tal como se utiliza en contextos similares a Sweave, solo se refiere a un aspecto de la investigación reproducible, quizás se deba adoptar un término alternativo. Las posibles alternativas incluyen:
- Análisis reproducible:
- Análisis de datos reproducibles
- Análisis estadístico reproducible
- Reportes reproducibles
Todos los términos anteriores son un reflejo más preciso de lo que implican los análisis tipo Sweave. El análisis reproducible es corto y dulce. Agregar "datos" o "estadísticas" aclara aún más las cosas, pero también hace que el término sea más largo y más estrecho. Además, "estadístico" tiene un significado limitado y amplio, y ciertamente dentro del significado limitado, gran parte del procesamiento de datos no es estadístico. Por lo tanto, la amplitud que implica el término "análisis reproducible" tiene sus ventajas .
No se trata solo de reproducibilidad
El otro problema adicional con el término "investigación reproducible" es que el objetivo de las tecnologías similares a Sweave no es solo la "reproducibilidad". Hay varios objetivos interrelacionados:
- Reproducibilidad
- ¿Se pueden volver a ejecutar fácilmente los análisis para transformar los datos sin procesar en un informe final con los mismos resultados?
- Exactitud
- ¿Es el análisis de datos consistente con las intenciones del investigador?
- ¿Son correctas las intenciones del investigador?
- Franqueza
- Transparencia, responsabilidad
- ¿Pueden otros verificar y verificar la precisión de los análisis realizados?
- Extensibilidad, modificabilidad
- ¿Pueden otros modificar, ampliar, reutilizar y mezclar los datos, análisis o ambos para crear nuevos trabajos de investigación?
Hay un argumento de que el análisis reproducible debe promover análisis correctos, porque hay un registro escrito de análisis que se puede verificar. Además, si se comparten datos y códigos, crea responsabilidad que motiva a los investigadores a verificar sus análisis, y permite a otros investigadores notar las correcciones.
El análisis reproducible también se ajusta estrechamente a los conceptos relacionados con la investigación abierta. Por supuesto, un investigador puede usar tecnologías similares a Sweave solo para sí mismo. Los principios de investigación abierta fomentan el intercambio de datos y el código de análisis para permitir una mayor reutilización y responsabilidad.
Esto no es realmente una crítica del uso de la palabra "reproducible". Más bien, solo destaca que el uso de tecnologías similares a Sweave es necesario pero no suficiente para lograr objetivos de investigación científica abiertos.