Como usuario entusiasta de R, bash, Python, asciidoc, (La) TeX, software de código abierto o cualquier herramienta un * x, no puedo proporcionar una respuesta objetiva. Además, como a menudo argumento en contra del uso de MS Excel u hoja de cálculo de cualquier tipo (bueno, ves tus datos, o parte de ellos, pero ¿qué más?), No contribuiría positivamente al debate. No soy el único, por ej.
- Adicción a la hoja de cálculo , de P. Burns.
- Precisión y exactitud de MS Excel , una publicación en la lista de correo 2004 R
- L. Knusel, Sobre la precisión de las distribuciones estadísticas en Microsoft Excel 97 , Estadística computacional y análisis de datos, 26: 375–377, 1998. ( pdf )
- BD McCullough & B. Wilson, Sobre la precisión de los procedimientos estadísticos en Microsoft Excel 2000 y Excel XP , Estadística computacional y análisis de datos , 40: 713–721, 2002.
- M. Altman, J. Gill y MP McDonald, Problemas numéricos en informática estadística para el científico social , Wiley, 2004. [por ejemplo, págs. 12–14]
Un colega mío perdió todas sus macros debido a la falta de compatibilidad con versiones anteriores, etc. Otro colega intentó importar datos genéticos (alrededor de 700 sujetos genotipados en 800,000 marcadores, 120 Mo), solo para "mirarlos". Excel falló, el Bloc de notas también se rindió ... Soy capaz de "mirarlos" con vi y reformatear rápidamente los datos con algún script sed / awk o perl. Por lo tanto, creo que hay diferentes niveles a considerar cuando se discute sobre la utilidad de las hojas de cálculo. O trabajas en pequeños conjuntos de datos, y solo quieres aplicar cosas estadísticas elementales y tal vez esté bien. Luego, depende de usted confiar en los resultados, o siempre puede solicitar el código fuente, pero tal vez sería más simple hacer una prueba rápida de todos los procedimientos en línea con el punto de referencia NIST. No creo que corresponda a una buena forma de hacer estadísticas simplemente porque este no es un verdadero software estadístico (en mi humilde opinión), aunque como una actualización de la lista mencionada anteriormente, las versiones más nuevas de MS Excel parecen haber demostrado mejoras en su precisión para análisis estadísticos, ver Keeling y Pavur, un estudio comparativo de la confiabilidad de nueve paquetes de software estadístico ( CSDA 2007 51: 3811).
Aún así, aproximadamente un papel de 10 o 20 (en biomedicina, psicología, psiquiatría) incluye gráficos hechos con Excel, a veces sin quitar el fondo gris, la línea negra horizontal o la leyenda automática (Andrew Gelman y Hadley Wickham son tan felices como yo al verlo). Pero, en general, tiende a ser el "software" más utilizado según una encuesta reciente en FlowingData, que me recuerda una vieja charla de Brian Ripley (coautor del paquete MASS R y escribe un excelente libro sobre reconocimiento de patrones) , entre otros):
No nos engañemos: el software más utilizado para las estadísticas es Excel (B. Ripley a través de Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Ahora, si cree que le proporciona una forma rápida y fácil de realizar sus estadísticas, ¿por qué no? El problema es que todavía hay cosas que no se pueden hacer (o al menos es bastante complicado) en ese entorno. Pienso en bootstrap, permutación, análisis de datos exploratorios multivariados, por nombrar algunos. A menos que sea muy competente en VBA (que no es ni un lenguaje de programación ni de programación), me inclino a pensar que incluso las operaciones menores en los datos se manejan mejor bajo R (o Matlab o Python, siempre que obtenga la herramienta adecuada para tratar con, por ejemplo, el llamado data.frame). Sobre todo, creo que Excel no promueve muy buenas prácticas para el analista de datos (pero también se aplica a cualquier "cliquódromo", vea la discusión en Medstats sobre la necesidad de mantener un registro del procesamiento de datos,Documentando análisis y ediciones de datos ), y encontré esta publicación en Estadísticas prácticas relativamente ilustrativa de algunos de los escollos de Excel. Aún así, se aplica a Excel, no sé cómo se traduce a GDocs.
Al compartir su trabajo, tiendo a pensar que Github (o Gist para el código fuente) o Dropbox (aunque EULA podría desalentar a algunas personas) son muy buenas opciones (historial de revisiones, gestión de subvenciones si es necesario, etc.). No puedo alentar el uso de un software que básicamente almacena sus datos en formato binario. Sé que se puede importar en R, Matlab, Stata, SPSS, pero en mi opinión:
- los datos deben estar definitivamente en formato de texto, que puedan ser leídos por otro software estadístico;
- el análisis debe ser reproducible, lo que significa que debe proporcionar un script completo para su análisis y debe ejecutarse (nos acercamos al caso ideal cerca de aquí ...) en otro sistema operativo en cualquier momento;
- su propio software estadístico debe implementar algoritmos reconocidos y debe haber una manera fácil de actualizarlo para reflejar las mejores prácticas actuales en modelado estadístico;
- El sistema de intercambio que elija debe incluir versiones y recursos de colaboración.
Eso es.