Como se puede esperar de Hadley, su artículo contiene una buena definición de datos ordenados y estoy de acuerdo con casi todo en su artículo y creo que no solo es válido para los "profesionales de datos". Sin embargo, algunos de los puntos que señala son relativamente fáciles de solucionar (por ejemplo, con los paquetes que ha creado) si se evitan algunos problemas más fundamentales. La mayoría de estos problemas son el resultado del uso generalizado de Excel. Excel es una herramienta valiosa y tiene sus méritos, pero algunas de sus instalaciones resultan en problemas para los analistas de datos.
Algunos puntos (de mis experiencias):
- A algunas personas les gustan las hojas de cálculo coloridas y hacen un uso abundante de las opciones de formato. Todo esto está bien, si les ayuda a organizar sus datos y preparar tablas para su presentación. Sin embargo, es peligroso si un color de celda realmente codifica datos. Es fácil perder estos datos y es muy difícil importarlos al software estadístico (por ejemplo, vea esta pregunta en Desbordamiento de pila).
- A veces obtengo algunos datos bien formateados (después de decirle a la gente cómo prepararlos), pero a pesar de pedirles que usen una columna dedicada o un archivo separado para comentarios, deciden poner un comentario en una columna de valor. No solo necesito lidiar con esta columna de manera especial al importar los datos, sino que el problema principal es que necesitaría desplazarme por toda la tabla para ver dichos comentarios (lo que normalmente no haría). Esto empeora aún más si usan las funciones de comentarios de Excel.
- Las hojas de cálculo con varias tablas en ellas, varias líneas de encabezado o celdas conectadas dan como resultado un trabajo manual para prepararlas para la importación en el software estadístico. Los buenos analistas de datos generalmente no disfrutan de este tipo de trabajo manual.
- Nunca, nunca escondas columnas en Excel. Si no son necesarios, elimínelos. Si son necesarios, muéstralos.
- xls y sus descendientes no son formatos de archivo adecuados para intercambiar datos con otros o archivarlos. Las fórmulas se actualizan cuando se abre el archivo y diferentes versiones de Excel pueden manejar los archivos de manera diferente. En su lugar, recomiendo un archivo CSV simple, ya que casi todo el software relacionado con datos puede importar eso (incluso Excel) y se puede esperar que eso no cambie pronto. Sin embargo, tenga en cuenta que Excel se redondea a dígitos visibles cuando se guarda en un CSV (descartando así la precisión).
- Si desea facilitarle la vida a los demás, adhiérase a los principios dados en el artículo de Hadley. Tenga una columna de valor para cada variable y columnas de factores que definan estratos.
Probablemente hay varios puntos adicionales que no me vinieron a la mente.