El conjunto de datos Iris es merecidamente ampliamente utilizado en toda la ciencia estadística, especialmente para ilustrar varios problemas en gráficos estadísticos, estadísticas multivariadas y aprendizaje automático.
Con 150 observaciones, es pequeño pero no trivial.
La tarea que plantea discriminar entre tres especies de Iris de las medidas de sus pétalos y sépalos es simple pero desafiante.
Los datos son datos reales, pero aparentemente de buena calidad. En principio y en la práctica, los conjuntos de datos de prueba podrían ser sintéticos y eso podría ser necesario o útil para hacer un punto. Sin embargo, pocas personas se oponen a los datos reales.
Los datos fueron utilizados por el célebre estadístico británico Ronald Fisher en 1936. (Más tarde fue nombrado caballero y se convirtió en Sir Ronald). Al menos a algunos maestros les gusta la idea de un conjunto de datos con un enlace a alguien tan conocido en el campo. Los datos fueron publicados originalmente por el botánico de mentalidad estadística Edgar S. Anderson, pero ese origen anterior no disminuye la asociación.
El uso de algunos conjuntos de datos famosos es una de las tradiciones que transmitimos, como decirle a cada nueva generación que Student trabajó para Guinness o que muchos estadísticos famosos se pelearon entre sí. Eso puede sonar como inercia, pero al comparar métodos antiguos y nuevos, y al evaluar cualquier método, a menudo se considera útil probarlos en conjuntos de datos conocidos, manteniendo así cierta continuidad en la forma en que evaluamos los métodos.
Por último, pero no menos importante, el conjunto de datos de Iris se puede combinar de forma agradable con imágenes de las flores en cuestión, como, por ejemplo, la útil entrada de Wikipedia en el conjunto de datos .
Nota. Haga su parte para la corrección biológica al citar cuidadosamente las plantas en cuestión. Iris setosa , Iris versicolor e Iris virginica son tres especies (no variedades, como en algunas cuentas estadísticas); sus binominales deben presentarse en cursiva, como aquí; e Iris como nombre del género y los otros nombres que indican especies particulares deben comenzar con mayúsculas y minúsculas, respectivamente.