Preguntas etiquetadas con dataset

Las solicitudes de conjuntos de datos están fuera de tema en este sitio. Use esta etiqueta para preguntas relacionadas con la creación, el procesamiento o el mantenimiento de conjuntos de datos.

3
Los datos de entrenamiento están desequilibrados, pero ¿también debería estar mi conjunto de validación?
He etiquetado los datos compuestos por 10000 ejemplos positivos y 50000 ejemplos negativos, dando un total de 60000 ejemplos. Obviamente estos datos están desequilibrados. Ahora digamos que quiero crear mi conjunto de validación, y quiero usar el 10% de mis datos para hacerlo. Mi pregunta es la siguiente: ¿Debo asegurarme …




2
Conjuntos de datos de juegos de computadora
He estado buscando conjuntos de datos de juegos de computadora, pero hasta ahora solo he podido encontrar el conjunto de datos 'Historial de Avatar' para WoW. ¿Existen otros conjuntos de datos interesantes, posiblemente para otros géneros?

1
¿Marcaría estos datos como fraudulentos?
Supongamos que se le han dado algunos datos de un diseño de bloques al azar con 4 repeticiones y 23 tratamientos. Después de una inspección inicial de los datos, observa que para 8 tratamientos todas las repeticiones son idénticas, lo que obviamente es incorrecto. Después de informar el problema, se …

2
Problemas con la detección de valores atípicos
En una publicación de blog, Andrew Gelman escribe : La regresión gradual es una de estas cosas, como la detección de valores atípicos y los gráficos circulares, que parecen ser populares entre los no estadísticos, pero los estadísticos consideran que son una broma. Entiendo la referencia a los gráficos circulares, …



2
Función de probabilidad de datos truncados
Tengo algunos problemas para comprender el concepto y la derivación de la probabilidad de datos truncados. Por ejemplo, si quiero encontrar la función de probabilidad basada en una muestra de una distribución, pero al tomar una muestra de la distribución, observo los valores truncados (donde hay un corte de , …

1
Intervalos de confianza al usar el teorema de Bayes
Estoy calculando algunas probabilidades condicionales y los intervalos de confianza del 95% asociados. Para muchos de mis casos, tengo recuentos directos de xéxitos fuera de los nensayos (de una tabla de contingencia), por lo que puedo usar un intervalo de confianza binomial, como se proporciona binom.confint(x, n, method='exact')en R. Sin …

1
¿Cómo generar una buena tabla resumen?
Quiero que R muestre los datos que me da de la summary()función en una tabla para poder compartir esto fácilmente. Actualmente solo estoy haciendo summary()en la consola y luego tomando una captura de pantalla, pero prefiero que esto se genere como una buena tabla al igual que todos mis gráficos. …

1
¿Qué significa este desenfoque alrededor de la línea en este gráfico?
Estaba jugando con ggplot2 usando los siguientes comandos para ajustar una línea a mis datos: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Los puntos rojos son valores medios, el azul son las medias y …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.