Respuestas:
La respuesta breve a esto que he escuchado de Persi Diaconis es la siguiente: los problemas considerados por la probabilidad y las estadísticas son inversos entre sí. En la teoría de la probabilidad consideramos algún proceso subyacente que tiene cierta aleatoriedad o incertidumbre modelada por variables aleatorias, y descubrimos qué sucede. En estadística observamos algo que ha sucedido e intentamos descubrir qué proceso subyacente explicaría esas observaciones.
Me gusta el ejemplo de una jarra de gominolas rojas y verdes.
Un probabilista comienza por conocer la proporción de cada uno y pregunta la probabilidad de sacar un gominola roja. Un estadístico infiere la proporción de gominolas rojas al tomar muestras del frasco.
Es engañoso decir simplemente que las estadísticas son simplemente el inverso de la probabilidad. Sí, las preguntas estadísticas son preguntas de probabilidad inversa, pero son problemas inversos mal planteados , y esto hace una gran diferencia en términos de cómo se abordan.
La probabilidad es una rama de la matemática pura: las preguntas de probabilidad se pueden plantear y resolver utilizando el razonamiento axiomático, y por lo tanto hay una respuesta correcta a cualquier pregunta de probabilidad.
Las preguntas estadísticas se pueden convertir en preguntas de probabilidad mediante el uso de modelos de probabilidad . Una vez que hacemos ciertas suposiciones sobre el mecanismo que genera los datos, podemos responder preguntas estadísticas usando la teoría de probabilidad. SIN EMBARGO, la formulación y verificación adecuadas de estos modelos de probabilidad es tan importante, o incluso más importante, que el análisis posterior del problema utilizando estos modelos.
Se podría decir que las estadísticas constan de dos partes. La primera parte es la cuestión de cómo formular y evaluar modelos probabilísticos para el problema; Este esfuerzo se encuentra dentro del dominio de la "filosofía de la ciencia". La segunda parte es la cuestión de obtener respuestas después de que se haya asumido cierto modelo. Esta parte de la estadística es, de hecho, una cuestión de teoría de la probabilidad aplicada y, en la práctica, también contiene una buena cantidad de análisis numérico.
Me gusta esto de las apuestas calculadas de Steve Skienna (vea el enlace para una discusión completa):
En resumen, la teoría de la probabilidad nos permite encontrar las consecuencias de un mundo ideal dado, mientras que la teoría estadística nos permite medir hasta qué punto nuestro mundo es ideal.
La probabilidad es una ciencia pura (matemática), la estadística se trata de datos. Están conectados ya que la probabilidad forma algún tipo de fundamento para las estadísticas, proporcionando ideas básicas.
La Tabla 3.1 de Bioestadística intuitiva responde esta pregunta con el diagrama que se muestra a continuación. Tenga en cuenta que todas las flechas apuntan a la derecha para probabilidad, y apuntan a la izquierda para estadísticas.
PROBABILIDAD
General ---> Específico
Población ---> Muestra
Modelo ---> Datos
ESTADÍSTICA
General <--- Específico
Población <--- Muestra
Modelo <--- Datos
La probabilidad responde preguntas sobre lo que sucederá, las estadísticas responden preguntas sobre lo que sucedió.
La probabilidad se trata de cuantificar la incertidumbre, mientras que las estadísticas explican la variación en alguna medida de interés (por ejemplo, ¿por qué varían los niveles de ingresos?) Que observamos en el mundo real.
Explicamos la variación usando algunos factores observables (por ejemplo, género, nivel educativo, edad, etc. para el ejemplo de ingresos). Sin embargo, dado que no podemos tener en cuenta todos los posibles factores que afectan el ingreso, dejamos cualquier variación inexplicable a errores aleatorios (que es donde entra en juego la incertidumbre cuantificadora).
Dado que atribuimos "Variación = Efecto de factores observables + Efecto de errores aleatorios", necesitamos las herramientas proporcionadas por la probabilidad para dar cuenta del efecto de los errores aleatorios en la variación que observamos.
Algunos ejemplos siguen:
Incertidumbre cuantitativa
Ejemplo 1: Tira un dado de 6 lados. ¿Cuál es la probabilidad de obtener un 1?
Ejemplo 2: ¿Cuál es la probabilidad de que el ingreso anual de una persona adulta seleccionada al azar de los Estados Unidos sea inferior a $ 40,000?
Explicando la variación
Ejemplo 1: Observamos que el ingreso anual de una persona varía. ¿Qué factores explican la variación en el ingreso de una persona?
Claramente, no podemos dar cuenta de todos los factores. Por lo tanto, atribuimos el ingreso de una persona a algunos factores observables (por ejemplo, nivel de educación, género, edad, etc.) y dejamos cualquier variación restante a la incertidumbre (o en el lenguaje de las estadísticas: a errores aleatorios).
Ejemplo 2: Observamos que algunos consumidores eligen Tide la mayoría de las veces que compran un detergente, mientras que otros consumidores eligen la marca de detergente xyz. ¿Qué explica la variación en la elección? Atribuimos la variación en las opciones a algunos factores observables, como el precio, el nombre de la marca, etc. y dejamos cualquier variación sin explicación a errores aleatorios (o incertidumbre).
La probabilidad es el abrazo de la incertidumbre, mientras que las estadísticas son una búsqueda empírica y voraz de la verdad (los malditos mentirosos excluidos, por supuesto).
La probabilidad de un evento es su frecuencia relativa a largo plazo. Básicamente, te dice la posibilidad de, por ejemplo, obtener una 'cara' en el próximo lanzamiento de una moneda, o obtener un '3' en la próxima tirada de un dado.
Una estadística es cualquier medida numérica calculada a partir de una muestra de la población. Por ejemplo, la media de la muestra. Usamos esto como una estadística que estima la media de la población, que es un parámetro. Básicamente, te está dando algún tipo de resumen de una muestra.
Los estudios de probabilidad, bueno, cuán probables son los eventos. Intuitivamente sabes lo que es la probabilidad.
La estadística es el estudio de los datos: mostrarlos (usando herramientas como gráficos), resumirlos (usar medias y desviaciones estándar, etc.), llegar a conclusiones sobre el mundo del que se extrajeron esos datos (ajustar líneas a datos, etc.), y - esta es la clave - cuantificando qué tan seguros podemos estar de nuestras conclusiones.
Para cuantificar cuán seguros podemos estar de nuestras conclusiones, necesitamos usar Probabilidad. Digamos que tiene datos del año pasado sobre la lluvia en la región donde vive y donde yo vivo. El año pasado llovió un promedio de 1/4 de pulgada por semana donde vives, y 3/8 de pulgada donde vivo. Entonces, podemos decir que la lluvia en mi región es en promedio un 50% mayor que donde vives, ¿verdad? No tan rápido, Sparky. Podría ser una coincidencia: quizás llueve mucho el año pasado donde vivo. Podemos usar Probabilidad para estimar la confianza que podemos tener en nuestra conclusión de que mi casa es 50% más húmeda que la suya.
Básicamente, se puede decir que la probabilidad es la base matemática de la teoría de la estadística.
En la teoría de la probabilidad, se nos dan variables aleatorias X1, X2, ... de alguna manera, y luego estudiamos sus propiedades, es decir, calculamos la probabilidad P {X1 \ en B1}, estudiamos la convergencia de X1, X2, ... etc. .
En estadística matemática, se nos dan n realizaciones de alguna variable aleatoria X, y un conjunto de distribuciones D; El problema es encontrar entre las distribuciones de D uno que es más probable que genere los datos que observamos.
En probabilidad, la distribución es conocida y conocible de antemano: comienza con una función de distribución de probabilidad conocida (o similar), y muestra de ella.
En estadística, la distribución es desconocida de antemano. Incluso puede ser incognoscible. Los supuestos se hipotetizan sobre la distribución de probabilidad detrás de los datos observados, para poder aplicar la teoría de probabilidad a esos datos para saber si una hipótesis nula sobre esos datos puede ser rechazada o no.
Existe una discusión filosófica sobre si existe la probabilidad en el mundo real, o si es un producto ideal de nuestra imaginación matemática, y todas nuestras observaciones solo pueden ser estadísticas.
La estadística es la búsqueda de la verdad frente a la incertidumbre. La probabilidad es la herramienta que nos permite cuantificar la incertidumbre.
(He proporcionado otra respuesta más larga que suponía que lo que se preguntaba era algo como "¿cómo se lo explicarías a tu abuela?")
Respuesta # 1: La estadística está parametrizada Probabilidad. Cualquier libro sobre Probabilidad teórica de medidas le informará sobre el triplete de Probabilidad: . Pero si está haciendo estadísticas, debe agregar a lo anterior: , es decir, para diferentes valores de , obtiene diferentes medidas de probabilidad (diferentes distribuciones).θ ( Ω , F , P θ ) θ
Respuesta # 2: La probabilidad se trata de avanzar; Las estadísticas se trata de retroceder. La probabilidad se trata del proceso de generación (simulación) de datos dado un valor de . Las estadísticas tratan sobre el proceso de tomar datos para sacar conclusiones sobre .θ
Descargo de responsabilidad: los anteriores son respuestas matemáticas. En realidad, gran parte de las estadísticas también se trata de diseñar / descubrir modelos apropiados, cuestionar modelos existentes, diseñar experimentos, tratar con datos imperfectos, etc. "Todos los modelos están equivocados".
Probabilidad : dados los parámetros conocidos, encuentre la probabilidad de observar un conjunto particular de datos.
Estadísticas : dado un conjunto particular de datos observados, haga una inferencia sobre cuáles podrían ser los parámetros.
La estadística es "más subjetiva" y "más arte que ciencia" (en relación con la probabilidad).
Tenemos una moneda que se puede lanzar. Sea la proporción de lanzamientos de monedas que son caras.
Diferentes estadísticos darán respuestas diferentes, a menudo largas.
La diferencia entre las probabilidades y las estadísticas es que en las probabilidades no hay error. Estamos seguros de la probabilidad porque sabemos exactamente cuántos lados tiene una moneda o cuántos caramelos azules hay en el florero. Pero en las estadísticas examinamos una parte de una población de lo que sea que examinemos, y de esto, tratamos de ver la verdad, pero siempre hay un% de conclusiones erróneas. Lo único que es cierto en las estadísticas es que es un error%, que de hecho es una probabilidad.
El texto Fundamentos de las estadísticas de Savage ha sido citado más de 12000 veces en Google Scholar. [3] Dice lo siguiente.
Se acuerda por unanimidad que las estadísticas dependen de alguna manera de la probabilidad. Pero, en cuanto a qué es la probabilidad y cómo está relacionada con las estadísticas, rara vez ha habido un desacuerdo y una interrupción de la comunicación tan completos desde la Torre de Babel. Sin duda, gran parte del desacuerdo es meramente terminológico y desaparecería con un análisis suficientemente agudo.
https://en.wikipedia.org/wiki/Foundations_of_statistics
Por lo tanto, el punto de que la teoría de la probabilidad es una base de estadística apenas se discute. Todo lo demás es juego limpio.
Pero al tratar de ser más útil, práctico con una respuesta ...
Sin embargo, la teoría de la probabilidad contiene mucho de interés matemático y no directamente relevante para las estadísticas. Además, muchos temas en estadística son independientes de la teoría de probabilidad
https://en.wikipedia.org/wiki/Probability_and_statistics
Lo anterior no es exhaustivo ni autoritario de ninguna manera, pero creo que es útil.
Comúnmente me ha ayudado a ver cosas como ...
Matemática discreta >> Teoría de la probabilidad >> Estadística
Con cada uno siendo muy utilizado, en promedio, en los cimientos del siguiente. Es decir, hay grandes intersecciones en la forma en que estudiamos los fundamentos del próximo.
PD. Hay estadísticas inductivas y deductivas, por lo que no es ahí donde radica la diferencia.
Muchas personas y matemáticos dicen que 'ESTADÍSTICAS es lo contrario de PROBABILIDAD', pero no es particularmente correcto. La forma de acercarse o el método para resolver estos 2 son completamente diferentes, pero están INTERCONECTADOS .
Me gustaría referirme a mi amigo John D Cook .....
"Me gusta el ejemplo de una jarra de gominolas rojas y verdes.
Un probabilista comienza por conocer la proporción de cada uno y digamos que encuentra la probabilidad de sacar un gominola roja. Un estadístico infiere la proporción de gominolas rojas al tomar muestras del frasco ".
Ahora, el probabilista usa la proporción de la gominola roja obtenida por muestreo del frasco para encontrar la probabilidad de extraer una gomita roja del frasco
Considere este ejemplo ---- >>>
En un examen, el 30% de los estudiantes reprobaron física, el 25% reprobó matemática, el 12% reprobó tanto física como matemática. Un estudiante es seleccionado al azar y encuentra la probabilidad de que el estudiante haya fallado en Física, si se sabe que falló en matemáticas.
La suma anterior es un problema de probabilidad, pero si miramos cuidadosamente, encontraremos que la suma se proporciona con algunos datos estadísticos
30% de estudiantes reprobaron física, 25% "" "matemáticas" ''. Estas son básicamente frecuencias si se calculan los porcentajes. Por lo tanto, se nos proporcionan datos estadísticos que a su vez nos ayudan a encontrar la probabilidad
ASÍ QUE LA PROBABILIDAD Y LAS ESTADÍSTICAS ESTÁN MUY MUCHO INTERCONECTADAS O EN TANTO, PODEMOS DECIR QUE LA PROBABILIDAD ES DEPENDIENTE MUCHO DE LAS ESTADÍSTICAS
El término "estadísticas" está bellamente explicado por JC Maxwell en el artículo Moléculas (en Nature 8, 1873, pp. 437-441). Permítanme citar el pasaje relevante:
Cuando los miembros que trabajan en la Sección F obtienen un Informe del Censo, o cualquier otro documento que contenga datos numéricos de Ciencias Económicas y Sociales, comienzan por distribuir a toda la población en grupos, según la edad, el impuesto sobre la renta, la educación, creencias religiosas o condenas penales. El número de individuos es demasiado grande para permitir que rastreen la historia de cada uno por separado, de modo que, para reducir su trabajo dentro de los límites humanos, concentren su atención en un pequeño número de grupos artificiales. El número variable de individuos en cada grupo, y no el estado variable de cada individuo, es el dato primario desde el cual trabajan.
Este, por supuesto, no es el único método para estudiar la naturaleza humana. Podemos observar la conducta de hombres individuales y compararla con la conducta que su carácter anterior y sus circunstancias actuales, de acuerdo con la mejor teoría existente, nos llevarían a esperar. Quienes practican este método se esfuerzan por mejorar su conocimiento de los elementos de la naturaleza humana, de la misma manera que un astrónomo corrige los elementos de un planeta comparando su posición real con la deducida de los elementos recibidos. Por lo tanto, el estudio de la naturaleza humana realizado por padres y maestros de escuela, por historiadores y estadistas, debe distinguirse del realizado por los registradores y tabuladores, y por aquellos estadistas que ponen su fe en las cifras. Uno puede llamarse el método histórico y el otro el método estadístico.
Las ecuaciones de dinámica expresan completamente las leyes del método histórico aplicado a la materia, pero la aplicación de estas ecuaciones implica un conocimiento perfecto de todos los datos. Pero la porción más pequeña de materia que podemos someter a experimentación consiste en millones de moléculas, ninguna de las cuales se vuelve individualmente sensible para nosotros. Por lo tanto, no podemos determinar el movimiento real de ninguna de estas moléculas, de modo que estamos obligados a abandonar el estricto método histórico y a adoptar el método estadístico de tratar con grandes grupos de moléculas.
Da esta explicación del método estadístico en varios otros trabajos. Por ejemplo, "En el método estadístico de investigación, no seguimos el sistema durante su movimiento, pero fijamos nuestra atención en una fase particular y determinamos si el sistema está en esa fase o no, y también cuando entra en la fase y cuando lo deja "(Trans. Cambridge Philos. Soc. 12, 1879, pp. 547–570).
Hay otro hermoso pasaje de Maxwell sobre "probabilidad" (de una carta a Campbell, 1850, reimpresa en The Life of James Clerk Maxwell , p. 143):
la ciencia actual de la lógica está familiarizada actualmente solo con cosas ciertas, imposibles o totalmente dudosas, ninguna de las cuales (afortunadamente) tenemos que razonar. Por lo tanto, la verdadera lógica para este mundo es el cálculo de probabilidades, que tiene en cuenta la magnitud de la probabilidad (que es, o que debería estar en la mente de un hombre razonable).
Entonces podemos decir:
- En estadística estamos "concentrando nuestra atención en un pequeño número de grupos artificiales" o cantidades; estamos haciendo una especie de catalogación o censo.
- Probablemente estamos calculando nuestra incertidumbre sobre algunos eventos o cantidades.
Los dos son distintos, y podemos estar haciendo el uno sin el otro.
Por ejemplo, si hacemos un censo completo de toda la población de una nación y contamos el número exacto de personas que pertenecen a grupos particulares como la edad, el sexo, etc., estamos haciendo estadísticas. No hay incertidumbre - probabilidad - involucrada, porque los números que encontramos son exactos y conocidos.
Por otro lado, imagina a alguien pasando frente a nosotros en la calle, y nos preguntamos acerca de su edad. En este caso, no estamos seguros y usamos la probabilidad, pero no hay estadísticas involucradas, ya que no estamos haciendo algún tipo de censo o catálogo.
Pero los dos también pueden ocurrir juntos. Si no podemos hacer un censo completo de una población, tenemos que adivinar cuántas personas están en grupos específicos de edad y género. Por lo tanto, estamos usando probabilidad mientras hacemos estadísticas. Viceversa, podemos considerar datos estadísticos exactos sobre las edades de las personas y, a partir de dichos datos, tratar de adivinar mejor la persona que pasa frente a nosotros. Por lo tanto, estamos usando estadísticas al decidir una probabilidad.