Me preguntaba si hay una manera de saber la probabilidad de que algo falle (un producto) si tenemos 100,000 productos en el campo durante 1 año y sin fallas. ¿Cuál es la probabilidad de que uno de los próximos 10,000 productos vendidos falle?
Me preguntaba si hay una manera de saber la probabilidad de que algo falle (un producto) si tenemos 100,000 productos en el campo durante 1 año y sin fallas. ¿Cuál es la probabilidad de que uno de los próximos 10,000 productos vendidos falle?
Respuestas:
La probabilidad de que un producto falle seguramente es una función del tiempo y el uso. No tenemos datos de uso, y con solo un año no hay fallas (¡felicidades!). Por lo tanto, este aspecto (llamado función de supervivencia ) no puede estimarse a partir de sus datos.
Sin embargo, puede pensar en las fallas dentro de un año como extraídas de una distribución binomial . Aún no tiene fallas, pero ahora es un problema común. Una solución simple es usar la regla de 3 , que es precisa con grande (que ciertamente tiene). Específicamente, se puede obtener el límite superior de una cara de un 95% intervalo de confianza (es decir, el límite inferior es ) en la verdadera probabilidad de fallo dentro de un año como . En su caso, tiene una confianza del 95% de que la tasa es inferior a . 0 3 / N 0.00003
También preguntó cómo calcular la probabilidad de que uno o más de los siguientes 10k falle. Una manera rápida y simple (aunque extrema) de extender el análisis anterior es simplemente usar el límite superior como la probabilidad subyacente y usar el CDF binomial correspondiente para obtener la probabilidad de que no habrá fallas. Usando el código, podríamos hacer:, lo que brinda la posibilidad de ver una o más fallas en los próximos 10k productos. Al utilizar el límite superior, esta no es la estimación óptima del punto de la probabilidad de tener al menos una falla, sino que puede decirse que es muy poco probable que la probabilidad de falla sea mayor que≥ 1 ≈ 26 % ( F + 1 ) / ( N + 2 ) F p = 9,9998 × 10 - 06 1 + ≈ 10 %R
1-pbinom(0, size=10000, prob=0.00003)
0.2591851
(reconociendo que este es un marco algo 'ondulado a mano'). Otra posibilidad es utilizar la sugerencia de @ ameba de la estimación de la regla de sucesión de Laplace . La regla de sucesión establece que la probabilidad estimada de falla es , donde es el número de fallas. En ese caso, , y el cálculo de la probabilidad pronosticada de fallas en los próximos 10,000 es , dando , o . 1-pbinom(0, size=10000, prob=9.9998e-06)
0.09516122
Puedes adoptar un enfoque bayesiano. denote la probabilidad de falla por y piense en ella como una variable aleatoria. A priori, antes de ver los resultados de los experimentos, puede creer que Θ ∼ U ( 0 , 1 ) . Si confía en los ingenieros para hacer que este producto sea confiable, tal vez pueda tomar Θ ∼ U ( 0 , 0.1 ) más o menos. Esto depende de ti. Luego, puede usar el teorema de Bayes para calcular la distribución posterior de θ . Denote A el evento que ha observado ( n experimentos con cero fallas).
Todo es simple:Θes uniforme, entoncesp(θ)es algo constante. Como ejecutanexperimentos,p(A|θ)es solo la probabilidad de que no hayafallasennbernouli ensayos con probabilidad de fallaθ.
Una vez que tienes eres oro: puedes calcular la probabilidad de cualquier evento B por integración: P ( B ) = ∫ p ( B | θ ) p ( θ | A ) d θ
A continuación, trabajo a través de una solución detallada, siguiendo el enfoque anterior. Tomaré algunos atajos estándar.
Deje que el anterior sea . Entonces: p ( θ | A ) ∝ p ( A | θ ) ⋅ 1 = ( 1 - θ ) n . La constante de normalización p ( A ) = ∫ p ( A | θ ) p ( θ ) d θ se encuentra como B ( 1 , n
Denotar la probabilidad de que no hay fallos en productos en el próximo año por B . La probabilidad de al menos un fallo es 1 - P ( B ) . Entonces 1 - P ( B ) = 1 - ∫ ( 1 - θ ) m ( 1 - θ ) n
que es aproximadamente , usando n = 100 , 000 , m = 10 , 000 . ¿No es muy impresionante? Tomé una distribución uniforme de la probabilidad de falla. Quizás tengas una mejor fe previa en tus ingenieros.
En lugar de calcular una probabilidad, ¿por qué no predecir cuántos productos podrían fallar?
Se pueden usar fórmulas comparables para el cálculo cuando
Un límite superior de predicción (UPL) para el número de fallas en esos últimos tickets, , viene dado por la más pequeña (dependiendo de ) para la cual .
La UPL debe interpretarse en términos del riesgo de usar , como se evalúa antes de que se observe o En otras palabras, suponga que es hace un año y se le pide que recomiende un procedimiento para predecir el número de fallas en los siguientes productos una vez que se han observado los primeros . Su cliente pregunta
¿Cuál es la posibilidad de que su procedimiento subestime ? No me refiero en el futuro después de que tenga más datos; Quiero decir en este momento, porque tengo que tomar decisiones en este momento y las únicas posibilidades que tendré disponibles para mí son las que se pueden calcular en este momento ".
Tu respuesta puede ser,
En este momento, la probabilidad no es mayor que , pero si planea usar una predicción más pequeña, la probabilidad excederá .
Para , y podemos calcular que
Así, al observar ,
Para hasta confianza (es decir, cuando ), pronostique que hay como máximo falla en los siguientes productos.
Para una confianza de hasta (es decir, cuando ), pronostique que hay como máximo fallas en los siguientes productos.0,8 % ≤ α < 9,1 % t α ( 0 ; n , m ) = 2 10 , 000
Etc.
¿Cuándo y por qué se aplicaría este enfoque? Supongamos que su empresa fabrica muchos productos diferentes. Después de observar el desempeño de de cada uno en el campo, le gusta producir garantías, como "reemplazo completo sin costo de cualquier falla dentro de un año". Al tener límites de predicción para el número de fallas, puede controlar los costos totales de tener que respaldar esas garantías. Debido a que fabrica muchos productos y espera que las fallas se deban a circunstancias aleatorias fuera de su control, la experiencia de cada producto será independiente. Tiene sentido controlar su riesgo a largo plazoα α. Es posible que de vez en cuando tenga que pagar más reclamos de lo esperado, pero la mayoría de las veces pagará menos. Si pagar más de lo anunciado podría ser ruinoso, configurará para que sea extremadamente pequeño (¡y probablemente también usaría un modelo de falla más sofisticado!). De lo contrario, si los costos son menores, puede vivir con poca confianza (alta ). Estos cálculos muestran cómo equilibrar la confianza y los riesgos.
Tenga en cuenta que no tenemos que calcular el procedimiento completo . Esperamos hasta que se observe y luego simplemente llevamos a cabo los cálculos para esa particular (aquí, ), como se muestra arriba. Sin embargo, en principio, podríamos haber realizado los cálculos para todos los valores posibles de desde el principio.X X X = 0 X
Un enfoque bayesiano (descrito en otras respuestas) es atractivo y funcionará bien siempre que los resultados no dependan en gran medida de lo anterior. Desafortunadamente, cuando la tasa de falla es tan baja que se observan muy pocas (o ninguna falla), los resultados son sensibles a la elección de antes.
La siguiente es una respuesta bayesiana a "De los 10,000 nuevos productos, ¿cuántos se espera que fallen si no fallaron todos los 100,000 anteriores que se produjeron?", Pero debe tener en cuenta la sensibilidad a las diferentes versiones anteriores.
Suponga que son condicionalmente independientes e idénticamente distribuidos, dado , de modo que , y use el conjugado antes , con .
Para , tenemos
Para , tenemos en el que usamos .
Al conectar sus números, con un previo uniforme ( ) espera una tasa de falla de alrededor del , mientras que un previo similar a Jeffreys ( ) le da un tasa de falla cercana al .
Esta expectativa predictiva no parece un buen resumen, porque la distribución predictiva está muy sesgada. Podemos ir más allá y calcular la distribución predictiva. Como condicionando como lo hicimos antes de que tengamos para .
Lo terminaré más tarde calculando un intervalo predictivo del .
Usando el enfoque del problema del amanecer de Laplace , obtenemos la probabilidad de que un producto falle dentro de un año . Luego, la probabilidad de que de nuevos productos ninguno falle dentro de un año es Por lo tanto, la probabilidad de que al menos un producto de falle en el próximo año es Para el valor es . En el caso de Whuber , bastante alto, de hecho.
Por supuesto, debe seguir actualizando sus datos mientras se venden más productos, eventualmente uno fallará.
Se proporcionaron varias buenas respuestas para esta pregunta, pero recientemente tuve la oportunidad de revisar algunos recursos sobre este tema y decidí compartir los resultados.
Existen múltiples estimadores posibles para datos de cero fallas. Denotemos como número de fallas como tamaño de muestra. El estimador de máxima probabilidad de probabilidad de falla dada esta información es
Dicha estimación es bastante insatisfactoria ya que el hecho de que no hayamos observado fallas en nuestra muestra no prueba que sean imposibles en general. El conocimiento fuera de los datos sugiere que hay alguna probabilidad de falla incluso si no se observaron (todavía). Tener un conocimiento a priori nos lleva a utilizar métodos bayesianos revisados por Bailey (1997), Razzaghi (2002), Basu et al (1996) y Ludbrook y Lew (2009).
Entre los estimadores simples estimador de "límite superior" que supone (Bailey, 1997)
que no sería lógico que un estimador de P en el caso de falla cero produzca una probabilidad superior a la predicha por el estimador de máxima verosimilitud en el caso de una falla, un límite superior razonable
definido como
puede ser mencionado Según lo revisado por Ludbrook y Lew (2009), otras posibilidades son "regla de tres" (cf. aquí , Wikipedia , o Eypasch et al, 1995)
u otras variaciones:
"regla de 3.7" por Newcombe y Altman (o por 3.6):
"nueva regla de cuatro":
pero como concluyeron Ludbrook y Lew (2009) "la regla de los tres" es "próxima a inútil" y la "regla de 3.6" (y 3.7) "tienen serias limitaciones: son extremadamente inexactas si el tamaño de la muestra inicial es menor a 50" y no recomiendan los métodos (3) - (6), sugiriendo utilizar estimadores bayesianos adecuados (ver más abajo).
Entre los estimadores bayesianos se pueden mencionar varios diferentes. Primero, tal estimador sugerido por Bailey (1997) es
para estimar la mediana bajo uniforme previo
o para estimar la media bajo tal previo
otro enfoque que supone un patrón de falla exponencial con rendimientos de tasa de falla constante (distribuciones de Poisson)
si utilizamos beta antes con los parámetros de y podemos utilizar la fórmula (ver Razzaghi, 2002):b
que bajo conduce a un uniforme anterior (9). Suponiendo que Jeffreys antes con conduce aa = b = 0.5
En general, se recomiendan las fórmulas bayesianas (7) - (12). Basu et al (1996) recomienda (11) con información previa, cuando se dispone de algún conocimiento a priori. Como no existe un método único mejor, sugeriría revisar la literatura antes de su análisis, especialmente cuando es pequeño.
Bailey, RT (1997). Estimación a partir de datos de falla cero. Análisis de riesgo, 17 , 375-380.
Razzaghi, M. (2002). Sobre la estimación de la probabilidad de éxito binomial con cero ocurrencia en la muestra. Revista de métodos estadísticos aplicados modernos, 1 (2), 41.
Ludbrook, J. y Lew, MJ (2009). Estimación del riesgo de complicaciones raras: ¿es la 'regla de tres' suficientemente buena? Revista de cirugía ANZ, 79 (7‐8), 565-570.
Eypasch, E., Lefering, R., Kum, CK y Troidl, H. (1995). Probabilidad de eventos adversos que aún no han ocurrido: un recordatorio estadístico. BMJ 311 (7005): 619–620.
Basu, AP, Gaylor, DW y Chen, JJ (1996). Estimación de la probabilidad de aparición de tumor para un cáncer raro con cero aparición en una muestra. Toxicología reglamentaria y farmacología, 23 (2), 139-144.
Realmente necesita volver a los diseñadores de sus productos. Es un problema de ingeniería fundamental, no uno estadístico observacional. Tendrán una idea de la probabilidad de falla de cada componente y de allí la probabilidad de falla neta del producto ensamblado total. Pueden darle la cantidad esperada de fallas durante toda la vida de diseño del producto.
Un ingeniero civil diseña un puente para tener una vida útil de 120 años. Cada componente del puente tiene una pequeña posibilidad de falla. Cada carga tiene una ligera posibilidad de ser excedida. Para que el puente sea económico de construir, el colapso total solo ocurriría una vez en 2400 años, que es mucho más largo de lo que se mantendrá el puente. No es sorprendente que el puente no falle en el año 1, ni en el año 2 hasta el año 120. Es decir, no se ha derrumbado le dice muy poco. Sus diversas posibilidades de fracaso con el tiempo solo pueden ser estimadas por los diseñadores originales.
Esto es similar a un problema que enfrenté cuando introdujimos un nuevo proceso de fabricación para eliminar una falla en la producción.
El nuevo sistema no produjo fallas, por lo que la gente hacía la misma pregunta: ¿cómo predecimos la tasa de fallas? En su caso, debido a que ha estipulado un período durante el cual la falla puede ocurrir sin preocuparse por cuándo ocurre la falla dentro de ese período, los efectos temporales se han eliminado. Y es simplemente un caso de si algo falló o no. Con eso estipulado - con mi respuesta.
Intuitivamente, parece que necesitamos al menos una falla para poder calcular la tasa de falla. Sin embargo, esta suposición tiene un error implícito dentro de ella. Nunca calcularemos la tasa de falla. Eso es porque estamos tratando con una muestra. Por lo tanto, solo podemos estimar un rango de tasas probables de falla. La forma de hacerlo es encontrar una distribución para la tasa de falla. La distribución que hace el trabajo en este caso es una distribución Beta donde los parámetros son: α = n + 1 y β = N - n + 1
Nota: N es el tamaño de la muestra yn es el número de fallas (en su caso 0)
Para su escenario, la distribución de la tasa de falla se muestra a continuación. .
Luego alimentaría esa distribución en la fórmula de probabilidad binomial respectiva para obtener una distribución para la probabilidad de que falle una unidad (podría hacerse analíticamente o utilizando Monte Carlo). Sospecho que los números serán muy bajos.
Tenga en cuenta que este proceso es aplicable sin importar el número de fallas en su primer conjunto.