¿Cómo saber la probabilidad de falla si no hubo fallas?

50

Me preguntaba si hay una manera de saber la probabilidad de que algo falle (un producto) si tenemos 100,000 productos en el campo durante 1 año y sin fallas. ¿Cuál es la probabilidad de que uno de los próximos 10,000 productos vendidos falle?

probability survival binomial

— melonfresh
fuente

44

Algo me dice que este no es el verdadero problema de confiabilidad. No hay productos con tasas de falla tan bajas.

— Aksakal

Necesita un modelo para la distribución de las posibles tasas de éxito / fracaso antes de poder inferir algo de las estadísticas a las probabilidades de las tasas de éxito / fracaso reales. Su descripción proporciona muy pocas bases para inferir / asumir tal distribución.

— RBarryYoung

1

@RBarryYoung, compruebe las respuestas proporcionadas, ya que proporcionan algunos enfoques interesantes y válidos para el problema. Si no está de acuerdo con esos enfoques, no dude en comentarlos o dar su propia respuesta.

— Tim

2

@Aksakal: una tasa de falla tan baja no parece imposible si es un producto simple con un alto valor y un riesgo tan alto en caso de falla (como un instrumento quirúrgico) que pasa por niveles de prueba e inspección (y posiblemente independiente certificación) antes del lanzamiento. Por supuesto, lo contrario podría ser cierto, el producto podría tener un valor tan bajo que los usuarios finales simplemente no informan problemas con los productos defectuosos (¿seguramente los fabricantes de chicles tienen una tasa de defectos inferior a 1/100000?), El consumidor simplemente descarta y prueba uno nuevo.

— Johnny

@Johnny, cuando a Motorola se le ocurrió , solían jactarse de que hay 3 fallas por cada 100 millones de productos, o algo así.

6 σ

$6\sigma$

— Aksakal

43

La probabilidad de que un producto falle seguramente es una función del tiempo y el uso. No tenemos datos de uso, y con solo un año no hay fallas (¡felicidades!). Por lo tanto, este aspecto (llamado función de supervivencia ) no puede estimarse a partir de sus datos.

Sin embargo, puede pensar en las fallas dentro de un año como extraídas de una distribución binomial . Aún no tiene fallas, pero ahora es un problema común. Una solución simple es usar la regla de 3 , que es precisa con grande (que ciertamente tiene). Específicamente, se puede obtener el límite superior de una cara de un 95% intervalo de confianza (es decir, el límite inferior es ) en la verdadera probabilidad de fallo dentro de un año como . En su caso, tiene una confianza del 95% de que la tasa es inferior a . $N$ $0$ $3/N$ $0.00003$

También preguntó cómo calcular la probabilidad de que uno o más de los siguientes 10k falle. Una manera rápida y simple (aunque extrema) de extender el análisis anterior es simplemente usar el límite superior como la probabilidad subyacente y usar el CDF binomial correspondiente para obtener la probabilidad de que no habrá fallas. Usando el código, podríamos hacer:, lo que brinda la posibilidad de ver una o más fallas en los próximos 10k productos. Al utilizar el límite superior, esta no es la estimación óptima del punto de la probabilidad de tener al menos una falla, sino que puede decirse que es muy poco probable que la probabilidad de falla sea mayor que $0$ R1-pbinom(0, size=10000, prob=0.00003)0.2591851 $\ge 1$ $\approx 26\%$ (reconociendo que este es un marco algo 'ondulado a mano'). Otra posibilidad es utilizar la sugerencia de @ ameba de la estimación de la regla de sucesión de Laplace . La regla de sucesión establece que la probabilidad estimada de falla es , donde es el número de fallas. En ese caso, , y el cálculo de la probabilidad pronosticada de fallas en los próximos 10,000 es , dando , o . $(F+1)/(N+2)$ $F$ $\hat p = 9.9998\times 10^{-06}$ $1^+$ 1-pbinom(0, size=10000, prob=9.9998e-06)0.09516122 $\approx 10\%$

— gung - Restablece a Monica
fuente

3

+1. No he oído hablar de la "regla de 3" antes. Me pregunto si hay alguna conexión entre la regla de 3 y la "regla de sucesión de Laplace". Según este último (si lo aplico correctamente), la probabilidad de falla puede estimarse como .

1 / (N + 2)

$1/(N+2)$

— ameba dice Reinstate Monica

14

@amoeba Esta regla de 3 es un límite de confianza unilateral del 95%. Suponga que el conteo de fallas tiene una distribución Binomial . Entonces la posibilidad de no ver fallas es . Para hacer que sea mayor que , resuelva para . Usando para pequeño , la solución es . Como , obtenemos . Esa es la "regla de 3". Vale la pena saberlo porque ahora sabe cómo variar el "3" si desea ajustar el nivel de confianza y también puede invertirlo para encontrar el mínimo necesario para detectar una tasa de

(n, p)

$(n,p)$

(1 - p)^{n}

$(1-p)^n$

5 %

$5\%$

(1 - p)^{n} \geq 0.05

$(1-p)^n\ge 0.05$

p

$p$

\log (1 - p) \approx - p

$\log(1-p)\approx -p$

p

$p$

p \leq - \log (0.05) / n

$p\le -\log(0.05)/n$

0.05 = 1 / 20 \approx e^{3}

$0.05=1/20\approx e^3$

p \leq 3 / n

$p\le 3/n$

n

$n$

p

$p$ o mayor.

— whuber

1

@amoeba como mencioné, tomé un uniforme antes de la probabilidad de falla. Creo que un prior diferente habría llevado a resultados considerablemente diferentes.

— Yair Daon

1

Tu edición es un buen progreso (+1). Sin embargo, plantea problemas de interpretación. No estamos "seguros" de que la probabilidad no sea superior al

porque no estamos completamente seguros de la verdadera posibilidad subyacente. No tenemos un "límite superior" en

, sino solo un límite de confianza superior. Cuando da una predicción para un evento futuro, necesita (a) estimarlo y (b) proporcionar límites. Míralo así: danos límites en

cuando

,

independientemente, condicional en

26 %

$26\%$

p

$p$

Y

$Y$

X \sim Binomial (n, p)

$X\sim\text{Binomial}(n,p)$

Y \sim Binomial (m, p)

$Y\sim\text{Binomial}(m,p)$

. Esos límites son unintervalo de predicciónpara

basado en

.

X = 0

$X=0$

Y

$Y$

X

$X$

— whuber

2

Yay para la "Regla de los tres". Lo vi hace muchos años en una breve nota al "Journal of the American Medical Association" jama.jamanetwork.com/article.aspx?articleid=385438

— DWin

25

Puedes adoptar un enfoque bayesiano. denote la probabilidad de falla por y piense en ella como una variable aleatoria. A priori, antes de ver los resultados de los experimentos, puede creer que . Si confía en los ingenieros para hacer que este producto sea confiable, tal vez pueda tomar o menos. Esto depende de ti. Luego, puede usar el teorema de Bayes para calcular la distribución posterior de . Denote el evento que ha observado ( experimentos con cero fallas). $\Theta$ $\Theta \sim U(0,1)$ $\Theta \sim U(0,0.1)$ $\theta$ $A$ $n$

Todo es simple:es uniforme, entonceses algo constante. Como ejecutaexperimentos,es solo la probabilidad de que no hayafallasenbernouli ensayos con probabilidad de falla.

p (Θ = θ | A) = \frac{p (A | Θ = θ) p (Θ = θ)}{p (A)} = \frac{p (A | θ) p (θ)}{\int p (A | θ) p (θ) d θ} .

$p(\Theta = \theta | A) = \frac{p (A | \Theta = \theta) p(\Theta = \theta )}{p(A)} = \frac{p (A |\theta) p(\theta )}{\int p (A |\theta) p(\theta )d\theta}.$

Θ

$\Theta$

p (θ)

$p(\theta)$

n

$n$

p (A | θ)

$p(A | \theta)$

n

$n$

θ

$\theta$

Una vez que tienes eres oro: puedes calcular la probabilidad de cualquier evento por integración: $p(\theta | A)$ $B$ $\mathbb{P}(B) = \int p(B |\theta) p(\theta |A) d\theta$

A continuación, trabajo a través de una solución detallada, siguiendo el enfoque anterior. Tomaré algunos atajos estándar.

Deje que el anterior sea . Entonces: La constante de normalización se encuentra como $U(0,1)$

p (θ | A) \propto p (A | θ) \cdot 1 = (1 - θ)^{n} .

$p(\theta |A)\propto p(A|\theta) \cdot 1 = (1-\theta)^n.$

p (A) = \int p (A | θ) p (θ) d θ

$p(A) = \int p(A|\theta)p(\theta) d\theta$

- ver páginasbeta deWikipediafunción betaydistribución beta. Entonces,

B (1, n + 1)

$B(1,n+1)$

, que es una distribución beta con parámetros

.

p (θ | A) = \frac{(1 - θ)^{n}}{B (1, n + 1)}

$p(\theta |A) = \frac{(1-\theta)^n}{B(1,n+1)}$

1, n + 1

$1, n+1$

Denotar la probabilidad de que no hay fallos en productos en el próximo año por . La probabilidad de al menos un fallo es . Entonces $m$ $B$ $1 -\mathbb{P}( B )$

1 - P (B) = 1 - \int (1 - θ)^{m} \frac{(1 - θ)^{n}}{B (1, n + 1)} d θ = \frac{B (1, n + m + 1)}{B (1, n + 1)}

$1- \mathbb{P}(B) =1 - \int (1-\theta)^m\frac{(1-\theta)^n}{B(1,n+1)}d\theta = \frac{B(1,n+m+1)}{B(1,n+1)}$

que es aproximadamente , usando . ¿No es muy impresionante? Tomé una distribución uniforme de la probabilidad de falla. Quizás tengas una mejor fe previa en tus ingenieros. $0.1$ $n= 100,000, m = 10,000$

— Yair Daon
fuente

3

Parece extraño no tener una solución real para un problema tan simple, especialmente cuando el método parece tan prometedor. ¿Estás sugiriendo que los cálculos son difíciles?

— whuber

2

@whuber No lo olvidé, pensé que este último paso es obvio. Lo que quise decir con "poco arrogante" es que el 10% de probabilidad de falla sigue siendo grande, en comparación con la ausencia de fallas en las primeras 100,000 ejecuciones. Además, gracias por el comentario sobre los pares conjugados, pensé que podría confundir al OP y distraerlos de lo que es importante, por lo tanto, lo omití.

— Yair Daon

3

Obviamente, sí, pero cuando terminas con un valor de 0.9, ese es el número que verán las personas, casi sin importar lo que digas al respecto en el texto anterior. Para que no te malinterpreten, siempre es útil ser explícito sobre qué respuesta estás ofreciendo. (+1 para la respuesta mejorada, por cierto)

— whuber

3

n ≫ 1

$n \gg 1$

k

$k$

k n

$kn$

1 - e^{- k}

$1-e^{-k}$

k

$k$

k

$k$

2

@whuber Su suposición de que lo anterior no importa no es cierto en el caso de cero fallas. Depende en gran medida de la pendiente cerca de cero, por ejemplo, el uniforme anterior plano (beta 1,1) y Jeffreys anterior (beta 0.5, 0.5) darán un posterior sustancialmente diferente.

— Erik

12

En lugar de calcular una probabilidad, ¿por qué no predecir cuántos productos podrían fallar?

Modelando las observaciones

$n=100000$ $m=10000$ $p$

$p$ $1-p$ $m+n=110000$ $n$ $X$ $m$ $Y$

Enmarcando la pregunta

$0\le X \le n$ $0 \le Y\le m$ $Y = u$ $X+Y=u$ $u$ $\{0,1,\ldots, m\}$ $n+m$ $u$ $m$ $u$ $n+m$

p (u; n, m) = Pr (Y = u | X + Y = u) = \frac{(\binom{m}{u})}{(\binom{n + m}{u})} = \frac{m (m - 1) \dots (m - u + 1)}{(n + m) (n + m - 1) \dots (n + m - u + 1)} .

$p(u;n,m) = \Pr(Y = u\,|\, X+Y=u) = \frac{\binom{m}{u}}{\binom{n+m}{u}} \\= \frac{m(m-1)\cdots(m-u+1)}{(n+m)(n+m-1)\cdots(n+m-u+1)}.$

Se pueden usar fórmulas comparables para el cálculo cuando $X=1, 2, \ldots.$

Un límite superior de predicción $1-\alpha$ (UPL) para el número de fallas en esos últimos tickets, , viene dado por la más pequeña (dependiendo de ) para la cual . $m$ $t_\alpha(X;n,m)$ $u$ $X$ $p(u;n,m) \le \alpha$

Interpretación

La UPL debe interpretarse en términos del riesgo de usar , como se evalúa antes de que se observe o En otras palabras, suponga que es hace un año y se le pide que recomiende un procedimiento para predecir el número de fallas en los siguientes productos una vez que se han observado los primeros . Su cliente pregunta $t_\alpha$ $X$ $Y$ $m$ $n$

¿Cuál es la posibilidad de que su procedimiento subestime ? No me refiero en el futuro después de que tenga más datos; Quiero decir en este momento, porque tengo que tomar decisiones en este momento y las únicas posibilidades que tendré disponibles para mí son las que se pueden calcular en este momento ". $Y$

Tu respuesta puede ser,

En este momento, la probabilidad no es mayor que , pero si planea usar una predicción más pequeña, la probabilidad excederá . $\alpha$ $\alpha$

Resultados

Para , y podemos calcular que $n=10^5$ $m=10^4$ $X=0$

p (0, n, m) = 1; p (1, n, m) = \frac{1}{11} \approx 0.091; p (2, n, m) = \frac{909}{109999} \approx 0.0083; \dots

$p(0,n,m)=1;\ p(1,n,m)=\frac{1}{11}\approx 0.091;\ p(2,n,m)=\frac{909}{109999}\approx 0.0083; \ldots$

Así, al observar $X=0$ ,

Para hasta confianza (es decir, cuando ), pronostique que hay como máximo falla en los siguientes productos. $1-\alpha=90.9\%$ $9.1\%\le \alpha$ $t_\alpha(0;n,m)=1$ $10,000$
Para una confianza de hasta (es decir, cuando ), pronostique que hay como máximo fallas en los siguientes productos. $99.2\%$ $0.8\%\le \alpha \lt 9.1\%$ $t_\alpha(0;n,m)=2$ $10,000$
Etc.

Comentarios

¿Cuándo y por qué se aplicaría este enfoque? Supongamos que su empresa fabrica muchos productos diferentes. Después de observar el desempeño de de cada uno en el campo, le gusta producir garantías, como "reemplazo completo sin costo de cualquier falla dentro de un año". Al tener límites de predicción para el número de fallas, puede controlar los costos totales de tener que respaldar esas garantías. Debido a que fabrica muchos productos y espera que las fallas se deban a circunstancias aleatorias fuera de su control, la experiencia de cada producto será independiente. Tiene sentido controlar su riesgo a largo plazo $n$ . Es posible que de vez en cuando tenga que pagar más reclamos de lo esperado, pero la mayoría de las veces pagará menos. Si pagar más de lo anunciado podría ser ruinoso, configurará para que sea extremadamente pequeño (¡y probablemente también usaría un modelo de falla más sofisticado!). De lo contrario, si los costos son menores, puede vivir con poca confianza (alta ). Estos cálculos muestran cómo equilibrar la confianza y los riesgos. $\alpha$ $\alpha$

Tenga en cuenta que no tenemos que calcular el procedimiento completo . Esperamos hasta que se observe y luego simplemente llevamos a cabo los cálculos para esa particular (aquí, ), como se muestra arriba. Sin embargo, en principio, podríamos haber realizado los cálculos para todos los valores posibles de desde el principio. $t$ $X$ $X$ $X=0$ $X$

Un enfoque bayesiano (descrito en otras respuestas) es atractivo y funcionará bien siempre que los resultados no dependan en gran medida de lo anterior. Desafortunadamente, cuando la tasa de falla es tan baja que se observan muy pocas (o ninguna falla), los resultados son sensibles a la elección de antes.

— whuber
fuente

+1, pero no parece ser correcto.

p (0, n, m) = 1

$p(0,n,m)=1$

— ameba dice Reinstate Monica

1

@COOLSerdash, porque , y los términos para no son iguales a cero.

\sum_{u} p (u, n, m) = 1

$\sum_u p(u,n,m)=1$

u = 1, 2...

$u=1,2...$

— ameba dice Reinstate Monica

1

La razón por la que obtiene , como señala @amoeba, es porque su no es realmente , sino más bien (y, por lo tanto, realmente debería denotarse, por ejemplo, como o algo así). Tengo algunos problemas para seguir exactamente lo que haces con eso más adelante, pero estoy bastante seguro de que, sea lo que sea, desafortunadamente no es una solución correcta al problema como se le preguntó.

\sum_{u} p (u; n, m) > 1

$\sum_u p(u;n,m) > 1$

p (u; n, m) = \frac{(\binom{m}{u})}{(\binom{n + m}{u})}

$p(u;n,m) = \frac{m \choose u}{n+m \choose u}$

P r (Y = u | X = 0)

${\rm Pr}(Y=u|X=0)$

P r (Y = u | X + Y = u)

${\rm Pr}(Y=u|X+Y=u)$

=

$=$

P r (X = 0 | X + Y = u)

${\rm Pr}(X=0|X+Y=u)$

p (0; n, m, u)

$p(0;n,m,u)$

— Ilmari Karonen

1

@IlmariKaronen Gracias por sus comentarios. Tiene razón en que debería haber caracterizado un poco más claramente, porque no es una distribución de probabilidad sobre es una probabilidad condicional, pero creo que la respuesta en sí misma es correcta y yo Estoy muy seguro de que este enfoque para calcular los límites de predicción es correcto y convencional. Editaré esta publicación para aclarar estos puntos.

p (u; n, m)

$p(u;n,m)$

u

$u$

— whuber

1

@Ilmari Ya hice la edición, puedes verla en el historial de edición. Supongo que no hay antecedentes y solo aplico la definición de un intervalo de predicción a este problema. Si desea cuestionar si eso es "estadísticamente significativo", entonces se encontrará desafiando quijotescamente esta construcción estándar. Ver, por ejemplo, Hahn & Meeker, Statistical Intervals (J. Wiley 1991).

— whuber

9

La siguiente es una respuesta bayesiana a "De los 10,000 nuevos productos, ¿cuántos se espera que fallen si no fallaron todos los 100,000 anteriores que se produjeron?", Pero debe tener en cuenta la sensibilidad a las diferentes versiones anteriores.

Suponga que son condicionalmente independientes e idénticamente distribuidos, dado , de modo que , y use el conjugado antes , con . $X_1,\dots,X_n$ $\Theta=\theta$ $X_1\mid\Theta=\theta\sim\mathrm{Bernoulli}(\theta)$ $\Theta\sim\mathrm{Beta}(a,b)$ $a,b>0$

Para , tenemos $m<n$

E [\sum_{i = m + 1}^{n} X_{i} | X_{1} = 0, \dots X_{m} = 0] = \sum_{i = m + 1}^{n} E [X_{i} ∣ X_{1} = 0, \dots X_{m} = 0] .

$\mathrm{E}\left[\sum_{i=m+1}^n X_i\;\Bigg\vert\; X_1=0,\dots X_m=0 \right] = \sum_{i=m+1}^n \mathrm{E}\left[ X_i\mid X_1=0,\dots X_m=0 \right] \, .$

Para , tenemos en el que usamos . $m+1\leq i\leq n$

\begin{aligned} E [X_{i} ∣ X_{1} = 0, \dots X_{m} = 0] & = Pr (X_{i} = 1 ∣ X_{1} = 0, \dots X_{m} = 0) \\ = \int_{0}^{1} Pr (X_{i} = 1 ∣ Θ = θ) f_{Θ ∣ X_{1}, \dots, X_{m}} (θ ∣ 0, \dots, 0) d θ \\ = \frac{Γ (m + a + b)}{Γ (m + a + b + 1)} \frac{Γ (a + 1)}{Γ (a)} = \frac{a}{m + a + b}, \end{aligned}

$\begin{align} \mathrm{E}\left[X_i\mid X_1=0,\dots X_m=0\right] &= \Pr(X_i=1\mid X_1=0,\dots X_m=0) \\ &= \int_0^1 \Pr(X_i=1\mid \Theta=\theta) \,f_{\Theta\mid X_1,\dots,X_m}(\theta\mid 0,\dots,0) \,d\theta \\ &= \frac{\Gamma(m+a+b)}{\Gamma(m+a+b+1)} \frac{\Gamma(a+1)}{\Gamma(a)} = \frac{a}{m+a+b}\, , \end{align}$

Θ ∣ X_{1} = 0, \dots, X_{m} = 0 \sim B e t a (a, m + b)

$\Theta\mid X_1=0,\dots,X_m=0\sim \mathrm{Beta}(a,m+b)$

Al conectar sus números, con un previo uniforme ( ) espera una tasa de falla de alrededor del , mientras que un previo similar a Jeffreys ( ) le da un tasa de falla cercana al . $a=1,b=1$ $10\%$ $a=1/2,b=1/2$ $5\%$

Esta expectativa predictiva no parece un buen resumen, porque la distribución predictiva está muy sesgada. Podemos ir más allá y calcular la distribución predictiva. Como condicionando como lo hicimos antes de que tengamos para .

\sum_{i = m + 1}^{n} X_{i} | Θ = θ \sim B i n (n - m + 2, θ),

$\sum_{i=m+1}^n X_i \;\Bigg\vert\; \Theta=\theta \sim \mathrm{Bin}(n-m+2,\theta) \, ,$

\begin{aligned} Pr & (\sum_{i = m + 1}^{n} X_{i} = t | X_{1} = 0, \dots X_{m} = 0) = \\ (\binom{n - m + 2}{t}) \frac{Γ (m + a + b)}{Γ (a) Γ (m + b)} \frac{Γ (t + a) Γ (n - t + 2)}{Γ (n + a + 2)}, \end{aligned}

$\begin{align} \Pr&\left(\sum_{i=m+1}^n X_i=t \;\Bigg\vert\; X_1=0,\dots X_m=0\right) = \\ &\qquad\qquad\qquad\qquad\binom{n-m+2}{t} \frac{\Gamma(m+a+b)}{\Gamma(a)\Gamma(m+b)} \frac{\Gamma(t+a)\Gamma(n-t+2)}{\Gamma(n+a+2)} \, , \end{align}$

t = 0, 1, \dots, n - m + 2

$t=0,1,\dots,n-m+2$

Lo terminaré más tarde calculando un intervalo predictivo del . $95\%$

— zen
fuente

3

+1 por demostrar que el resultado es sensible a la forma del anterior cercano a 0. (Vale la pena señalar que, dado que la función de probabilidad se concentra fuertemente cerca de cero cuando es grande, esa es la única parte del prior que realmente importa. ejemplo, para un anterior, la expectativa es aproximadamente proporcional a , pero casi independiente de . De manera similar, para un prior uniforme, que en realidad no importa mucho si el anterior es o , pero las cosas cambiarían dramáticamente si asumimos una previa como ).

m

$m$

B e t a (a, b)

$\mathrm{Beta}(a,b)$

\frac{a}{m + a + b} \approx \frac{a}{m}

$\frac{a}{m+a+b}\approx\frac am$

a

$a$

b

$b$

U (0, 1)

$U(0,1)$

U (0, 0.01)

$U(0,0.01)$

U (0.01, 1)

$U(0.01,1)$

— Ilmari Karonen

6

Usando el enfoque del problema del amanecer de Laplace , obtenemos la probabilidad de que un producto falle dentro de un año . Luego, la probabilidad de que de nuevos productos ninguno falle dentro de un año es Por lo tanto, la probabilidad de que al menos un producto de falle en el próximo año es Para el valor es . En el caso de Whuber , bastante alto, de hecho.

p = \frac{1}{100000 + 1}

$p=\frac{1}{100000+1}$

n

$n$

(1 - p)^{n}

$(1-p)^n$

n

$n$

1 - {(1 - \frac{1}{100001})}^{n}

$1-\left(1-\frac{1}{100001}\right)^{n}$

n = 10000

$n=10000$

P_{10000} \approx 0.095

$P_{10000}\approx 0.095$

P_{200000} \approx 0.87

$P_{200000}\approx 0.87$

Por supuesto, debe seguir actualizando sus datos mientras se venden más productos, eventualmente uno fallará.

— Aksakal
fuente

Esta respuesta parece ser incorrecta: el cálculo para un amanecer futuro no se extiende simplemente a través de la multiplicación. Después de todo, suponga que el número fue reemplazado por . ¿ que la probabilidad de falla es ? Debe comparar su respuesta con el análisis en la respuesta de Yair Daon y con los comentarios relacionados.

10, 000

$10,000$

200, 000

$200,000$

200000 / 100001 \approx 2

$200000/100001\approx 2$

— whuber

@whuber, lo arregló

— Aksakal

1

(1) O calculó mal o su "200000" es un error tipográfico para "20000". (Debe obtener aproximadamente .) (2) Su análisis ahora reproduce una parte de las conclusiones de Yair Daon, pero sin el beneficio de producir la distribución posterior completa.

0.865

$0.865$

— whuber

@whuber, sí, fue uno menos cero

— Aksakal

5

Se proporcionaron varias buenas respuestas para esta pregunta, pero recientemente tuve la oportunidad de revisar algunos recursos sobre este tema y decidí compartir los resultados.

Existen múltiples estimadores posibles para datos de cero fallas. Denotemos como número de fallas como tamaño de muestra. El estimador de máxima probabilidad de probabilidad de falla dada esta información es $k=0$ $n$

\begin{matrix} (1) & P (K = k) = \frac{k}{n} = 0 \end{matrix}

$P(K = k) = \frac{k}{n} = 0 \tag{1}$

Dicha estimación es bastante insatisfactoria ya que el hecho de que no hayamos observado fallas en nuestra muestra no prueba que sean imposibles en general. El conocimiento fuera de los datos sugiere que hay alguna probabilidad de falla incluso si no se observaron (todavía). Tener un conocimiento a priori nos lleva a utilizar métodos bayesianos revisados por Bailey (1997), Razzaghi (2002), Basu et al (1996) y Ludbrook y Lew (2009).

Entre los estimadores simples estimador de "límite superior" que supone (Bailey, 1997)

que no sería lógico que un estimador de P en el caso de falla cero produzca una probabilidad superior a la predicha por el estimador de máxima verosimilitud en el caso de una falla, un límite superior razonable

definido como

\begin{matrix} (2) & \frac{1}{n} \end{matrix}

$\frac{1}{n} \tag{2}$

puede ser mencionado Según lo revisado por Ludbrook y Lew (2009), otras posibilidades son "regla de tres" (cf. aquí , Wikipedia , o Eypasch et al, 1995)

\begin{matrix} (3) & \frac{3}{n} \end{matrix}

$\frac{3}{n} \tag{3}$

u otras variaciones:

\begin{matrix} (4) & \frac{3}{n + 1} \end{matrix}

$\frac{3}{n+1} \tag{4}$

"regla de 3.7" por Newcombe y Altman (o por 3.6):

\begin{matrix} (5) & \frac{3.7}{n} \end{matrix}

$\frac{3.7}{n} \tag{5}$

"nueva regla de cuatro":

\begin{matrix} (6) & \frac{4}{n + 4} \end{matrix}

$\frac{4}{n+4} \tag{6}$

pero como concluyeron Ludbrook y Lew (2009) "la regla de los tres" es "próxima a inútil" y la "regla de 3.6" (y 3.7) "tienen serias limitaciones: son extremadamente inexactas si el tamaño de la muestra inicial es menor a 50" y no recomiendan los métodos (3) - (6), sugiriendo utilizar estimadores bayesianos adecuados (ver más abajo).

Entre los estimadores bayesianos se pueden mencionar varios diferentes. Primero, tal estimador sugerido por Bailey (1997) es

\begin{matrix} (7) & 1 - {0.5}^{\frac{1}{n}} \end{matrix}

$1 - 0.5^\frac{1}{n} \tag{7}$

para estimar la mediana bajo uniforme previo

\begin{matrix} (8) & 1 - {0.5}^{\frac{1}{n + 1}} \end{matrix}

$1 - 0.5^\frac{1}{n+1} \tag{8}$

o para estimar la media bajo tal previo

\begin{matrix} (9) & \frac{1}{n + 2} \end{matrix}

$\frac{1}{n+2} \tag{9}$

otro enfoque que supone un patrón de falla exponencial con rendimientos de tasa de falla constante (distribuciones de Poisson)

\begin{matrix} (10) & \frac{1 / 3}{n} \end{matrix}

$\frac{1/3}{n} \tag{10}$

si utilizamos beta antes con los parámetros de y podemos utilizar la fórmula (ver Razzaghi, 2002): $a$ $b$

\begin{matrix} (11) & \frac{a}{a + b + n} \end{matrix}

$\frac{a}{a+b+n} \tag{11}$

que bajo conduce a un uniforme anterior (9). Suponiendo que Jeffreys antes con conduce a $a = b = 1$ $a = b = 0.5$

\begin{matrix} (12) & \frac{1}{2 (n + 1)} \end{matrix}

$\frac{1}{2(n+1)} \tag{12}$

En general, se recomiendan las fórmulas bayesianas (7) - (12). Basu et al (1996) recomienda (11) con información previa, cuando se dispone de algún conocimiento a priori. Como no existe un método único mejor, sugeriría revisar la literatura antes de su análisis, especialmente cuando es pequeño. $n$

Bailey, RT (1997). Estimación a partir de datos de falla cero. Análisis de riesgo, 17 , 375-380.

Razzaghi, M. (2002). Sobre la estimación de la probabilidad de éxito binomial con cero ocurrencia en la muestra. Revista de métodos estadísticos aplicados modernos, 1 (2), 41.

Ludbrook, J. y Lew, MJ (2009). Estimación del riesgo de complicaciones raras: ¿es la 'regla de tres' suficientemente buena? Revista de cirugía ANZ, 79 (7‐8), 565-570.

Eypasch, E., Lefering, R., Kum, CK y Troidl, H. (1995). Probabilidad de eventos adversos que aún no han ocurrido: un recordatorio estadístico. BMJ 311 (7005): 619–620.

Basu, AP, Gaylor, DW y Chen, JJ (1996). Estimación de la probabilidad de aparición de tumor para un cáncer raro con cero aparición en una muestra. Toxicología reglamentaria y farmacología, 23 (2), 139-144.

— Tim
fuente

1

Excelente revisión de lo que hay ahí fuera!

— AlefSin

Para los comentarios que comienzan con "Entre los estimadores bayesianos varios ...", generalmente no está claro si un comentario dado pertenece a la fórmula que está arriba o debajo de ella. ¿Puedes aclarar eso?

— gung - Restablece a Monica

2

Realmente necesita volver a los diseñadores de sus productos. Es un problema de ingeniería fundamental, no uno estadístico observacional. Tendrán una idea de la probabilidad de falla de cada componente y de allí la probabilidad de falla neta del producto ensamblado total. Pueden darle la cantidad esperada de fallas durante toda la vida de diseño del producto.

Un ingeniero civil diseña un puente para tener una vida útil de 120 años. Cada componente del puente tiene una pequeña posibilidad de falla. Cada carga tiene una ligera posibilidad de ser excedida. Para que el puente sea económico de construir, el colapso total solo ocurriría una vez en 2400 años, que es mucho más largo de lo que se mantendrá el puente. No es sorprendente que el puente no falle en el año 1, ni en el año 2 hasta el año 120. Es decir, no se ha derrumbado le dice muy poco. Sus diversas posibilidades de fracaso con el tiempo solo pueden ser estimadas por los diseñadores originales.

— robert
fuente

0

Esto es similar a un problema que enfrenté cuando introdujimos un nuevo proceso de fabricación para eliminar una falla en la producción.

El nuevo sistema no produjo fallas, por lo que la gente hacía la misma pregunta: ¿cómo predecimos la tasa de fallas? En su caso, debido a que ha estipulado un período durante el cual la falla puede ocurrir sin preocuparse por cuándo ocurre la falla dentro de ese período, los efectos temporales se han eliminado. Y es simplemente un caso de si algo falló o no. Con eso estipulado - con mi respuesta.

Intuitivamente, parece que necesitamos al menos una falla para poder calcular la tasa de falla. Sin embargo, esta suposición tiene un error implícito dentro de ella. Nunca calcularemos la tasa de falla. Eso es porque estamos tratando con una muestra. Por lo tanto, solo podemos estimar un rango de tasas probables de falla. La forma de hacerlo es encontrar una distribución para la tasa de falla. La distribución que hace el trabajo en este caso es una distribución Beta donde los parámetros son: α = n + 1 y β = N - n + 1

Nota: N es el tamaño de la muestra yn es el número de fallas (en su caso 0)

Para su escenario, la distribución de la tasa de falla se muestra a continuación. .

Luego alimentaría esa distribución en la fórmula de probabilidad binomial respectiva para obtener una distribución para la probabilidad de que falle una unidad (podría hacerse analíticamente o utilizando Monte Carlo). Sospecho que los números serán muy bajos.

Tenga en cuenta que este proceso es aplicable sin importar el número de fallas en su primer conjunto.

— Clint Steele
fuente