Bueno, si conociera las variaciones en los pares y en los pares (que generalmente sería mucho más pequeño), los pesos óptimos para las dos estimaciones de diferencia en grupos significan tener pesos inversamente proporcionales a la varianza del individuo estimaciones de la diferencia de medias.
[Editar: resulta que cuando se estiman las variaciones, esto se denomina estimador Graybill-Deal. Ha habido bastantes documentos al respecto. Aquí hay uno]
La necesidad de estimar la varianza causa cierta dificultad (la razón resultante de las estimaciones de varianza es F, y creo que los pesos resultantes tienen una distribución beta, y una estadística resultante es un poco complicada), pero dado que está considerando el arranque, esto puede ser menos de una preocupación.
Una posibilidad alternativa que podría ser más agradable en algún sentido (o al menos un poco más robusta a la no normalidad, ya que estamos jugando con relaciones de variación) con muy poca pérdida de eficiencia en la normalidad es basar una estimación combinada de desplazamiento. pruebas de rango emparejadas y no emparejadas: en cada caso una especie de estimación de Hodges-Lehmann, en el caso no emparejado basado en medianas de diferencias de muestras cruzadas por pares y en el caso emparejado fuera de medianas de diferencias de promedios por pares de pares. Nuevamente, la combinación lineal ponderada de varianza mínima de los dos sería con pesos proporcionales a inversos de varianzas. En ese caso, probablemente me inclinaría hacia una permutación (/ aleatorización) en lugar de un bootstrap, pero dependiendo de cómo implemente su bootstrap, pueden terminar en el mismo lugar.
En cualquier caso, es posible que desee robustecer sus variaciones / reducir su relación de variación. Entrar en el estadio correcto para el peso es bueno, pero perderá muy poca eficiencia en la normalidad al hacerlo ligeramente robusto. ---
Algunos pensamientos adicionales que antes no tenía suficientemente claros en mi cabeza:
Este problema tiene similitudes distintas con el problema de Behrens-Fisher, pero es aún más difícil.
Si nos fijamos los pesos, nos podríamos simplemente golpear en un tipo de aproximación de Welch-Satterthwaite; La estructura del problema es la misma.
Nuestro problema es que queremos optimizar los pesos, lo que efectivamente significa que la ponderación no es fija, y de hecho, tiende a maximizar la estadística (al menos aproximadamente y más cerca en muestras grandes, ya que cualquier conjunto de pesos es una cantidad aleatoria que estima lo mismo numerador, y estamos tratando de minimizar el denominador; los dos no son independientes).
Esto, supongo, empeoraría la aproximación de chi-cuadrado y casi seguramente afectaría aún más el df de una aproximación.
[Si este problema es factible, también podría ser una buena regla general que diga 'puedes hacerlo casi tan bien si usas solo los datos emparejados en estos conjuntos de circunstancias, solo los no emparejados bajo estos otros conjuntos de condiciones y en el resto, este esquema de peso fijo generalmente es muy cercano al óptimo ', pero no aguantaré la respiración esperando esa oportunidad. Tal regla de decisión sin duda tendría algún impacto en la verdadera importancia en cada caso, pero si ese efecto no fuera tan grande, tal regla general daría una manera fácil para que las personas utilicen el software heredado existente, por lo que podría ser deseable trate de identificar una regla como esa para los usuarios en tal situación.
---
Editar: Nota para uno mismo: es necesario volver y completar los detalles del trabajo en las pruebas de 'muestras superpuestas', especialmente las pruebas t de muestras superpuestas
---
Se me ocurre que una prueba de aleatorización debería funcionar bien.
donde los datos están emparejados, al azar permutas las etiquetas de grupo dentro de pares
donde los datos no están emparejados pero se supone que tienen una distribución común (debajo de nulo), permuta las asignaciones de grupo
ahora puede basar los pesos en las dos estimaciones de desplazamiento de las estimaciones de varianza relativa ( w1=1/(1+v1v2)), calcule la estimación ponderada de desplazamiento de cada muestra aleatorizada y vea dónde encaja la muestra en la distribución de aleatorización.
(Agregado mucho más tarde)
Documento posiblemente relevante:
Derrick, B., Russ B., Toher, D. y White, P. (2017),
"Estadísticas de prueba para la comparación de medias para dos muestras que incluyen observaciones emparejadas e independientes"
Journal of Modern Applied Statistical Methods , mayo Vol. 16, N ° 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm