Regresión en el disco de la unidad a partir de muestras "uniformemente espaciadas"

Necesito resolver un problema de regresión complicado sobre la unidad de disco. La pregunta original atrajo algunos comentarios interesantes, pero desafortunadamente no hubo respuestas. Mientras tanto, aprendí algo más sobre este problema, por lo que intentaré dividir el problema original en subproblemas y ver si tengo más suerte esta vez.

Tengo 40 sensores de temperatura regularmente espaciados en un anillo estrecho dentro del disco de la unidad:

Estos sensores adquieren temperatura a tiempo. Sin embargo, dado que la variación en el tiempo es mucho menor que la variación en el espacio, simplifiquemos el problema ignorando la variabilidad del tiempo y supongamos que cada sensor solo me da un promedio de tiempo. Esto significa que tengo 40 muestras (una para cada sensor) y no tengo muestras repetidas.

Me gustaría construir una superficie de regresión partir de los datos del sensor. La regresión tiene dos objetivos: $T=f(\rho,\theta)+\epsilon$

Necesito estimar un perfil de temperatura radial media . Con la regresión lineal, ya calculo una superficie que es la superficie de temperatura media, por lo que solo necesito integrar mi superficie con respecto a , ¿verdad? Si uso polinomios para la regresión, este paso debería ser pan comido. $T_{mean}=g_1(\rho)+\epsilon$ $\theta$
Necesito estimar un perfil de temperatura radial , de modo que en cada posición radial, . $T_{95}=g_2(\rho)+\epsilon$ $P(T(\rho)<T_{95}(\rho))=.95$

Dados estos dos objetivos, ¿qué técnica debo usar para la regresión en el disco de la unidad? Por supuesto, los procesos gaussianos se usan comúnmente para la regresión espacial. Sin embargo, la definición de un buen núcleo para el disco de la unidad no es trivial, por lo que me gustaría mantener las cosas simples y usar polinomios, a menos que sienta que es una estrategia perdedora. He leído sobre los polinomios de Zernike . Los polinomios de Zernike parecen ser apropiados para la regresión sobre la unidad de disco, ya que son periódicos en . $\theta$

Una vez que se elige el modelo, necesito elegir un procedimiento de estimación. Dado que este es un problema de regresión espacial, los errores en diferentes ubicaciones deben estar correlacionados. Los mínimos cuadrados ordinarios suponen errores no correlacionados, por lo que supongo que los mínimos cuadrados generalizados serían más apropiados. GLS parece una técnica estadística relativamente común, dado que hay una glsfunción en la distribución R estándar. Sin embargo, nunca he usado GLS, y tengo dudas. Por ejemplo, ¿cómo calculo la matriz de covarianza? Un ejemplo resuelto, incluso con unos pocos sensores, sería genial.

PD: Elegí usar polinomios Zernike y GLS porque me parece lo lógico hacer aquí. Sin embargo, no soy un experto, y si siente que voy en la dirección equivocada, siéntase libre de usar un enfoque completamente diferente.

regression spatial circular-statistics

— DeltaIV
fuente

En la figura, se muestra un motor con una simetría radial perfecta. Pero, ¿la posición de los ejes se relaciona con alguna característica física de un motor, o es realmente arbitraria? En el segundo caso, la variable tendrá solo un significado en relación con un motor específico.

θ

$\theta$

— Yves

Respuestas:

Creo que estás en el camino correcto al pensar en algo como los polinomios de Zernike. Como se señaló en la respuesta de jwimberly, estos son un ejemplo de un sistema de funciones de base ortogonal en un disco. No estoy familiarizado con los polinomios de Zernike, pero muchas otras familias de funciones ortogonales (incluidas las funciones de Bessel) surgen naturalmente en la física matemática clásica como funciones propias de ciertas ecuaciones diferenciales parciales (en el momento de escribir este artículo, incluso la animación en la parte superior de ese enlace muestra un ejemplo de una cabeza de tambor vibrante).

Dos preguntas me vienen a la mente. Primero, si todo lo que busca es el perfil radial ( promediado), entonces, ¿cuánta restricción sobre el patrón espacial necesita? Segundo, ¿qué tipos de variabilidad ocurren en los datos espacio-temporales? $\theta$

En términos de la primera pregunta, hay dos preocupaciones que vienen a la mente. Debido a las coordenadas polares, el área de soporte para cada sensor tiene una tendencia con . La segunda preocupación sería la posibilidad de aliasing , esencialmente una desalineación de sus sensores en relación con la fase del patrón (para usar una analogía de Fourier / Bessel). Tenga en cuenta que el alias probablemente sea la principal incertidumbre para limitar las temperaturas máximas (es decir, ). $r$ $T_{95}$

En términos de esta segunda pregunta, la variabilidad de los datos en realidad podría ayudar con cualquier problema de aliasing, esencialmente permitiendo que cualquier desalineación se promedie sobre las diferentes mediciones. (Suponiendo que no haya un sesgo sistemático ... pero eso sería un problema para cualquier método, sin, por ejemplo, un modelo físico para dar más información).

Entonces, una posibilidad sería definir sus funciones ortogonales espaciales únicamente en las ubicaciones de los sensores. Estas "Funciones ortogonales empíricas" podrían calcularse mediante PCA en su matriz de datos espacio-temporal. (Posiblemente podría usar un poco de ponderación para tener en cuenta las áreas variables de soporte del sensor, pero dada la cuadrícula polar uniforme y el objetivo de los promedios radiales, esto puede no ser necesario)

Tenga en cuenta que si hay es cualquier dato de modelado físico para variaciones "espera" en la temperatura, disponibles en una red computacional espacio-temporal densa, entonces el mismo procedimiento PCA podría aplicarse a que los datos de funciones ortogonales Derivar. (Esto normalmente se llamaría " Descomposición ortogonal adecuada " en ingeniería, donde se usa para la reducción del modelo, por ejemplo, un costoso modelo de dinámica de fluidos computacional puede destilarse para su uso en actividades de diseño adicionales).

Un comentario final, si tuviera que ponderar los datos del sensor por área de soporte (es decir, tamaño de celda polar), este sería un tipo de covarianza diagonal, en el marco de GLS . (Eso se aplicaría más a su problema de predicción, aunque la PCA ponderada estaría estrechamente relacionada).

¡Espero que esto ayude!

Actualización: Su nuevo diagrama de la distribución del sensor cambia las cosas considerablemente en mi opinión. Si desea estimar las temperaturas sobre el interior del disco, necesitará una información mucho más informativa que simplemente "un conjunto de funciones ortogonales en el disco de la unidad". Hay muy poca información en los datos del sensor.

Si realmente desea estimar la variación de la temperatura espacial sobre el disco, la única forma razonable que puedo ver sería tratar el problema como una asimilación de datos . Aquí necesitaría al menos restringir la forma paramétrica de la distribución espacial basada en algunas consideraciones basadas en la física (esto podría ser de simulaciones o de datos relacionados en sistemas con dinámicas similares).

No conozco su aplicación particular, pero si es algo como esto , entonces me imagino que existe una extensa literatura de ingeniería a la que podría recurrir para elegir las restricciones previas apropiadas. (Para ese tipo de conocimiento de dominio detallado, este probablemente no sea el mejor sitio de StackExchange para preguntar).

— GeoMatt22
fuente

Impresionante respuesta! Necesito algo de tiempo para digerirlo. Hace dos preguntas: no estoy seguro de entender la primera ("¿cuánta restricción en el patrón espacial necesita?"). Pensé que usar los datos de los 40 sensores sería mejor que simplemente promediar a lo largo de la dirección circunferencial y entonces apropiado ... ¿estás diciendo que esto no es necesariamente cierto? Para el segundo ("qué tipos de variabilidad ocurren en los datos espacio-temporales"), en los próximos uno o dos días analizaré el primer motor (¡realmente tengo 5 de ellos! Pero este será el tema de un futura pregunta ...) ctd ...

— DeltaIV

... ctd, normalizaré los datos y veré lo que puedo publicar en un sitio público. Algunos patrones espaciales y algunas series de tiempo ... Creo que deberían darte una idea sobre lo que estás preguntando.

— DeltaIV

Para mi primera pregunta: si su objetivo final es esencialmente "predecir los resultados del sensor para un nuevo motor" (inferido de su otra pregunta), ¿realmente necesita alguna información de "entre los sensores"? Mi comentario sobre aliasing fue un ejemplo de por qué le necesitar dicha información, por ejemplo, si no se mide de forma fiable a los sensores.

T_{95}

$T_{95}$

— GeoMatt22

Por cierto, si este es un problema de diseño, y hay simulaciones de tipo CFD asociadas, entonces esa es significativamente más información de lo que implica la pregunta actual. (Por ejemplo, abordar el problema como la asimilación de datos podría usar diferentes enfoques.)

— GeoMatt22

Su respuesta me hace pensar: en lugar de regresión, ¿hay algún equivalente en 2d de una transformada de Fourier discreta que se pueda hacer? Por ejemplo, tomar la integral de los puntos de datos multiplicada por la enésima función de Bessel (modificada adecuadamente) y luego obtener una descomposición ortogonal? Las preocupaciones aquí serían 1) encontrar la función discreta apropiada, posiblemente en la misma línea que su respuesta, y 2) si esto sería demasiado sensible al pequeño número de puntos de muestreo y la descomposición se inclinaría en términos de orden superior más complicados .

— jwimberley

Los polinomios Zernlike no suenan como una mala elección, ya que ya tienen la dependencia de y y la ortogonalidad. Sin embargo, dado que está estudiando la temperatura, una opción posiblemente más apropiada y mejor conocida sería las funciones de Bessel . Estos surgen en el estudio del flujo de calor en objetos cilíndricos / sistemas de coordenadas, por lo que existe la posibilidad de que sean físicamente más apropiados. La enésima función de Bessel daría la dependencia radial asociada con una función trigonométrica correspondiente para la dependencia polar; Puede encontrar los detalles en muchos libros de texto de física y PDE. $r$ $\theta$

— jwimberley
fuente

(+1) La conexión de ecuación de calor de coordenadas polares es buena. Otra que quizás valga la pena mencionar es que para los procesos gaussianos que conozco comúnmente en las cuadrículas rectangulares, la matriz de covarianza es circulante, y prácticamente se utilizan FFT. Por lo tanto, las funciones de Bessel serían un candidato probable para un enfoque similar en una cuadrícula polar.

— GeoMatt22

Una sugerencia interesante! Sin embargo, estoy midiendo la temperatura en el fluido operativo, no en la parte sólida del motor. Por lo tanto, estoy interesado en el problema de convección, en oposición al problema de conducción. Las funciones de Bessel son seguramente soluciones de la ecuación de conducción de calor (Fourier), pero no creo que también sean la solución de la ecuación de convección de calor, ya que la convección depende del campo de flujo de fluido. De todos modos, al menos podría probarlos contra el Zernike. ¿Qué hay de GLS? ¿Podría agregar algo en esa parte de la pregunta también?

— DeltaIV

@DeltaIV No estoy demasiado familiarizado con GLS, pero una pregunta: ¿por qué espera que los errores se correlacionen en diferentes puntos espaciales? Estoy de acuerdo en que las fluctuaciones reales se correlacionarán entre los puntos, pero creo que los errores (es decir, la incertidumbre en las lecturas del sensor) no estarían correlacionados. ¿Quizás para la regresión las fluctuaciones cuentan como errores? Sin embargo, estoy considerando agregar algo sobre los términos de penalización. Cualquiera sea la base que utilice, solo tiene un número finito de puntos de muestreo y podría encontrar alguna función Bessel de orden muy alto, por lo que se deben preferir los términos de orden más bajo.

— jwimberley

@DeltaIV Con respecto a las fluctuaciones nuevamente, lo que introduciría correlaciones entre los puntos espaciales: su objeto es obtener un mapa de temperatura, ¿no es así? ¿No quieres ver las fluctuaciones que están ocurriendo? ¿Y podría un modelo estadístico explicarlos, ya que las fluctuaciones serían impulsadas por la dinámica de fluidos y serían complicadas en el espacio y el tiempo? (¿Está esto relacionado con la parte dependiente del tiempo de su análisis que ha dejado por simplicidad?)

— jwimberley

chat de la galería creado .

— DeltaIV