Estoy buscando algunas preguntas de entrevista de estadísticas (y de probabilidad, supongo), desde las más básicas hasta las más avanzadas. Las respuestas no son necesarias (aunque los enlaces a preguntas específicas en este sitio harían bien).
Estoy buscando algunas preguntas de entrevista de estadísticas (y de probabilidad, supongo), desde las más básicas hasta las más avanzadas. Las respuestas no son necesarias (aunque los enlaces a preguntas específicas en este sitio harían bien).
Respuestas:
No estoy seguro de cuál es el trabajo, pero creo que "Explicar x a un novato" probablemente sería bueno.
a) porque probablemente necesitarán hacer esto en el trabajo
b) creo que es una buena prueba de comprensión.
El estándar Q donde trabajo está en la línea de:
Eche un vistazo a este resultado de una regresión logística múltiple de un paquete estadístico que afirma haber utilizado (preferiblemente uno que también usamos). XXX es la variable independiente de interés principal. ¿Cómo interpretaría los resultados para un colega con conocimiento del tema pero sin capacitación estadística formal? (Si es necesario, solicite una interpretación separada de la estimación puntual, IC, valor p).
También es posible que desee reflexionar sobre si la entrevista es el mejor medio para medir la construcción de interés. Si desea medir el conocimiento previo de probabilidad o estadísticas, es mejor que confíe más en una prueba escrita. Puede hacer más preguntas y así aumentar la fiabilidad de la medición. Está más estandarizado tanto en administración como en puntuación. Y una vez que se desarrolla el instrumento, probablemente utiliza menos recursos para administrar.
Luego, podría usar la entrevista como una herramienta más enfocada para observar factores como las habilidades verbales e interpersonales.
Dos preguntas que me han hecho:
1) Usted ajusta una regresión múltiple para examinar el efecto de una variable particular que le interesa a un trabajador de otro departamento. La variable se vuelve insignificante, pero su compañero de trabajo dice que esto es imposible ya que se sabe que tiene un efecto. ¿Qué dirías / harías?
2) Tienes 1000 variables y 100 observaciones. Le gustaría encontrar las variables significativas para una respuesta particular. ¿Qué harías?
Aquí hay un gran conjunto de datos. ¿Cuál es su plan para lidiar con los valores atípicos? ¿Qué tal valores perdidos? ¿Qué hay de las transformaciones?
¿Pueden tratar con datos del mundo real?
Muchas preguntas / respuestas en este sitio podrían dar ideas para buenas preguntas. Daré una lista con algunos enlaces que creo que son buenos. Las publicaciones donde respondí están sobrerrepresentadas, porque las conozco mejor, ¡no porque necesariamente sean las mejores! Doy comentarios breves a cada enlace, para que pueda decidir si desea seguir el enlace.
¿Cuál es la intuición detrás de SVD? "¿Puede explicarle a uno de nuestros clientes cómo funciona la SVD?"
Estimación de máxima verosimilitud (MLE) en términos simples "¿Puede explicar en un lenguaje no técnico la idea de la estimación de máxima verosimilitud?"
Taleb y el cisne negro "Dime, ¿qué es un cisne negro y por qué es relevante? ¿Cuándo es relevante?"
Inferencia estadística cuando la muestra "es" la población "¿Qué puede decir acerca de la inferencia estadística cuando la muestra es la población total?"
Bondad de ajuste y qué modelo elegir regresión lineal o Poisson "Tenemos un problema de regresión donde la respuesta es una variable de conteo. ¿Cuál elegiría en este contexto, mínimos cuadrados ordinarios o regresión de Poisson (o tal vez algún otro)? Explique su elección , ¿cuáles son las principales diferencias entre estos modelos? "
¿Cuál es la diferencia entre la varianza finita e infinita "¿Puede explicar, en un lenguaje tan simple como sea posible, lo que significa que una variable aleatoria tenga expectativa infinita o varianza infinita? ¿Cuál es la importancia práctica de esta distinción? Explique con un ejemplo."
¿Cuáles son las alternativas modernas y fáciles de usar para la regresión gradual? "¿Cómo construiría un modelo de regresión complejo cuando hay muchas variables predictoras posibles? Describa diferentes estrategias posibles y cuente los problemas con cada una de ellas"
¿Cómo lidiar con la separación perfecta en la regresión logística? "¿Cuál es el problema de la separación en la regresión logística, sus causas, síntomas? ¿Qué puede hacer para resolverlo, si realmente es un problema?"
¿Por qué la matriz de correlación necesita ser positiva semi-definida y qué significa ser o no positiva semi-definida? y
¿Qué me dice una matriz de covarianza definida no positiva sobre mis datos? "Explique por qué una matriz de covarianza debe ser positiva (semi) definida, y qué significa eso. ¿Cómo puede usarse ese hecho?"
¿Cuáles son las versiones multidimensionales de la mediana "¿Puedes proponer alguna forma de generalizar la mediana a los datos multivariados?"
Interpretar los términos de interacción en la regresión logit con variables categóricas y ¿Cuáles son las mejores prácticas para identificar los efectos de interacción? y ¿ Dos efectos principales negativos pero efecto de interacción positiva? e Incluyendo la interacción pero no los efectos principales en un modelo y ¿Cómo interpretar los efectos principales cuando el efecto de interacción no es significativo? "Explique qué se entiende por interacción en los modelos de regresión. Específicamente, ¿qué significa si la interacción es significativa mientras que los efectos principales no lo son? ¿Hay alguna diferencia en la interpretación de la interacción entre la regresión lineal ordinaria y la regresión logística?"
¿Cuál podría ser la razón para usar la transformación de raíz cuadrada en los datos? y Transformación de datos apropiada "¿Cuándo, cómo y por qué transforma la variable de respuesta en un modelo de regresión (o ANOVA)? ¿Hay alguna alternativa?
¿Puedo confiar en los resultados de ANOVA para un DV no distribuido normalmente? "¿Cómo trataría un ANOVA con residuos no normales?
¿Por qué las estadísticas son útiles cuando muchas cosas que importan son cosas de una sola vez?
¿Cómo puedo modelar eficientemente la suma de variables aleatorias de Bernoulli?
¿Cuándo usar ecuaciones de estimación generalizadas versus modelos de efectos mixtos?
¿Qué sucede aquí, cuando uso la pérdida al cuadrado en la configuración de regresión logística? "¿Por qué utilizamos la máxima probabilidad de regresión logística? ¿Por qué no menos cuadrados?"
Una vez me preguntaron cómo explicaría la relevancia del teorema del límite central para una clase de estudiantes de primer año en ciencias sociales que apenas tienen conocimiento sobre estadísticas.
¿Cómo numeras algo que no es numérico?
Ejemplo, "Extracción automática de características para clasificar datos de audio"
Justificación: ¿Pueden descubrir cómo analizar estadísticamente algo que aún no está en una gran mesa?
¿Cómo evita el sobreajuste cuando crea un modelo estadístico?
Buena respuesta: validación cruzada
A menudo pregunto "¿cómo definirías / explicarías qué es el pronóstico?"
La respuesta a ese tipo de pregunta muy general me ayuda a ver si las personas están conectadas a un caso particular de pronóstico. No hay una respuesta correcta, pero responderla sintéticamente durante una entrevista no siempre es fácil :)
Para un contexto de datos observacionales:
Considere este modelo de regresión aplicado a este problema sustantivo. ¿Qué, en todo caso, puede ser interpretado causalmente? [Sonda adicional] ¿Qué necesitarías aprender para cambiar tu opinión?
¿Cómo contarás el número de árboles de madera de sándalo en Bangalore?
Bajo el título Causación vs correlación :
Es común utilizar la participación del cliente / usuario como características para un modelo predictivo. Por ejemplo, las personas que hacen clic en este botón tienen más probabilidades de suscribirse que las personas que no lo hacen. Las personas que compran los lunes tienen más probabilidades de comprar de nuevo que las que compran los martes.
Si llevamos esto al extremo: los usuarios que hacen clic en "comprar" tienen más probabilidades de comprar un producto que los usuarios que no hacen clic en comprar.
Pero obviamente eso no es muy útil para explicar por qué algunos usuarios se suscriben y otros no.
¿Cómo se equilibraría usando las características del cliente que explican por qué se suscriben frente a aquellas que están altamente correlacionadas con la suscripción, pero que son necesarias para realizar la tarea?
Aquí hay un conjunto de TinkerToy . Muéstrame cómo funciona la distancia euclidiana en tres dimensiones. Ahora muéstrame cómo funciona la regresión múltiple.
¿Pueden explicar cómo funcionan las estadísticas en el mundo físico?
Estamos ejecutando un centro de servicio al cliente. Estamos recibiendo 1 millón de llamadas por mes. ¿Cómo lo reducimos a diez mil?
Muchas de las preguntas que hacemos son similares a las que ya se han descrito. Pero algunos que aún no he leído, que se usan: se le puede pedir que bosqueje un programa en una pizarra para hacer algo como: simular un lanzamiento de dados u otro problema de probabilidad, o calcular una serie de números primos (por ejemplo, todos los números primos que son menos de 1,000,000): podría hacerlo en el idioma que desee, pero la mayoría de la gente elige R, y algunos eligen Python (creo), pero supongo que podría elegir Stata, SAS, SPSS , Matlab, etc. Probablemente se le harán preguntas para probar la profundidad de su conocimiento del lenguaje de programación de su elección, por qué usar apply en lugar de un bucle for en R, por ejemplo.
También se le puede pedir que diseñe un experimento u otro estudio para investigar algo, generalmente algo práctico, a veces esto estará relacionado con el trabajo que hacemos, pero a menudo no. (Se supone que no debe tener conocimiento del trabajo que hacemos, pero debe ser capaz de comprender la esencia de un problema del que no ha oído hablar y especular sobre él de manera inteligente, incluso si tiene cierto conocimiento de dominio que sabría eso estaba mal, está bien, no se espera que tengas conocimiento del dominio). Se le puede pedir que tenga en cuenta cosas como el poder.
Al hacer el análisis de varianza de la variable cuantitativa, a veces se encontró que la frecuencia de la variable es muy alta (> 5), luego usamos la prueba exacta de Fisher para encontrar la independencia de la variable.
El promedio de asistencia pagada a los juegos de los Yankees el año pasado fue de 55,000. Al azar le preguntas a un grupo de personas en Nueva York si fueron a un juego de los Yankees la temporada pasada, y si lo hicieron, registras la asistencia pagada. ¿Cuál es el promedio de asistencia pagada para los juegos a los que asistieron las personas a las que les preguntó que asistieron a un juego?
Le daré una pista para mi respuesta (no se proporcionó ninguna pista): muestreo sesgado por longitud. Marqué un jonrón con eso, pero no fue suficiente para ganar el juego, ja, ja. Nota: Mencioné muchas advertencias relacionadas con la forma en que se realizó el muestreo, y el entrevistador me dijo que las ignorara todas.