Ciencia de datos vs investigación de operaciones

11

La pregunta general, como sugiere el título, es:

¿Cuál es la diferencia entre DS y OR / optimización?

A nivel conceptual, entiendo que DS intenta extraer conocimiento de los datos disponibles y utiliza principalmente técnicas estadísticas de aprendizaje automático. Por otro lado, OR utiliza los datos para tomar decisiones basadas en los datos, por ejemplo, optimizando alguna función objetivo (criterio) sobre los datos (entrada).

Me pregunto cómo se comparan estos dos paradigmas.

¿Es un subconjunto del otro?
¿Se consideran campos complementarios?
¿Hay ejemplos de que un campo complementa al otro o se usan en conjunción?

En particular, estoy interesado en lo siguiente:

¿Hay algún ejemplo en el que se usen técnicas OR para resolver una pregunta / problema de Data Science?

optimization data-mining

— PsySp
fuente

3

No estoy seguro de que esta sea realmente una pregunta sobre informática, pero supongo que está lo suficientemente cerca. Edité la parte sobre lo que la gente de un lado piensa del otro, ya que parece ser una cuestión de opinión.

— David Richerby

@DavidRicherby gracias. Estoy de acuerdo con usted en que podría ser una cuestión de opinión. Tradicionalmente, ambas disciplinas se han enseñado y surgido de la comunidad de CS, así que, supongo, este es el lugar correcto para preguntar.

— PsySp

en.wikipedia.org/wiki/Operations_research , en.wikipedia.org/wiki/Data_science

— DW

@DW gracias. He leído los artículos y, para ser sincero, no veo ninguna discusión sobre la superposición y / o las diferencias entre los dos campos mencionados. En particular, cómo uno complementa al otro.

— PsySp

1

Data Science se trata principalmente de trabajar para encontrar información a través de datos. La investigación de operaciones se trata principalmente de trabajar para mejorar la toma de decisiones. A menudo puede ver a OR como el uso de métodos para encontrar una política óptima para su uso en la toma de decisiones. Algunos métodos utilizados en OR pueden clasificarse como métodos de aprendizaje de refuerzo en la comunidad CS, aunque no todos los problemas OR son de este tipo.

— spektr

9

Si bien tanto la Investigación de operaciones como la Ciencia de datos cubren una gran cantidad de temas y áreas, intentaré dar mi perspectiva sobre lo que veo como las partes más representativas y principales de cada una.

Como otros han señalado, la mayor parte de la Investigación de Operaciones se ocupa principalmente de tomar decisiones . Si bien hay muchas maneras diferentes de determinar cómo tomar decisiones, las partes más convencionales de OR (en mi opinión) se centran en modelar problemas de decisión en un marco de programación matemática. En este tipo de marcos, normalmente tiene un conjunto de variables de decisión, restricciones sobre estas variables y una función objetivo que depende de las variables de decisión que está tratando de minimizar o maximizar. Cuando las variables de decisión pueden tomar valores en , las restricciones son desigualdades lineales sobre sus variables de decisión, y la función objetivo es una función lineal de las variables de decisión, entonces tiene un programa lineal $\mathbb{R}$ - El caballo de batalla principal de OR durante los últimos sesenta años. Si tiene otro tipo de funciones o limitaciones objetivas, usted se encuentra en el ámbito de la programación entera , programación cuadrática , programación semi-definida , etc ...

Data Science, por otro lado, se preocupa principalmente por hacer inferencias. Aquí, generalmente comienza con una gran pila de datos y le gustaría inferir algo sobre los datos que aún no ha visto en su gran pila. Los tipos típicos de cosas que ve aquí son: 1) la gran pila de datos representa los resultados pasados de dos opciones diferentes y le gustaría saber qué opción producirá los mejores resultados, 2) la gran pila de datos representa un momento series y le gustaría saber cómo esa serie temporal se extenderá en el futuro, 3) la gran pila de datos representa un conjunto etiquetado de observaciones y le gustaría inferir etiquetas para nuevas observaciones no marcadas. Los dos primeros ejemplos caen directamente en áreas estadísticas clásicas (pruebas de hipótesis y pronósticos de series de tiempo, respectivamente), mientras que el tercer ejemplo, creo, está más estrechamente relacionado con los temas modernos de aprendizaje automático (clasificación).

Entonces, en mi opinión, la investigación de operaciones y la ciencia de datos son en su mayoría disciplinas ortogonales, aunque hay cierta superposición. En particular, creo que el pronóstico de series temporales aparece en una cantidad no trivial en OR; Es una de las partes de OR más significativas, no basadas en programación matemática. La investigación de operaciones es a donde recurrir si tiene una relación conocida entre entradas y salidas; La ciencia de datos es donde debe girar si está tratando de determinar esa relación (para alguna definición de entrada y salida).

— mhum
fuente

Gracias por la respuesta clara. Me preguntaba si, por ejemplo, uno podría usar cualquier técnica OR para resolver problemas de DS. Me interesaría tal ejemplo, pero, por su respuesta, dudo que haya alguno.

— PsySp

@Psysp Eh, tal vez? No puedo pensar en ninguno fuera de mi cabeza, pero eso está lejos de ser definitivo.

— mhum

1

No creo que la división entre OR y DS sea tan estricta como cree, pero esto podría deberse a que considero los temas como aprendizaje automático y minería de datos como partes de DS en lugar de considerar DS como sinónimo de Estadística. (Desafortunadamente, dado que DS es una palabra de moda, no tiene una definición ampliamente aceptada, que yo sepa) Sin embargo, las tareas de decisión e inferencia no necesitan ser mutuamente excluyentes. El aprendizaje automático es precisamente el campo en el que ambos se combinan: a veces se deben tomar decisiones inteligentes para hacer inferencias decentes, otras veces se usan inferencias inteligentes para tomar buenas decisiones.

— Lagarto discreto

@Discretelizard Claro, estoy de acuerdo en cierta medida. Estoy presentando una división bastante cruda (¿tal vez casi una caricatura?) Y concentrándome en las partes centrales de cada campo para resaltar las diferencias en los tipos de problemas para los que cada campo está típicamente ajustado. Los bordes de ambos campos pueden ser bastante borrosos (especialmente en DS, que es mucho más nuevo) y probablemente haya más superposición allí. Además, estoy de acuerdo en que gran parte de la corriente principal de DS incluye cosas de ML, pero no estaba seguro de cuán dividido es DS de ML.

— mhum

4

Esta no es una respuesta completa, ya que mhum's es bastante buena para contrastar los diferentes objetivos de OR vs DS.

Más bien, quiero abordar este comentario tuyo:

Me preguntaba si, por ejemplo, uno podría usar cualquier técnica OR para resolver problemas de DS.

La respuesta es sí. El ejemplo más claro que viene a la mente es Support Vector Machines (SVM) .

Para "ajustar" un modelo SVM a algunos datos (que debe hacerse antes de poder usarlo para inferir predicciones), debe resolverse el siguiente problema de optimización:

Maximiza el dual,

$g (a) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j},$ $g(a) = \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j,$

sujeto a las restricciones

$0 \leq α_{i} \leq C, \sum_{i = 1}^{n} y_{i} α_{i} = 0$ $0 \leq \alpha_i \leq C, \qquad \sum_{i=1}^n y_i \alpha_i = 0$

Este es un problema de optimización restringido, al igual que muchos en el campo de OR, y se resuelve utilizando métodos de programación cuadrática o métodos de punto interior. Estos generalmente están asociados con el campo de OR en lugar de DS, pero este es un ejemplo de su aplicabilidad más amplia.

En términos más generales, la optimización es clave para muchos de los modelos estadísticos y de aprendizaje automático empleados en el campo de DS, ya que el proceso de capacitación de estos modelos generalmente puede formularse como un problema de minimización que involucra una función de pérdida / arrepentimiento, desde los humildes siglos de antigüedad. modelo de regresión lineal a la última red neuronal de aprendizaje profundo.

Una buena referencia sobre SVM es Bishop .

— AG
fuente

2

Como estratega, tuve la oportunidad de trabajar con ambos lados de la disciplina. Al tratar de explicar lo que OR y DS son para un ejecutivo de MBA cualitativo, mi introducción (excesivamente) simplista de una línea para cada

O: economistas que saben codificar
DS: estadísticos que saben codificar.

En términos prácticos, cómo se unen típicamente los dos grupos: el lado OR desarrolla el modelo de decisión, y el lado DS determina la implementación de datos adecuada para alimentar el modelo.

Cada uno por su cuenta, se basará en las tradiciones teóricas de sus disciplinas: juntos, realizan experimentos para estructurar los datos y refinar el modelo con el fin de obtener los conocimientos verdaderos necesarios para tomar decisiones óptimas. A medida que cada uno conoce al otro, su pensamiento y su lenguaje generalmente convergerán.

— usuario88056
fuente

1

Entiendo la descripción práctica de DS como 'estadísticos que codifican', pero la descripción de OR me parece un poco extraña. O incluye problemas logísticos y de enrutamiento relacionados. Eso realmente no me parece un lugar natural para un economista. ¿Quizás podría explicar por qué los economistas realizan OR en la práctica?

— Lagarto discreto

1

@Discretelizard No dudo que los economistas hagan OR, pero hay, como usted dice, una gran cantidad de OR que no tiene nada que ver con la economía y que es realizada por informáticos, matemáticos y otros.

— David Richerby

0

La ciencia de datos es un campo amplio que se ocupa de los datos en general. Si esto suena vago, es normal porque realmente lo es. Ha sido una palabra de moda durante algunos años. Básicamente, trata de encontrar una manera de explotar los datos: ¿qué puedo hacer con mis datos (qué información puedo obtener de ellos?).

La Investigación de operaciones es la ciencia de la optimización matemática: modela un problema en "ecuaciones", resuelve este modelo matemático y traduce las soluciones nuevamente en su configuración inicial del problema. Es una herramienta para ayudar a tomar decisiones: qué debo / puedo hacer para obtener esto o aquello.

Muchos problemas comerciales pueden verse como un problema de optimización. Dado que estoy tratando de maximizar mis ingresos, dadas las limitaciones de recursos, cómo exactamente llevaría a cabo mi negocio, qué valores debo establecer para mis variables de decisión. Problemas como la programación, la planificación de instalaciones, la gestión de la cadena de suministro ... etc.todas las técnicas de optimización de apalancamiento.

La optimización de la cartera también es un ejemplo clásico en el que se utiliza la optimización. Suponga que puedo invertir en varios activos diferentes en mi cartera, cada uno con rendimientos no deterministas, ¿cómo debo equilibrar mi cartera para minimizar el riesgo de mi cartera general mientras mantengo un nivel de rendimiento monetario? En este contexto, la función objetivo a menudo se convierte en el riesgo / variación de la cartera, y las restricciones son la tasa de rendimiento requerida de la inversión, así como la cantidad de dinero que tiene.

— Rameez
fuente

3

Solo enumera resúmenes breves de ambos campos. Esta respuesta no aborda las diferencias y / o similitudes entre DS y OR, para lo cual se hizo la pregunta específicamente. Puede mejorar su respuesta concentrándose en esa parte

— lagarto discreto

-1

Si cuenta ML y AI impulsado por ML como parte de Data Science (lo que algunas personas hacen y otras no según mi experiencia, por ejemplo, el programa profesional de Microsoft en IA contiene aspectos clave de Data Science + Machine learning (con DL y RL ) mientras que la Higher School of Economics presenta prácticamente las mismas partes avanzadas de Microsoft Cuuriculum que Advanced Machine Learning), existen muchas similitudes en matemáticas que se utilizan en ambos campos. Por ejemplo: Programación no lineal (multiplicadores de Lagrange, condiciones KKT ...) -> utilizado para la derivación de máquinas de vectores de soporte ... Econometría que se basa principalmente en regresiones ---> Las regresiones son parte clave de Data Scinece en general y más específicamente, aprendizaje supervisado ... Estadísticas (normalmente se encuentran en el currículo OR) ---> clave para la ciencia de datos y el aprendizaje automático también ... Procesos estocásticos ---> muy importantes en el aprendizaje por refuerzo ... Programación dinámica ---> nuevamente encontrado en el aprendizaje por refuerzo ... Entonces, yo diría que hay algunas similitudes con la ciencia de datos en general y más o menos con ML. Por supuesto, los objetivos de estas disciplinas son diferentes, pero hay muchas similitudes en matemáticas que se utilizan en estas disciplinas.

— Goran Mabic
fuente

¿Cómo responde la pregunta?

— Evil