Buscando, por ejemplo, pilas de infraestructura / flujos de trabajo / tuberías


14

Estoy tratando de entender cómo todos los componentes de "big data" juegan juntos en un caso de uso del mundo real, por ejemplo, hadoop, monogodb / nosql, storm, kafka, ... Sé que esta es una gama bastante amplia de herramientas utilizadas para diferentes tipos, pero me gustaría conocer más acerca de su interacción en las aplicaciones, por ejemplo, el aprendizaje automático para una aplicación, una aplicación web o una tienda en línea.

Tengo visitantes / sesión, datos de transacciones, etc. y los guardo; pero si quiero hacer recomendaciones sobre la marcha, no puedo ejecutar trabajos de mapa lento / reducir para eso en alguna gran base de datos de registros que tengo. ¿Dónde puedo obtener más información sobre los aspectos de infraestructura? Creo que puedo usar la mayoría de las herramientas por su cuenta, pero conectarlas entre sí parece ser un arte en sí mismo.

¿Hay ejemplos públicos / casos de uso, etc. disponibles? Entiendo que las canalizaciones individuales dependen en gran medida del caso de uso y del usuario, pero solo ejemplos probablemente me serán muy útiles.


¿Hiciste alguna investigación sobre esto? Hay muchos videos de YouTube y presentaciones de slideshare que describen diferentes arquitecturas
Stanpol

1
Hola Stanpol, gracias por tu respuesta. Hice algunas búsquedas iniciales y realmente no encontré nada más que AWS y cosas de cloudera. Tal vez si puedes darme algunos términos de búsqueda que sean prometedores, estaré encantado de tomarlo desde allí.
chrshmmmr

Respuestas:


14

Para comprender la variedad de formas en que el aprendizaje automático puede integrarse en las aplicaciones de producción, creo que es útil mirar proyectos de código abierto y artículos / publicaciones de blog de compañías que describen su infraestructura.

El tema común que tienen estos sistemas es la separación del entrenamiento del modelo de la aplicación del modelo. En los sistemas de producción, la aplicación del modelo debe ser rápida, del orden de 100s de ms, pero hay más libertad en la frecuencia con la que se deben actualizar los parámetros del modelo (o equivalentes).

Las personas usan una amplia gama de soluciones para la capacitación e implementación de modelos:


7

Una de las explicaciones más detalladas y claras de la configuración de una tubería analítica compleja es de la gente de Twitch .
Proporcionan motivaciones detalladas de cada una de las opciones de arquitectura para la recolección, el transporte, la coordinación, el procesamiento, el almacenamiento y la consulta de sus datos.
Lectura convincente! Encuéntralo aquí y aquí .


¡Eso es increíble, exactamente lo que estaba buscando! Muchas gracias :)
chrshmmmr

@chrshmmmr De nada. ¡No te olvides de votar / marcar como aceptado si esto ayudó!
tchakravarty

3
Estos enlaces parecen realmente muy útiles, pero de nuevo, son enlaces, y supongo que deberíamos esforzarnos por mantener las respuestas independientes de la estabilidad de las fuentes externas. Por lo tanto, sería bueno si pudiera tomar unos dos o tres minutos para agregar, por ejemplo, el diagrama de este enlace , publicando junto con una descripción rápida. Algo en las líneas de: "Por ejemplo, este es el flujo de trabajo de un ... sistema. <img>. Se puede encontrar más información en <link>".
Rubens

1
@Rubens Propondré una edición en un momento. fgnu: Lo haré, solo necesito un poco más de reputación para votar realmente las respuestas, pero ciertamente
honraré

@Rubens Eso no sería más que reproducir la información en el enlace. Lo haría si hubiera algo que yo sintiera agregaría a la explicación ya dada allí.
tchakravarty

3

Airbnb y Etsy publicaron recientemente información detallada sobre sus flujos de trabajo.


1

El Capítulo 1 de Practical Data Science with R ( http://www.manning.com/zumel/ ) tiene un gran desglose del proceso de ciencia de datos, incluidos los roles del equipo y cómo se relacionan con tareas específicas. El libro sigue los modelos establecidos en el capítulo haciendo referencia a qué etapas / personal realizaría esta o aquella tarea en particular.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.