Ciencia de los datos

Preguntas y respuestas para profesionales de la ciencia de datos, especialistas en aprendizaje automático y aquellos interesados ​​en aprender más sobre el campo






2
Algoritmo de coincidencia de preferencias
Hay un proyecto paralelo en el que estoy trabajando en el que necesito estructurar una solución al siguiente problema. Tengo dos grupos de personas (clientes). El grupo Atiene la intención de comprar y el grupo Btiene la intención de vender un producto determinado X. El producto tiene una serie de …

3
¿Amazon RedShift reemplaza a Hadoop por ~ 1XTB de datos?
Hay mucha publicidad alrededor de Hadoop y su ecosistema. Sin embargo, en la práctica, donde muchos conjuntos de datos están en el rango de terabytes, ¿no es más razonable usar Amazon RedShift para consultar grandes conjuntos de datos, en lugar de perder tiempo y esfuerzo construyendo un clúster Hadoop? Además, …



3
Instancias vs. núcleos cuando se usa EC2
Trabajando en lo que a menudo se podría llamar proyectos de "datos medios", he podido paralelizar mi código (principalmente para modelar y predecir en Python) en un solo sistema en cualquier lugar de 4 a 32 núcleos. Ahora estoy buscando escalar a los clústeres en EC2 (probablemente con StarCluster / …
12 parallel  clusters  aws 

2
¿Puede una red neuronal de cómputo ?
En espíritu de la famosa Tensorflow ruido como zumbido broma y problema XOr empecé a pensar, si es posible diseñar una red neuronal que los implementos función?y=x2y=x2y = x^2 Dada alguna representación de un número (por ejemplo, como un vector en forma binaria, de modo que el número 5se representa …


3
¿Debo usar GPU o CPU para inferencia?
Estoy ejecutando una red neuronal de aprendizaje profundo que ha sido entrenada por una GPU. Ahora quiero implementar esto en varios hosts para inferencia. La pregunta es ¿cuáles son las condiciones para decidir si debo usar GPU o CPU para inferencia? Agregar más detalles de los comentarios a continuación. Soy …

1
Importancia de la característica con características categóricas de alta cardinalidad para la regresión (variable de representación numérica)
Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la codificación única crea una variable ficticia para …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.