Ciencia de los datos

3

Voy a clasificar documentos de texto no estructurados, es decir, sitios web de estructura desconocida. El número de clases a las que estoy clasificando es limitado (en este momento, creo que no hay más de tres). ¿Alguien tiene una sugerencia de cómo podría comenzar? ¿Es factible aquí el enfoque de …

12 machine-learning classification text-mining beginner

3

Modelo de base de datos eficiente para almacenar datos indexados por n-gramas

Estoy trabajando en una aplicación que requiere crear una base de datos muy grande de n-gramos que existen en un corpus de texto grande. Necesito tres tipos de operaciones eficientes: búsqueda e inserción indexadas por el n-gramo en sí, y consulta de todos los n-gramos que contienen un sub-n-gramo. Esto …

12 nlp databases

3

Predecir la próxima afección médica a partir de afecciones pasadas en los datos de reclamos

Actualmente estoy trabajando con un gran conjunto de datos de reclamos de seguro de salud que incluye algunos reclamos de laboratorio y farmacia. Sin embargo, la información más consistente en el conjunto de datos está compuesta por códigos de diagnóstico (ICD-9CM) y de procedimiento (CPT, HCSPCS, ICD-9CM). Mis objetivos son: …

12 machine-learning r

3

Medición del rendimiento de diferentes clasificadores con diferentes tamaños de muestra

Actualmente estoy usando varios clasificadores diferentes en varias entidades extraídas del texto, y uso la precisión / recuperación como un resumen de qué tan bien se desempeña cada clasificador por separado en un conjunto de datos dado. Me pregunto si hay una manera significativa de comparar el rendimiento de estos …

12 classification performance

1

¿Cuál es la diferencia entre los métodos de compresión global y universal?

Entiendo que los métodos de compresión pueden dividirse en dos conjuntos principales: global local El primer conjunto funciona independientemente de los datos que se procesan, es decir, no dependen de ninguna característica de los datos y, por lo tanto, no necesitan realizar ningún preprocesamiento en ninguna parte del conjunto de …

12 classification algorithms encoding

2

Algoritmo de coincidencia de preferencias

Hay un proyecto paralelo en el que estoy trabajando en el que necesito estructurar una solución al siguiente problema. Tengo dos grupos de personas (clientes). El grupo Atiene la intención de comprar y el grupo Btiene la intención de vender un producto determinado X. El producto tiene una serie de …

12 bigdata text-mining recommender-system

3

¿Amazon RedShift reemplaza a Hadoop por ~ 1XTB de datos?

Hay mucha publicidad alrededor de Hadoop y su ecosistema. Sin embargo, en la práctica, donde muchos conjuntos de datos están en el rango de terabytes, ¿no es más razonable usar Amazon RedShift para consultar grandes conjuntos de datos, en lugar de perder tiempo y esfuerzo construyendo un clúster Hadoop? Además, …

12 apache-hadoop map-reduce aws

9

¿Cuáles son algunas de las aplicaciones de aprendizaje automático fáciles de aprender? [cerrado]

Cerrada . Esta pregunta está basada en la opinión . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda ser respondida con hechos y citas editando esta publicación . Cerrado hace 5 años . Al ser nuevo en el aprendizaje automático en general, me …

12 machine-learning

2

Compensaciones entre Storm y Hadoop (MapReduce)

¿Alguien puede decirme amablemente sobre las compensaciones involucradas al elegir entre Storm y MapReduce en Hadoop Cluster para el procesamiento de datos? Por supuesto, aparte del obvio, que Hadoop (procesamiento a través de MapReduce en un Hadoop Cluster) es un sistema de procesamiento por lotes, y Storm es un sistema …

12 bigdata efficiency apache-hadoop distributed

3

Instancias vs. núcleos cuando se usa EC2

Trabajando en lo que a menudo se podría llamar proyectos de "datos medios", he podido paralelizar mi código (principalmente para modelar y predecir en Python) en un solo sistema en cualquier lugar de 4 a 32 núcleos. Ahora estoy buscando escalar a los clústeres en EC2 (probablemente con StarCluster / …

12 parallel clusters aws

2

¿Puede una red neuronal de cómputo ?

En espíritu de la famosa Tensorflow ruido como zumbido broma y problema XOr empecé a pensar, si es posible diseñar una red neuronal que los implementos función?y=x2y=x2y = x^2 Dada alguna representación de un número (por ejemplo, como un vector en forma binaria, de modo que el número 5se representa …

12 machine-learning neural-network

3

¿Existe una regla general para diseñar redes neuronales?

Sé que una arquitectura de red neuronal se basa principalmente en el problema en sí y los tipos de entrada / salida, pero aún así, siempre hay un "cuadrado" cuando se comienza a construir uno. Entonces, mi pregunta es: dado un conjunto de datos de entrada de MxN (M es …

12 neural-network

3

¿Debo usar GPU o CPU para inferencia?

Estoy ejecutando una red neuronal de aprendizaje profundo que ha sido entrenada por una GPU. Ahora quiero implementar esto en varios hosts para inferencia. La pregunta es ¿cuáles son las condiciones para decidir si debo usar GPU o CPU para inferencia? Agregar más detalles de los comentarios a continuación. Soy …

12 deep-learning gpu

1

Importancia de la característica con características categóricas de alta cardinalidad para la regresión (variable de representación numérica)

Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la codificación única crea una variable ficticia para …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

Motivo de las imágenes cuadradas en el aprendizaje profundo

La mayoría de los modelos avanzados de aprendizaje profundo como VGG, ResNet, etc. requieren imágenes cuadradas como entrada, generalmente con un tamaño de píxel de .224x224224x224224x224 ¿Hay alguna razón por la cual la entrada tiene que tener la misma forma, o puedo construir un modelo de convnet con, digamos, también …

12 deep-learning image-classification image-recognition