¿Qué hay detrás de la API de predicción de Google?

Google Prediction API es un servicio en la nube donde el usuario puede enviar algunos datos de entrenamiento para entrenar algún clasificador misterioso y luego pedirle que clasifique los datos entrantes, por ejemplo, para implementar filtros de spam o predecir las preferencias del usuario.

¿Pero qué hay detrás de escena?

machine-learning

¡Sospecho que esperan mantener eso comercialmente confidencial!

— parada el

Esto puede ser cierto, pero el video (del verano de 2010) sugiere que todavía habían estado experimentando en ese momento; así que publiqué este Q con la esperanza de que aparecieran algunas filtraciones desde entonces.

Hay "varios" algoritmos que la API de predicción puede elegir al entrenar / predecir sus datos. El motor elige el que decide que es mejor. Algunos usuarios han solicitado un poco más de control sobre esa selección, goo.gl/mod/5EoA , incluso si el algoritmo es desconocido. Los Redditors han especulado sobre las agallas aquí, reddit.com/r/MachineLearning/comments/evdxb/… , pero el discurso de estadísticas está perdido para mí.

— hyperslug

@hyperslug Publícalo como respuesta, es bastante útil, así que me gustaría aceptarlo.

Google está utilizando diferentes técnicas de aprendizaje automático y algoritmos para el entrenamiento y la predicción. Las estrategias para el aprendizaje supervisado a gran escala: 1. Submuestra 2. Paralelamente vergonzosamente algunos algoritmos 3. Descenso de gradiente distribuido 4. Voto mayoritario 5. Mezcla de parámetros 6. Mezcla de parámetros iterativos

Deben entrenar y predecir el modelo con las diferentes técnicas de aprendizaje automático y usar un algoritmo para decidir el mejor modelo y predicción para el retorno.

El submuestreo proporciona un rendimiento inferior
La mezcla de parámetros mejora, pero no es tan buena como todos los datos.
Los algoritmos distribuidos devuelven mejores clasificadores más rápido
La mezcla de parámetros iterativos logra tan buena como todos los datos

Pero, por supuesto, no está realmente claro en la documentación de la API.

— 404Dreamer_ML
fuente