Considerando otro criterio, creo que en algunos casos usar Python puede ser muy superior a R para Big Data. Conozco el uso generalizado de R en los materiales educativos de ciencia de datos y las buenas bibliotecas de análisis de datos disponibles, pero a veces solo depende del equipo.
En mi experiencia, para las personas que ya están familiarizadas con la programación, el uso de Python proporciona mucha más flexibilidad y aumento de la productividad en comparación con un lenguaje como R, que no está tan bien diseñado y potente en comparación con Python en términos de un lenguaje de programación. Como evidencia, en un curso de minería de datos en mi universidad, el mejor proyecto final fue escrito en Python, aunque los otros tienen acceso a la rica biblioteca de análisis de datos de R. Es decir, a veces la productividad general (considerando materiales de aprendizaje, documentación, etc.) para Python puede ser mejor que R incluso en la falta de bibliotecas de análisis de datos de propósito especial para Python. Además, hay algunos buenos artículos que explican el rápido ritmo de Python en ciencia de datos: Python Desplazamiento R y estructuras de datos científicos enriquecidos en Python que pronto puede llenar el vacío de las bibliotecas disponibles para R.
Otra razón importante para no usar R es cuando se trabaja con problemas de Big Data del mundo real, a diferencia de los problemas académicos, hay mucha necesidad de otras herramientas y técnicas, como análisis de datos, limpieza, visualización, desguace web y muchas otras que son mucho más fáciles usando un lenguaje de programación de propósito general. Esta puede ser la razón por la cual el idioma predeterminado utilizado en muchos cursos de Hadoop (incluido el curso en línea de Udacity ) es Python.
Editar:
Recientemente, DARPA también ha invertido $ 3 millones para ayudar a financiar las capacidades de procesamiento y visualización de datos de Python para trabajos de Big Data, lo que es claramente una señal del futuro de Python en Big Data. ( detalles )