Uno de los lenguajes de programación que más causa interés entre los profesionales TI, es R. Esto debido a su popularización, en la actualidad, para el análisis de datos.
Este lenguaje de programación fue desarrollado por estadísticos y científicos para sus necesidades y, por lo tanto, es un lenguaje de programación sostenible. Además, muchos programadores están optando por R sobre Python para el desarrollo del Machine Learning.
Para conocer a detalle esta tecnología, exploraremos de manera breve la historia de R, así como algunas de ventajas.
La creación de R tiene sus inicios en 1992, cuando Robert Clifford Gentleman, estadístico y bioinformático canadiense, entonces profesor en la Universidad de Waterloo en Canadá, viajó a la Universidad de Auckland para dar una conferencia durante tres meses.
Durante su estancia, Gentleman se encontró con Ross Ihaka, estadístico de Nueva Zelanda, encuentro que dio como resultado la oportunidad a que ambos se dieron cuenta de que compartían un interés en lo que Ihaka llama «jugar juegos y diversión académica» con lenguajes de computación estadística.
Alrededor de ese tiempo, la Universidad de Auckland necesitaba un lenguaje de programación para utilizarlo en sus cursos universitarios de estadística, ya que la herramienta actual de la escuela había llegado al final de su vida útil. Había una advertencia importante: el programa necesitaba ejecutarse en Macintosh. Según Gentleman, el Departamento de Estadísticas hizo un inventario y decidió que utilizarían «esa cosa en la que están trabajando Ross y Robert», que funcionaba en Macintosh. Los profesores lo llamaron R, como un guiño a S y en referencia a sus nombres.
Aunque el R que tenemos hoy en día es software libre, a mediados de la década de los 90s, Ihaka y Gentleman consideraban seriamente convertir la R en un producto comercial. Esto cambio, gracias al aporte del Dr. Martin Mächler, un estadístico de ETH Zurich, que encontró R en StatLib, y ayudó a empujar a R en la dirección del software libre.
Ihaka y Gentleman estuvieron de acuerdo con la idea de que R fuese un software libre, lo que significa que las personas serían libres de usarlo, cambiarlo y distribuirlo como deseen. En 1995, el dúo hizo que el código fuente de R estuviera disponible bajo una licencia de software libre. Mächler se unió a Gentleman e Ihaka como uno de los principales desarrolladores de R, aceptando el envío de errores del público e implementando mejoras que los usuarios obtuvieron del código fuente.
En 2000, el Proyecto R lanzó la versión «R 1.0.0», la primera que estaba lista para el uso público. Al año siguiente, varios estadísticos influyentes publicaron artículos sobre la Ciencia de Datos. Para aquellas personas que ahora se identifican como científicos de datos, R, CRAN y la comunidad en general proporcionaron los medios para explorar y familiarizarse con las herramientas y técnicas estadísticas.
Debido a que ha existido por muchos años y ha sido popular a lo largo de su existencia, el lenguaje es bastante maduro. Los usuarios pueden descargar paquetes adicionales que mejoran la funcionalidad básica del idioma. Estos paquetes permiten a los usuarios visualizar datos, conectarse a bases de datos externas, mapear datos geográficamente y realizar funciones estadísticas avanzadas. También hay una popular interfaz de usuario llamada RStudio, que simplifica la codificación en el lenguaje R.
El lenguaje R ha sido criticado por entregar análisis lentos cuando se aplica a grandes conjuntos de datos. Esto se debe a que el lenguaje utiliza un procesamiento de un solo hilo, lo que significa que la versión básica de código abierto solo puede utilizar una CPU a la vez. En comparación, el análisis moderno de Big Data se basa en el procesamiento de datos en paralelo, al mismo tiempo que aprovecha decenas de CPU en un grupo de servidores para procesar grandes volúmenes de datos rápidamente.
Además de sus limitaciones de procesamiento de un solo hilo, el entorno de programación R es una aplicación en memoria. Todos los objetos de datos se almacenan en la memoria RAM de una máquina durante una sesión determinada. Esto puede limitar la cantidad de datos en los que R puede trabajar al mismo tiempo.
Estas limitaciones han mitigado la aplicabilidad del lenguaje R en aplicaciones de Big Data. En lugar de poner a R a trabajar en producción, muchos usuarios, a nivel empresarial, aprovechan R como herramienta de investigación y exploración. Los Data Scientist usan R para ejecutar análisis complicados en datos de muestra y luego, al identificar una correlación o agrupación significativa en los datos, pondrán el hallazgo en el producto a través de herramientas a escala empresarial.
Es innegable la relevancia de R, ya que en la actualidad muchas compañías comerciales lo soportan. Por ejemplo, Revolution R es una versión de R soportada comercialmente con extensiones útiles para empresas, como un IDE. Oracle, IBM, Mathematica, MATLAB, SPSS, SAS y otros proporcionan integración con R y sus plataformas.
Muy bien