Cel: +52 (55) 3040-5403 Correo: mariana.velazquez@recluit.com
post-tittle

¿Qué es Spark?

Por: Reclu IT

29 de octubre de 2020

Apache Spark es un marco de procesamiento de datos que puede realizar rápidamente tareas de procesamiento en conjuntos de datos muy grandes y también puede distribuir tareas de procesamiento de datos en múltiples computadoras, ya sea por sí solo o en conjunto con otras herramientas informáticas distribuidas.

Sus dos cualidades son clave para los mundos del big data y el Machine Learning, que requieren la clasificación de una potencia informática masiva para procesar grandes almacenes de datos. Spark también elimina algunas de las cargas de programación de estas tareas de los hombros de los desarrolladores con una API fácil de usar que abstrae gran parte del trabajo duro de la computación distribuida y el procesamiento de datos.

Desde sus humildes comienzos en el AMPLab de la U.C. Berkeley en 2009, Apache Spark se convirtió en uno de los marcos de procesamiento distribuidos de big data clave en el mundo.

Spark se puede implementar de diversas formas, proporciona enlaces nativos para los lenguajes de programación Java, Scala, Python y R, y admite SQL, transmisión de datos, aprendizaje automático y procesamiento de gráficos. Lo encontrará utilizado por bancos, empresas de telecomunicaciones, empresas de juegos, gobiernos y todos los gigantes tecnológicos más importantes, como Apple, Facebook, IBM y Microsoft.

En un nivel fundamental, una aplicación Apache Spark consta de dos componentes principales: un controlador, que convierte el código del usuario en múltiples tareas que se pueden distribuir entre los nodos «trabajadores», y «ejecutores», que se ejecutan en estos y ejecutan las tareas que se les asignan. Es necesaria alguna forma de administrador de clúster para mediar entre los dos.

De fábrica, Spark puede ejecutarse en un modo de clúster independiente que simplemente requiere el marco Apache Spark y una JVM en cada máquina de su clúster. Sin embargo, es más probable que desee aprovechar un sistema de administración de clústeres o recursos más sólido para encargarse de la asignación de trabajadores a pedido. En la empresa, esto normalmente significará ejecutar en Hadoop YARN (así es como las distribuciones Cloudera y Hortonworks ejecutan trabajos de Spark), pero Apache Spark también se puede ejecutar en Apache Mesos, Kubernetes y Docker Swarm.

Si buscas una solución administrada, Apache Spark se puede encontrar como parte de Amazon EMR, Google Cloud Dataproc y Microsoft Azure HDInsight. Databricks, la compañía que emplea a los fundadores de Apache Spark, también ofrece Databricks Unified Analytics Platform, que es un servicio administrado integral que ofrece clústeres de Apache Spark, soporte de transmisión, desarrollo integrado de notebook basado en la web y rendimiento optimizado de E / S en la nube. una distribución estándar de Apache Spark.

Apache Spark crea los comandos de procesamiento de datos del usuario en un gráfico acíclico dirigido o DAG. El DAG es la capa de programación de Apache Spark; determina qué tareas se ejecutan en qué nodos y en qué secuencia.

En comparación con MapReduce y otros componentes de Apache Hadoop, la API de Apache Spark es muy amigable para los desarrolladores, ya que oculta gran parte de la complejidad de un motor de procesamiento distribuido detrás de simples llamadas a métodos.

Al proporcionar enlaces a lenguajes populares para el análisis de datos como Python y R, así como Java y Scala más amigables para las empresas, Apache Spark permite que todos, desde desarrolladores de aplicaciones hasta científicos de datos, aprovechen su escalabilidad y velocidad de una manera accesible.

imagen: Markus Spiske


Deja tu comentario

Tu dirección de correo electrónico no será publicada.

Campos obligatorios(*)
post-tittle

¿Qué es Spark?

Por: Reclu IT

29 de octubre de 2020

Apache Spark es un marco de procesamiento de datos que puede realizar rápidamente tareas de procesamiento en conjuntos de datos muy grandes y también puede distribuir tareas de procesamiento de datos en múltiples computadoras, ya sea por sí solo o en conjunto con otras herramientas informáticas distribuidas.

Sus dos cualidades son clave para los mundos del big data y el Machine Learning, que requieren la clasificación de una potencia informática masiva para procesar grandes almacenes de datos. Spark también elimina algunas de las cargas de programación de estas tareas de los hombros de los desarrolladores con una API fácil de usar que abstrae gran parte del trabajo duro de la computación distribuida y el procesamiento de datos.

Desde sus humildes comienzos en el AMPLab de la U.C. Berkeley en 2009, Apache Spark se convirtió en uno de los marcos de procesamiento distribuidos de big data clave en el mundo.

Spark se puede implementar de diversas formas, proporciona enlaces nativos para los lenguajes de programación Java, Scala, Python y R, y admite SQL, transmisión de datos, aprendizaje automático y procesamiento de gráficos. Lo encontrará utilizado por bancos, empresas de telecomunicaciones, empresas de juegos, gobiernos y todos los gigantes tecnológicos más importantes, como Apple, Facebook, IBM y Microsoft.

En un nivel fundamental, una aplicación Apache Spark consta de dos componentes principales: un controlador, que convierte el código del usuario en múltiples tareas que se pueden distribuir entre los nodos «trabajadores», y «ejecutores», que se ejecutan en estos y ejecutan las tareas que se les asignan. Es necesaria alguna forma de administrador de clúster para mediar entre los dos.

De fábrica, Spark puede ejecutarse en un modo de clúster independiente que simplemente requiere el marco Apache Spark y una JVM en cada máquina de su clúster. Sin embargo, es más probable que desee aprovechar un sistema de administración de clústeres o recursos más sólido para encargarse de la asignación de trabajadores a pedido. En la empresa, esto normalmente significará ejecutar en Hadoop YARN (así es como las distribuciones Cloudera y Hortonworks ejecutan trabajos de Spark), pero Apache Spark también se puede ejecutar en Apache Mesos, Kubernetes y Docker Swarm.

Si buscas una solución administrada, Apache Spark se puede encontrar como parte de Amazon EMR, Google Cloud Dataproc y Microsoft Azure HDInsight. Databricks, la compañía que emplea a los fundadores de Apache Spark, también ofrece Databricks Unified Analytics Platform, que es un servicio administrado integral que ofrece clústeres de Apache Spark, soporte de transmisión, desarrollo integrado de notebook basado en la web y rendimiento optimizado de E / S en la nube. una distribución estándar de Apache Spark.

Apache Spark crea los comandos de procesamiento de datos del usuario en un gráfico acíclico dirigido o DAG. El DAG es la capa de programación de Apache Spark; determina qué tareas se ejecutan en qué nodos y en qué secuencia.

En comparación con MapReduce y otros componentes de Apache Hadoop, la API de Apache Spark es muy amigable para los desarrolladores, ya que oculta gran parte de la complejidad de un motor de procesamiento distribuido detrás de simples llamadas a métodos.

Al proporcionar enlaces a lenguajes populares para el análisis de datos como Python y R, así como Java y Scala más amigables para las empresas, Apache Spark permite que todos, desde desarrolladores de aplicaciones hasta científicos de datos, aprovechen su escalabilidad y velocidad de una manera accesible.

imagen: Markus Spiske


Deja tu comentario

Tu dirección de correo electrónico no será publicada.

Campos obligatorios(*)

Política de privacidad de www.recluit.mx

Para recibir la información sobre sus Datos Personales, la finalidad y las partes con las que se comparte,
contacten con el Propietario.