sábado, 9 de septiembre de 2017

thumbnail

Qué es el Big Data? Todo lo que necesitas saber

Qué es el Big Data? Todo lo que necesitas saber 

Que es el big data


Todos los días los seres humanos comen, duermen, trabajan, juegan y producen datos, muchos y muchos datos. Según IBM, la raza humana genera 2.5 quintilones (25.000 millones de millones) de bytes de datos cada día. Ese es el equivalente a una pila de DVDs que llegan a la luna y la espalda, y abarca todo, desde los textos que enviamos y las fotos que subimos a las métricas de sensores industriales y las comunicaciones de máquina a máquina.



Esa es una gran razón por la cual el "Big Data" se ha convertido en un eslogan común. En pocas palabras, cuando las personas hablan de datos masivos, significan la capacidad de tomar grandes porciones de estos datos, analizarlos y convertirlos en algo útil.

¿Exactamente qué es el Big Data?
Se trata de: tomando enormes cantidades de datos, a menudo de múltiples fuentes
y no sólo un montón de datos, pero diferentes tipos de datos-a menudo, múltiples tipos de datos al mismo tiempo, así como los datos que cambiaron con el tiempo-que no necesita ser transformado por primera vez en un formato específico o hecho coherente y analizar los datos de una manera que permita el análisis continuo de los mismos conjuntos de datos para diferentes propósitos y hacer todo eso rápidamente, incluso en tiempo real.

En los primeros tiempos, la industria creó un acrónimo para describir tres de estas cuatro facetas: VVV, para el volumen (las grandes cantidades), la variedad (los diferentes tipos de datos y el hecho de que los datos cambian con el tiempo) y la velocidad velocidad).

Grandes datos frente al almacén de datos

Lo que el acrónimo VVV omitió fue la noción clave de que los datos no necesitaban ser cambiados (transformados) permanentemente para ser analizados. Ese análisis no destructivo significaba que las organizaciones podían analizar los mismos conjuntos de datos para diferentes propósitos y analizar datos de fuentes reunidas para diferentes propósitos.

Por el contrario, el almacén de datos fue diseñado específicamente para analizar datos específicos para fines específicos, y los datos fueron estructurados y convertidos a formatos específicos, con los datos originales esencialmente destruidos en el proceso, para ese propósito específico -y ningún otro- en qué se llamaba extraer, transformar y cargar (ETL). El enfoque ETL de data warehousing limitó el análisis a datos específicos para análisis específicos. Eso estaba bien cuando todos sus datos existían en sus sistemas de transacción, pero no tanto en el mundo conectado a Internet de hoy con datos de todas partes.

Te interesa: El rol del Big Data y la analítica en la industria de la energía


Sin embargo, no piense por un momento que los datos grandes hacen que el almacén de datos sea obsoleto. Los grandes sistemas de datos le permiten trabajar con datos no estructurados en gran medida, pero el tipo de resultados de la consulta que obtiene no está ni cerca de la sofisticación del data warehouse. Después de todo, el almacén de datos está diseñado para profundizar en los datos, y puede hacerlo precisamente porque ha transformado todos los datos en un formato coherente que le permite hacer cosas como construir cubos para profundizar drilldown? Los proveedores de data warehousing han pasado muchos años optimizando sus motores de consulta para responder a las consultas típicas de un entorno empresarial.

Los datos grandes permiten analizar mucho más datos de más fuentes, pero con menos resolución. Por lo tanto, estaremos viviendo con los almacenes de datos tradicionales y el nuevo estilo por algún tiempo por venir.

Los avances tecnológicos detrás de los grandes datos Para lograr las cuatro facetas necesarias de grandes volúmenes de datos, variedad, uso no destructivo y velocidad, se requieren varios avances tecnológicos, incluido el desarrollo de un sistema de archivos distribuido (Hadoop), un método para dar sentido a datos dispares a la volada Google MapReduce y más recientemente Apache Spark), y una infraestructura de nube / Internet para acceder y mover los datos según sea necesario.

Hasta hace aproximadamente una docena de años, no era posible manipular más de una cantidad relativamente pequeña de datos en un momento dado. Limitaciones en la cantidad y ubicación del almacenamiento de datos, poder de cálculo y la capacidad de manejar los dispares formatos de datos de múltiples fuentes hicieron la tarea casi imposible.

Entonces, alrededor de 2003, los investigadores de Google desarrollaron MapReduce. Esta técnica de programación simplifica el trato con grandes conjuntos de datos, primero asignando los datos a una serie de pares clave / valor, luego realizando cálculos sobre claves similares para reducirlos a un solo valor, procesando cada trozo de datos en paralelo en cientos o miles de valores bajos -cost máquinas. Este paralelismo masivo permitió a Google generar resultados de búsqueda más rápidos a partir de volúmenes cada vez mayores de datos.


Alrededor de 2003, Google creó los dos avances que hicieron posible grandes datos: Uno era Hadoop, que consta de dos servicios clave:

almacenamiento de datos confiable utilizando el Sistema de Archivos Distribuidos Hadoop (HDFS)
procesamiento de datos paralelo de alto rendimiento usando una técnica llamada MapReduce.
Hadoop se ejecuta en una colección de productos básicos, servidores compartidos. Puede agregar o quitar servidores en un clúster de Hadoop a voluntad; el sistema detecta y compensa problemas de hardware o del sistema en cualquier servidor. Hadoop, en otras palabras, es auto-sanación. Puede entregar datos y ejecutar trabajos de procesamiento de gran escala y alto rendimiento a pesar de los cambios o fallas del sistema.

Aunque Hadoop proporciona una plataforma de almacenamiento de datos y procesamiento paralelo, el valor real proviene de complementos, integración cruzada y implementaciones personalizadas de la tecnología. Para ello, Hadoop ofrece subproyectos, que añaden funcionalidad y nuevas capacidades a la plataforma:

Te interesa: El discurso de Narendra Modi sobre el análisis de datos

Hadoop Common: Las utilidades comunes que soportan los otros subproyectos de Hadoop.
Chukwa: Un sistema de recolección de datos para la gestión de grandes sistemas distribuidos.
HBase: Una base de datos distribuida y escalable que admite el almacenamiento estructurado de datos para tablas grandes.
HDFS: Un sistema distribuido que proporciona acceso de alto rendimiento a los datos de la aplicación.
Hive: Una infraestructura de data warehouse que proporciona resumen de datos y consultas ad hoc.
MapReduce: Un marco de software para el procesamiento distribuido de grandes conjuntos de datos en clústeres de computación.
Pig: Un lenguaje de datos de alto nivel y un marco de ejecución para el cálculo paralelo.
ZooKeeper: Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.
La mayoría de las implementaciones de una plataforma Hadoop incluyen al menos algunos de estos subproyectos, ya que a menudo son necesarios para explotar grandes datos. Por ejemplo, la mayoría de las organizaciones optan por utilizar HDFS como el sistema de archivos distribuido principal y HBase como una base de datos, que puede almacenar miles de millones de filas de datos. Y el uso de MapReduce o el Spark más reciente es casi un dado ya que aportan velocidad y agilidad a la plataforma Hadoop.

Con MapReduce, los desarrolladores pueden crear programas que procesen cantidades masivas de datos no estructurados en paralelo a través de un clúster distribuido de procesadores o equipos autónomos. El marco MapReduce se divide en dos áreas funcionales:


Map, una función que distribuye el trabajo a diferentes nodos del clúster distribuido.
Reduce, una función que agrupa el trabajo y resuelve los resultados en un solo valor.
Una de las principales ventajas de MapReduce es que es tolerante a fallos, lo que logra mediante el monitoreo de cada nodo en el clúster; se espera que cada nodo informe periódicamente con las actualizaciones de trabajo y estado completadas. Si un nodo permanece en silencio durante más tiempo que el intervalo esperado, un nodo maestro anota y reasigna el trabajo a otros nodos.

Apache Hadoop, un framework de código abierto que utiliza MapReduce en su núcleo, fue desarrollado dos años después. Originalmente construido para indexar el ahora-oscuro motor de búsqueda de Nutch, Hadoop ahora se utiliza en virtualmente cada industria importante para una amplia gama de trabajos grandes de los datos. Gracias al sistema de archivos distribuidos de Hadoop ya YARN (Yet Another Resource Negotiator), el software permite a los usuarios tratar conjuntos de datos masivos repartidos por miles de dispositivos como si estuvieran todos en una enorme máquina.

En 2009, los investigadores de la Universidad de California en Berkeley desarrollaron Apache Spark como alternativa a MapReduce. Debido a que Spark realiza cálculos en paralelo utilizando el almacenamiento en memoria, puede ser hasta 100 veces más rápido que MapReduce. Spark puede funcionar como un marco independiente o dentro de Hadoop.

Incluso con Hadoop, todavía necesita una forma de almacenar y acceder a los datos. Normalmente se realiza a través de una base de datos NoSQL como MongoDB, como CouchDB, o Cassandra, que se especializan en el manejo de datos no estructurados o semi-estructurados distribuidos a través de múltiples máquinas. A diferencia de los almacenes de datos, donde las cantidades masivas y los tipos de datos convergen en un formato unificado y se almacenan en un solo almacén de datos, estas herramientas no cambian la naturaleza o ubicación subyacente de los datos. datos de sensores y se pueden almacenar prácticamente en cualquier lugar.

Aún así, tener cantidades masivas de datos almacenados en una base de datos NoSQL entre clústeres de máquinas no es muy bueno hasta que hagas algo con él. Ahí es donde entra el análisis de datos de gran tamaño. Herramientas como Tableau, Splunk y Jasper BI permiten analizar esos datos para identificar patrones, extraer significado y revelar nuevas ideas. Lo que hagas desde allí variará dependiendo de tus necesidades.



Etiquetas big data libro pdf - big data libros pdf - libro big data español pdf - libros de big data en español - big data pdf español - descargar libro big data gratis - libro big data pdf - big data para dummies español pdf - big data el poder de los datos pdf - libros de big data en español pdf - big data español pdf - big data para directivos pdf - libro big data español - big data pdf - las bases de big data pdf - big data for dummies pdf español - big data for dummies español pdf - libros sobre big data en español - hadoop soluciones big data pdf - libros de big data pdf - big data para principiantes pdf - big data libros - libros de big data - libros sobre big data - libros big data en español


Subscribe by Email

Follow Updates Articles from This Blog via Email

No Comments