ANÁLISIS DE DATOS

El análisis de datos se puede definir como la disciplina que se encarga de todo lo que está relacionado con la obtención de la información, su tratamiento y la difusión del conocimiento que se puede extraer de dicha información.

Gracias a los avances tecnológicos, se puede llegar a un conocimiento de gran valor a partir de la información que se dispone, siendo la gestión de este conocimiento un campo clave para la toma de decisiones en las organizaciones. La dificultad que nos encontramos actualmente reside en saber cómo almacenar y procesar el gran volumen de datos con el que se trabaja hoy en día en un tiempo razonable y, por esta razón, han ido apareciendo tecnologías como el Big Data, el Data Mining y las bases de datos no relacionales que facilitan su manejo de forma considerable.

Además de la gran cantidad de datos y del rápido crecimiento de los mismos, las empresas y la administración están poniendo la información de carácter público al alcance de todos para su reutilización, con el objetivo de que se puedan generar aplicaciones y servicios a partir de ella. Por lo tanto, el gran reto de las organizaciones, ya sean de carácter público o privado, es conseguir una gestión de los datos óptima que consiga su transformación en información inteligente y útil, disponiendo así de un apoyo y mejora en la toma de decisiones.

 

Big Data

Este concepto es entendido como la utilización, manipulación y aprovechamiento de grandes volúmenes de datos estructurados y no estructurados, para entender el valor de la información que tiene y maneja una empresa y convertirla en una ventaja competitiva.

Big Data es un término que se emplea para conjuntos de datos que son tan grandes o complejos que el software y las aplicaciones tradicionales de procesamiento de datos son inadecuados para tratar con ellos.

Las características principales de Big Data se conocen como las cinco Vs:

  • Volumen: la cantidad de datos generados y almacenados determina si se puede considerar Big Data o no.
  • Variedad: la diversidad del tipo de datos a tratar es muy amplia. Los tipos de datos pueden ser estructurados, desestructurados o semi-estructurados; y pueden provenir de texto, imágenes, sensores, archivos de audio o vídeo, archivos de log, etc.
  • Velocidad: los datos obtenidos se procesan y analizan en tiempo real, por lo que se necesita una respuesta inmediata por parte del sistema.
  • Veracidad: es necesario comprobar la autenticidad y fiabilidad de los datos, teniendo en cuenta su origen.
  • Valor: a pesar de tener una gran cantidad de datos, es importante saber extraer aquellos que realmente son válidos. Tener muchos datos no es suficiente si no se saben interpretar.

Minería de datos

El Data Mining se presenta como una tecnología de apoyo para la creación de modelos predictivos y descriptivos a partir de los datos disponibles, transformado la información en conocimiento útil para la ayuda en la toma de decisiones en una organización a través de la determinación de modelos o patrones de comportamiento.

Al proceso no-trivial de identificar patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos se le llama Knowledge Discovery in Databases (KDD).

Bases de datos no relacionales (NoSQL)

Mediante el uso de bases de datos relacionales, el acceso a grandes volúmenes de datos puede ser bastante costoso debido a una caída significativa en la velocidad y el rendimiento de los procesos. En este contexto, las bases de datos no relacionales proporcionan un acceso más rápido a los datos.

Frente a las grandes necesidades de almacenamiento, la escala vertical tiene límites de hardware. Sin embargo, NoSQL se basa en una escalabilidad horizontal que permite, por ejemplo, agregar otro servidor sin perder la disponibilidad del resto del sistema.

Aunque las empresas siguen requiriendo la integridad y la estructura eficiente que ofrecen las bases de datos relacionales, el modelo NoSQL resuelve otro tipo de necesidades de almacenamiento. Por lo tanto, ambos modelos pueden coexistir perfectamente y ser válidos en desarrollos de software.