Data Mining

De Seobility Wiki
Saltar a: navegación, buscar

¿Qué es la Data Mining o minería de datos?

La data mining o también llamada minería de datos es una rama interdisciplinaria de la informática que utiliza métodos estadísticos y matemáticos para extraer patrones, correlaciones o tendencias de desarrollo de un conjunto de datos.

De esta forma, la información extraída se transforma posteriormente en una estructura comprensible para su uso. A su vez, la minería de datos es el paso de análisis dentro de un proceso llamado "Knowledge Discovery in Databases" o "Descubrimiento de conocimiento en bases de datos".

Áreas de aplicación de la data mining

Una de las aplicaciones más comunes de la data mining es la minería de textos, que utiliza métodos estadísticos y lingüísticos con el fin de capturar y procesar visualmente información del lenguaje natural y fuentes no estructuradas.

Otra de sus aplicaciones es el análisis de datos financieros,muy ampliamente utilizado para, por ejemplo, predecir la probabilidad de pago de un préstamo, analizar la solvencia de una persona, clasificar y agrupar clientas y clientes en una campaña de marketing dirigido, así como también para detectar el lavado de dinero u otros delitos financieros.

Por su parte, en marketing y comercio, la data mining se utiliza para evaluar grandes cantidades de datos en los campos de ventas: historial de compras, transporte de mercancías, consumo y servicios, ya que permite identificar patrones y tendencias de compra de las personas a través del análisis multidimensional de las ventas, las clientas y clientes, los productos, el tiempo y la región.

Toda esta información se puede utilizar para mejorar el servicio y fortalecer la lealtad y satisfacción de las usuarias y usuarios.

De igual forma, la minería de datos se aplica en los Intrusion Detection o sistemas de detección de intrusiones para redes. Como intrusión se entiende cualquier acción que amenace la integridad, confidencialidad o disponibilidad de los recursos de una red.

Así pues, con el aumento de uso de Internet y el incremento de internautas y la disponibilidad de múltiples herramientas para invadir y atacar redes, la detección de intrusiones mediante el análisis de cantidades masivas de datos, se ha convertido en una parte importante de la administración de redes.

Métodos de data mining

La minería de datos emplea diferentes métodos de análisis, dependiendo de la base de datos y la información solicitada.

Seguimiento de patrones

Una de las técnicas más básicas en data mining es el reconocimiento de patrones en conjuntos de datos. Esta técnica puede revelar repeticiones, regularidades y, especialmente, desviaciones notorias en los conjuntos de datos. Por ello, facilita la detección de actividades fraudulentas o, como en el caso de Crime Analytics (análisis de crímenes), permite hacer predicciones sobre una la próxima escena de un crimen.

Clasificación

Clasificación significa que los elementos de las recopilaciones de datos se categorizan, lo cual es útil, por ejemplo, para asignar el nivel de riesgo crediticio de las clientas y clientes de un banco como: bajo, medio o alto. Además, al basarse en esta información, un instituto de crédito podría también, por ejemplo, calcular la tasa de interés de un préstamo.

Asociación

El análisis de asociaciones trata de descubrir relaciones de datos ocultas mediante la búsqueda de información en múltiples eventos correlacionados. Por ejemplo, cuando alguien realiza una compra conjunta de diferentes productos o cuando se produce un aumento en las ventas de ciertos productos específicos antes de los días festivos o durante los principales eventos deportivos.

Detección de valores atípicos

La detección de valores atípicos se utiliza para detectar anomalías en conjuntos de datos. Por ejemplo, se podría emplear para investigar la razón por la que algunos productos tienen más demanda en un día determinado de la semana.

Agrupamiento

El agrupamiento en data mining se refiere a un proceso de clasificación de objetos similares a partir de un conjunto de objetos abstractos en una base de datos. Con esta técnica es posible, por ejemplo, agrupar clientes y clientas con un comportamiento de compra similar.

Regresión

El análisis de regresión o análisis de correlación es un método utilizado en el campo de la estadística para analizar la dependencia de una variable a los cambios de otras. Por ejemplo, la dependencia del precio de un producto relacionada con la disponibilidad del producto o en una situación competitiva.

Análisis predictivo

El análisis predictivo proporciona un método para crear nuevos modelos de datos basados en el historial previo. Un uso de estos modelos podría ser la predicción del comportamiento de compra a futuro o el desarrollo de una unidad de negocios.

Minería de datos y big data

La big data se refiere a volúmenes muy grandes de datos estructurados, semiestructurados y no estructurados. Usualmente, esta denominación se le otorga a los volúmenes de datos mayores o iguales a 1TB.

En general, se utilizan tres características básicas: volumen, velocidad y variedad para identificar big data, donde el volumen describe la cantidad de datos, la velocidad es la rapidez con la que se generan los datos y la variedad es una expresión de la diversidad de los tipos de datos y fuentes que la componen.

Por lo tanto, así como ocurre con el análisis de conjuntos de datos más pequeños, la data mining también permite extraer información útil de los grandes volúmenes de datos.

Posibles problemas con la minería de datos

La información obtenida a través de la data mining es tan confiable como los datos subyacentes.

No obstante, una data de mala calidad, sin sentido o ruidosa, así como los valores perdidos, inexactos o falsos e incluso la insuficiencia de datos pueden dar lugar a interpretaciones erróneas. De igual forma, la integración de datos contradictorios o redundantes de distintas fuentes como archivos multimedia, los geodatos, los textos o las redes sociales también pueden generar problemas a la hora de evaluarlos.

En otro aspecto, la protección y seguridad de los datos también son áreas problemáticas bien conocidas, ya que si no se cumplen los requisitos legales, la data mining puede acarrear serios problemas con el gobierno o con la misma seguridad y la protección de los datos. Además, es importante asegurar que la data de las personas esté bien protegida contra el acceso no autorizado de terceros.

Ampliar conocimientos

Contenidos relacionados