DEFINICIÓN:
La minería de datos o también conocida como Data Mining deriva principalmente de la inteligencia artificial y de la estadística. Es el conjunto de tecnologías y técnicas que tratan de explorar y extraer información de grandes bases de datos con el objetivo de convertir los datos en información útil y comprensible para su uso posterior. Lo que nos facilitará información relevante para la futura toma de decisiones. El proceso de Minería de Datos cuenta con cuatro etapas principales:
- Selección y filtrado de datos
- Procesamiento de los datos
- Determinación del modelo o Minería de datos
- Interpretación y Evaluación de los resultados
En resumen, el Data Mining surge para facilitar la comprensión de la información obtenida a través de la recopilación de gran cantidad datos que se generan y se procesan a diario.
¿PARA QUÉ SIRVE EL DATA MINING?
El principal objetivo de la minería de datos es obtener la información descifrada a través de los datos generados para su posterior utilización, facilitando la toma de decisiones dado que estos no se pueden encontrar de otra forma. La característica más relevante con respecto al Data Mining es que información se obtiene sin formular preguntas específicas, se usa para encontrar patrones, ficheros o conjuntos de información para aportar elementos suprimidos, y realizar predicciones en base al análisis de datos. En la transformación de los datos hace uso de la estadística y probabilidad de la información que está oculta en los datos almacenados.
La Minería de datos sirve para conocer datos relevantes para la empresa y que no están a la vista ya que se tienen que analizar para poder ser interpretados correctamente. Es una de las técnicas mas utilizadas hoy en día, en considerables ámbitos laborales, sobre todo en marketing digital como SEO, elaborando estrategias con la que conseguir ascender.
El data mining se está convirtiendo en uno de los trabajos con gran importancia de cara al futuro ya que se consiguen encontrar nuevas ocasiones de negocio, gracias a la utilización de este se consiguiendo así minimizar los gastos de las empresas.
TÉCNICAS
Seguidamente, vamos a enumerar las técnicas más representativas que se utilizan en la Minería de datos con la excepción que varias se complementarán con una pequeña explicación de las técnicas.
- Redes neuronales: es una técnica de inteligencia artificial que permite interconectar las neuronas de una red. Es uno de los instrumentos de uso que se utiliza para detectar categorías comunes en los datos, debido a que son capaces de detectar y aprender patrones, y características de los datos. Una de las características fundamentales de las redes neuronales, es que son capaces de trabajar con datos incompletos.
- Clustering (Agrupamiento): agrupan todos los datos obtenidos dentro de unas categorías preestablecidas, llamadas clusters o grupos, de manera que sean similares entre sí y distintas con los otros grupos.
Su utilización proporciona resultados muy significativos, también se pueden combinar con otro tipo de técnica de minería de datos, con resultados heterogéneos.
- Reglas de inducción: es un conjunto de reglas que se utilizan para organizar los diferentes casos con los que contamos. Nos permite contrastar los patrones a través de los datos de entrada.
- Algoritmos genéticos
- Árboles de decisión
- Aprendizaje automático
- Regresión lineal
- Modelos estadísticos
- Clasificador Bayesiano ingenuo
CASOS PRÁCTICOS DE ÉXITO
GESTIÓN DE BANCOS DE ADN
La tecnología no solo ha favorecido el desarrollo de la comunicación, sino que ha influenciado en los avances médicos. Para gestionar los datos que se almacenaban en distintos bancos de ADN se puso en marcha un proyecto basado en Data Mining, un software que permite la administración de toda esta información.
La clave y principal objetivo del software es determinar vínculos biológicos, identificar personas a partir de marcadores genéticos y buscar patrones genéticos comunes a un conjunto de muestras.
El desarrollo se realizó con herramientas de software libre y fue aceptado exitosamente por parte del Ceprocor, que validará los resultados del sistema a través de los casos de test específicos.
DATA MINING EN LA CAMPAÑA DE OBAMA
Obama recurrió al Data Mining para mejorar su posición respecto a la población. Puso a trabajar a un grupo de expertos en análisis de datos masivos con el fin de sondear las bases de datos propias del partido, seguidores y militantes; las fuentes publicas e institucionales, y las redes sociales.
El resultado de los análisis fue concluyente para invertir en marketing, definir las horas a las que tendría mayor repercusión el mensaje y los canales más apropiados para hacerlo, así como dirigir la campaña hacia aquellos votantes afines al partido. Incluso hizo un sondeo de popularidad de los miembros de su partido, con el fin de descubrir quien sería la persona mas adecuada para acompañarlo a cada mitin, en función de la audiencia de esa localización y el perfil del votante.
El resultado de los análisis fue concluyente para invertir en marketing, definir las horas a las que tendría mayor repercusión el mensaje y los canales más apropiados para hacerlo, así como dirigir la campaña hacía aquellos votantes afines al partido. Incluso hizo un sondeo de popularidad de los miembros de su partido, con el fin de descubrir quién sería la persona más adecuada para acompañarlo a cada mitin, en función de la audiencia de esa localización y el perfil del votante.
María Velasco
REFERENCIAS:
https://docs.microsoft.com/es-es/sql/analysis-services/data-mining/data-mining-concepts?view=sql-server-2017