En la actualidad abundan los datos y esos datos los podemos convertir en información, pero… ¿cómo lo hacemos? Con minería de datos, y eso vamos a ver:
-
La minería de datos se encarga de encontrar patrones, anomalías y correlaciones, para predecir resultados. Básicamente, es descubrir patrones a grandes cantidades de datos. Así, podremos filtrar de la información que nos puede ser relevante de la que no lo es, con el fin de tomar decisiones o entender qué está pasando.
-
En este campo se utilizan técnicas para predecir identificar tendencias y comportamientos.
-
Sus aplicaciones pueden ir en descubrir tus intereses y hacerte recomendaciones, o utilizarlo en la medicina para saber qué medicamento puede ser el adecuado para un paciente.
-
Los pasos a seguir para hacer minería de datos son:
*Ejemplo: Una persona tiene una tienda de tacos.
-
<ins>Análisis del problema</ins>: Desea saber qué días de la semana vende más y que tipo de tacos son los más vendidos. Los datos están registrados en una hoja de Excel. Es necesario entender los resultados que queremos obtener. Y para eso debemos hacernos las preguntas correctas, qué en este caso son:
- ¿Qué día y a qué hora vende más?
- ¿Existe algún factor que incremente sus ventas?
-
<ins>Análisis de datos</ins>: Recolectar los datos, analizar la calidad de estos, si son consistentes y correctos.
-
<ins>Preparación de datos</ins>: Analizamos la información seleccionada, entendiendo cuáles son sus variables y sus muestras. Este proceso se hace muchas veces manualmente, a veces con Python, y también se deben generar variables adicionales para que el análisis sea más fácil. También se puede cambiar algunos datos si es necesario.
-
<ins>Modelado</ins>: Aquí debemos seleccionar la técnica adecuada para el problema, verificando que:
1. Sea apropiada para el problema
2. Tengamos los datos adecuados
3. Cumpla los requerimientos necesarios. -
<ins>Evaluación</ins>: Pueden surgir problemas, por lo tanto debemos evaluar si nuestro análisis es correcto:
- No hay suficientes datos.
- Los datos están desactualizados.
- No comprendimos el problema.
- Modelo inadecuado.
-
<ins>Implementación</ins>: Es hora de llevarlo a la práctica. Aunque no siempre se implementa directamente, sino que se documenta y se lo entrega al cliente, y eso ya será decisión de éste de si se implemente o no.