3

¿Qué es la minería de texto?

En la actualidad abundan los datos y esos datos los podemos convertir en información, pero… ¿cómo lo hacemos? Con minería de datos, y eso vamos a ver:

  • La minería de datos se encarga de encontrar patrones, anomalías y correlaciones, para predecir resultados. Básicamente, es descubrir patrones a grandes cantidades de datos. Así, podremos filtrar de la información que nos puede ser relevante de la que no lo es, con el fin de tomar decisiones o entender qué está pasando.
    datamining.jpg

  • En este campo se utilizan técnicas para predecir identificar tendencias y comportamientos.

  • Sus aplicaciones pueden ir en descubrir tus intereses y hacerte recomendaciones, o utilizarlo en la medicina para saber qué medicamento puede ser el adecuado para un paciente.

  • Los pasos a seguir para hacer minería de datos son:

    *Ejemplo: Una persona tiene una tienda de tacos.

  1. <ins>Análisis del problema</ins>: Desea saber qué días de la semana vende más y que tipo de tacos son los más vendidos. Los datos están registrados en una hoja de Excel. Es necesario entender los resultados que queremos obtener. Y para eso debemos hacernos las preguntas correctas, qué en este caso son:

    • ¿Qué día y a qué hora vende más?
    • ¿Existe algún factor que incremente sus ventas?
  2. <ins>Análisis de datos</ins>: Recolectar los datos, analizar la calidad de estos, si son consistentes y correctos.

  3. <ins>Preparación de datos</ins>: Analizamos la información seleccionada, entendiendo cuáles son sus variables y sus muestras. Este proceso se hace muchas veces manualmente, a veces con Python, y también se deben generar variables adicionales para que el análisis sea más fácil. También se puede cambiar algunos datos si es necesario.

  4. <ins>Modelado</ins>: Aquí debemos seleccionar la técnica adecuada para el problema, verificando que:
    1. Sea apropiada para el problema
    2. Tengamos los datos adecuados
    3. Cumpla los requerimientos necesarios.

  5. <ins>Evaluación</ins>: Pueden surgir problemas, por lo tanto debemos evaluar si nuestro análisis es correcto:

    • No hay suficientes datos.
    • Los datos están desactualizados.
    • No comprendimos el problema.
    • Modelo inadecuado.
  6. <ins>Implementación</ins>: Es hora de llevarlo a la práctica. Aunque no siempre se implementa directamente, sino que se documenta y se lo entrega al cliente, y eso ya será decisión de éste de si se implemente o no.
    text-mining-steps-1024x556.png


Escribe tu comentario
+ 2