Limpieza de texto con expresiones regulares para análisis de datos

Contenido del curso

Introducción y Fundamentos del NLP

Técnicas Tradicionales de NLP para Documentos Empresariales

Introducción y Profundización en Transformers para Aplicaciones Empresariales

Proyecto Final y Estrategia Comercial B2B

Resumen

Para lograr un análisis efectivo de reseñas, es importante realizar un adecuado preprocesamiento y limpieza del dataset. Esto permite destacar la información relevante y reducir significativamente los costos computacionales. Para este propósito, una herramienta esencial son las Regex o expresiones regulares, poderosas secuencias de caracteres diseñadas para identificar, describir y manipular patrones específicos dentro de cadenas de texto.

¿Qué son las regex y cómo se usan?

Una expresión regular, también conocida como Regex, nos permite buscar patrones específicos dentro de un texto con gran eficiencia. Estas expresiones pueden servir para:

Encontrar caracteres específicos, como un símbolo arroba (@).
Identificar y eliminar URLs, etiquetas HTML y otro tipo de información no relevante.
Manipular cadenas de texto, eliminando caracteres especiales, signos de puntuación y espacios innecesarios.

Utilizar Regex facilita enormemente el trabajo con grandes volúmenes de datos textuales, especialmente en tareas como el análisis de comentarios de usuarios en sitios como Amazon.

¿Cómo limpiar reseñas usando regex?

El proceso de limpieza de texto implica varias etapas fundamentales:

Convertir todo el texto a minúsculas para homogeneizar.
Eliminar textos entre corchetes.
Quitar URLs presentes en las reseñas.
Remover etiquetas HTML y cualquier signo de puntuación.
Eliminar saltos de línea, palabras que contengan números, emojis y caracteres especiales.
Suprimir espacios en blanco al inicio y al final del texto.

Esta limpieza puede realizarse en Python, utilizando librerías específicas junto a una función propia que recorra y procese cada una de las reseñas.

¿Cuál es el proceso completo en código?

El preprocesamiento práctico sigue estos pasos en términos de código:

Hacer una copia del dataset original para preservar la información inicial.
Verificar y tratar valores nulos si existieran.
Aplicar una función personalizada utilizando Regex:

def clean(text):
    # aquí se expresa la lógica con Regex para limpiar textos
    return texto_limpio

dataframe["clean_review"] = dataframe["review_body"].apply(clean)

Generar un nuevo dataframe o columna que contenga exclusivamente reseñas limpias.

Al comparar visualmente la columna inicial (review body) con la nueva columna generada (clean review) se evidencia cómo resalta el contenido importante después de la limpieza.

¿Qué ventajas trae limpiar los datos de esta forma?

Realizar limpieza mediante Regex aporta beneficios prácticos:

Mejora el rendimiento de cualquier posterior análisis de texto.
Disminuye considerablemente el consumo de recursos informáticos y el tiempo de procesamiento.
Ayuda a concentrarse exclusivamente en la información valiosa y útil dentro del conjunto de datos.

Limpiar los textos correctamente asegura resultados más fiables en tareas posteriores, como análisis de sentimientos, clasificación automática y extracción precisa de información clave.

¿Qué otras técnicas de limpieza de texto crees que podrían ayudar adicionalmente a este proceso? ¡Comparte tus ideas!

Comentarios

Cristian Pisco Intriago

student•

En el método clean lo que hice fue compilar las expresiones regualres fuera de la función, para evitar recompilarlas en cada llamada.

BRACKETS_RE = re.compile(r'\[.*?\]')
URL_RE = re.compile(r'https?://\S+|www\.\S+')
HTML_TAG_RE = re.compile(r'<.*?>+')
PUNCTUATION_RE = re.compile('[%s]' % re.escape(string.punctuation))
NEWLINE_RE = re.compile(r'\n')
DIGIT_WORDS_RE = re.compile(r'\w*\d\w*')
NON_ASCII_RE = re.compile(r'[^\x00-\x7F]+')

def clean(text: str) -> str:
    text = str(text).lower()
    text = BRACKETS_RE.sub('', text)
    text = URL_RE.sub('', text)
    text = HTML_TAG_RE.sub('', text)
    text = PUNCTUATION_RE.sub('', text)
    text = NEWLINE_RE.sub(' ', text)
    text = DIGIT_WORDS_RE.sub('', text)
    text = NON_ASCII_RE.sub('', text)
    return text.strip()
```BRACKETS\_RE = re.compile(r'\\\[.\*?\\]')URL\_RE = re.compile(r'https?://\S+|www\\.\S+')HTML\_TAG\_RE = re.compile(r'<.\*?>+')PUNCTUATION\_RE = re.compile('\[%s]' % re.escape(string.punctuation))NEWLINE\_RE = re.compile(r'\n')DIGIT\_WORDS\_RE = re.compile(r'\w\*\d\w\*')NON\_ASCII\_RE = re.compile(r'\[^\x00-\x7F]+')
def clean(text: str) -> str:    text = str(text).lower()    text = BRACKETS\_RE.sub('', text)    text = URL\_RE.sub('', text)    text = HTML\_TAG\_RE.sub('', text)    text = PUNCTUATION\_RE.sub('', text)    text = NEWLINE\_RE.sub(' ', text)    text = DIGIT\_WORDS\_RE.sub('', text)    text = NON\_ASCII\_RE.sub('', text)    return text.strip()

Juan R. Vergara M.

student•

Los horrores ortográficos que cometemos los hispanos al escribir son más difísiles de detectar 😅

Eduardo José Álvarez

Team Platzi•

por qué es necesario eliminar los números? en el head se ve que el primer comentario tenía un número 8 y tenía un contexto diferente y creo que podría ser útil para hacer el análisis

Carlos Bustillo

teacher•

En algunos casos es porque dentro de los comentarios aparecen los nombres de usuarios de las personas o empresas que publicitan (ejemplo: juan123, mercadolibre1, etc). Y eso puede distorsionar tu análisis o no, depende el caso.

Así como mencionas se podría analizar el contexto o desafío a resolver si vale la pena o no eliminar las palabras con números.

Eduardo Guzmán

student•

seria util por si tienes un montón de info después de hacer webscrapping o algo así

BRACKETS_RE = re.compile(r'\[.*?\]')
URL_RE = re.compile(r'https?://\S+|www\.\S+')
HTML_TAG_RE = re.compile(r'<.*?>+')
PUNCTUATION_RE = re.compile('[%s]' % re.escape(string.punctuation))
NEWLINE_RE = re.compile(r'\n')
DIGIT_WORDS_RE = re.compile(r'\w*\d\w*')
NON_ASCII_RE = re.compile(r'[^\x00-\x7F]+')

def clean(text: str) -> str:
    text = str(text).lower()
    text = BRACKETS_RE.sub('', text)
    text = URL_RE.sub('', text)
    text = HTML_TAG_RE.sub('', text)
    text = PUNCTUATION_RE.sub('', text)
    text = NEWLINE_RE.sub(' ', text)
    text = DIGIT_WORDS_RE.sub('', text)
    text = NON_ASCII_RE.sub('', text)
    return text.strip()
```BRACKETS\_RE = re.compile(r'\\\[.\*?\\]')URL\_RE = re.compile(r'https?://\S+|www\\.\S+')HTML\_TAG\_RE = re.compile(r'<.\*?>+')PUNCTUATION\_RE = re.compile('\[%s]' % re.escape(string.punctuation))NEWLINE\_RE = re.compile(r'\n')DIGIT\_WORDS\_RE = re.compile(r'\w\*\d\w\*')NON\_ASCII\_RE = re.compile(r'\[^\x00-\x7F]+')
def clean(text: str) -> str:    text = str(text).lower()    text = BRACKETS\_RE.sub('', text)    text = URL\_RE.sub('', text)    text = HTML\_TAG\_RE.sub('', text)    text = PUNCTUATION\_RE.sub('', text)    text = NEWLINE\_RE.sub(' ', text)    text = DIGIT\_WORDS\_RE.sub('', text)    text = NON\_ASCII\_RE.sub('', text)    return text.strip()

Limpieza de texto con expresiones regulares para análisis de datos

Introducción y Fundamentos del NLP

Automatización de clasificación de textos con Python y NLP

Carga y exploración de datasets de reseñas en Google Colab