Uso del comando grep para búsquedas avanzadas en Linux

Clase 15 de 23 • Curso de Introducción a la Terminal y Línea de Comandos

Contenido del curso

Primeros pasos

Empezando a correr

Utilidades de la terminal

Despedida

Resumen

Si ya sabes como usar los comandos de búsqueda como el comando find, aquí aprenderás como buscar texto dentro de un archivo con el comando grep.

¿Que´ significa grep?

"Grep" significa Global Regular Expression Print.

El comando grep utiliza regex (Regular Expression) para realizar su búsqueda, si no sabes como armar un regex aquí tienes el Curso de Expresiones Regulares

La sintaxis es sencilla: comando, lo que quieres buscar, archivo:

grep [ExpresiónRegular] [archivoDondeBuscar]

En los recursos tienes un archivo llamado "movies.csv"; vamos a buscar palabras dentro de ese archivo:

grep the movies.csv

Cómo usar el comando grep

Ignorar case sensitive (-i)

Puede que queramos buscar la palabra "Action" pero eso dará exclusivamente las coincidencias con la "A" mayúscula. Esto lo podemos ignorar con la opción -i, que buscará independientemente de si la letra "A" es mayúscula o minúscula.

grep -i Action movies.csv

Contar ocurrencias (-c)

Si quieres saber cuántas veces se repite una palabra, usa la opción -c seguida de la palabra que quieres buscar.

grep -c Drama movies.csv

Excluir una expresión (-v)

Para saber cuáles son los resultados que NO coinciden con tu expresión regular, usas la opción -v.

Por ejemplo, si queremos contar todas las películas que no son de drama, escribimos:

grep -cv Drama movies.csv

Limitar la búsqueda (-m)

Para no buscar en todo el archivo, sino las primeras ocurrencias, podemos limitar la búsqueda en líneas con la opción -m seguida del número de líneas que queremos encontrar.

Por ejemplo, si queremos buscar las primeras 10 líneas que concuerden con la palabra "Fan" escribimos:

grep -m 10 Fan movies.csv

Tabla de funciones de grep

Opción	Función
-m	Limita las líneas de la búsqueda
-c	Cuenta las ocurrencias
-v	Excluye las ocurrencias
-i	Ignora él case sensitive

Contribución creada por: Miguel Gonzalez.

Axel Enrique Galeed Gutierrez

student•

Les comparto mis apuntes, espero que le sirva. :D

grep

Grep nos permite encontrar coincidencias de una búsqueda dentro de un archivo de texto, de cualquier texto, por ejemplo un standard output.

Grep utiliza expresiones regulares y estás son una herramienta superpoderosa de búsqueda. Se puede usar grep con cualquier lenguaje de programación que tenga soporte para ellas.

Usamos grep para poder filtrar información y errores.

Este comando busca todas las líneas que contengan la expresión regular que estamos buscando.

$ grep [expresion regular a buscar] archivo

Key sensitive

Quiere decir que si importan las mayúsculas y minúsculas, por defecto esto es tomado en cuenta al momento de usar grep.

-i

Le estamos diciendo que ignore el key sensitive

$ grep -i [expresion regular a buscar] archivo

Pipe operator

Ejemplo

$ grep -i the movies.csv | less

Ocurrencias

Pasa saber cuantas ocurrencias de cierta expresión regular hay en un archivo.

-c

Cuenta el número de ocurrencias que hay.

$ grep -c [expresion regular a buscar] archivo

También lo podemos usar con otros argumentos tales como i.

$ grep -ci [expresion regular a buscar] archivo

Líneas que no contengan lo que buscamos

Para buscar las líneas que no tienen la expresión regular que coloquemos usamos el modificador v.

-v

$ grep -vi [expresion regular a buscar] archivo

wc o word count

Nos sirve para contar cuantas palabras tenemos en un archivo.

$ wc archivo
#Resultado
columna1 columna2 columna3 columna4

Cuando usamos este comando tendremos cuatro columnas.

Representa la cantidad de líneas que hay en el archivo.
Representa la cantidad de letras o caracteres que hay en el archivo.
Representa el número de bits.
Representa el nombre del archivo.

wc -l

Nos permite contar el número de líneas.

$ wc -l archivo
#Resultado
columna1 columna2

Cuando usamos este comando tendremos cuatro columnas.

Representa la cantidad de líneas que hay en el archivo.
Representa el nombre del archivo.

wc -w

Nos va a mostrar la cantidad de palabras.

$ wc -w archivo
#Resultado
columna1 columna2

Cuando usamos este comando tendremos cuatro columnas.

Representa la cantidad de palabras que hay en el archivo.
Representa el nombre del archivo.

wc -c

Nos va a dar el número de bits.

$ wc -c archivo
#Resultado
columna1 columna2

Cuando usamos este comando tendremos cuatro columnas.

Representa la cantidad de bits que hay en el archivo.
Representa el nombre del archivo.

Les comparto apuntes del mismo curso pero del 2019

Clase: Utilidades batch y batch avanzadas

Procesamiento por lotes o batch

La idea de estas herramientas es que se le pase toda la información que necesitan al momento de la invocación y luego se obtenga los resultados.

Utilidades batch

cat

Nos muestra el contenido completo de un archivo.

$ cat archivo

head

Nos permite ver las primeras líneas de nuestro archivo.

$ head archivo

Modificador

Podemos usar el modificador -n cantidad de lineas.

$ head -n cantidad-de-lineas archivo

Este modificador nos permite ver las cantidades de líneas que nosotros deseemos.

tail

Es lo inverso de head en vez de mostrar las primeras líneas, este muestra las últimas líneas.

$ tail archivo

También podemos usar el mismo modificador que tenemos en head.

Utilidades batch avanzadas

grep

Esta utilidad permite trabajar con expresiones regulares dentro de un archivo. Va a mostrar las líneas que coincidan con la expresión regular que utilicemos.

$ grep expresión-regular archivo

-i: Con este modificador hacemos que no distinga entre las mayúsculas y minusculas.

$ grep -i expresión-regular archivo

Al colocar comillas y un signo de pesos al final de la expresión regular, estaremos buscando líneas que terminen con la expresión regular que colocamos.

$ grep -i "expresion-regular$" archivo

sed

Es el tratamiento de flujos.

Sed quiere decir que Stream Editor, la idea aquí es trabajar sobre un flujo de texto que puede ser un archivo de texto. Este utiliza mucho las expresiones regulares y lo que puede hacer es reemplazar una expresión por otra, es un caso muy común.

Este comando tiene muchas utilidades, sirve para trabajar con archivos de texto en modo procesamiento por lotes.

$ sed 's/expresión-a-sustituir/expresión-sustituta/g' archivo

El comando sed por sí mismo no modifica al archivo, es como un cambio temporal, pero el archivo original se mantiene como estaba originalmente. Lo que hace sed es modificar el flujo (archivo) creando un nuevo flujo con la modificación.

'$d': Lo que hace es eliminar la última línea.

$ sed '$d' archivo

awk

También sirve para el tratamiento de texto en una forma distinta de como lo hace sed. Este comando sirve para trabajar con textos estructurados como archivos separados por comas, por tabs o por cosas similares.

El shell tiene un lenguaje como si fuese de scripting.

$ awk -F 'limitador' '{ print $1 }' archivo

'limitador': Este quiere decir cuál es el limitador que va a separar las columnas del archivo.

'{ print $1 }': Imprime solamente la primera columna de un archivo.

También se puede colocar ciertas condiciones para la ejecución del comando.

Ejemplo:

$ awk -F 'limitador' 'NR > 1 && $3 > 0 { print $1, $3 * $4 }' archivo

NR: es el number row o números de líneas.

En este caso imprime los resultados mientras se cumplan las condiciones dadas.

Clase: Comunicación entre procesos: Qué son y cómo se utilizan los flujos estándar

Esquema de procesamiento de datos

Tenemos los datos que ingresan a un proceso y luego este emite una información a la salida, es como una máquina de juego.

Los canales por lo que ingresan los datos a un proceso y por los que sale la información se conocen como flujos o frames.

Flujos estándar

La terminal conoce de tres flujos:

La entrada estándar.
La salida estándar.
El error estándar.

Es importante diferenciar los dos últimos, ya que quizás queramos que la salida de los errores sea distinta al as de la salida normal o resultado.

Procesamiento de datos

Por defecto esto canales están conectados a los periféricos, la entrada es el teclado y la salida de éxito o error es la pantalla.

Hay situaciones en donde no siempre ingresamos datos desde el teclado, quizás queremos ingresar los datos por un archivo que ya tenemos armado y para esto tenemos que usar un proceso llamado proceso de redirección, vamos a cambiar a la entrada estándar del teclado hacia un archivo.

Proceso de redirección

Para esto vamos a usar el modificador <.

Por ejemplo si quiero mandar una base de datos a mi servidor podemos usar algo como esto.

Ejemplo de la clase

$ mysql -h 127.0.0.1 -u root -p1234 < dump1.sql

Redirección de la salida

Se usa para guardar la entrada del teclado en un archivo en vez que se vea en pantalla.

>: Redireccionamos a la salida o el estándar output.

<: Redireccionamos la entrada o el estándar input.

>>: Agrego el resultado al final del archivo ya existente.

Ejemplo

$ ls > archivo-ver-mas-tarde.txt

Otra forma de redirección es que si no quiero crear un archivo nuevo puedo agregar esa información en un archivo que ya tengo creado.

Tuberías o pipes

La idea de estos es tomar la salida de un proceso y pasársela directamente como entrada al siguiente.

|: Es el símbolo del pipe.

more: Muestra un resultado largo en varias iteraciones, muestra páginas de lo que queremos ver y nos podemos mover línea por línea con enter o toda una página o pantallas con la barra espaciadora.

$ ls -l | more

wc: word count, permite contar cuantos caracteres, palabras o líneas hay en un archivo o en un flujo.

wc -l: Muestra la cantidad de líneas de un archivo o flujo.

$ cat archivo | wc -l

Modo de uso de wc

$ wc -l <fichero> número de líneas 
$ wc -c <fichero> número de bytes
$ wc -m <fichero> imprime el número de caracteres
$ wc -L <fichero> imprime la longitud de la línea más larga
$ wc -w <fichero> imprime el número de palabras

Fuente Wikipedia#:~:text=wc%20(word%20count)%20es%20un,caracteres%20o%20saltos%20de%20l%C3%ADneas.).

Clase:

Práctica: Tratamiento de texto (Apuntes propio de la clase)

Vamos a estudiar algunos comandos para procesar texto y emitir un resultado. Te recomiendo que no solo te quedes con la lectura, sino que experimentes todo lo que quieras con estos comandos, ya que más adelante los necesitarás para completar los desafíos.

Trabajo fundamental con archivos de texto

En clases anteriores estudiamos cómo crear y organizar nuestras carpetas. Ahora vamos a trabajar archivos que, por supuesto, debemos guardar en estos directorios que previamente creamos.

touch: nos permite crear archivos.

> touch archivo.txt

cat: nos permite visualizar todo el contenido de nuestros archivos.

> cat archivo.txt

head: es muy parecido al comando cat. También nos permite visualizar el contenido de nuestros archivos, pero debemos indicarle cuántas líneas nos debe mostrar. Por defecto nos mostrará las primeras 10.

# primeras 10 líneas 
> head archivo.txt

# primeras 20 líneas 
> head -n 20 archivo.txt

tail: funciona igual que el comando head, pero al revés. También debemos indicarle cuántas líneas nos debe mostrar, la diferencia es que no las mostrará de abajo hacia arriba. Por defecto nos mostrará las últimas 10.

# últimas 10 líneas
 > tail archivo.txt

# últimas 5 líneas
 > tail -n 5 archivo.txt

Búsqueda y tratamiento de texto

No solo podemos visualizar nuestros archivos (o parte de nuestros archivos) tal cual como escribimos, también podemos filtrar y cambiar el contenido que podemos ver en los archivos.

Por ejemplo: imagina que tenemos un archivo gigante, con cientos o incluso miles de líneas. Si imprimieramos el contenido de todo el archivo sería muy difícil encontrar el nombre de una persona o elemento específico.

Y se vuelve aún más complicado si necesitamos que las palabras que buscamos cumplan ciertas condiciones, como solo mayúsculas o minúsculas, que la siguiente o anterior palabra cumpla ciertas condiciones, etc.

En estos casos podemos utilizar el comando grep para filtrar las líneas que queremos visualizar utilizando (o no) expresiones regulares:

grep “palabra-clave” archivo_gigante.txt

Si nos da igual si la palabra clave incluye mayúsculas o minúsculas podemos utilizar el flag -i:

grep -i “pAlaBra-cLAvE” archivo_gigante.txt

También podemos verificar si la línea incluye esta palabra clave al final:

grep “palabra-clave$” archivo_gigante.txt

O si la incluye al principio:

grep “^palabra-clave” archivo_gigante.txt

También hay situaciones donde necesitamos modificar un poco la información que obtenemos de un archivo de texto.

Por ejemplo, imagina que nuestro archivo contiene un poema, frase o saludo para responderle a los usuarios de nuestra aplicación. El problema es que cada usuario tiene un nombre diferente.

¡Hola, NOMBRE_USUARIO! Felicitaciones por completartu desafíocon PUNTOS_USUARIO puntos.

No queremos editar este archivo. Solo necesitamos cambiar los caracteres NOMBRE_USUARIO por el verdadero nombre del usuario.

Para esto podemos utilizar el comando sed. Solo debemos indicarle que queremos realizar una sustitución (s/), la palabra que vamos a cambiar (NOMBRE_USUARIO), la nueva palabra que vamos a incluir (Ana) y cerrar con el símbolo /.

> sed ‘s/NOMBRE_USUARIO/Ana/’ archivo-saludo.txt

Ahora imagina que, además del nombre, debemos cambiar también la puntuación que obtuvo el usuario:

> sed ‘s/NOMBRE_USUARIO/Ana/; s/PUNTOS_USUARIO/35/’ archivo-saludo.txt

Puedes ver muchos más usos del comando sed en este tutorial: .

Juan Camilo Santa Sánchez

student•

Esos apuntes estan full geniales... Gracias idolo, maquina, mastodonte, tifon, huracan, gigachad ;V

Valente IA

Santiago Lopera Naranjo

Andrea Lozano Cataño

Ariel Sebastián Contreras

Carlos Ramírez

Carlos Rodríguez

Usuario anónimo

user•

DARWIN JUAN CARLOS CATUNTA GARCIA

Gonzalo Galvano

Ivan Fernando Muchica Farfan

Samuel Quintana Tellez

Edwin Villcas salazar

Gerardo Alberto Soto Alvarez del Castillo

Jorge Armando Sanjuan Angarita

Gabriel Missael Barco

Carlos Adrián Almaras Sánchez

Saul Zamora

Aldo Miguel Ortiz Parodi

Brian Güiza Molina

Ricardo Andres Zambrano Cuaicuan

Alfredo Velez

Carlos Eduardo Gomez García

teacher•

Sebastian Heredia

Jonathan David Olivos

Galo Recalde

Valentina Fiorella Cañas Cajar

Carlos Javier Perez

David Galicia Gomez

raul steven lerma

Elber Alfonso Roa Ibarra

Obed Paz

Jesús David Mejía Orozco

Luis Ernesto Guevara Rodriguez

Pedro Caicedo

Fredy Castellón

Jeison Esteban Gaviria Moncayo

Yosemir Changir

Royer Guerrero Pinilla

Uso del comando grep para búsquedas avanzadas en Linux

Primeros pasos

Uso de la Terminal y Comandos Básicos en Linux

Instalación de WSL y Ubuntu en Windows 10 y 11

Comandos básicos de terminal en Linux y navegación de archivos

Gestión de Archivos y Directorios en la Terminal Linux

Exploración de archivos de texto en la terminal Linux

Tipos de Comandos en la Terminal y Creación de Alias

Uso de Wildcards para Búsquedas Avanzadas en la Terminal

Empezando a correr

Redirecciones y Manejo de Entradas/Salidas en la Terminal

Uso del Pipe Operator en la Terminal Linux

Operadores de Control en la Terminal: Uso y Aplicaciones

Manejo de Permisos y Tipos de Archivos en Linux

Gestión de Permisos y Usuarios en la Terminal Linux

Variables de Entorno y Alias en la Terminal Linux

Comandos de Búsqueda en la Terminal: Uso de "find" y "witch"