Lexer: Identificación de Keywords y Tokens Complejos

Clase 7 de 58 • Curso de Creación de Lenguajes de Programación: Intérpretes

Contenido del curso

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción del lexer o tokenizador

Construcción del parser o analizador sintáctico

Evaluación o análisis semántico

Mejora del intérprete

Siguientes pasos

Tomar examen

Resumen

Construir un lexer capaz de reconocer palabras reservadas, identificadores y números enteros es el paso que transforma un analizador léxico básico en una herramienta real de compilación. Aquí se detalla cómo lograrlo siguiendo Test Driven Development, creando primero los tests que fallan y después las funciones que los hacen pasar.

¿Qué tokens nuevos necesita reconocer el lexer?

Hasta ahora el lexer solo tokenizaba delimitadores y operadores simples. Ahora es momento de soportar asignaciones, keywords como variable, identificadores como el nombre de una variable, y enteros [0:48]. Para validar este comportamiento se escribe un test llamado test_assignment que representa la sentencia variable cinco = 5; y espera cinco tokens:

Un token de tipo LET con literal variable.
Un token de tipo IDENT con literal cinco.
Un token de tipo ASSIGN con literal =.
Un token de tipo INT con literal 5.
Un token de tipo SEMICOLON con literal ;.

Cada llamada a next_token debe devolver exactamente uno de estos valores [2:30].

¿Cómo determinar si un carácter es una letra válida?

La función is_letter recibe un carácter y devuelve un booleano [4:15]. Internamente usa una expresión regular con un character set que incluye a-z, A-Z, el guion bajo y, como el lenguaje soporta español, también vocales acentuadas (á, é, í, ó, ú) en minúsculas y mayúsculas, además de la ñ y Ñ [5:10]. El patrón se envuelve con bool(match(...)) para garantizar que el retorno sea estrictamente booleano.

¿Qué hace read_identifier?

Una vez confirmado que el carácter actual es una letra, read_identifier avanza posición por posición mientras siga encontrando letras [6:20]. El algoritmo es directo:

Guarda la posición inicial en initial_position.
Ejecuta read_character en un ciclo while is_letter(self._character).
Retorna el slice del source desde initial_position hasta self._position.

Este slice es la literal completa del identificador o keyword que se acaba de leer.

¿Cómo distinguir un keyword de un identificador?

La función lookup_token_type vive en el archivo token porque su responsabilidad está ligada al tipo de token, no al lexer [7:35]. Dentro de ella se define un diccionario keywords de tipo Dict[str, TokenType] que mapea palabras reservadas a su tipo correspondiente. Por ejemplo, la llave "variable" apunta a TokenType.LET. Cuando la literal leída coincide con alguna llave del diccionario, se devuelve ese tipo; en caso contrario, se devuelve TokenType.IDENT [8:40].

¿Por qué es necesario ignorar los espacios en blanco?

En este lenguaje de programación el espacio en blanco no tiene significado semántico, así que debe descartarse antes de procesar cada token [9:30]. La función skip_whitespace se invoca al inicio de next_token y utiliza la expresión regular \s para detectar whitespace. Mientras el carácter actual coincida, simplemente llama a read_character para avanzar sin generar ningún token.

¿Cómo se tokenizan los números enteros?

El enfoque es idéntico al de los identificadores, pero con dígitos. Primero, is_number valida si el carácter actual es un dígito mediante la expresión regular ^\d$ [11:08]. Después, read_number guarda la posición inicial y avanza mientras encuentre dígitos, retornando el slice correspondiente. Finalmente, next_token crea un token de tipo TokenType.INT con esa literal [11:50].

La estructura de read_number es prácticamente un espejo de read_identifier:

initial_position = self._position.
while is_number(self._character): self._read_character().
return self._source[initial_position:self._position].

Con estas funciones implementadas, los tests pasan correctamente y el lexer ya reconoce operadores, delimitadores, keywords, identificadores y enteros [12:50]. El siguiente reto es soportar declaraciones de funciones con el keyword procedimiento y llamadas a funciones, temas que se abordan en la clase siguiente. ¿Qué otros keywords agregarías a tu lenguaje? Comparte tus ideas en los comentarios.

Comentarios

Carlos Eduardo Gomez García

teacher•

Uhhh genial, básicamente lo que hace el lexer es ir leyendo caracter por caracter, en el caso de "variable cinco = 5" lo que suecede es que, el lexer lee el primer caracter y se encuentra que es una "v" y el lexer dice: "oiga, esto es una letra, esto no es ningún delimitador ni ningún caracter especial, seguro debe haber más letras" y continua leyendo y así hasta que se encuentre que el siguiente con un espacio en blanco, recordemos que este proceso lo hace read_identifier, por lo que cuando se encuentre con un espacio en blanco dejará de leer. . Una vez que ya tiene la palabra capturada, se va a buscar si esa palabra forma parte de las palabras reservadas de nuestro lenguaje "kewywords" y retorna el tipo de token que es :D . Lo genial de esto es que a partir de aquí podemos empezar a ponernos creativos, podemos empezar a poner nuestras propias palabras reservadas, es decir, en vez de poner "variable" podemos poner "unKeywordSuperChido" para definiri variables :D (por favor no pongas ese keyword), pero imagina las posibilidades! . Yo voy agregando comentarios al código que me ayudan a entenderlo mejor, por si a alguien le sirve, les dejo mi repositorio con el commit de esta clase: . Adicion de la lectura de asignaciones

Pedro Alvarado Garcia

student•

Excelente aporte, es de mucho valor.

Kenny Emmanuel Lajara Aquino

student•

Es util que la función _skip_whitespace también ignore los TABS. Esto se logra así:

    def _skip_whitespace(self)-> None:
        while match(r'^[\s\t]$', self._character):
            self._read_character()

Sebastian Ruiz Palacio

student•

Gran aporte, gracias!

Samuel Luis Mendoza

student•

Buen video, lo que yo agregué es una funcion has_next para controlar el flujo.

Se disponibiliza con un getter has_next:

pub fn has_next(&self) -> bool {
        return self._has_next;
}

Y la asignación del valor se vuelve true si se retorna un EOF:

self._has_next = token.token_type != TokenType::EOF;

Y en los test se ejecuta un while hasta que has_next retorne false:

while lexer.has_next() {
        tokens.push(lexer.next_token());
}

El código está en lenguaje rust.

Jherom Chacon

student•

Bueno yo en esta clase tuve una dificultad en conseguir la misma cantidad de tokens que estábamos pasando en el lexer. El Lexer me estaba devolviendo 20 tokens y yo estaba esperando 6, contando el EOF. Me di cuenta que yo a diferencia de el profe Aroesti, estaba recorriendo el source por len(source) + 1 en lugar de solo 5, o en mi caso 6 (ya que tengo en cuenta el EOF Para solucionar esto, me mantuve con el len(source)+1 pero agregué una validación para buscar el EOF y romper el ciclo en ese momento

Aunque es mucho más fácil usar simplemente la cantidad de tokens esperados, creo que esta implementación podría ser de utilidad en el futuro cuándo hagamos revisión de más de una línea.

luimarco daniel Carrascal Diaz

student•

tamalito

Jherom Chacon

student•

Implementación de la función is_number

Jherom Chacon

student•

Implementación de la función skip_whitespace

Jherom Chacon

student•

Implementación de la función skip_whitespace

Jherom Chacon

student•

Implementación de la función lookup_token_type en Token

Jherom Chacon

student•

Implementación de la función read_identifier

Jherom Chacon

student•

Implementación de is_letter function

Jherom Chacon

student•

Definición del test_assignment

Jherom Chacon

student•

Nuevas funciones del lexer

Jherom Chacon

student•

Definición de los test que vamos a hacer en la clase

Lexer: Identificación de Keywords y Tokens Complejos

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción de Intérpretes de Software en Python 3.8

Creación de Compiladores e Intérpretes con Lenguaje Platzi

Construcción del lexer o tokenizador

Análisis Léxico: Construcción de un Léxer para Intérpretes

Definición de Tokens en Lenguaje de Programación Platzi

Desarrollo de un Lexer con Test-Driven Development

Pruebas de Operadores, Delimitadores y Fin de Archivo en Lexer Python