Lexer: Identificación de Keywords y Tokens Complejos

Clase 7 de 58 • Curso de Creación de Lenguajes de Programación: Intérpretes

Resumen

¿Cómo implementar tokens más complejos en un lexer?

En la creación de analizadores léxicos o 'lexers', la habilidad de reconocer tokens más complejos, como palabras clave, asignaciones, funciones e identificadores, es esencial para desarrollar un intérprete de lenguajes de programación más completo y funcional. En este contexto, el desarrollo de pruebas específicas para estos tokens y la implementación de funciones auxiliares es fundamental.

¿Qué son los tokens y cómo se generan?

Un token es una unidad de significado en la programación de lenguajes que representa elementos como variables, operadores, palabras clave, etc. Para generar tokens complejos, se requieren varias pruebas:

Asignación: Probar cómo se asigna un valor a una variable, como en el ejemplo variable a = 5.
Declaración de funciones: Verificar la correcta declaración con palabras clave como procedimiento.
Llamada a funciones: Examinar cómo se ejecuta una llamada a una función.

¿Qué funciones auxiliares son necesarias?

Para implementar estas pruebas, es necesario desarrollar varias funciones auxiliares, entre las principales figuran:

Identificación de letras y números: Funciones que determinan si un carácter es una letra o un número para poder leer identificadores o números completos.
Ignorar espacios en blanco: En muchos lenguajes de programación, los espacios en blanco no tienen significado y deben ser ignorados.
Determinación de keywords vs identificadores: Funciones que identifican si una palabra es una palabra clave específica, como variable o un simple identificador.

¿Cómo se aplica una metodología de desarrollo guiado por pruebas (TDD)?

Para implementar y verificar estas funciones, se sigue un enfoque de Desarrollo Guiado por Pruebas (TDD). Los pasos típicos incluyen:

Iniciar un nuevo branch y asegurarse de que el código base esté limpio.
Definir qué tokens se esperan que regresen de nuestro lexer.
Escribir casos de prueba que fallen inicialmente al ejecutarse, lo que indicará qué funciones y características deben implementarse a continuación.

Ejemplo de implementación de funciones en Go

La implementación en Go para lograr los objetivos arriba mencionados considera lo siguiente:

func isLetter(ch byte) bool {
    return ('a' <= ch && ch <= 'z') || ('A' <= ch && ch <= 'Z') || ch == '_'
}

func readIdentifier() string {
    position := l.position
    for isLetter(l.ch) {
        l.readChar()
    }
    return l.input[position:l.position]
}

func readNumber() string {
    position := l.position
    for isDigit(l.ch) {
        l.readChar()
    }
    return l.input[position:l.position]
}

func isDigit(ch byte) bool {
    return '0' <= ch && ch <= '9'
}

func (l *Lexer) skipWhitespace() {
    for l.ch == ' ' || l.ch == '\t' || l.ch == '\n' || l.ch == '\r' {
        l.readChar()
    }
}

A través de estas funciones, se configura un lexer capaz de navegar por caracteres, reconocer tipos de tokens según el contexto y omitir eficientemente el espacio innecesario.

Continúa tu aprendizaje

Implementar un lexer es una tarea desafiante pero gratificante que sienta las bases para la creación de interpretadores y compiladores más avanzados. Siguiendo ejemplos y prácticas de TDD, puedes avanzar en el desarrollo de estas herramientas, aprendiendo y mejorando continuamente. Mantente enfocado en desarrollar tus habilidades de programación, y cada desafío superado será un gran paso en tu viaje de desarrollo de software.

Carlos Eduardo Gomez García

teacher•

Uhhh genial, básicamente lo que hace el lexer es ir leyendo caracter por caracter, en el caso de "variable cinco = 5" lo que suecede es que, el lexer lee el primer caracter y se encuentra que es una "v" y el lexer dice: "oiga, esto es una letra, esto no es ningún delimitador ni ningún caracter especial, seguro debe haber más letras" y continua leyendo y así hasta que se encuentre que el siguiente con un espacio en blanco, recordemos que este proceso lo hace read_identifier, por lo que cuando se encuentre con un espacio en blanco dejará de leer. . Una vez que ya tiene la palabra capturada, se va a buscar si esa palabra forma parte de las palabras reservadas de nuestro lenguaje "kewywords" y retorna el tipo de token que es :D . Lo genial de esto es que a partir de aquí podemos empezar a ponernos creativos, podemos empezar a poner nuestras propias palabras reservadas, es decir, en vez de poner "variable" podemos poner "unKeywordSuperChido" para definiri variables :D (por favor no pongas ese keyword), pero imagina las posibilidades! . Yo voy agregando comentarios al código que me ayudan a entenderlo mejor, por si a alguien le sirve, les dejo mi repositorio con el commit de esta clase: . Adicion de la lectura de asignaciones

Pedro Alvarado Garcia

student•

Excelente aporte, es de mucho valor.

Kenny Emmanuel Lajara Aquino

student•

Es util que la función _skip_whitespace también ignore los TABS. Esto se logra así:

    def _skip_whitespace(self)-> None:
        while match(r'^[\s\t]$', self._character):
            self._read_character()

Sebastian Ruiz Palacio

student•

Gran aporte, gracias!

Samuel Luis Mendoza

student•

Buen video, lo que yo agregué es una funcion has_next para controlar el flujo.

Se disponibiliza con un getter has_next:

pub fn has_next(&self) -> bool {
        return self._has_next;
}

Y la asignación del valor se vuelve true si se retorna un EOF:

self._has_next = token.token_type != TokenType::EOF;

Y en los test se ejecuta un while hasta que has_next retorne false:

while lexer.has_next() {
        tokens.push(lexer.next_token());
}

El código está en lenguaje rust.

Jherom Chacon

student•

Bueno yo en esta clase tuve una dificultad en conseguir la misma cantidad de tokens que estábamos pasando en el lexer. El Lexer me estaba devolviendo 20 tokens y yo estaba esperando 6, contando el EOF. Me di cuenta que yo a diferencia de el profe Aroesti, estaba recorriendo el source por len(source) + 1 en lugar de solo 5, o en mi caso 6 (ya que tengo en cuenta el EOF Para solucionar esto, me mantuve con el len(source)+1 pero agregué una validación para buscar el EOF y romper el ciclo en ese momento

Aunque es mucho más fácil usar simplemente la cantidad de tokens esperados, creo que esta implementación podría ser de utilidad en el futuro cuándo hagamos revisión de más de una línea.

luimarco daniel Carrascal Diaz

student•

tamalito

Jherom Chacon

student•

Implementación de la función is_number

Jherom Chacon

student•

Implementación de la función skip_whitespace

Jherom Chacon

student•

Implementación de la función skip_whitespace

Jherom Chacon

student•

Implementación de la función lookup_token_type en Token

Jherom Chacon

student•

Implementación de la función read_identifier

Jherom Chacon

student•

Implementación de is_letter function

Jherom Chacon

student•

Definición del test_assignment

Jherom Chacon

student•

Nuevas funciones del lexer

Jherom Chacon

student•

Definición de los test que vamos a hacer en la clase

Lexer: Identificación de Keywords y Tokens Complejos

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción de Intérpretes de Software en Python 3.8

Creación de Compiladores e Intérpretes con Lenguaje Platzi

Construcción del lexer o tokenizador

Análisis Léxico: Construcción de un Léxer para Intérpretes

Definición de Tokens en Lenguaje de Programación Platzi

Desarrollo de un Lexer con Test-Driven Development

Pruebas de Operadores, Delimitadores y Fin de Archivo en Lexer Python