¿Cómo implementar operadores de dos caracteres en un Lexer?
La implementación de operadores de dos caracteres en un lexer es una tarea vital para lograr que un lenguaje de programación pueda interpretar correctamente estas combinaciones. Este artículo te guiará a través del proceso de implementación de operadores como ==
y !=
, fundamentales en lenguajes como JavaScript o Python. No te preocupes; veremos paso a paso lo que necesitas para implementar estos operadores en tu lexer.
El lexer hasta ahora usa variables position
y readPosition
para manejar el flujo de caracteres. Estas variables permiten prever el carácter siguiente, proporcionando el contexto necesario para identificar operadores de dos caracteres.
¿Cómo se estructura el test para operadores de dos caracteres?
Crear un test unitario es el primer paso. Aquí configuramos un test llamado testToCharacterOperators
. En este test, se definen las expectativas de cómo debería comportarse el lexer con entradas como 10 == 10;
o 10 != 9;
. Al final, esperamos que el lexer retorne una lista de tokens que incluya números, operadores y delimitadores como el punto y coma.
def testToCharacterOperators():
source = "10 == 10; 10 != 9;"
expected_tokens = [
TokenType.NUMBER, '10',
TokenType.EQUALS,
TokenType.NUMBER, '10',
TokenType.SEMICOLON,
TokenType.NUMBER, '10',
TokenType.NOT_EQUALS,
TokenType.NUMBER, '9',
TokenType.SEMICOLON
]
lexer = Lexer(source)
tokens = lexer.tokenize()
assert tokens == expected_tokens
¿Cómo se manejan los tokens de igualdad y desigualdad?
Para tratar con operadores de dos caracteres como ==
y !=
, debes definir nuevos tipos de tokens llamados equals
y not equals
. Estos se añaden al archivo de tipos de tokens. Esto permitirá al lexer diferenciar entre una asignación simple =
y una evaluación de igualdad ==
.
def initializeTokenTypes():
TokenType.EQUALS = "=="
TokenType.NOT_EQUALS = "!="
¿Cómo se implementa la anticipación de caracteres?
La función pickCharacter()
es fundamental. Permite al lexer 'asomarse' al siguiente carácter sin avanzar la posición actual, una capacidad clave para determinar si un =
es seguido por otro =
.
def pickCharacter():
if self.readPosition >= len(self.source):
return ''
return self.source[self.readPosition]
¿Cómo crear tokens de dos caracteres?
La función makeToCharacterToken()
genera un token cuando se detectan dos caracteres consecutivos que forman un operador. Esta es llamada cuando una comparación ==
o !=
es detectada.
def makeToCharacterToken(tokenType):
prefix = self.currentCharacter
self.readCharacter()
suffix = self.currentCharacter
return Token(tokenType, prefix + suffix)
¿Qué sigue después de la implementación del lexer?
¡Felicidades! Has completado una parte importante de tu lexer. Ahora es capaz de leer operadores de un solo y doble carácter, identificar palabras clave, delimitadores y más. Pero esto es solo el comienzo. La implementación de un REPL (Read-Eval-Print Loop) permitirá interactuar directamente con el sistema para evaluar expresiones en tiempo real.
Con esto concluimos la implementación de operadores de dos caracteres en un lexer. Sigue avanzando en tu viaje de aprendizaje, experimenta con tu lexer y considera cómo la programación en español puede hacer que los lenguajes de programación sean más accesibles. ¡Adelante, el mundo del desarrollo espera por ti!
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?