¿Cómo funcionan los embeddings?

1

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

2

Introducción a One-Hot Encoding y TF-IDF en IA

3

Representación Vectorial de Palabras

4

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Quiz: ¿Cómo funcionan los embeddings?

Creación de embeddings

5

Creación y entrenamiento de modelos Word2Vec con Gensim

6

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

7

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud

8

Word2Vec: Entrenando IA para Comprender el Lenguaje

Quiz: Creación de embeddings

Usando embeddings preentrenados

9

Uso práctico de Sentence Transformers en procesamiento de textos

10

Análisis Semántico: Buscar Textos con Sentence Transformers

11

Manejo de Embeddings con OpenAI: API, Instalación y Datasets

12

Manejo y Visualización de Embeddings con OpenAI: Guía Práctica

13

Creación de un Motor de Búsqueda Semántico con Python

14

Transformación de Texto a Embeddings con Sentence Transformer

Quiz: Usando embeddings preentrenados

Bases de datos vectoriales

15

Qué es y cómo usar una base de datos vectorial

16

Gestión de Bases de Datos Vectoriales con ChromaDB: Instalación y Uso

17

Generación y manejo de embeddings en Chroma con Sentence Transformer

18

Consultas avanzadas y filtrado en bases de datos con Chroma

19

Cargar colección de Chroma previamente creada

20

Configuración y Uso de Pinecone: Desde la Instalación hasta la Inserción de Datos

21

Optimización de Ingesta de Datos en Pinecone: Procesos y Estrategias

22

Consultas Avanzadas en Pinecone: De Texto a Vector y Filtros

23

Carga de índices en Pinecone: Gestión eficiente en la nube

24

Carga de embeddings en Pinecone para búsqueda semántica

25

Creación de buscador semántico con Gradio y Sentence Transformer

Quiz: Bases de datos vectoriales

Conclusiones

26

Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales

26/26
Recursos

Aportes 7

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Wow!! Sin duda un gran curso 🤩

Tengo un mente varios proyectos para implementarlos en la entidad en el que laboro, alguno de ellos son:

  1. Aplicación para análisis semántico de reportes e informes.
  2. Sistema de recomendación de indicadores para el seguimiento de objetivos y acciones.

Finalizado el curso tengo idea de cómo abordar estos proyectos, sin embargo se agradece sugerencias y recursos adicionales.

Nuevamente es todo un placer llevar un curso como este y sobre todo con el gran profesor Carlos Alarcón

¿Qué opinan de un proyecto para profesores, que revise respuestas entregadas por los alumnos y las compare con la respuesta de la pauta del examen? Con esto ya no solo se puede automatizar la revisión de las preguntas de alternativas o selección múltiple, sino también en las que el alumno debe explicar conceptos con sus propias palabras. ¡Hay un mundo de posibilidades!
Un excelente curso, de los mejores en Platzi. El único "pero" es que no he podido acceder al environment de Pinecone y no pude replicar los ejercicios de esa parte (y veo que a varios les pasó lo mismo). Sería bueno una actualización de esa clase o dejar en los recursos la manera de solucionarlo.

testtt ansswers
Resumen
1.
¿Qué es un embedding en el contexto de procesamiento de lenguaje natural (NLP)?
Una representación numérica de palabras o frases en un espacio vectorial.
2.
¿Por qué es útil utilizar embeddings pre entrenados en proyectos de NLP?
Porque capturan conocimientos generales de grandes conjuntos de datos sin tener que entrenarlo desde cero
3.
¿Cuál es uno de los principales desafíos al trabajar con embeddings de alta dimensionalidad?
Requieren más espacio de almacenamiento.
4.
¿Por qué es importante la “limpieza” o “preprocesamiento” del texto antes de generar embeddings?
Para asegurar una representación vectorial más coherente y relevante.
5.
En el contexto de NLP, ¿qué es una “ventana” cuando hablamos de modelos como Word2Vec?
El número de palabras consideradas alrededor de una palabra objetivo.
6.
¿Qué tipo de modelo se utiliza comúnmente para convertir oraciones completas en embeddings?
Word2Vec
7.
¿Qué ventaja principal ofrecen las bases de datos vectoriales en comparación con las bases de datos tradicionales cuando se trabaja con embeddings?
Facilitan la búsqueda basada en similitud.
8.
¿Cuál de las siguientes no es una técnica común de procesamiento de embeddings?
LLM
9.
En el contexto de embeddings, ¿qué significa “dimensión”?
El número de elementos en un vector de embedding.
10.
A menos dimensiones en un modelo de embeddings, es más fácil de usar a nivel de recursos de sistema. ¿Esto es verdadero o falso y por qué?
Verdadero, porque tiene una menor complejidad en el procesamiento de datos.
11.
Al usar la librería de Sentence Transformers, ¿qué método se utiliza para obtener embeddings de una lista de oraciones?
model.encode()
12.
¿Qué tipo de arquitectura subyace en la mayoría de los modelos utilizados por Sentence Transformers para obtener embeddings?
Transformers
13.
¿Qué método de Gensim Word2Vec te permite encontrar palabras similares a una palabra dada?
model.find_similar()
REPASAR CLASE
14.
En Gensim, si deseas entrenar un modelo Word2Vec con un corpus grande, pero no quieres que las palabras cortas afecten el entrenamiento, ¿qué parámetro te permite filtrar estas palabras?
min_count
15.
En el contexto de Gensim Word2Vec, ¿qué representa el parámetro sg?
El método de entrenamiento: Skip-Gram o CBOW.
16.
Si dos vectores son idénticos, ¿cuál sería el valor de su distancia euclidiana y por qué?
0, porque al ser idénticos están en la misma posición del espacio vectorial.
17.
¿Cuál de las siguientes métricas se basa en el ángulo entre dos vectores, siendo útil para medir la similitud en términos de orientación y no de magnitud?
Similitud por coseno
18.
Si dos vectores apuntan exactamente en la misma dirección, ¿cuál sería el valor de su similaridad coseno?
1
19.
¿Qué método permite cargar en Chroma DB una colección creada previamente desde el disco duro?
get_collection()
20.
¿Cuál es el método de Pinecone para crear un índice y qué parámetros debe recibir?
pinecone.create_index()
Recibe los embeddings, la métrica de distancia y la cantidad de dimensiones de los embeddings.

Al usar la biblioteca de OpenAI en Python, ¿qué método usarías para cargar el modelo pre entrenado de embeddings y en dónde le pasarás las oraciones para que lo procese a embeddings?
openai.Embedding.create( input=“textos”, model=“nombre_de_modelo_vigente” )
22.
¿Qué entregará la siguiente consulta en Python a una base de datos vectorial de Pinecone?

responses = index.query(vector=query_vector, top_k = 1, include_metadata=True,
filter={
“Genre”:{’$eq’:“Animation, Adventure”}
})
En un contexto de películas, entregará una película que sea de géneros animación y aventura.
23.
¿Qué entregaría la siguiente consulta en Python a una base de datos vectorial de Chroma?

results_where = db.query(
query_texts=[‘a time travel comedy’],
n_results=3,
where ={ “$and”:[ {
‘IMDB_Rating’ : {
"$gt":8
}
},
{
‘Released_Year’ : {
"$lte":‘1996’
}
}] }
)
En un contexto de películas, entregará datos de películas de viaje en el tiempo de comedia que tengan calificación mayor a 8 y que hayan sido lanzadas en 1996 u antes.
24.
¿Qué son las bases de datos vectoriales?
Son bases de datos especializadas en almacenar y consultar datos en forma de vectores.
25.
¿Cuál es la mayor ventaja que dan los embeddings y bases de datos vectoriales al crear aplicaciones usando LLMs?
Sirven para ampliar la ventana de contexto de un LLM con información adicional con la que no fue entrenado.
Ver menos

A emprender con este gran curso
Excelente curso, lo que más me gusto fue entender un poco más de como funcionan los embeddings internamente, super interesante. Lo que voy hacer junto con langchain, es usarlo con bdd sql.

Un gran curso, con enorme potencial de aplicación.