No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripción 🔥

Aprende todo un fin de semana sin pagar una suscripción 🔥

Regístrate

Comienza en:

3D
3H
56M
57S

Fuentes de datos: SQL, NoSQL, API y web scraping

10/24
Recursos

Aportes 16

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Una de mis primeras taras cuando entré a trabajar fue hacer un scrapping, no sabía nada de eso, hoy en día es una funcionalidad que tiene bastante relevancia sobre el use case y que la he escalado en términos de rendimiento y extensión a una manera muy muy avanzada (usando OOP), aprendí un montón con eso y refiné muchas habilidades técnicas, es un muy buen ejercicio tú que estas practicando hacer un scrappper para nutrir tus proyectos de ciencia de datos o crear estos modelos de datos, porque vas a aprender un montón de ese proceso!!

Also muchas veces e el proceso de data te va tocar construir tus datos porque no los tienes, y la herramienta de scraping o conexiones a API de otras fuentes te puede ayudar mucho

Linkedin: Utiliza SenseiDB que es una base de datos NoSQL diseñadas por ellos para espesialmente tener una alta respuesta en actualizaciones.
Platzi que bases de datos utiliza??

Netflix usa MySQL y Cassandra:
How Netflix works

Un ejemplo de lo mencionado en esta clase es esta API. Conecta la información sobre los departamentos y municipios de El Salvador que están almacenados en una base de datos MySQL con los datos de códigos postales por municipio obtenidos mediante scraping ~

Repositorios:

Whatsapp: SQLite

Cuevana dice que usan MySQL
Youtube SQL
Whatsapp SQLite

Mi resumen de la clase:

Trabajamos con datos y estos datos deben de estar disponibles a través de consultas, estarán muchas veces en bases de datos que poseen consultas, redundancias, integridad, seguridad e índices que nos permite consultar de manera eficiente la integración.

SQL nos ayuda a obtener información de manera clara, las BD son toda la tecnología que nos permiten traer la información de manera adecuada.

Las BD SQL son excelentes para transacciones por los principios ACID, atomicidad, consistencia, aislamiento y durabilidad, estas nos informan cuando hay un error y solo registran cuando se completan.

Las bases de datos no SQL, no siguen las reglas de SQL y son más fáciles de consultar desde un lenguaje de programación y son útiles para guardar objetos flexibles, la más famosa es mongoDB, otras son Redis, ElasticSearch y Hbase cerca de Hadoop.

La forma mas transparente de traer información es a través de una API interfaz de programación de aplicaciones, con ella consumimos los datos de las aplicaciones de manera intencional, dándonos accesos con un input y recibiendo un output. Web scraping nos trae los datos disponibles del internet, esto es una zona gris de lo legal, pues los sitios te dicen que puedes traer y que no puedes traer a través del robot.txt algunas herramientas son parsehub y Scrapy.

Debemos de guardar modelos que nos sean útiles con el tiempo, generando parte por parte lo que querremos construir y que se pueda escalar.

Uso mucho Spotify y YouTube, tanto para escuchar musica como para hacer consultas de material educativo (tutorial). La verdad es que con mis búsquedas y gustos me recomiendan cosas que ya sé que voy a utilizar y consumir. Sin duda alguna que su gestión de BBDD es maravillosa y saben que hacer con ellos.

Buena explicacion.

Spotify orienta su base de datos en Cassandra, PostgreSQL y RESTful

Telegram utiliza TDLib.

PedidoYa migró a Google Cloud y utiliza un almacenamiento serverless BigQuery, según lo explican en este caso de éxito. Pero supongo que en el medio deben trabajar con una OLTP que almacene las transacciones de ventas y clientes, y de la cual ingestan los datos hacia el data warehouse serverless.
https://cloud.google.com/customers/pedidosya?hl=es-419
Twitch tenía entendido, que al ser de Amazon, usan las de AWS, todo cloud native.

MercadoLibre usa AWS, y bases de datos NoSQL (Mongo, Cassandra). Netflix usa AWS y Cassandra, DynamoDB. Platzi usa PostgreSQL.

Me acuerdo que en un video del curso de Fundamentos de Ingeniería de Software impartido por Freddy, él comentó que Platzi en ese momento usaba MySQL y MongoDB, que interesante poder usar más de una plataforma de base de datos para las necesidades de nuestros proyectos.

Resumen:
SQL

  • Lenguaje de consulta pero tambien el nombre con que se identifican las bases de datos
  • Excelentes para las transacciones por los principios ACID (Atomicity, Consistency, Isolation, Durability)

NoSQL

  • Por su cercania a los lenguajes de programacion son utiles para guardar objetos flexibles
  • La mas famosa es mongoDB, otras importantes como Redis, ElasticSearch, HBase

API

  • Consume informacion de otras plataformas
  • Permite utilizar capacidades mandando un input, recibiendo un output
  • Pueden ser creadas por uno, externas y de paga

Web scraping

  • Es traernos informacion disponible que esta en internet
  • parsehub, Scrapy

Youtube utiliza MySQL como base de datos principal.