No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Fuentes de datos: SQL, NoSQL, API y web scraping

10/25
Recursos

Aportes 39

Preguntas 3

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

Una de mis primeras taras cuando entr茅 a trabajar fue hacer un scrapping, no sab铆a nada de eso, hoy en d铆a es una funcionalidad que tiene bastante relevancia sobre el use case y que la he escalado en t茅rminos de rendimiento y extensi贸n a una manera muy muy avanzada (usando OOP), aprend铆 un mont贸n con eso y refin茅 muchas habilidades t茅cnicas, es un muy buen ejercicio t煤 que estas practicando hacer un scrappper para nutrir tus proyectos de ciencia de datos o crear estos modelos de datos, porque vas a aprender un mont贸n de ese proceso!!

Also muchas veces e el proceso de data te va tocar construir tus datos porque no los tienes, y la herramienta de scraping o conexiones a API de otras fuentes te puede ayudar mucho

Resumen:
SQL

  • Lenguaje de consulta pero tambien el nombre con que se identifican las bases de datos
  • Excelentes para las transacciones por los principios ACID (Atomicity, Consistency, Isolation, Durability)

NoSQL

  • Por su cercania a los lenguajes de programacion son utiles para guardar objetos flexibles
  • La mas famosa es mongoDB, otras importantes como Redis, ElasticSearch, HBase

API

  • Consume informacion de otras plataformas
  • Permite utilizar capacidades mandando un input, recibiendo un output
  • Pueden ser creadas por uno, externas y de paga

Web scraping

  • Es traernos informacion disponible que esta en internet
  • parsehub, Scrapy

Linkedin: Utiliza SenseiDB que es una base de datos NoSQL dise帽adas por ellos para espesialmente tener una alta respuesta en actualizaciones.
Platzi que bases de datos utiliza??

Un ejemplo de lo mencionado en esta clase es esta API. Conecta la informaci贸n sobre los departamentos y municipios de El Salvador que est谩n almacenados en una base de datos MySQL con los datos de c贸digos postales por municipio obtenidos mediante scraping ~

Repositorios:

Mi resumen de la clase:

Trabajamos con datos y estos datos deben de estar disponibles a trav茅s de consultas, estar谩n muchas veces en bases de datos que poseen consultas, redundancias, integridad, seguridad e 铆ndices que nos permite consultar de manera eficiente la integraci贸n.

SQL nos ayuda a obtener informaci贸n de manera clara, las BD son toda la tecnolog铆a que nos permiten traer la informaci贸n de manera adecuada.

Las BD SQL son excelentes para transacciones por los principios ACID, atomicidad, consistencia, aislamiento y durabilidad, estas nos informan cuando hay un error y solo registran cuando se completan.

Las bases de datos no SQL, no siguen las reglas de SQL y son m谩s f谩ciles de consultar desde un lenguaje de programaci贸n y son 煤tiles para guardar objetos flexibles, la m谩s famosa es mongoDB, otras son Redis, ElasticSearch y Hbase cerca de Hadoop.

La forma mas transparente de traer informaci贸n es a trav茅s de una API interfaz de programaci贸n de aplicaciones, con ella consumimos los datos de las aplicaciones de manera intencional, d谩ndonos accesos con un input y recibiendo un output. Web scraping nos trae los datos disponibles del internet, esto es una zona gris de lo legal, pues los sitios te dicen que puedes traer y que no puedes traer a trav茅s del robot.txt algunas herramientas son parsehub y Scrapy.

Debemos de guardar modelos que nos sean 煤tiles con el tiempo, generando parte por parte lo que querremos construir y que se pueda escalar.

Netflix usa MySQL y Cassandra:
How Netflix works

Cuevana dice que usan MySQL
Youtube SQL
Whatsapp SQLite

YOUTUBE: YouTube utiliza el sistema de base de datos patentado de Google que llaman **Bigtable**. Es el mismo sistema de base de datos que tambi茅n impulsa a Google en el motor de b煤squeda y muchos otros productos de Google WHATSAPP: Almacenamiento de la informaci贸n en la base de datos: WhatsApp utiliza **SQLite** para almacenar chats, ficheros y mensajes en la base de datos, por lo que si un atacante logra hacerse con este fichero podr铆a acceder a todas las conversaciones y datos privados INSTAGRAM: Uno de los pilares de Instagram son los datos de las fotografias y los usuarios. La base de datos que se usa es **PostgreSQL**. Afirman que tiene 12 cluster de instancias de memoria Quadruple Extra-Large y sus 12 replicas en distintos lugares
Mercado Libre usa Bigquery.
  • Whatsapp:SQLite
  • Instagram:Postgre SQL
  • Twitter:Cassandra
  • Telegram:TDLib

Whatsapp: SQLite

Hola a todos, soy Antonio Ing. Arquitecto y les cuento que en el sector de la arquitectura, ingenier铆a y construcci贸n (AECO) se utiliza software especializado para crear maquetas 1:1 digitales de edificios, puentes, aeropuertos o cualquier tipo de proyecto, esas maquetas tridimensionales tienen propiedades, caracter铆sticas y atributos, mucho software permiten exportar todos esos datos a una base de datos SQL, pero hasta ahora no conozco alguien o alg煤n procedimiento para trabajar con esos datos, podr铆a ser muy 煤til conectar esos datos, consultarlos o modificarlos para obtener informaci贸n sobre el proyecto, costo, cantidad de materiales, tiempo, rendimientos.

驴Alguien ac谩 tiene experiencia en el tema?

tick toc usa oracle
![](https://static.platzi.com/media/user_upload/image-cd82473c-5d77-4569-b2b6-08d11a130e77.jpg) :)
**隆Hola!** Whatsapp utiliza SQLite para almacenar chats, ficheros y mensajes en la base de datos. Linkedin usa en algunos de sus servicios SenseiDB Youtube, utiliza un sistema de base de datos propio de Google llamado Bigtable
Jira y Confluence utilizan el modo de implementaci贸n multi-AZ para Amazon RDS (Amazon Relational Database Service).
Lo de scraping, aprend铆 el t茅rmino porque me gusta el marketing y eso me llevo a gogle trends y luego eso al periodismo de datos, esa profesi贸n usa mucho eso

Alguna vez me toco hacer un scraping en Selenium con Python. un framework que admite varios lenguajes de programaci贸n y que tambi茅n es muy 煤til para procesos de automatizaci贸n.

Netfliz utiliza AWS. Y star+ no encontre. Si alguien sabe鈥

Despu茅s de probar otras soluciones de bases de datos, Rappi recurri贸 a Amazon Web Services (AWS) para abordar sus problemas de rendimiento, eficiencia y escalabilidad mediante Amazon DocumentDB (con compatibilidad con MongoDB).

10. Fuentes de datos: SQL, NoSQL, API y web scraping

Utilidad de SQL

  • Lenguaje de consulta, pero tambi茅n el nombre con el que se identifican las bases de datos.

Utilidad de NoSQL

  • Por su cercan铆a a los lenguajes de programaci贸n, son 煤tiles para guardar objetos flexibles.
  • La m谩s famosa es MongoDB. Otras importantes son Redis, ElasticSearch y Hbase.

Web Scraping y APIs

API

  • Consume informaci贸n de otras plataformas.
  • Permite utilizar capacidades mandando un input, recibiendo un output.
  • Pueden ser creadas, propias o pagadas.

Web scraping

  • parsehub
  • Scrapy

Generando modelos sostenibles

Construye para escalar

Actualmente el contenido On Demand que m谩s consumo es casualmente Platzi y tengo entendido que antes utilizaban MySQL y despu茅s se pasaron a PostgreSQL.

En mi trabajo en el banco usan base de datos relacional, intentaron usar MongoDB pero mencionan que sacaron la tecnolog铆a por que no soportaba el volumen de datos. 馃槙

Hola buen dia investigue que bases de datos usan mis apps favoritas y eleji Netflix.

Netflix emplea AWS (Amazon Web Service).

AWS es una aplicacion integral de computacion en la nube que incluye ofertas de infraestrucctura como servicios (laaS) y de plataforma como (PaaS). Los servicios de AWS ofrecen soluciones escalables para la computacoion como el almacenamiento, base de datos, el analisis y mucho mas.

En mi diario utilizo Oracle sql developer, temas de construccion de reportes.

Dentro de mis aplicaciones favoritas est谩n Instagram que usa la base de datos PostgreSQL, Pinterest que usa Redis (base de datos de memoria), organizada en la nube de Amazon Web Services y ya en lo relacionado a mis animes y doramas est谩n en Netflix, principalmente, que usa Amazon Web Services (AWS) para pr谩cticamente todas sus necesidades de inform谩tica y almacenamiento, incluidas las bases de datos.

PostgreSQL la usa instrgam

Facebook: Cassandra
Instagram: Postgre SQL
Mercadolibre: Amazon EC2

Intagram usa una base de datos noSQL, donde usa Cassandra

Uso mucho Spotify y YouTube, tanto para escuchar musica como para hacer consultas de material educativo (tutorial). La verdad es que con mis b煤squedas y gustos me recomiendan cosas que ya s茅 que voy a utilizar y consumir. Sin duda alguna que su gesti贸n de BBDD es maravillosa y saben que hacer con ellos.

Buena explicacion.

Spotify orienta su base de datos en Cassandra, PostgreSQL y RESTful

Telegram utiliza TDLib.

PedidoYa migr贸 a Google Cloud y utiliza un almacenamiento serverless BigQuery, seg煤n lo explican en este caso de 茅xito. Pero supongo que en el medio deben trabajar con una OLTP que almacene las transacciones de ventas y clientes, y de la cual ingestan los datos hacia el data warehouse serverless.
https://cloud.google.com/customers/pedidosya?hl=es-419
Twitch ten铆a entendido, que al ser de Amazon, usan las de AWS, todo cloud native.

MercadoLibre usa AWS, y bases de datos NoSQL (Mongo, Cassandra). Netflix usa AWS y Cassandra, DynamoDB. Platzi usa PostgreSQL.

Me acuerdo que en un video del curso de Fundamentos de Ingenieri虂a de Software impartido por Freddy, 茅l coment贸 que Platzi en ese momento usaba MySQL y MongoDB, que interesante poder usar m谩s de una plataforma de base de datos para las necesidades de nuestros proyectos.

Youtube utiliza MySQL como base de datos principal.