¿Qué es hacer scrapping?

Clase 26 de 34 • Curso de Ruby 2017

Contenido del curso

Introducción a Ruby

Métodos, blocks y procs

Programación Orientada a Objetos

Buenas prácticas

Proyecto: Scrapping

Proyecto: Aplicación web, consumiendo API

Conclusiones

31
Cierre del curso
01:52 min

Retos/Desafíos

Tomar examen

Lenyn Alcantara

student•

Dejo una versión que avanza de página si encuentra una página a la cuál avanzar.

require 'nokogiri'
require 'open-uri'

url = 'http://www.reactiongifs.com/'
posts = []
moreEntries = true
while moreEntries do
	puts "Chequeando: #{url}"
	puts '-------------------------'
	document = Nokogiri::HTML(open(url)).css('div#main')
	document.css('div.post').each do |post|
		gif = {:title => post.css('h2 > a').text, :img => post.css('img').attr('src')}
		posts << gif
	end

   	moreEntries = document.css('div.nav-entries > div.nav-next').count > 0 ? true : false
   	if moreEntries then
   		url = document.css('div.nav-entries > div.nav-next > a').attr('href')
   	end
end

P.D: debo decir que tiene una falla en la página 13, parece que no hubiera etiqueta img con su atributo ‘src’, pero por tiempo no estoy revisando que es, vamos a ver si ayuda alguien a solventar la falla._

Oscar Téllez

student•

La falla es porque no existe la imagen. Aparece en la web pero es un contenido embebido por lo que la estructura que buscamos no existe en ese post.
Con esta pequeña modificación he llegado al menos hasta la pagina 400 y algo sin ninguna falla:

require 'nokogiri'
require 'open-uri'

url = 'http://www.reactiongifs.com/'
posts = []
moreEntries = true
while moreEntries do
	puts "Chequeando: #{url}"
	puts '-------------------------'
	document = Nokogiri::HTML(open(url)).css('div#main')
	document.css('div.post').each do |post|
		unless post.css('img').empty?
			gif = {title: post.css('h2').text, img: post.css('img').attr('src')}
			posts << gif
			puts gif[:title]
			puts gif[:img]
		end
	end

   	moreEntries = document.css('div.nav-entries > div.nav-next').count > 0 ? true : false
   	if moreEntries then
   		url = document.css('div.nav-entries > div.nav-next > a').attr('href')
   	end
end

Lenyn Alcantara

student•

Excelente @oscartzgz, gracias por ayudar con la falla.

¿Qué es hacer scrapping?

Introducción a Ruby

¿Qué es Ruby?

Introducción al Curso de Ruby

Instalación en Windows

Operaciones y variables

Estructuras selectivas

Calcular si un número es par

Definición e invocación de métodos

Arreglos

Estructuras repetitivas

Métodos, blocks y procs

Argumentos y valores de retorno

Métodos de arreglos, hashes

Fibonacci con Ruby

Blocks, procs y lambdas

Lectura de archivos

Manejo de excepciones

Programación Orientada a Objetos

Objetos y clases en Ruby

Scope de variables

Encapsulamiento

Herencia

Simulador de patos

Mixins

Polimorfismo

Gemas

Buenas prácticas

Testing

Convenciones de código, rubocop

Proyecto: Scrapping