No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Aprende Ingl茅s, Programaci贸n, AI, Ciberseguridad y m谩s a precio especial.

Antes: $249

Currency
$209
Suscr铆bete

Termina en:

2 D铆as
17 Hrs
57 Min
38 Seg

Tesseract

29/30
Recursos

Aportes 25

Preguntas 3

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

Soluci贸n al error RuntimeError: Failed to init API, possibly an invalid tessdata path:

  1. Descargar la carpeta tessdata del siguiente link --> https://github.com/tesseract-ocr/tessdata/archive/master.zip
  2. Descomprimir en el escritorio la carpeta y cambiarle el nombre a solo 鈥渢essdata鈥
  3. Moverla a la ruta donde tienen instalado Python, en mi caso es C:\Program Files (x86)\Python37-32

隆Problema solucionado! 馃槃

Al parecer Tesseract mejoro, en la versi贸n que instale ya no es necesario realizar transformaciones a la imagen, la lee directo del archivo y sin errores.

Eso est谩 genial!

Sitio web con las instrucciones para instalar Tesseract 馃憠馃徏 https://pypi.org/project/tesserocr/

En caso de usar windows
conda install -c simonflueckiger/label/tesseract-4.0.0-master tesserocr

Les comparto la forma de instalar tesseract desde terminal, y agregar el lang=鈥榮pa鈥, ya que la librer铆a solo tiene 2 idiomas por defecto.

religiosamente ejecutamos:

sudo apt-get update

Despu茅s instala tesseract OCR con:

sudo apt-get install tesseract-ocr -y

Instala los modelos del idioma espa帽ol con:

sudo apt-get install tesseract-ocr-spa -y

Finalmente lista los lenguajes instalados con:

tesseract --list-langs
List of available languages (3):
eng
osd
spa

Tuve problemas para usar Tesseract en jupyter notebook, lo solucione con el siguiente comando:

!runas apt install tesseract-ocr
!pip install pytesseract

Un curso completo sobre tesseract es algo que me gustar铆a ver. Es una herramienta incre铆ble y en verdad me gustar铆a llegar a dominarla.

Para los que tengan problemas con la librer铆a tesserocr

pip install pytesseract

Hubiera estado genial que explicaras como instalar la librer铆a 馃槮

Yo pude instalar y ejecutar tesseract usando esta guia
https://pythonforundergradengineers.com/how-to-install-pytesseract.html

Demasiado espectacular 茅sta clase y el curso en general!

Espectacular!!! muy buena clase y forma de solucionar la extracci贸n de contenido de una imagen con letras

隆Hola!
tengo una duda, como puedo especificar lo que busco en la imagen, por ejemplo una placa de autom贸vil o tdc: tiene mucha informaci贸n al tomar la fotograf铆a, pero solo necesito un texto en especifico, 驴c贸mo lo limito a relieves?

[20-11-2022] Luego de instalar Tesseract en Fedora tuve problemas para instalar la biblioteca tesserocr e instale pytesseract y adicional instale matplotlib que la utilizamos en el c贸digo.

pip install pytesseract
pip install matplotlib

Luego hay que hacer uso de la biblioteca

import pytesseract

Y utilizar el metodo para convertir de la ruta de imagen y el archivo de la imagen a texto en la nueva biblioteca.

pytesseract.image_to_string('./recursos/texto_largo.png', lang='spa')
pytesseract.image_to_string(img_pil, lang='spa')

El codigo de la clase:

import pytesseract # para hacer OCR
import numpy as np # para hacer manipulacion basica de imagenes
import matplotlib.pyplot as pyplot # para visualizar imagenes
from PIL import Image # para cambiar el formato de archivos
# permitir mostrar imagenes dentro de Jupyter Notebook
%matplotlib inline

text_largo = pyplot.imread('./recursos/texto_largo.png')
pyplot.figure(figsize=(15,5))
pyplot.imshow(text_largo)
pyplot.axis(False)

texto_ocr = pytesseract.image_to_string('./recursos/texto_largo.png', lang='spa')
print(texto_ocr)

img = pyplot.imread('./recursos/imagen de prueba.png')
pyplot.imshow(img)

texto_ocr = pytesseract.image_to_string('./recursos/imagen de prueba.png', lang='spa')
print(texto_ocr)

img.shape

img_rgb = img[:,:,:3]

img_rgb.shape

pyplot.imshow(img_rgb)

img_rgb[0,0,0]

img_inv = 1 - img_rgb

pyplot.imshow(img_inv)

img_gr = img_inv.mean(axis=2)

pyplot.imshow(img_gr, cmap='Greys_r')

pytesseract.image_to_string(img_inv, lang='spa')

img_pil = Image.fromarray(np.uint8(img_gr*255))

print(pytesseract.image_to_string(img_pil, lang='spa'))

img_pil = Image.fromarray(np.uint8(img_inv*255))

print(pytesseract.image_to_string(img_pil, lang='spa'))

Demasiado completo el curso, a煤n todo para profundizar como la lectura de imagenes.

Existe este programa que simula a Photoshop en linea, para manipular imagenes https://www.photopea.com/

Para instalar la librer铆a tesserocr para procesador con arquitectura arm64 (Mac M1), esto me funcion贸:

arch -arm64 brew install tesseract
arch -arm64 pip install --no-cache tesserocr

Wow

Las im谩genes

Texto largo

Imagen de prueba

Para instalar:
conda install -c conda-forge tesserocr

No logro configurar webdriver en mi VPS.

Tengo el siguiente error. Alguien puede hecharme la mano?

WebDriverException: Message: Service chromedriver unexpectedly exited. Status code was: 127

Tesseract confunde el 9 con la letra g que recomiendas ?

el reto que me dejo esta clase fue buscar una imagen que me presentara los errores que le aprecieron al profesor, porque al primer intento con tesserocr todo salio bien, XD

muy interesante