CursosEmpresasBlogLiveConfPrecios

Watson Speech to Text

Clase 15 de 25 • Curso de Inteligencia Artificial con IBM Watson

Clase anteriorSiguiente clase

Contenido del curso

Bases para el curso
  • 1
    Introducción de Watson

    Introducción de Watson

    03:42
  • 2
    Configuración del entorno de trabajo

    Configuración del entorno de trabajo

    04:18
  • 3

    Instalar cURL en Windows

    01:00
  • 4

    Arquitectura REST

    00:59
Aprende el manejo del lenguaje natural con Watson
  • 5
    Uso de Watson Personality Insights via CURL

    Uso de Watson Personality Insights via CURL

    16:11
  • 6
    Uso de Watson Personality Insights via SDK

    Uso de Watson Personality Insights via SDK

    11:36
  • 7
    Watson Natural Language Classifier

    Watson Natural Language Classifier

    12:49
  • 8
    Watson Natural Language Understanding

    Watson Natural Language Understanding

    11:36
  • 9
    Discovery

    Discovery

    15:44
  • 10
    Introducción a Watson Knowledge Studio

    Introducción a Watson Knowledge Studio

    13:02
  • 11
    Entrenamiento de Watson Knowledge Studio

    Entrenamiento de Watson Knowledge Studio

    14:26
  • 12
    Introducción a Watson Assistant

    Introducción a Watson Assistant

    17:42
  • 13
    Implementación de Watson Assistant

    Implementación de Watson Assistant

    13:21
  • 14

    Funciones en Javascript

    00:48
  • 15
    Watson Speech to Text

    Watson Speech to Text

    08:02
  • 16
    Watson Text to Speech

    Watson Text to Speech

    05:45
  • 17
    Watson Voice Agent

    Watson Voice Agent

    15:11
Watson Studio: Ciencia de Datos y Más
  • 18
    Introducción a Machine Learning y Watson Studio

    Introducción a Machine Learning y Watson Studio

    13:46
  • 19
    Entrenamiento de modelo en Watson Studio

    Entrenamiento de modelo en Watson Studio

    14:40
  • 20
    Entrenamiento de clusterización en Watson Studio

    Entrenamiento de clusterización en Watson Studio

    10:43
  • 21
    Reconocimiento Visual

    Reconocimiento Visual

    17:00
Integración
  • 22
    Functions + Cloudant

    Functions + Cloudant

    13:42
  • 23
    Exposición de funciones a través de una API

    Exposición de funciones a través de una API

    07:58
  • 24
    Proyecto final

    Proyecto final

    10:13
  • 25
    Conclusiones

    Conclusiones

    02:52
    Jimmy Buriticá Londoño

    Jimmy Buriticá Londoño

    student•
    hace 6 años

    El servicio Speech to Text convierte la voz humana en palabras escritas. Se puede utilizar en cualquier lugar donde se necesite llenar el hueco entre la palabra hablada y la forma escrita, incluido el control de voz de los sistemas incorporados, la transcripción de reuniones y teleconferencias y el dictado de correo electrónico y notas.

    Ricardo Diago Pinilla Sánchez

    Ricardo Diago Pinilla Sánchez

    student•
    hace 5 años

    El modelo de idioma español Colombia es: model=es-CO_BroadbandModel

      Sergio Andrés Zapata Saldarriaga

      Sergio Andrés Zapata Saldarriaga

      student•
      hace 5 años

      Muchas gracias, Excelente aporte

    Jaziel Flores

    Jaziel Flores

    student•
    hace 5 años

    Qué bonito es cuando sí funciona jaja ![](

    Screenshot_20200625_224025.png

    Julian David Orozco Colorado

    Julian David Orozco Colorado

    student•
    hace 5 años

    la verdad no me funciono coomo esperaba, envie dos audios.

    1. hola soy julian orozco y soy de "ciudad" "confidence": 0.36, "transcript": "when I started my number is called auto school showed up there you go "
    2. estados unidos de norte america "confidence": 0.5, "transcript": "espousal near the North America " nos se si hay que configurar el idioma de entrada o que paso aca.
      Carlos Andrés Mosquera Arria

      Carlos Andrés Mosquera Arria

      student•
      hace 5 años

      En la petición debes configurar el idioma con ?model=es-MX_BroadbandModel Es decir, tu petición curl quedaria asi para Windows (desde la carpeta donde está el audio): curl -X POST -u “apikey:tu_api_key” ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/tu_instancia/v1/recognize?model=es-MX_BroadbandModel”

      Julian David Orozco Colorado

      Julian David Orozco Colorado

      student•
      hace 5 años

      Gracias compa me funciono.

    Loren Johanna Vásquez Rivera

    Loren Johanna Vásquez Rivera

    student•
    hace 5 años

    Un pequeño comentario, se pone la url justo antes de v1, pues por ejemplo a mi no me aparece "api" al final de mi url:

    curl -X POST -u "apikey:SPkIfPpktELAu5mS0fR2D6eQz5fvGFUUdbxGzzmWz2wz" \ --header "Content-Type: audio/flac" --data-binary @audio-file2.flac \ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/219b75ae-b66c-4993-b2d6-06025c1813a4/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"
    Jhon Jaiver Supelano Rojas

    Jhon Jaiver Supelano Rojas

    student•
    hace 6 años

    ¿Las malas palabras estan incluidas en Watson Speech to Text? no lo encontre en el docs https://cloud.ibm.com/docs/services/speech-to-text?topic=speech-to-text-gettingStarted

    Nicolas Enrique Duque Aguirre

    Nicolas Enrique Duque Aguirre

    student•
    hace 5 años

    Con los audios de la clase funciona bien pero al grabar un audio con el celular y enviarlo ya no funciona, dice error 400, en el reproductor que uso (VCL) se reproduce bien, la solucion fue tomar el archivo original y pasarlo por un conversor a flac y en este caso si funciono

      David Andrés Torres Forero

      David Andrés Torres Forero

      student•
      hace 5 años

      Lo que debe pasar es el formato del archivo. Los audios de la clase están en .flac mientras que los del celular deben ser mp4. Resiva el formato del archivo e intenta. Lo hice con audacity exportando el .flac y funcionó correctamente. Saludos.

    Ronal Saith Lopesierra Chartuni

    Ronal Saith Lopesierra Chartuni

    student•
    hace 5 años

    Buenas comunidad de Platzi. Tuve un problema al ejecutar el CURL, debido a que me aparece el siguiente error: "curl: (35) schannel: next InitializeSecurityContext failed: Unknown error (0x80092012) - La función de revocación no puede comprobar la revocación para el certificado.". Si alguien conoce una solución estaría agradecido que me la comunicase.

      Alberto Perdomo

      Alberto Perdomo

      student•
      hace 5 años

      En este post de stack-overflow tienen literalmente el mismo problema y lo solucionan.

      https://stackoverflow.com/questions/54938026/curl-unknown-error-0x80092012-the-revocation-function-was-unable-to-check-r

      Ronal Saith Lopesierra Chartuni

      Ronal Saith Lopesierra Chartuni

      student•
      hace 5 años

      Gracias. Al parecer el problema era con el Antivirus.

    Mario Emiliano Gordon Pico

    Mario Emiliano Gordon Pico

    student•
    hace 6 años

    Como puedo setear para un audio de llamada, donde haya dos personas hablando en español

      Isaac Carrada

      Isaac Carrada

      teacher•
      hace 6 años

      Hola! Si ya tienes el audio, al hacer la petición necesitarías mandar en el header como verdadero "speaker_labels"

      Te mando el ejemplo de la petición: curl -X POST -u "apikey:{apikey}" --header "Content-Type: audio/flac" --data-binary @{path}audio-multi.flac "{url}/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"

      Puedes encontrar mas información aquí: https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-output

    Cristian Dario Prieto Avella

    Cristian Dario Prieto Avella

    student•
    hace 4 años

    se puede usar otro formato de audio?

    Jhon Raul Perez Muñoz

    Jhon Raul Perez Muñoz

    student•
    hace 5 años

    Mi resultado no transcribe las palabras con tildes, como puedo solucionarlo?

    "cuál nombre es isaac y a su gusto ser tu profesora en este curso sígueme mi redes en instagram estoy como el buen isi y en lo demás como isaac karrada "

      Isaac Carrada

      Isaac Carrada

      teacher•
      hace 5 años

      Hola!

      Speech to text en español ya incluye las tildes, en caso de que quieras entrenar una palabra específica que utiliza símbolos fonéticos te dejo la documentación: https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-sprs&locale=es

      Debes utilizar el elemento <phoneme> del SSML (Speech Synthesis Markup Language)

    Luis Alberto Pinzon Gasca

    Luis Alberto Pinzon Gasca

    student•
    hace 5 años

    ¿Que tal compañeros?, utilizo windows, e intente con soluciones de otros compañeros, sin embargo, a mi me sale esto luego de correr el codigo: Usage: curl [options...] <url> +Una lista desplegable de bastantes lineas, que aparentarian ser los usos de curl.

    ¿Alguien sabe que puedo hacer?

    Lo corro de la siguiente manera: curl -X POST -u "apikey:xVWvQ7_mubpqd1ChnHBPlfFNeizq0-g_dXIDX4l8602C" ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/0768a672-4c16-4873-bc28-231c941c0eda/v1/recognize?model=es-MX_BroadbandModel”

    Quedo atento muchas gracias!

      Miguel Rodríguez

      Miguel Rodríguez

      student•
      hace 5 años

      Hola, yo uso Windows y la consola de GitBash no se si lo hayas probado, pero corre con las instrucciones de linux

    Jhon Jairo Meneses Prieto

    Jhon Jairo Meneses Prieto

    student•
    hace 5 años

    Me genera error, pero no veo nada mal en el: Warning: Couldn't read data from file "audio-file.flac", this makes an empty Warning: POST. {"code":401, "error": "Unauthorized"}

    <curl -X POST -u "apikey:5BTGKqgirHxJXWnYaRUv4Oyu6VKWIqdkOiauZgwJrE5" ^ --header "Content-Type: audio/flac" ^ --data-binary @audio-file.flac ^ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/7847f8e0-c233-49d3-9ef9-5b996f5040cc/v1/recognize">
      Isaac Carrada

      Isaac Carrada

      teacher•
      hace 5 años

      hola! probablemente tu apikey es incorrecta...checalo y avisame si funciona!

      Gustavo Adolfo Abello Fernandez

      Gustavo Adolfo Abello Fernandez

      student•
      hace 5 años

      estas ubicado en la ruta donde esta el audio ? recuerda que para que lo reconozca debes estar en la misma carpeta posicionado con la terminal. saludos

    Carlos Andrés Mosquera Arria

    Carlos Andrés Mosquera Arria

    student•
    hace 5 años

    Mi petición con keywords no sirve. Aparentemente el linux shell trata los caracteres & diferente:

    curl -X POST -u "apikey:Rzf5xXv3lCFsRwUD3ijSlOaOiQFgkmkwnq39oKnD9_CS" ^ --header "Content-Type: audio/flac" ^ --data-binary @audio-file.flac ^ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/d11993ca-8813-4612-9ef4-bf8ddc7557ac/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

    Le he puesto doble &, y varias cosas y nada sirve (&, &&, %&, etc y nada).

    Hugo Montoya Diaz

    Hugo Montoya Diaz

    student•
    hace 3 años
    Demo_image.jpg
    Gustavo Adolfo Abello Fernandez

    Gustavo Adolfo Abello Fernandez

    student•
    hace 5 años

    Me funciono igual. "transcript": "cuéllar isaac gracias por tomar este curso sígueme mi redes en instagram estoy como el buen isi y en lo demás como isaac carranza "

    Guillermo Parejo

    Guillermo Parejo

    student•
    hace 6 años

    Excelente clase

    Usuario anónimo

    Usuario anónimo

    user•
    hace 6 años

    super

    Daniela Stephanie Romero Martinez

    Daniela Stephanie Romero Martinez

    student•
    hace 5 años

    ¿Alguien me podría ayudar? me sale lo siguiente: "keywords" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable. "keywords_threshold" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable.

      Daniel Fernando Ramírez Avendaño

      Daniel Fernando Ramírez Avendaño

      student•
      hace 5 años

      Me sucedio lo mismo, resulto que me faltaban las comillas con las que se abre la url

    Daniel Felipe Naranjo Cruz

    Daniel Felipe Naranjo Cruz

    student•
    hace 6 años

    Solo recibe audios .flac? Como se configura que idioma es el que debe transcribir?

Escuelas

  • Desarrollo Web
    • Fundamentos del Desarrollo Web Profesional
    • Diseño y Desarrollo Frontend
    • Desarrollo Frontend con JavaScript
    • Desarrollo Frontend con Vue.js
    • Desarrollo Frontend con Angular
    • Desarrollo Frontend con React.js
    • Desarrollo Backend con Node.js
    • Desarrollo Backend con Python
    • Desarrollo Backend con Java
    • Desarrollo Backend con PHP
    • Desarrollo Backend con Ruby
    • Bases de Datos para Web
    • Seguridad Web & API
    • Testing Automatizado y QA para Web
    • Arquitecturas Web Modernas y Escalabilidad
    • DevOps y Cloud para Desarrolladores Web
  • English Academy
    • Inglés Básico A1
    • Inglés Básico A2
    • Inglés Intermedio B1
    • Inglés Intermedio Alto B2
    • Inglés Avanzado C1
    • Inglés para Propósitos Específicos
    • Inglés de Negocios
  • Marketing Digital
    • Fundamentos de Marketing Digital
    • Marketing de Contenidos y Redacción Persuasiva
    • SEO y Posicionamiento Web
    • Social Media Marketing y Community Management
    • Publicidad Digital y Paid Media
    • Analítica Digital y Optimización (CRO)
    • Estrategia de Marketing y Growth
    • Marketing de Marca y Comunicación Estratégica
    • Marketing para E-commerce
    • Marketing B2B
    • Inteligencia Artificial Aplicada al Marketing
    • Automatización del Marketing
    • Marca Personal y Marketing Freelance
    • Ventas y Experiencia del Cliente
    • Creación de Contenido para Redes Sociales
  • Inteligencia Artificial y Data Science
    • Fundamentos de Data Science y AI
    • Análisis y Visualización de Datos
    • Machine Learning y Deep Learning
    • Data Engineer
    • Inteligencia Artificial para la Productividad
    • Desarrollo de Aplicaciones con IA
    • AI Software Engineer
  • Ciberseguridad
    • Fundamentos de Ciberseguridad
    • Hacking Ético y Pentesting (Red Team)
    • Análisis de Malware e Ingeniería Forense
    • Seguridad Defensiva y Cumplimiento (Blue Team)
    • Ciberseguridad Estratégica
  • Liderazgo y Habilidades Blandas
    • Fundamentos de Habilidades Profesionales
    • Liderazgo y Gestión de Equipos
    • Comunicación Avanzada y Oratoria
    • Negociación y Resolución de Conflictos
    • Inteligencia Emocional y Autogestión
    • Productividad y Herramientas Digitales
    • Gestión de Proyectos y Metodologías Ágiles
    • Desarrollo de Carrera y Marca Personal
    • Diversidad, Inclusión y Entorno Laboral Saludable
    • Filosofía y Estrategia para Líderes
  • Diseño de Producto y UX
    • Fundamentos de Diseño UX/UI
    • Investigación de Usuarios (UX Research)
    • Arquitectura de Información y Usabilidad
    • Diseño de Interfaces y Prototipado (UI Design)
    • Sistemas de Diseño y DesignOps
    • Redacción UX (UX Writing)
    • Creatividad e Innovación en Diseño
    • Diseño Accesible e Inclusivo
    • Diseño Asistido por Inteligencia Artificial
    • Gestión de Producto y Liderazgo en Diseño
    • Diseño de Interacciones Emergentes (VUI/VR)
    • Desarrollo Web para Diseñadores
    • Diseño y Prototipado No-Code
  • Contenido Audiovisual
    • Fundamentos de Producción Audiovisual
    • Producción de Video para Plataformas Digitales
    • Producción de Audio y Podcast
    • Fotografía y Diseño Gráfico para Contenido Digital
    • Motion Graphics y Animación
    • Contenido Interactivo y Realidad Aumentada
    • Estrategia, Marketing y Monetización de Contenidos
  • Desarrollo Móvil
    • Fundamentos de Desarrollo Móvil
    • Desarrollo Nativo Android con Kotlin
    • Desarrollo Nativo iOS con Swift
    • Desarrollo Multiplataforma con React Native
    • Desarrollo Multiplataforma con Flutter
    • Arquitectura y Patrones de Diseño Móvil
    • Integración de APIs y Persistencia Móvil
    • Testing y Despliegue en Móvil
    • Diseño UX/UI para Móviles
  • Diseño Gráfico y Arte Digital
    • Fundamentos del Diseño Gráfico y Digital
    • Diseño de Identidad Visual y Branding
    • Ilustración Digital y Arte Conceptual
    • Diseño Editorial y de Empaques
    • Motion Graphics y Animación 3D
    • Diseño Gráfico Asistido por Inteligencia Artificial
    • Creatividad e Innovación en Diseño
  • Programación
    • Fundamentos de Programación e Ingeniería de Software
    • Herramientas de IA para el trabajo
    • Matemáticas para Programación
    • Programación con Python
    • Programación con JavaScript
    • Programación con TypeScript
    • Programación Orientada a Objetos con Java
    • Desarrollo con C# y .NET
    • Programación con PHP
    • Programación con Go y Rust
    • Programación Móvil con Swift y Kotlin
    • Programación con C y C++
    • Administración Básica de Servidores Linux
  • Negocios
    • Fundamentos de Negocios y Emprendimiento
    • Estrategia y Crecimiento Empresarial
    • Finanzas Personales y Corporativas
    • Inversión en Mercados Financieros
    • Ventas, CRM y Experiencia del Cliente
    • Operaciones, Logística y E-commerce
    • Gestión de Proyectos y Metodologías Ágiles
    • Aspectos Legales y Cumplimiento
    • Habilidades Directivas y Crecimiento Profesional
    • Diversidad e Inclusión en el Entorno Laboral
    • Herramientas Digitales y Automatización para Negocios
  • Blockchain y Web3
    • Fundamentos de Blockchain y Web3
    • Desarrollo de Smart Contracts y dApps
    • Finanzas Descentralizadas (DeFi)
    • NFTs y Economía de Creadores
    • Seguridad Blockchain
    • Ecosistemas Blockchain Alternativos (No-EVM)
    • Producto, Marketing y Legal en Web3
  • Recursos Humanos
    • Fundamentos y Cultura Organizacional en RRHH
    • Atracción y Selección de Talento
    • Cultura y Employee Experience
    • Gestión y Desarrollo de Talento
    • Desarrollo y Evaluación de Liderazgo
    • Diversidad, Equidad e Inclusión
    • AI y Automatización en Recursos Humanos
    • Tecnología y Automatización en RRHH
  • Finanzas e Inversiones
    • Fundamentos de Finanzas Personales y Corporativas
    • Análisis y Valoración Financiera
    • Inversión y Mercados de Capitales
    • Finanzas Descentralizadas (DeFi) y Criptoactivos
    • Finanzas y Estrategia para Startups
    • Inteligencia Artificial Aplicada a Finanzas
    • Domina Excel
    • Financial Analyst
    • Conseguir trabajo en Finanzas e Inversiones
  • Startups
    • Fundamentos y Validación de Ideas
    • Estrategia de Negocio y Product-Market Fit
    • Desarrollo de Producto y Operaciones Lean
    • Finanzas, Legal y Fundraising
    • Marketing, Ventas y Growth para Startups
    • Cultura, Talento y Liderazgo
    • Finanzas y Operaciones en Ecommerce
    • Startups Web3 y Blockchain
    • Startups con Impacto Social
    • Expansión y Ecosistema Startup
  • Cloud Computing y DevOps
    • Fundamentos de Cloud y DevOps
    • Administración de Servidores Linux
    • Contenerización y Orquestación
    • Infraestructura como Código (IaC) y CI/CD
    • Amazon Web Services
    • Microsoft Azure
    • Serverless y Observabilidad
    • Certificaciones Cloud (Preparación)
    • Plataforma Cloud GCP

Platzi y comunidad

  • Platzi Business
  • Live Classes
  • Lanzamientos
  • Executive Program
  • Trabaja con nosotros
  • Podcast

Recursos

  • Manual de Marca

Soporte

  • Preguntas Frecuentes
  • Contáctanos

Legal

  • Términos y Condiciones
  • Privacidad
  • Tyc promociones
Reconocimientos
Reconocimientos
Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
Logo reconocimientoPrimera Startup EdTech · 2018
Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
Logo reconocimientoCEO Mejor Emprendedor del año · 2024
De LATAM conpara el mundo
YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads