CursosEmpresasBlogLiveConfPrecios

Watson Speech to Text

Clase 15 de 25 • Curso de Inteligencia Artificial con IBM Watson

Clase anteriorSiguiente clase

Contenido del curso

Aprende a usar Manejo de Lenguaje Natural con Watson

    Bases para el curso

    • 1
      Introducción de Watson

      Introducción de Watson

      03:42 min
    • 2
      Configuración del entorno de trabajo

      Configuración del entorno de trabajo

      04:18 min
    • 3

      Instalar cURL en Windows

      01:00 min
    • 4

      Arquitectura REST

      00:59 min

    Aprende el manejo del lenguaje natural con Watson

    • 5
      Uso de Watson Personality Insights via CURL

      Uso de Watson Personality Insights via CURL

      16:11 min
    • 6
      Uso de Watson Personality Insights via SDK

      Uso de Watson Personality Insights via SDK

      11:36 min
    • 7
      Watson Natural Language Classifier

      Watson Natural Language Classifier

      12:49 min
    • 8
      Watson Natural Language Understanding

      Watson Natural Language Understanding

      11:36 min
    • 9
      Discovery

      Discovery

      15:44 min
    • 10
      Introducción a Watson Knowledge Studio

      Introducción a Watson Knowledge Studio

      13:02 min
    • 11
      Entrenamiento de Watson Knowledge Studio

      Entrenamiento de Watson Knowledge Studio

      14:26 min
    • 12
      Introducción a Watson Assistant

      Introducción a Watson Assistant

      17:42 min
    • 13
      Implementación de Watson Assistant

      Implementación de Watson Assistant

      13:21 min
    • 14

      Funciones en Javascript

      00:48 min
    • 15
      Watson Speech to Text

      Watson Speech to Text

      Viendo ahora
    • 16
      Watson Text to Speech

      Watson Text to Speech

      05:45 min
    • 17
      Watson Voice Agent

      Watson Voice Agent

      15:11 min

    Watson Studio: Ciencia de Datos y Más

    • 18
      Introducción a Machine Learning y Watson Studio

      Introducción a Machine Learning y Watson Studio

      13:46 min
    • 19
      Entrenamiento de modelo en Watson Studio

      Entrenamiento de modelo en Watson Studio

      14:40 min
    • 20
      Entrenamiento de clusterización en Watson Studio

      Entrenamiento de clusterización en Watson Studio

      10:43 min
    • 21
      Reconocimiento Visual

      Reconocimiento Visual

      17:00 min

    Integración

    • 22
      Functions + Cloudant

      Functions + Cloudant

      13:42 min
    • 23
      Exposición de funciones a través de una API

      Exposición de funciones a través de una API

      07:58 min
    • 24
      Proyecto final

      Proyecto final

      10:13 min
    • 25
      Conclusiones

      Conclusiones

      02:52 min
    Tomar examen
      Jimmy Buriticá Londoño

      Jimmy Buriticá Londoño

      student•
      hace 6 años

      El servicio Speech to Text convierte la voz humana en palabras escritas. Se puede utilizar en cualquier lugar donde se necesite llenar el hueco entre la palabra hablada y la forma escrita, incluido el control de voz de los sistemas incorporados, la transcripción de reuniones y teleconferencias y el dictado de correo electrónico y notas.

      Ricardo Diago Pinilla Sánchez

      Ricardo Diago Pinilla Sánchez

      student•
      hace 5 años

      El modelo de idioma español Colombia es: model=es-CO_BroadbandModel

        Sergio Andrés Zapata Saldarriaga

        Sergio Andrés Zapata Saldarriaga

        student•
        hace 5 años

        Muchas gracias, Excelente aporte

      Jaziel Flores

      Jaziel Flores

      student•
      hace 6 años

      Qué bonito es cuando sí funciona jaja ![](

      Screenshot_20200625_224025.png

      Julian David Orozco Colorado

      Julian David Orozco Colorado

      student•
      hace 6 años

      la verdad no me funciono coomo esperaba, envie dos audios.

      1. hola soy julian orozco y soy de "ciudad" "confidence": 0.36, "transcript": "when I started my number is called auto school showed up there you go "
      2. estados unidos de norte america "confidence": 0.5, "transcript": "espousal near the North America " nos se si hay que configurar el idioma de entrada o que paso aca.
        Carlos Andrés Mosquera Arria

        Carlos Andrés Mosquera Arria

        student•
        hace 6 años

        En la petición debes configurar el idioma con ?model=es-MX_BroadbandModel Es decir, tu petición curl quedaria asi para Windows (desde la carpeta donde está el audio): curl -X POST -u “apikey:tu_api_key” ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/tu_instancia/v1/recognize?model=es-MX_BroadbandModel”

        Julian David Orozco Colorado

        Julian David Orozco Colorado

        student•
        hace 6 años

        Gracias compa me funciono.

      Loren Johanna Vásquez Rivera

      Loren Johanna Vásquez Rivera

      student•
      hace 5 años

      Un pequeño comentario, se pone la url justo antes de v1, pues por ejemplo a mi no me aparece "api" al final de mi url:

      curl -X POST -u "apikey:SPkIfPpktELAu5mS0fR2D6eQz5fvGFUUdbxGzzmWz2wz" \ --header "Content-Type: audio/flac" --data-binary @audio-file2.flac \ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/219b75ae-b66c-4993-b2d6-06025c1813a4/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"
      Jhon Jaiver Supelano Rojas

      Jhon Jaiver Supelano Rojas

      student•
      hace 6 años

      ¿Las malas palabras estan incluidas en Watson Speech to Text? no lo encontre en el docs

      Nicolas Enrique Duque Aguirre

      Nicolas Enrique Duque Aguirre

      student•
      hace 5 años

      Con los audios de la clase funciona bien pero al grabar un audio con el celular y enviarlo ya no funciona, dice error 400, en el reproductor que uso (VCL) se reproduce bien, la solucion fue tomar el archivo original y pasarlo por un conversor a flac y en este caso si funciono

        David Andrés Torres Forero

        David Andrés Torres Forero

        student•
        hace 5 años

        Lo que debe pasar es el formato del archivo. Los audios de la clase están en .flac mientras que los del celular deben ser mp4. Resiva el formato del archivo e intenta. Lo hice con audacity exportando el .flac y funcionó correctamente. Saludos.

      Ronal Saith Lopesierra Chartuni

      Ronal Saith Lopesierra Chartuni

      student•
      hace 5 años

      Buenas comunidad de Platzi. Tuve un problema al ejecutar el CURL, debido a que me aparece el siguiente error: "curl: (35) schannel: next InitializeSecurityContext failed: Unknown error (0x80092012) - La función de revocación no puede comprobar la revocación para el certificado.". Si alguien conoce una solución estaría agradecido que me la comunicase.

        Alberto Perdomo

        Alberto Perdomo

        student•
        hace 5 años

        En este post de stack-overflow tienen literalmente el mismo problema y lo solucionan.

        https://stackoverflow.com/questions/54938026/curl-unknown-error-0x80092012-the-revocation-function-was-unable-to-check-r

        Ronal Saith Lopesierra Chartuni

        Ronal Saith Lopesierra Chartuni

        student•
        hace 5 años

        Gracias. Al parecer el problema era con el Antivirus.

      Mario Emiliano Gordon Pico

      Mario Emiliano Gordon Pico

      student•
      hace 6 años

      Como puedo setear para un audio de llamada, donde haya dos personas hablando en español

        Isaac Carrada

        Isaac Carrada

        teacher•
        hace 6 años

        Hola! Si ya tienes el audio, al hacer la petición necesitarías mandar en el header como verdadero "speaker_labels"

        Te mando el ejemplo de la petición: curl -X POST -u "apikey:{apikey}" --header "Content-Type: audio/flac" --data-binary @{path}audio-multi.flac "{url}/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"

        Puedes encontrar mas información aquí: https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-output

      Cristian Dario Prieto Avella

      Cristian Dario Prieto Avella

      student•
      hace 4 años

      se puede usar otro formato de audio?

      Jhon Raul Perez Muñoz

      Jhon Raul Perez Muñoz

      student•
      hace 5 años

      Mi resultado no transcribe las palabras con tildes, como puedo solucionarlo?

      "cuál nombre es isaac y a su gusto ser tu profesora en este curso sígueme mi redes en instagram estoy como el buen isi y en lo demás como isaac karrada "

        Isaac Carrada

        Isaac Carrada

        teacher•
        hace 5 años

        Hola!

        Speech to text en español ya incluye las tildes, en caso de que quieras entrenar una palabra específica que utiliza símbolos fonéticos te dejo la documentación: https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-sprs&locale=es

        Debes utilizar el elemento <phoneme> del SSML (Speech Synthesis Markup Language)

      Luis Alberto Pinzon Gasca

      Luis Alberto Pinzon Gasca

      student•
      hace 5 años

      ¿Que tal compañeros?, utilizo windows, e intente con soluciones de otros compañeros, sin embargo, a mi me sale esto luego de correr el codigo: Usage: curl [options...] <url> +Una lista desplegable de bastantes lineas, que aparentarian ser los usos de curl.

      ¿Alguien sabe que puedo hacer?

      Lo corro de la siguiente manera: curl -X POST -u "apikey:xVWvQ7_mubpqd1ChnHBPlfFNeizq0-g_dXIDX4l8602C" ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/0768a672-4c16-4873-bc28-231c941c0eda/v1/recognize?model=es-MX_BroadbandModel”

      Quedo atento muchas gracias!

        Miguel Rodríguez

        Miguel Rodríguez

        student•
        hace 5 años

        Hola, yo uso Windows y la consola de GitBash no se si lo hayas probado, pero corre con las instrucciones de linux

      Jhon Jairo Meneses Prieto

      Jhon Jairo Meneses Prieto

      student•
      hace 6 años

      Me genera error, pero no veo nada mal en el: Warning: Couldn't read data from file "audio-file.flac", this makes an empty Warning: POST. {"code":401, "error": "Unauthorized"}

      <curl -X POST -u "apikey:5BTGKqgirHxJXWnYaRUv4Oyu6VKWIqdkOiauZgwJrE5" ^ --header "Content-Type: audio/flac" ^ --data-binary @audio-file.flac ^ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/7847f8e0-c233-49d3-9ef9-5b996f5040cc/v1/recognize">
        Isaac Carrada

        Isaac Carrada

        teacher•
        hace 6 años

        hola! probablemente tu apikey es incorrecta...checalo y avisame si funciona!

        Gustavo Adolfo Abello Fernandez

        Gustavo Adolfo Abello Fernandez

        student•
        hace 5 años

        estas ubicado en la ruta donde esta el audio ? recuerda que para que lo reconozca debes estar en la misma carpeta posicionado con la terminal. saludos

      Carlos Andrés Mosquera Arria

      Carlos Andrés Mosquera Arria

      student•
      hace 6 años

      Mi petición con keywords no sirve. Aparentemente el linux shell trata los caracteres & diferente:

      curl -X POST -u "apikey:Rzf5xXv3lCFsRwUD3ijSlOaOiQFgkmkwnq39oKnD9_CS" ^ --header "Content-Type: audio/flac" ^ --data-binary @audio-file.flac ^ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/d11993ca-8813-4612-9ef4-bf8ddc7557ac/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

      Le he puesto doble &, y varias cosas y nada sirve (&, &&, %&, etc y nada).

      Hugo Montoya Diaz

      Hugo Montoya Diaz

      student•
      hace 4 años
      Demo_image.jpg
      Gustavo Adolfo Abello Fernandez

      Gustavo Adolfo Abello Fernandez

      student•
      hace 5 años

      Me funciono igual. "transcript": "cuéllar isaac gracias por tomar este curso sígueme mi redes en instagram estoy como el buen isi y en lo demás como isaac carranza "

      Guillermo Parejo

      Guillermo Parejo

      student•
      hace 6 años

      Excelente clase

      Usuario anónimo

      Usuario anónimo

      user•
      hace 6 años

      super

      Daniela Stephanie Romero Martinez

      Daniela Stephanie Romero Martinez

      student•
      hace 5 años

      ¿Alguien me podría ayudar? me sale lo siguiente: "keywords" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable. "keywords_threshold" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable.

        Daniel Fernando Ramírez Avendaño

        Daniel Fernando Ramírez Avendaño

        student•
        hace 5 años

        Me sucedio lo mismo, resulto que me faltaban las comillas con las que se abre la url

      Daniel Felipe Naranjo Cruz

      Daniel Felipe Naranjo Cruz

      student•
      hace 6 años

      Solo recibe audios .flac? Como se configura que idioma es el que debe transcribir?

    Escuelas

    • Desarrollo Web
      • Fundamentos del Desarrollo Web Profesional
      • Diseño y Desarrollo Frontend
      • Desarrollo Frontend con JavaScript
      • Desarrollo Frontend con Vue.js
      • Desarrollo Frontend con Angular
      • Desarrollo Frontend con React.js
      • Desarrollo Backend con Node.js
      • Desarrollo Backend con Python
      • Desarrollo Backend con Java
      • Desarrollo Backend con PHP
      • Desarrollo Backend con Ruby
      • Bases de Datos para Web
      • Seguridad Web & API
      • Testing Automatizado y QA para Web
      • Arquitecturas Web Modernas y Escalabilidad
      • DevOps y Cloud para Desarrolladores Web
    • English Academy
      • Inglés Básico A1
      • Inglés Básico A2
      • Inglés Intermedio B1
      • Inglés Intermedio Alto B2
      • Inglés Avanzado C1
      • Inglés para Propósitos Específicos
      • Inglés de Negocios
    • Marketing Digital
      • Fundamentos de Marketing Digital
      • Marketing de Contenidos y Redacción Persuasiva
      • SEO y Posicionamiento Web
      • Social Media Marketing y Community Management
      • Publicidad Digital y Paid Media
      • Analítica Digital y Optimización (CRO)
      • Estrategia de Marketing y Growth
      • Marketing de Marca y Comunicación Estratégica
      • Marketing para E-commerce
      • Marketing B2B
      • Inteligencia Artificial Aplicada al Marketing
      • Automatización del Marketing
      • Marca Personal y Marketing Freelance
      • Ventas y Experiencia del Cliente
      • Creación de Contenido para Redes Sociales
    • Inteligencia Artificial y Data Science
      • Fundamentos de Data Science y AI
      • Análisis y Visualización de Datos
      • Machine Learning y Deep Learning
      • Data Engineer
      • Inteligencia Artificial para la Productividad
      • Desarrollo de Aplicaciones con IA
      • AI Software Engineer
    • Ciberseguridad
      • Fundamentos de Ciberseguridad
      • Hacking Ético y Pentesting (Red Team)
      • Análisis de Malware e Ingeniería Forense
      • Seguridad Defensiva y Cumplimiento (Blue Team)
      • Ciberseguridad Estratégica
    • Liderazgo y Habilidades Blandas
      • Fundamentos de Habilidades Profesionales
      • Liderazgo y Gestión de Equipos
      • Comunicación Avanzada y Oratoria
      • Negociación y Resolución de Conflictos
      • Inteligencia Emocional y Autogestión
      • Productividad y Herramientas Digitales
      • Gestión de Proyectos y Metodologías Ágiles
      • Desarrollo de Carrera y Marca Personal
      • Diversidad, Inclusión y Entorno Laboral Saludable
      • Filosofía y Estrategia para Líderes
    • Diseño de Producto y UX
      • Fundamentos de Diseño UX/UI
      • Investigación de Usuarios (UX Research)
      • Arquitectura de Información y Usabilidad
      • Diseño de Interfaces y Prototipado (UI Design)
      • Sistemas de Diseño y DesignOps
      • Redacción UX (UX Writing)
      • Creatividad e Innovación en Diseño
      • Diseño Accesible e Inclusivo
      • Diseño Asistido por Inteligencia Artificial
      • Gestión de Producto y Liderazgo en Diseño
      • Diseño de Interacciones Emergentes (VUI/VR)
      • Desarrollo Web para Diseñadores
      • Diseño y Prototipado No-Code
    • Contenido Audiovisual
      • Fundamentos de Producción Audiovisual
      • Producción de Video para Plataformas Digitales
      • Producción de Audio y Podcast
      • Fotografía y Diseño Gráfico para Contenido Digital
      • Motion Graphics y Animación
      • Contenido Interactivo y Realidad Aumentada
      • Estrategia, Marketing y Monetización de Contenidos
    • Desarrollo Móvil
      • Fundamentos de Desarrollo Móvil
      • Desarrollo Nativo Android con Kotlin
      • Desarrollo Nativo iOS con Swift
      • Desarrollo Multiplataforma con React Native
      • Desarrollo Multiplataforma con Flutter
      • Arquitectura y Patrones de Diseño Móvil
      • Integración de APIs y Persistencia Móvil
      • Testing y Despliegue en Móvil
      • Diseño UX/UI para Móviles
    • Diseño Gráfico y Arte Digital
      • Fundamentos del Diseño Gráfico y Digital
      • Diseño de Identidad Visual y Branding
      • Ilustración Digital y Arte Conceptual
      • Diseño Editorial y de Empaques
      • Motion Graphics y Animación 3D
      • Diseño Gráfico Asistido por Inteligencia Artificial
      • Creatividad e Innovación en Diseño
    • Programación
      • Fundamentos de Programación e Ingeniería de Software
      • Herramientas de IA para el trabajo
      • Matemáticas para Programación
      • Programación con Python
      • Programación con JavaScript
      • Programación con TypeScript
      • Programación Orientada a Objetos con Java
      • Desarrollo con C# y .NET
      • Programación con PHP
      • Programación con Go y Rust
      • Programación Móvil con Swift y Kotlin
      • Programación con C y C++
      • Administración Básica de Servidores Linux
    • Negocios
      • Fundamentos de Negocios y Emprendimiento
      • Estrategia y Crecimiento Empresarial
      • Finanzas Personales y Corporativas
      • Inversión en Mercados Financieros
      • Ventas, CRM y Experiencia del Cliente
      • Operaciones, Logística y E-commerce
      • Gestión de Proyectos y Metodologías Ágiles
      • Aspectos Legales y Cumplimiento
      • Habilidades Directivas y Crecimiento Profesional
      • Diversidad e Inclusión en el Entorno Laboral
      • Herramientas Digitales y Automatización para Negocios
    • Blockchain y Web3
      • Fundamentos de Blockchain y Web3
      • Desarrollo de Smart Contracts y dApps
      • Finanzas Descentralizadas (DeFi)
      • NFTs y Economía de Creadores
      • Seguridad Blockchain
      • Ecosistemas Blockchain Alternativos (No-EVM)
      • Producto, Marketing y Legal en Web3
    • Recursos Humanos
      • Fundamentos y Cultura Organizacional en RRHH
      • Atracción y Selección de Talento
      • Cultura y Employee Experience
      • Gestión y Desarrollo de Talento
      • Desarrollo y Evaluación de Liderazgo
      • Diversidad, Equidad e Inclusión
      • AI y Automatización en Recursos Humanos
      • Tecnología y Automatización en RRHH
    • Finanzas e Inversiones
      • Fundamentos de Finanzas Personales y Corporativas
      • Análisis y Valoración Financiera
      • Inversión y Mercados de Capitales
      • Finanzas Descentralizadas (DeFi) y Criptoactivos
      • Finanzas y Estrategia para Startups
      • Inteligencia Artificial Aplicada a Finanzas
      • Domina Excel
      • Financial Analyst
      • Conseguir trabajo en Finanzas e Inversiones
    • Startups
      • Fundamentos y Validación de Ideas
      • Estrategia de Negocio y Product-Market Fit
      • Desarrollo de Producto y Operaciones Lean
      • Finanzas, Legal y Fundraising
      • Marketing, Ventas y Growth para Startups
      • Cultura, Talento y Liderazgo
      • Finanzas y Operaciones en Ecommerce
      • Startups Web3 y Blockchain
      • Startups con Impacto Social
      • Expansión y Ecosistema Startup
    • Cloud Computing y DevOps
      • Fundamentos de Cloud y DevOps
      • Administración de Servidores Linux
      • Contenerización y Orquestación
      • Infraestructura como Código (IaC) y CI/CD
      • Amazon Web Services
      • Microsoft Azure
      • Serverless y Observabilidad
      • Certificaciones Cloud (Preparación)
      • Plataforma Cloud GCP

    Platzi y comunidad

    • Platzi Business
    • Live Classes
    • Lanzamientos
    • Executive Program
    • Trabaja con nosotros
    • Podcast

    Recursos

    • Manual de Marca

    Soporte

    • Preguntas Frecuentes
    • Contáctanos

    Legal

    • Términos y Condiciones
    • Privacidad
    • Tyc promociones
    Reconocimientos
    Reconocimientos
    Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
    Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
    Logo reconocimientoPrimera Startup EdTech · 2018
    Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
    Logo reconocimientoCEO Mejor Emprendedor del año · 2024
    De LATAM conpara el mundo
    YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads