Análisis de softwares de inteligencia artificial generativa de voz aplicados al podcasting

Contenido principal del artículo

Maria Fitó-Carreras
Montserrat Vidal-Mestre
Alfonso Freire-Sánchez

Resumen

La IAG de voz es capaz de generar mensajes en lenguaje humano, mediante algoritmos de aprendizaje profundo, como las redes neuronales convolucionales o CNN, que aprenden a imitar los patrones vocales a partir de datos de habla. Ante este contexto, el principal objetivo es ofrecer una radiografía de la IAG de voz aplicada al podcasting para responder si la actual oferta tecnológica representa una amenaza para los empleos de los profesionales del audio, en particular para los/as locutores/as. Con este fin, se analizan los principales software que emplean los creadores de pódcast para la clonación de voz y se establece un marco comparativo. En segundo lugar, se recopilan las percepciones de los creadores acerca de los resultados obtenidos mediante el análisis de 10 títulos. Los principales software ofrecen herramientas específicas, que pueden mejorar el flujo de trabajo y optimizar los costes de producción. Gracias a los resultados sobre el estado actual de la IAG de voz aplicada al podcasting, hemos identificado tanto las oportunidades como las limitaciones que esta tecnología ofrece a los creadores.se observa que la industria de la IAG de voz está adaptándose a las necesidades del sector, ofreciendo múltiples herramientas a través de plataformas especializadas que permiten clonar la voz, editar grabaciones, publicar pódcast y distribuirlos en varios idiomas. Sin embargo, no se interpreta como una amenaza inmediata debido a la reproducción de una prosodia inexacta y la ausencia de elementos paralingüísticos.

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Cómo citar
Fitó-Carreras, M., Vidal-Mestre, M., & Freire-Sánchez, A. (2025). Análisis de softwares de inteligencia artificial generativa de voz aplicados al podcasting. Comunicación Y Hombre, (21), 179–196. https://doi.org/10.32466/eufv-cyh.2025.21.860.179-196 (Original work published 24 de enero de 2025)
Sección
Investigaciones

Citas

Ada, Ada, Jørgensen, Stina Hasse, & Fritsch, Jonas (2024, July). Cultures of the AI paralinguistic in voice cloning tools. In Companion Publication of the 2024 ACM Designing Interactive Systems Conference (pp. 249-252). https://doi.org/10.1145/3656156.3663708

Aguado-Terrón, Juan Miguel y Grandío-Pérez, María del Mar (2024). Hacia una ecología mediática de la IA generativa: la obra creativa en la era de la automatización. Palabra Clave, 27(1), 1-23. https://doi.org/10.5294/pacla.2024.27.1.8

Alexander, Jessica D. & Nygaard, Lynne C. (2008). Reading voices and hearing text: talker-specific auditory imagery in reading. Journal of Experimental Psychology: Human Perception and Performance, 34(2), 446. https://doi.org/10.1037/0096-1523.34.2.446

Álvarez Ramírez, Anel, Anzures-García, Mario y Huerta Rangel, José Alejandro (2022). Construcción de una red neuronal replicadora de datos y una aplicación para clonación de voz. Res. Comput. Sci., 151(5), 15-30. https://bit.ly/4dWARQO

Aronovitch, Charles D. (1976). The voice of personality: Stereotyped judgments and their relation to voice quality and sex of speaker. The Journal of social psychology, 99(2), 207-220. https://doi.org/10.1080/00224545.1976.9924774

Ashworth, Boone (2023, 20 de abril). Artificial intelligence can clone the voice of your favorite podcast announcer. Wired.com. https://bit.ly/3wT5qq3

Atkinson, Robert K., Mayer, Richard E., & Merrill, Mary Margaret (2005). Fostering social agency in multimedia learning: Examining the impact of an animated agent’s voice. Contemporary Educational Psychology, 30(1), 117-139. https://doi.org/10.1016/j.cedpsych.2004.07.001

Bhargava, Cherry. & Sharma, Pardeep Kumar (2022). Artificial intelligence: fundamentals and applications. CRC Press.

Boden, Margaret A. (2018). Artificial intelligence: a very short introduction. Oxford University Press.

Bottomley, Andrew J. (2015). Podcasting: A decade in the life of a “new” audio medium: Introduction. Journal of radio & audio media, 22(2), 164-169. https://doi.org/10.1080/19376529.2015.1082880

Brennen, J Scott, Howard, Philip N., & Nielsen, Rasmus K. (2022). What to expect when you’re expecting robots: Futures, expectations, and pseudo-artificial general intelligence in UK news. Journalism, 23(1), 22-38. https://doi.org/10.1177/1464884920947535

Chaparro-Domínguez, María Ángeles. (2024). Capítulo 5. El impacto de la IA en los contenidos periodísticos sonoros. Espejo De Monografías De Comunicación Social, (25), 119–139. https://doi.org/10.52495/c5.emcs.25.p108

Cambronero, Antonio. (2024, 11 de marzo). El porqué de hacer un podcast con inteligencia artificial (y el cómo). Blogpocket.com. https://bit.ly/4dRPAN9

Cascella, Marco, Montomoli, Jonathan, Bellini, Valentina, & Bignami, Elena (2023). Evaluating the feasibility of ChatGPT in healthcare: An analysis of multiple clinical and research scenarios. Journal of medical systems, 47(1), 1-5. https://www.doi.org/10.1007/s10916-023-01925-4

Cohen, Laura B. (2001). 10 Tips for Teaching How to Search the Web. American Libraries, 32(10), 44–46. http://www.jstor.org/stable/25646112

Dasborough, Marie T. (2023). Awe‐inspiring advancements in AI: the impact of ChatGPT on the field of organizational behavior. Journal of organizational behavior, 44(2), 177-179. https://www.doi.org/10.1002/job.2695

Edwards, Chad, Edwards, Autumn, Stoll, Brett, Lin, Xialing, & Massey, Noelle (2019). Evaluations of an artificial intelligence instructor's voice: Social Identity Theory in human-robot interactions. Computers in Human Behavior, 90, 357-362. https://doi.org/10.1016/j.chb.2018.08.027

Espinosa, Iván (2019). La teoría sobre el sonido y los estudios de radio: una propuesta de divulgación. Lógoi: revista de filosofía, (35), 38-50. https://bit.ly/3SR343D

European Parliament (2024, 13 de marzo). La Eurocámara aprueba una ley histórica para regular la inteligencia artificial. https://bit.ly/3QYhugB

Faure-Carvallo, Adrien, Calderón-Garrido, Diego y Gustems-Carnicer, Josep (2022). Escuchar el cine [Documento docente]. Universitat de Barcelona. http://hdl.handle.net/2445/182308

Fitó-Carreras, Maria, Méndiz-Noguero, Alfonso, & Vidal-Mestre, Montserrat (2023) The podcast as a sound experimentation tool for brands: The immersive narrative in Endesa's Sonidos que nos transforman. Cuadernos.info, (56), 293-312. https://doi.org/10.7764/cdi.55.62819

Franganillo, Jorge (2022). Contenido generado por inteligencia artificial: oportunidades y amenazas. Anuario ThinkEPI, 16. https://doi.org/10.3145/thinkepi.2022.e16a24

Franganillo, Jorge (2023). La inteligencia artificial generativa y su impacto en la creación de contenidos mediáticos. Methaodos, revista de ciencias sociales, 11(2), 15. http://dx.doi.org/10.17502/mrcs.v11i2.710

Gil, Felipe G. (2020, 15 de julio). Biotopía: el podcast de ciencia ficción dirigido por Manuel Bartual donde todo es posible. El diario.es. https://bit.ly/3AndPDK

Goris, Silmani J. Adolf G. (2015). Utilidad y tipos de revisión bibliográfica. Revista Ene de Enfermería, 9(2). https://dx.doi.org/10.4321/S1988-348X2015000200002

Hart, Chris (1998). Doing a literature review. Sage Publications.

Jiménez, Miguel (2024, 30 de marzo). Open AI lanza una herramienta de audio capaz de clonar las voces humanas. El pais.com. https://bit.ly/4dWezyU

Jiménez Peña, John, Torres Castillo, Fernando Aarón, & Cueva Sanchez, Oscar Esaul (2024). Comparación forense de voces: un estudio preliminar sobre las diferencias entre una voz natural y una voz artificial para la investigación judicial. Revista Oficial Del Poder Judicial, 16(21), 53-81. http://doi.org/10.35292/ropj.v16i21.881

Khalid, Amrita (2023, 3 de mayo). The Joe Rogan AI Experience shows how hard it is to replace a real podcaster. The Verge. https://bit.ly/44VVCYU

Kishigami, Jay (2004). Triple A (Any device, Anytime, Anywhere): services in ubiquitous networks and their impacts on the architecture and systems. In All Star Network Access Workshop (pp.2-4).

Knibbs, Kate (2023, 24 de mayo). Generative AI Podcasts Are Here. Prepare to Be Bored. Wired.com. https://bit.ly/3UOi9lG

Launum, Nikolas (2023, 12 de abril). AI-generated Joe Rogan podcast stuns social media with 'terrifying' accuracy: 'Mind blowingly dangerous'. Foxnews.com. https://bit.ly/4cmNm6g

Media Psychology Lab. (2023). Estudio neurocientífico sobre audiolibros: qué formato transmite mejor la historia. UPF. https://bit.ly/4ethaAv

Mosby, Albert (2024, 20 de febrero). Podcast Statistics (2024 Data) – Total Listeners & Country Wise. Yaguara.com. https://www.yaguara.co/podcast-statistics/

Mullennix, John W., Johnson, Kate A., Topcu‐Durgun, Meral, & Farnsworth, Lynn M. (1995). The perceptual representation of voice gender. The Journal of the Acoustical Society of America, 98(6), 3080-3095. https://doi.org/10.1121/1.413832

Murf.ai (2023). AI enabled real people's voices. https://murf.ai/

Nass, Clifford & Brave, Scott (2005). Wired for speech: How voice activates and advances the human-computer relationship. MIT press.

Nass, Clifford & Gong, Li (2000). Speech interfaces from an evolutionary perspective. Communications of the ACM, 43(9), 36-43. https://dl.acm.org/doi/fullHtml/10.1145/348941.348976

Parratt-Fernández, Sonia, Mayoral-Sánchez, Javier, & Mera-Fernández, Montse (2021). The application of artificial intelligence to journalism: an analysis of academic production. Profesional de la información, 30(3), 1-12. https://doi.org/10.3145/epi.2021.may.17

Panorama Audiovisual (2020, 4 de junio). La serie podcast ‘XRey’ recurre a Vicomtech para clonar la voz de Franco con Inteligencia Artificial. Panoramaaudiovisual.com. https://bit.ly/3SKvaNf

Podnews. (2023, 21 de marzo). A groundbreaking podcast series entirely designed and created by Artificial Intelligence. Podnews.

https://podnews.net/press-release/synthetic-stories-ai

Preiksaitis, Carl & Rose, Christian (2023). Opportunities, challenges, and future directions of generative artificial intelligence in medical education: scoping review. JMIR medical education, 9, e48785. http://.doi.org.10.2196/48785

Prodigioso Volcán (2022). Relatos sintéticos: un pódcast y tres IA. https://bit.ly/3yKfwKg

Rime, Jemily, Pike, Chris, & Collins, Tom (2022). What is a podcast? Considering innovations in podcasting through the six-tensions framework. Convergence, 28(5), 1260-1282. https://doi.org/10.1177/13548565221104444

Rivera, Melvin y Rivera, Aracely (2022, 10 de agosto). Crean otro nuevo podcast con inteligencia artificial. Viapodcast.com. https://bit.ly/4buNXn2

Rodero, Emma (2018). El peso creciente de la voz y el sonido para comunicar en la era digital: el protagonismo de la oralidad. Anuario AC/E de cultura digital, 80-94. https://bit.ly/4bwUNZ1

Rodero, Emma (2023). L’expérience émotionnelle d’écouter une voix. Hermès, La Revue, 92(2), 30-37. https://www.cairn.info/revue--2023-2-page-30.htm

Rodríguez, María (2023, 27 de abril). La síntesis del habla y sus limitaciones emocionales. Textinnova.com. https://bit.ly/4buO7uE

Rudolph, Rudolph (2018). Redes Neuronales: Guia Sencilla de Redes Neuronales Artificiales. CreateSpace Independent Publishing Platform.

Russell, James A. (1980). A circumflex model of affect. Journal of Personality and Social Psychology, 39, 1161-1178. https://doi.org/10.1037/h0077714

Shin, Donghee & Biocca, Frank (2018). Exploring immersive experience in journalism. New media & society, 20(8), 2800-2823. https://doi.org/10.1177/1461444817733133

Spence, Charles (2012). "Managing sensory expectations concerning products and brands: capitalizing on the potential of sound and shape symbolism". Journal of consumer psychology, v. 22, n. 1, pp. 37-54. https://doi.org/10.1016/j.jcps.2011.09.004

Spotify (2023, 25 de septiembre). Spotify’s AI Voice Translation Pilot Means Your Favorite Podcasters Might Be Heard in Your Native Language. https://bit.ly/3VgmaRi

Stenbom, Agnes, Wiggberg, Mattias, & Norlund, Tobias (2023). Exploring communicative AI: Reflections from a Swedish newsroom. Digital Journalism, 11(9), 1622-1640. https://doi.org/10.1080/21670811.2021.2007781

Sun, Chengzhe, Jia, Shan, Hou, Shewei, AlBadawy, Ehab., & Lyu, Siwei (2023). Exposing ai-synthesized human voices using neural vocoder artifacts. arXiv preprint. http://dx.doi.org/10.48550/arXiv.2302.09198

Taylor, Lara (2024). Tune in to tomorrow: AI-driven podcasting and its possibilities. Public Services Quarterly, 20(1), 46-53. https://doi.org/10.1080/15228959.2023.2290288

United Voice Artist (2024). UVA position paper on the artificial intelligence act. https://unitedvoiceartists.com/eu-ai-act/

Vaissnave, V., Nandhini, S., Davamani, K. A., Malathi, P., & Pothumani, S. (2024). Advancements in Deep Learning Algorithms. Magestic Technology Solutions (P) Ltd. ISBN: 978-93-92090-47-9. https://doi.org/10.47716/978-93-92090-47-9

Vidal-Mestre, Montserrat (2018). Branding Sonoro. Sonokey®: el método de impulso emocional y mnemotécnico para las marcas. UOC.

Vidal-Mestre, Montserrat, Freire-Sánchez, Alfonso, Calderón-Garrido, Diego, Faure-Carvallo, Adrien, & Gustems-Carnicer, Josep. (2022). Audio identity in branding and brand communication strategy: a systematic review of the literature on audio branding. Profesional De La Información, 31(5). https://doi.org/10.3145/epi.2022.sep.04

Walters, Michael L., Syrdal, Dag Sverre., Koay, Kheng Lee, Dautenhahn, Kerstin & Boekhorst, Rene te. (2008). Human approach distances to a mechanical-looking robot with different robot voice styles. En ROMAN 2008, The 17th IEEE international symposium on robot and human interactive communication (pp. 707-712). IEEE. http://doi.org.10.1109/ROMAN.2008.4600750

Winters, Stephen J. & Pisoni, David B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.