Análisis de softwares de inteligencia artificial generativa de voz aplicados al podcasting
Contenido principal del artículo
Resumen
La IAG de voz es capaz de generar mensajes en lenguaje humano, mediante algoritmos de aprendizaje profundo, como las redes neuronales convolucionales o CNN, que aprenden a imitar los patrones vocales a partir de datos de habla. Ante este contexto, el principal objetivo es ofrecer una radiografía de la IAG de voz aplicada al podcasting para responder si la actual oferta tecnológica representa una amenaza para los empleos de los profesionales del audio, en particular para los/as locutores/as. Con este fin, se analizan los principales software que emplean los creadores de pódcast para la clonación de voz y se establece un marco comparativo. En segundo lugar, se recopilan las percepciones de los creadores acerca de los resultados obtenidos mediante el análisis de 10 títulos. Los principales software ofrecen herramientas específicas, que pueden mejorar el flujo de trabajo y optimizar los costes de producción. Gracias a los resultados sobre el estado actual de la IAG de voz aplicada al podcasting, hemos identificado tanto las oportunidades como las limitaciones que esta tecnología ofrece a los creadores.se observa que la industria de la IAG de voz está adaptándose a las necesidades del sector, ofreciendo múltiples herramientas a través de plataformas especializadas que permiten clonar la voz, editar grabaciones, publicar pódcast y distribuirlos en varios idiomas. Sin embargo, no se interpreta como una amenaza inmediata debido a la reproducción de una prosodia inexacta y la ausencia de elementos paralingüísticos.
Descargas
Detalles del artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
1 DERECHOS DE AUTOR
1.1 Los derechos de edición son de la Universidad Francisco de Vitoria y es necesario su permiso para cualquier reproducción. Por este motivo los autores deberán firmar un acuerdo de cesión de derechos y declaración de conflicto de intereses. Este es un requisito necesario para la publicación del artículo. En todo caso será necesario indicar la procedencia de cualquier reproducción total o parcial.
1.2 La UFV conserva los derechos patrimoniales (copyright) de las obras publicadas, y favorece y permite la reutilización de las mismas bajo la licencia de uso indicada en CREATIVE COMMONS.
Citas
Ada, Ada, Jørgensen, Stina Hasse, & Fritsch, Jonas (2024, July). Cultures of the AI paralinguistic in voice cloning tools. In Companion Publication of the 2024 ACM Designing Interactive Systems Conference (pp. 249-252). https://doi.org/10.1145/3656156.3663708
Aguado-Terrón, Juan Miguel y Grandío-Pérez, María del Mar (2024). Hacia una ecología mediática de la IA generativa: la obra creativa en la era de la automatización. Palabra Clave, 27(1), 1-23. https://doi.org/10.5294/pacla.2024.27.1.8
Alexander, Jessica D. & Nygaard, Lynne C. (2008). Reading voices and hearing text: talker-specific auditory imagery in reading. Journal of Experimental Psychology: Human Perception and Performance, 34(2), 446. https://doi.org/10.1037/0096-1523.34.2.446
Álvarez Ramírez, Anel, Anzures-García, Mario y Huerta Rangel, José Alejandro (2022). Construcción de una red neuronal replicadora de datos y una aplicación para clonación de voz. Res. Comput. Sci., 151(5), 15-30. https://bit.ly/4dWARQO
Aronovitch, Charles D. (1976). The voice of personality: Stereotyped judgments and their relation to voice quality and sex of speaker. The Journal of social psychology, 99(2), 207-220. https://doi.org/10.1080/00224545.1976.9924774
Ashworth, Boone (2023, 20 de abril). Artificial intelligence can clone the voice of your favorite podcast announcer. Wired.com. https://bit.ly/3wT5qq3
Atkinson, Robert K., Mayer, Richard E., & Merrill, Mary Margaret (2005). Fostering social agency in multimedia learning: Examining the impact of an animated agent’s voice. Contemporary Educational Psychology, 30(1), 117-139. https://doi.org/10.1016/j.cedpsych.2004.07.001
Bhargava, Cherry. & Sharma, Pardeep Kumar (2022). Artificial intelligence: fundamentals and applications. CRC Press.
Boden, Margaret A. (2018). Artificial intelligence: a very short introduction. Oxford University Press.
Bottomley, Andrew J. (2015). Podcasting: A decade in the life of a “new” audio medium: Introduction. Journal of radio & audio media, 22(2), 164-169. https://doi.org/10.1080/19376529.2015.1082880
Brennen, J Scott, Howard, Philip N., & Nielsen, Rasmus K. (2022). What to expect when you’re expecting robots: Futures, expectations, and pseudo-artificial general intelligence in UK news. Journalism, 23(1), 22-38. https://doi.org/10.1177/1464884920947535
Chaparro-Domínguez, María Ángeles. (2024). Capítulo 5. El impacto de la IA en los contenidos periodísticos sonoros. Espejo De Monografías De Comunicación Social, (25), 119–139. https://doi.org/10.52495/c5.emcs.25.p108
Cambronero, Antonio. (2024, 11 de marzo). El porqué de hacer un podcast con inteligencia artificial (y el cómo). Blogpocket.com. https://bit.ly/4dRPAN9
Cascella, Marco, Montomoli, Jonathan, Bellini, Valentina, & Bignami, Elena (2023). Evaluating the feasibility of ChatGPT in healthcare: An analysis of multiple clinical and research scenarios. Journal of medical systems, 47(1), 1-5. https://www.doi.org/10.1007/s10916-023-01925-4
Cohen, Laura B. (2001). 10 Tips for Teaching How to Search the Web. American Libraries, 32(10), 44–46. http://www.jstor.org/stable/25646112
Dasborough, Marie T. (2023). Awe‐inspiring advancements in AI: the impact of ChatGPT on the field of organizational behavior. Journal of organizational behavior, 44(2), 177-179. https://www.doi.org/10.1002/job.2695
Edwards, Chad, Edwards, Autumn, Stoll, Brett, Lin, Xialing, & Massey, Noelle (2019). Evaluations of an artificial intelligence instructor's voice: Social Identity Theory in human-robot interactions. Computers in Human Behavior, 90, 357-362. https://doi.org/10.1016/j.chb.2018.08.027
Espinosa, Iván (2019). La teoría sobre el sonido y los estudios de radio: una propuesta de divulgación. Lógoi: revista de filosofía, (35), 38-50. https://bit.ly/3SR343D
European Parliament (2024, 13 de marzo). La Eurocámara aprueba una ley histórica para regular la inteligencia artificial. https://bit.ly/3QYhugB
Faure-Carvallo, Adrien, Calderón-Garrido, Diego y Gustems-Carnicer, Josep (2022). Escuchar el cine [Documento docente]. Universitat de Barcelona. http://hdl.handle.net/2445/182308
Fitó-Carreras, Maria, Méndiz-Noguero, Alfonso, & Vidal-Mestre, Montserrat (2023) The podcast as a sound experimentation tool for brands: The immersive narrative in Endesa's Sonidos que nos transforman. Cuadernos.info, (56), 293-312. https://doi.org/10.7764/cdi.55.62819
Franganillo, Jorge (2022). Contenido generado por inteligencia artificial: oportunidades y amenazas. Anuario ThinkEPI, 16. https://doi.org/10.3145/thinkepi.2022.e16a24
Franganillo, Jorge (2023). La inteligencia artificial generativa y su impacto en la creación de contenidos mediáticos. Methaodos, revista de ciencias sociales, 11(2), 15. http://dx.doi.org/10.17502/mrcs.v11i2.710
Gil, Felipe G. (2020, 15 de julio). Biotopía: el podcast de ciencia ficción dirigido por Manuel Bartual donde todo es posible. El diario.es. https://bit.ly/3AndPDK
Goris, Silmani J. Adolf G. (2015). Utilidad y tipos de revisión bibliográfica. Revista Ene de Enfermería, 9(2). https://dx.doi.org/10.4321/S1988-348X2015000200002
Hart, Chris (1998). Doing a literature review. Sage Publications.
Jiménez, Miguel (2024, 30 de marzo). Open AI lanza una herramienta de audio capaz de clonar las voces humanas. El pais.com. https://bit.ly/4dWezyU
Jiménez Peña, John, Torres Castillo, Fernando Aarón, & Cueva Sanchez, Oscar Esaul (2024). Comparación forense de voces: un estudio preliminar sobre las diferencias entre una voz natural y una voz artificial para la investigación judicial. Revista Oficial Del Poder Judicial, 16(21), 53-81. http://doi.org/10.35292/ropj.v16i21.881
Khalid, Amrita (2023, 3 de mayo). The Joe Rogan AI Experience shows how hard it is to replace a real podcaster. The Verge. https://bit.ly/44VVCYU
Kishigami, Jay (2004). Triple A (Any device, Anytime, Anywhere): services in ubiquitous networks and their impacts on the architecture and systems. In All Star Network Access Workshop (pp.2-4).
Knibbs, Kate (2023, 24 de mayo). Generative AI Podcasts Are Here. Prepare to Be Bored. Wired.com. https://bit.ly/3UOi9lG
Launum, Nikolas (2023, 12 de abril). AI-generated Joe Rogan podcast stuns social media with 'terrifying' accuracy: 'Mind blowingly dangerous'. Foxnews.com. https://bit.ly/4cmNm6g
Media Psychology Lab. (2023). Estudio neurocientífico sobre audiolibros: qué formato transmite mejor la historia. UPF. https://bit.ly/4ethaAv
Mosby, Albert (2024, 20 de febrero). Podcast Statistics (2024 Data) – Total Listeners & Country Wise. Yaguara.com. https://www.yaguara.co/podcast-statistics/
Mullennix, John W., Johnson, Kate A., Topcu‐Durgun, Meral, & Farnsworth, Lynn M. (1995). The perceptual representation of voice gender. The Journal of the Acoustical Society of America, 98(6), 3080-3095. https://doi.org/10.1121/1.413832
Murf.ai (2023). AI enabled real people's voices. https://murf.ai/
Nass, Clifford & Brave, Scott (2005). Wired for speech: How voice activates and advances the human-computer relationship. MIT press.
Nass, Clifford & Gong, Li (2000). Speech interfaces from an evolutionary perspective. Communications of the ACM, 43(9), 36-43. https://dl.acm.org/doi/fullHtml/10.1145/348941.348976
Parratt-Fernández, Sonia, Mayoral-Sánchez, Javier, & Mera-Fernández, Montse (2021). The application of artificial intelligence to journalism: an analysis of academic production. Profesional de la información, 30(3), 1-12. https://doi.org/10.3145/epi.2021.may.17
Panorama Audiovisual (2020, 4 de junio). La serie podcast ‘XRey’ recurre a Vicomtech para clonar la voz de Franco con Inteligencia Artificial. Panoramaaudiovisual.com. https://bit.ly/3SKvaNf
Podnews. (2023, 21 de marzo). A groundbreaking podcast series entirely designed and created by Artificial Intelligence. Podnews.
https://podnews.net/press-release/synthetic-stories-ai
Preiksaitis, Carl & Rose, Christian (2023). Opportunities, challenges, and future directions of generative artificial intelligence in medical education: scoping review. JMIR medical education, 9, e48785. http://.doi.org.10.2196/48785
Prodigioso Volcán (2022). Relatos sintéticos: un pódcast y tres IA. https://bit.ly/3yKfwKg
Rime, Jemily, Pike, Chris, & Collins, Tom (2022). What is a podcast? Considering innovations in podcasting through the six-tensions framework. Convergence, 28(5), 1260-1282. https://doi.org/10.1177/13548565221104444
Rivera, Melvin y Rivera, Aracely (2022, 10 de agosto). Crean otro nuevo podcast con inteligencia artificial. Viapodcast.com. https://bit.ly/4buNXn2
Rodero, Emma (2018). El peso creciente de la voz y el sonido para comunicar en la era digital: el protagonismo de la oralidad. Anuario AC/E de cultura digital, 80-94. https://bit.ly/4bwUNZ1
Rodero, Emma (2023). L’expérience émotionnelle d’écouter une voix. Hermès, La Revue, 92(2), 30-37. https://www.cairn.info/revue--2023-2-page-30.htm
Rodríguez, María (2023, 27 de abril). La síntesis del habla y sus limitaciones emocionales. Textinnova.com. https://bit.ly/4buO7uE
Rudolph, Rudolph (2018). Redes Neuronales: Guia Sencilla de Redes Neuronales Artificiales. CreateSpace Independent Publishing Platform.
Russell, James A. (1980). A circumflex model of affect. Journal of Personality and Social Psychology, 39, 1161-1178. https://doi.org/10.1037/h0077714
Shin, Donghee & Biocca, Frank (2018). Exploring immersive experience in journalism. New media & society, 20(8), 2800-2823. https://doi.org/10.1177/1461444817733133
Spence, Charles (2012). "Managing sensory expectations concerning products and brands: capitalizing on the potential of sound and shape symbolism". Journal of consumer psychology, v. 22, n. 1, pp. 37-54. https://doi.org/10.1016/j.jcps.2011.09.004
Spotify (2023, 25 de septiembre). Spotify’s AI Voice Translation Pilot Means Your Favorite Podcasters Might Be Heard in Your Native Language. https://bit.ly/3VgmaRi
Stenbom, Agnes, Wiggberg, Mattias, & Norlund, Tobias (2023). Exploring communicative AI: Reflections from a Swedish newsroom. Digital Journalism, 11(9), 1622-1640. https://doi.org/10.1080/21670811.2021.2007781
Sun, Chengzhe, Jia, Shan, Hou, Shewei, AlBadawy, Ehab., & Lyu, Siwei (2023). Exposing ai-synthesized human voices using neural vocoder artifacts. arXiv preprint. http://dx.doi.org/10.48550/arXiv.2302.09198
Taylor, Lara (2024). Tune in to tomorrow: AI-driven podcasting and its possibilities. Public Services Quarterly, 20(1), 46-53. https://doi.org/10.1080/15228959.2023.2290288
United Voice Artist (2024). UVA position paper on the artificial intelligence act. https://unitedvoiceartists.com/eu-ai-act/
Vaissnave, V., Nandhini, S., Davamani, K. A., Malathi, P., & Pothumani, S. (2024). Advancements in Deep Learning Algorithms. Magestic Technology Solutions (P) Ltd. ISBN: 978-93-92090-47-9. https://doi.org/10.47716/978-93-92090-47-9
Vidal-Mestre, Montserrat (2018). Branding Sonoro. Sonokey®: el método de impulso emocional y mnemotécnico para las marcas. UOC.
Vidal-Mestre, Montserrat, Freire-Sánchez, Alfonso, Calderón-Garrido, Diego, Faure-Carvallo, Adrien, & Gustems-Carnicer, Josep. (2022). Audio identity in branding and brand communication strategy: a systematic review of the literature on audio branding. Profesional De La Información, 31(5). https://doi.org/10.3145/epi.2022.sep.04
Walters, Michael L., Syrdal, Dag Sverre., Koay, Kheng Lee, Dautenhahn, Kerstin & Boekhorst, Rene te. (2008). Human approach distances to a mechanical-looking robot with different robot voice styles. En ROMAN 2008, The 17th IEEE international symposium on robot and human interactive communication (pp. 707-712). IEEE. http://doi.org.10.1109/ROMAN.2008.4600750
Winters, Stephen J. & Pisoni, David B. (2004). Perception and comprehension of synthetic speech. Research on spoken language processing report, 26, 95-138.