CoDAS
http://www.codas.periodikos.com.br/article/doi/10.1590/2317-1782/e20240116pt
CoDAS
Artigo Original

Medidas acústico-prosódicas discriminam as emoções de falantes do português brasileiro

Alexandra Christine de Aguiar; Ana Carolina Constantini; Ronei Marcos de Moraes; Anna Alice Almeida

Downloads: 0
Views: 34

Resumo

RESUMO: Objetivo: Verificar se há diferença de medidas acústico-prosódicas em diferentes estados emocionais de falantes do português brasileiro (PB).

Métodos: A amostra de dados consistiu em 182 sinais de áudio produzidos por atores (profissionais ou estudantes), a partir da tarefa de fala semi-espontânea “Olha lá o avião azul” nas variadas emoções (alegria, tristeza, medo, raiva, surpresa, nojo) e emissão neutra. Foram extraídos valores das medidas acústico-prosódicas de duração, frequência fundamental e intensidade das variadas emoções. Utilizou-se o teste de comparação de Friedman para verificar se essas medidas são capazes de discriminar as emoções.

Resultados: A análise acústico-prosódica revelou variações significativas entre as emoções. A emoção nojo destacou-se por apresentar a maior taxa de elocução, com valores mais altos de duração. Em contraste, a alegria exibiu uma fala mais acelerada, com menores valores de duração e maior intensidade. A tristeza e o medo foram marcados por menor intensidade e frequências mais baixas, sendo que o medo apresentou os menores valores de assimetria positiva de z-score e z-suavizado, com menor alongamento dos segmentos. A raiva se sobressaiu pela maior intensidade vocal, enquanto a surpresa registrou os valores mais altos de frequência fundamental.

Conclusão: As medidas acústico-prosódicas demonstraram ser ferramentas eficazes para diferenciar emoções em falantes do PB. Esses parâmetros têm grande potencial para discernir diferentes estados emocionais, ampliam o conhecimento sobre a expressividade vocal e abrem possibilidades para tecnologias de reconhecimento de emoções, com aplicações em inteligência artificial e saúde mental.

Palavras-chave

Voz, Emoção, Acústica da Fala, Prosódia, Reconhecimento da Emoção na Voz

Referências

1 González Torre I, Luque B, Lacasa L, Luque J, Hernández-Fernández A. Emergence of linguistic laws in human voice. Sci Rep. 2017;7(1):43862. http://doi.org/10.1038/srep43862. PMid:28272418.

2 Costa DB, Lopes LW, Silva EG, Cunha GMS, Almeida LNA, Almeida AAF. Fatores de risco e emocionais na voz de professores com e sem queixas vocais. Rev CEFAC. 2013;15(4):1001-10. http://doi.org/10.1590/S1516-18462013000400030.

3 Cowen AS, Elfenbein HA, Laukka P, Keltner D. Mapping 24 emotions conveyed by brief human vocalization. Am Psychol. 2019;74(6):698-712. http://doi.org/10.1037/amp0000399. PMid:30570267.

4 Barbosa IK, Behlau M, Lima-Silva MF, Almeida LN, Farias H, Almeida AA. Voice symptoms, perceived voice control, and common mental disorders in elementary school teachers. J Voice. 2021;35(1):158.e1-7. http://doi.org/10.1016/j.jvoice.2019.07.018. PMid:31416748.

5 Alves CRST, Mastella V. Linguagem e comunicação na contemporaneidade. Cruz Alta: Ilustração; 2020.

6 Ekman P. An argument for basic emotions. Cogn Emotion. 1992;6(3-4):169-200. http://doi.org/10.1080/02699939208411068.

7 Wang Y, Zhu Z, Chen B, Fang F. Perceptual learning and recognition confusion reveal the underlying relationships among the six basic emotions. Cogn Emotion. 2019;33(4):754-67. http://doi.org/10.1080/02699931.2018.1491831. PMid:29962270.

8 Yao X, Bai W, Ren Y, Liu X, Hui Z. Exploration of glottal characteristics and the vocal folds behavior for the speech under emotion. Neurocomputing. 2020;410:328-41. http://doi.org/10.1016/j.neucom.2020.06.010.

9 Cohen AS, Hong SL, Guevara A. Understanding emotional expression using prosodic analysis of natural speech: refining the methodology. J Behav Ther Exp Psychiatry. 2010;41(2):150-7. http://doi.org/10.1016/j.jbtep.2009.11.008. PMid:20022000.

10 Santos AJ, Rothe-Neves R, Pacheco V, Baldow VS. Emotional speech prosody: how readers of different educational levels process pragmatic aspects of reading aloud. DELTA. 2022;38(3):1-31. https://doi.org/10.1590/1678-460X202258945.

11 Wagner M, Watson DG. Experimental and theoretical advances in prosody: a review. Lang Cogn Process. 2010;25(7-9):905-45. http://doi.org/10.1080/01690961003589492. PMid:22096264.

12 Watson D, Gibson E. The relationship between intonational phrasing and syntactic structure in language production. Lang Cogn Process. 2010;25(5):713-55. http://doi.org/10.1080/01690960444000070.

13 Arvaniti A. The phonetics of prosody. In: Aronoff M, Chen Y, Cutler C, editors. Oxford research encyclopedia of linguistics. Oxford: Oxford University Press; 2020. http://doi.org/10.1093/acrefore/9780199384655.013.411.

14 Burkhardt F, Paeschke A, Rolfes M, Sendlmeier W, Weiss B. A database of German emotional speech. In: 9th European Conference on Speech Communication and Technology (INTERSPEECH); 2005 Sep 4-8; Lisbon, Portugal. Proceedings. Los Alamitos, CA: IEEE/ISCA; 2005. p. 1517-20.

15 Busso C, Bulut M, Lee CC, Kazemzadeh A, Mower E, Kim S, et al. IEMOCAP: Interactive Emotional Dyadic Motion Capture Database. Lang Resour Eval. 2008;42(4):335-59. http://doi.org/10.1007/s10579-008-9076-6.

16 McKeown G, Valstar M, Cowie R, Pantic M, Schroder M. The SEMAINE database: annotated multimodal records of emotionally colored conversations between a person and a limited agent. IEEE Trans Affect Comput. 2012;3(1):5-17. http://doi.org/10.1109/T-AFFC.2011.20.

17 Ringeval F, Sonderegger A, Sauer J, Lalanne D. Introducing the recola multimodal corpus of remote collaborative and affective interactions. In: 10th IEEE Int Conf Workshops Autom Face Gesture Recognit (FG); 2013; Shanghai, China. Proceedings. New York: IEEE; 2013. p. 1-8. http://doi.org/10.1109/FG.2013.6553805.

18 Shinde AS, Patil VV. Speech emotion recognition system: a review. In: 4th International Conference on Advances in Science and Technology (ICAST 2021); 2021; Bahir Dar, Ethiopia. Proceedings. New York: SSRN; 2021. p. 1-6. http://doi.org/10.2139/ssrn.3869462.

19 Lima HMO, Almeida AAF, Almeida LNA. Elaboração e validação do Banco de Vozes Brasileiro nas Variações das Emoções (EMOVOX-BR). In: 30º Congresso Brasileiro de Fonoaudiologia; 2022; João Pessoa. Anais. São Paulo: Sociedade Brasileira de Fonoaudiologia; 2022. p. 4298-302. (vol. 1).

20 Larrouy-Maestri P, Poeppel D, Pell MD. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. 2023 PMid:38232303.

21 Oh C, Morris R, Wang X, Raskin MS. Analysis of emotional prosody as a tool for differential diagnosis of cognitive impairments: a pilot research. Front Psychol. 2023;14:1129406. http://doi.org/10.3389/fpsyg.2023.1129406. PMid:37425151.

22 Filippa M, Lima D, Grandjean A, Labbé C, Coll SY, Gentaz E, et al. Emotional prosody recognition enhances and progressively complexifies from childhood to adolescence. Sci Rep. 2022;12(1):17144. http://doi.org/10.1038/s41598-022-21554-0. PMid:36229474.

23 Silva W, Barbosa PA. Perception of emotional prosody: investigating the relation between the discrete and dimensional approaches to emotions. Rev Estud Linguagem. 2017;25(3):1075-102. http://doi.org/10.17851/2237-2083.25.3.1075-1103.

24 Lausen A, Hammerschmidt K. Emotion recognition and confidence ratings predicted by vocal stimulus type and prosodic parameters. Humanit Soc Sci Commun. 2020;7(1):2. http://doi.org/10.1057/s41599-020-0499-z.

25 Behlau M, Rocha B, Englert M, Madazio G. Validation of the Brazilian Portuguese CAPE-V instrument: br CAPE-V for auditory-perceptual analysis. J Voice. 2020;36(4):586.e15-20. http://doi.org/10.1016/j.jvoice.2020.07.007. PMid:32811691.

26 Fox A. Prosody features and prosodic structure. Oxford: Oxford University Press; 2000. http://doi.org/10.1093/oso/9780198237853.001.0001.

27 Constantini AC, Barbosa PA. Prosodic characteristics of different varieties of Brazilian Portuguese. Rev Bras Criminol. 2015;4(3):44-53. http://doi.org/10.15260/rbc.v4i3.103.

28 Barbosa PA. Incursões em torno de ritmo da fala. Campinas: Editora Pontes; 2006.

29 Sterne JA, Kirkwood BR. Essential medical statistics. 2nd ed. Hoboken: Oxford Blackwell Science; 2003.

30 Costa LMO, Martins-Reis VO, Celeste LC. Metodologias de análise da velocidade de fala: um estudo piloto. CoDAS. 2016;28(1):41-5. http://doi.org/10.1590/2317-1782/20162015039. PMid:27074188.

31 Lopes LW, Alves JN, Evangelista DS, França FP, Vieira VJD, Lima-Silva MFB, et al. Acurácia das medidas acústicas tradicionais e formânticas na avaliação da qualidade vocal. CoDAS. 2018;30(5):e20170282. http://doi.org/10.1590/2317-1782/20182017282. PMid:30365651.

32 Barbosa PA, Madureira S. Manual de fonética acústica experimental. São Paulo: Cortez; 2015.

33 Abreu SR, Moraes RM, Martins PN, Lopes LW. VOXMORE: artefato tecnológico para auxiliar a avaliação acústica da voz no processo ensino-aprendizagem e prática clínica. CoDAS. 2023;35(6):e20220166. http://doi.org/10.1590/2317-1782/20232022166en. PMid:37909540.

34 Silva LJ Jr, Barbosa PA. Speech rhythm of English as L2: an investigation of prosodic variables on the production of Brazilian Portuguese speakers. J Speech Sci. 2020;8(2):37-57. http://doi.org/10.20396/joss.v8i2.14996.

35 Moriarty P, Vigeant M, Wolf R, Gilmore R, Cole P. Creation and characterization of an emotional speech database. J Acoust Soc Am. 2018;143:1869. http://doi.org/10.1121/1.5036133.

36 Ekberg M, Stavrinos G, Andin J, Stenfelt S, Dahlström Ö. Acoustic features distinguishing emotions in Swedish speech. J Voice. 2023. Ahead of print. http://doi.org/10.1016/j.jvoice.2023.03.010. PMid:37045739.

37 Lehiste I. Suprasegmentals. Cambridge: MIT Press; 1970.

38 Almeida ANS, Oliveira M Jr, Almeida RAS. A velocidade de fala como pista acústica da emoção básica de raiva. Rev Diadorim. 2015;17(2):198-211. http://doi.org/10.35520/diadorim.2015.v17n2a4076.

39 Scherer KR. A cross-cultural investigation of emotion inferences from voice and speech: Implications for speech technology. In: 6th ICSLP; 2000; Beijing. Proceedings. Berlin: ISCA Archive; 2000. p. 379-82. http://doi.org/10.21437/ICSLP.2000-287.

40 Goudbeek M, Scherer K. Beyond arousal: valence and potency/control cues in the vocal expression of emotion. J Acoust Soc Am. 2010;128(3):1322-36. http://doi.org/10.1121/1.3466853. PMid:20815467.

41 Liu P, Pell MD. Processing emotional prosody in Mandarin Chinese: a cross-language comparison. In: International Conference on Speech Prosody 2014; 2014; Dublin, Ireland. Proceedings. Berlin: ISCA Archive; 2014. p. 95-9. http://doi.org/10.21437/SpeechProsody.2014-7.

42 Nunes VG. Contribuições sobre as características prosódicas de interrogativas totais neutras produzidas por sergipanos. In: Freitag RMK, Lucente L, editores. Prosódia da fala: pesquisa e ensino. São Paulo: Blucher; 2017. p. 145-62. http://doi.org/10.5151/9788580392593-09.

43 Muñetón-Ayala M, De Vega M, Ochoa-Gómez JF, Beltrán D. The brain dynamics of syllable duration and semantic predictability in Spanish. Brain Sci. 2022;12(4):458. http://doi.org/10.3390/brainsci12040458. PMid:35447989.

44 Kaur J, Juglan K, Sharma V. Role of acoustic cues in conveying emotion in speech. J Forensic Sci Crim Invest. 2018;11(1). http://doi.org/10.19080/JFSCI.2018.11.555803.

45 Busso C, Rahman T. Unveiling the acoustic properties that describe the valence dimension. In: Thirteenth Annual Conference of the International Speech Communication Association; 2012; Portland, OR, USA. Proceedings. Berlin: ISCA Archive; 2012. p. 1179-82. http://doi.org/10.21437/Interspeech.2012-124.

46 Lopes LW, Cavalcante DP, Costa PO. Intensidade do desvio vocal: integração de dados perceptivo-auditivos e acústicos em pacientes disfônicos. CoDAS. 2014;26(5):382-8. http://doi.org/10.1590/2317-1782/20142013033. PMid:25388071.

47 Barbosa PA. Aspectos de produção e percepção de estilos de elocução profissionais e não profissionais em quatro línguas. In: Freitag RMK, Lucente L, editores. Prosódia da fala: pesquisa e ensino. São Paulo: Blucher; 2017. p. 44-59. http://doi.org/10.5151/9788580392593-03.

48 Ververidis D, Kotropoulos C. Emotional speech recognition: resources, features, and methods. Speech Commun. 2006;48(9):1162-81. http://doi.org/10.1016/j.specom.2006.04.003.

49 Pervaiz M, Khan TA. Emotion recognition from speech using prosodic and linguistic features. Int J Adv Comput Sci Appl. 2016;7(8):84-9. http://doi.org/10.14569/IJACSA.2016.070813.

50 Swain M, Routray A, Kabisatpathy P. Databases, features and classifiers for speech emotion recognition: a review. Int J Speech Technol. 2018;21(1):93-120. http://doi.org/10.1007/s10772-018-9491-z.
 


Submetido em:
28/04/2024

Aceito em:
02/12/2024

68992cd8a953953b77694763 codas Articles

CoDAS

Share this page
Page Sections