Thesis

Computational and behavioural approaches to understanding perception of speech variability

Public Deposited
Creator
Contributors
Abstract
    French
  • Cette thèse vise éclaircir comment les humains interprètent la langue parlée malgré la variation importante qui s’y trouve, démontrant la capacité humaine de cerner les unités cognitives (e.g. phonèmes) à partir de réalisations phonétiques hautement variables. La question est abordée dans trois niveaux de traitement de la parole : la sensibilité au contexte linguistique de l’emploi d’indices acoustiques (étude 1), la représentation en perception des maintes dimensions acoustiques d’un contraste phonologique (étude 2) et les connaissances linguistiques exigées pour traiter les changements phonologiques (étude 3).Le premier projet s’attaque à la manière que les auditeurs emploient plusieurs indices acoustiques associés à un même contraste phonologique et à l’effet de l’expér-ience dialectale dans la catégorisation en perception, tenant compte de la variation individuelle. Le contraste du registre tonal dans deux variétés du chinois Wu se manifeste par la hauteur et le contour de la fréquence fondamentale en plus de la qualité vocale. Les résultats révèlent que l’acuité des auditeurs aux indices acoustiques; il existe des auditeurs utilisant fortement et faiblement chaque indice acoustique. De plus, les auditeurs privilégient des indices acoustiques différents lorsqu’un contraste n’a aucun indice dominant. Enfin, les auditeurs n’augmentent pas leur sensibilité à un indice acoustique saillant lorsque l’indice a peu d’importance dans leur variété maternelle.Le deuxième projet reprend la question des indices acoustiques associés aux tons (cette fois du mandarin), mais par biais de la modélisation informatique. Le projet vise déterminer (a) la représentation des tons en parole continue brute et (b) la relation entre cette représentation et les indices acoustiques. Les réseaux neuronaux profonds sont employés pour générer un modèle de classification des tons, duquel une couche de dimension basse est analysée comme équivalent de ce qu’un humain pourrait créer comme représentation des tons. L’analyse du modèle informatique révèle que deux dimensions de catégorisation suffisent pour classer les tons même si la variation comprend plusieurs dimensions. De plus, le modèle représente la fréquence fondamentale par sa hauteur et son contour, un résultat qui reflète la perception humaine et remet en question la notation tonale conventionnelle qui décrit plutôt les hauteurs en début et en fin de cible tonale.Le troisième projet étudie le rôle des connaissances phonologiques dans la perception de la parole, se penchant deux car d’assimilation phonologique prévisible (l’assimilation de lieu en anglais et l’assimilation de voisement en français). Les auditeurs natifs peuvent détecter les changements et conséquemment récupérer les sons originaux, sans les percevoir comme des erreurs de prononciation. La question qui en découle est ce que sont les connaissances minimales requises pour obtenir une telle adaptation perceptuelle. Des systèmes de reconnaissance vocale automatique sont formés sur des données provenant soit de l’anglais, soit du français, avec treize modèles différents par langue qui se distinguaient par la complexité des représentations. Les modèles effectuent ensuite la même tâche que les humains dans l’expérience antérieure effectuée par Darcy et al. (2009). Les résultats démontrent que les humains (a) incorporent des connaissances acoustiques et phonétiques adap-tées au contexte, mais (b) n’emploient probablement des connaissances ni du lexique, ni des frontières lexicales.Bref, cette étude se penche sur différents aspects de la perception. La combinaison d’expériences perceptuelles et de modélisation informatique se complémentent. D’un côté, les expériences perceptuelles explorent la variation entre auditeurs et permettent de guider le développement de modèles informatiques pouvant tenir compte de cette variation. De l’autre côté, la modélisation informatique permet de tester les hypothèses à propos du comportement des auditeurs
  • English
  • This dissertation focuses on the broad question of how humans make sense of speech and interpret it as meaningful units, despite extensive variation – one instance of humans’ remarkable ability to perceive cognitive units (speech sounds) from noisy continuous data. This dissertation addresses this question by examining different levels of human speech processing, from low-level phonetics to higher-level abstract patterning: listeners’ variable use of acoustic cues in different linguistic contexts (Project 1), the perceptual representation integrating all acoustic dimensions for a phonological contrast (Project 2), and the linguistic knowledge used for processing phonological changes (Project 3).The first project investigates how multiple acoustic cues contribute to multidimensional phonological contrasts and how dialectal experience shapes listeners’ perceptual strategies. The central question is: how do listeners differ in their use of acoustic cues? This project focuses on three cues in the tonal register contrast in two Chinese Wu dialects: pitch height, voice quality, and pitch contour. The findings reveal that listeners differ mainly in their overall cue acuity. Moreover, for certain contrasts signaled without a dominant cue, individuals further differ in their choice of the primary cue. Finally, listeners’ use of cues is affected by their dialect background. For a cue less important in their native dialect, listeners do not make better use of it even when the cue becomes more salient in the same contrast.The second project investigates a similar question to the first project, using computational modelling. The goals are to study the low-dimensional representation of tones in Mandarin Chinese continuous speech, and how different acoustic correlates map onto this representation. Adopting a data-driven method using raw speech, this project explores the representation of tones by examining a low-dimensional layer learnt in a deep neural network tone classification model. The model can be seen as an `ideal listener' doing the same task as human listeners. Unlike the human brain which can only be indirectly probed through responses, the computational model provides a learnt representation one can directly examine. The analysis of the representation reveals that while the input is high-dimensional (feature vectors encoding raw speech), two dimensions are enough to represent the tonal contrast. The two dimensions largely encode average pitch height and pitch contour, which converges with previous findings from the perception literature.The third project investigates the role of phonological knowledge in speech perception. For predictable changes caused by phonological assimilation (English place assimilation and French voicing assimilation), native listeners are able to recover the original sounds, without taking them as mispronunciations. This project investigates what knowledge is minimally required for the language-specific perceptual effect. Standard automatic speech recognition systems trained on English and French are used to represent `ideal listeners'. Each language has 13 models with different complexities to represent listeners with different scopes of linguistic knowledge. The models then perform the same task as humans did in a previous study (Darcy et al., 2009). From comparing the model and human results, the successful human-like models employ contextually sensitive acoustic knowledge and phonotactics, but do not require higher-level knowledge of a lexicon or word boundaries.To summarize, this dissertation investigates different aspects of perception, building on evidence from diverse languages. The combination of perceptual experiments and computational modelling mutually benefit each other: the perceptual experiments examine how listeners vary and provide empirical data from human listeners, while computational modelling of `ideal listeners' offers potential explanations for human speech perception
Subject
Publisher
Language
Identifier
Rights
  • All items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
Institution
  • McGill University
Department
Degree
Type
Date

Relations

In Collection:

Items