Laboratoire Interdisciplinaire des Sciences du Numérique

Table des matières

Travaux en veille
Formants vs enveloppe spectrale
Analyse à très court terme
Variabilité et multicatégorisation
Induction analogique

Travaux en veille

page en construction

maj 18-05-12

Formants vs enveloppe spectrale

Présentation

Il existe une polémique ancienne sur les indices spectraux des voyelles. Pour les uns, inspirés par la théorie de la phonation, les 2 (ou 3) premiers formants - modes propres du conduit vocal dans l'intervalle 250-3000 Hz - convoient l'information sur la voyelle. Cette vue est confortée par les observations des phonéticiens, qui ont remarqué la corrélation entre F1 et position de la mâchoire (ouverture) ainsi que celle liant F2 au point d'articulation (position antérieure/postérieure de la langue). Elle est appuyée aussi par la synthèse paramétrique qui permet, en spécifiant seulement les fréquences formantiques, de reconstruire des voyelles orales parfaitement intelligibles.

Pour les autres, il faut prendre en considération l'ensemble de l'enveloppe spectrale dans le même intervalle fréquentiel. Ils notent l'impossibilité d'identifier de manière sûre les formants dans le signal, l'insuffisance des formants pour caractériser certains sons (voyelles nasales), et les phénomènes d'intégration spectrale, montrant que lorsque deux formants sont proches (à moins de 3,5 Bark) ils sont perçus comme un seul indice (leur centre de gravité, prenant en compte les amplitudes respectives). Ce point de vue, basé sur la perception, est conforté par le fait qu'aucun système d'analyse-synthèse ou de reconnaissance n'a jamais pu fonctionner à partir d'une détection fiable des formants.

Mon point de vue

Les deux points de vue ne sont nullement contradictoires. La contradiction vient d'une position très réductrice, affirmant quelque chose comme : “les voyelles sont encodées dans le signal par les fréquences des formants; la phonation place les formants, et la perception les extrait du signal”. En fait rien n'empêche de considérer que les formants sont placés dans le signal par la phonation, sous contrôle de la perception du locuteur, de façon à modeler l'enveloppe spectrale, et que la perception s'intéresse aux caractéristiques saillantes du spectre, en particulier aux régions (à large bande) où l'énergie est concentrée.

Travaux menés sur ce sujet

Dès 1979 j'ai essayé de montrer que la connaissance précise des fréquences de formants n'était pas nécessaire à la reconnaissance des voyelles (cf C23). J'ai repris cette idée avec la notion de spectre à bosses (cf K24 et C55), qui préserve l'information des voyelles même pour les nasales du français, et même en considérant les variations dues à l'effort vocal. Le spectre à bosses est obtenu en faisant la différence entre deux versions fortement lissées de l'enveloppe spectrale (enveloppe vraie, passant par les pointes harmoniques). Chaque bosse correspond à une région spectrale comportant un formant ou plusieurs formants proches en échelle Bark.

Publications sur ce sujet

C55 - J-S. Liénard, M-G. Di Benedetto, 2000: “Extracting phonetic features from smoothed spectra”, 104th meeting of the Acoustical Society of America, Newport Beach, Ca. (résumé publié dans JASA 108 N°5 part 2, November 2000, texte integral en ref K24)

K24 - J-S. Liénard, 2000: “Extracting phonetic features from smoothed spectra”, Notes et Documents LIMSI n° 2000-13, (texte intégral de la communication C55).

C23 - J-S. Liénard, 1979: “Speech characterization from a rough spectral analysis”, ICASSP, Washington DC.

Perspectives

L'analyse en bosses spectrales sera reprise sur des transitions de type CV ou VCV, de façon à voir si on peut définir une notion comparable à la notion de locus pour les formants classiques (évolution des formants vers une valeur caractéristique de la place d'articulation de la consonne). Si cette idée se confirme, elle sera ensuite appliquée à des trames beaucoup plus courtes (infrapitch: quelques ms) que les trames considérées actuellement (quelques dizaines de ms), dans le cadre de l'analyse à très court terme décrite ci-après.

Analyse à très court terme

Présentation

L'analyse du signal de parole par Transformée de Fourier à Court Terme (STFT) se fait habituellement toutes les 5 ou 10 ms, sur une fenêtre temporelle assez longue (25 à 50 ms) pour englober plusieurs périodes, de façon à lisser les fluctuations dues au pitch. Ou, alternativement, avec un banc de filtres de bande passante assez faible pour résoudre les formants, soit de l'ordre de 50 à 300 Hz, suivi d'un redressement double alternance et, encore, d'un lissage temporel pour intégrer les fluctuations dues au pitch. Ces approches conceptuellement équivalentes sont dictées par le souci de séparer le plus précocément possible l'enveloppe spectrale associée à la fonction de transfert du conduit vocal, dont la variation est relativement lente, de la porteuse constituée par la suite des impulsions glottiques de fréquence F0.

Mon point de vue

Les approches mentionnées plus haut s'appuient sur la théorie source-filtre, qui postule l'indépendance de la source glottique et du conduit vocal et répond elle-même à la distinction plus générale entre voix et parole. Pourtant la parole met en oeuvre non seulement la vibration des cordes vocales mais aussi des sources de bruit apparaissant momentanément en divers points de constriction du conduit vocal, y compris au niveau de la glotte. De même, les brèves interruptions de fonctionnement des cordes vocales, combinées avec diverses occlusions ou constrictions du conduit vocal, ont sans discussion possible un role phonétique. De même, certains aspects de la prosodie ont clairement une valeur phonétique (accents, durées). Et il faut remarquer que l'usage d'une fenêtre couvrant plusieurs périodes ou d'un lissage des sorties de filtre fait disparaître des indices tels que les transitions rapides de fréquence ou d'amplitude qu'on rencontre lors de certaines ouvertures vocaliques. Par ailleurs la vue générale indique que ce n'est pas au plus bas niveau de la hiérarchie perceptive que se fait la distinction entre voix et parole. Il est donc légitime d'envisager une forme d'analyse du signal qui, au plus bas niveau, exploite toute la résolution temporelle offerte par l'audition naturelle et qui, à mesure qu'on s'élève dans les niveaux d'abstraction, extrait tel ou tel trait contribuant à former les indices à valeur phonétique, lexicale, prosodique, et autres informations transmises par la modalité orale.

La vue classique présentée plus haut a dû céder un peu de terrain au niveau théorique depuis l'apparition de la transformée en ondelettes, et aussi depuis qu'on a découvert que les structures temporelles fines du signal pouvaient être détectées et utilisées par l'audition. Cependant ces nouveaux outils et approches n'ont pas réussi à modifier en profondeur l'idée selon laquelle la voix devait être séparée de la parole dès le premier niveau d'analyse.

Travaux menés sur ce sujet

La recherche d'un mode d'analyse du signal qui respecte les structures temporelles fines me poursuit depuis le début des années 80, bien avant que l'analyse en ondelettes ne soit devenue populaire. La forme que j'ai appelée analyse impulsionnelle a fait l'objet de la thèse de Frédéric Manceron et de plusieurs publications (cf C29, C32, C34, C36, B6, F7). Le signal de parole était considéré comme une suite d'impulsions, glottiques et non-glottiques, possédant chacune un spectre spécifique. Le repérage des impulsions par les maxima de la fonction de cohérence utilisait un banc de filtres à bande large et phase nulle, approche qu'on retrouve aujourd'hui dans les méthodes spectro-temporelles d'estimation du pitch.

Par la suite lorsque j'étais en séjour aux US (Bell Labs puis Bellcore) j'ai cherché à décomposer chaque impulsion en ses composantes en termes de vibrations liées aux formants, que Xavier Rodet à l'IRCAM appelait FOF Formes d'Ondes Formantiques et qu'il utilisait avec succès en synthèse de voix chantée. Plusieurs publications ont été faites sur cette approche, dénommée Analyse Granulaire, notamment avec Christophe d'Alessandro (C41, H6, C46). Puis nous avons reconnu que cette approche n'était pas praticable en analyse-synthèse, en particulier parce qu'elle ne permettait pas une restitution correcte de la bande basse de la parole (zone des premiers harmoniques). C'était peut-être une erreur, car une hypothèse perceptive n'a nul besoin d'être validée par un procédé d'analyse-synthèse.

Depuis cette époque j'ai retravaillé sur le sujet en ne cherchant plus à décomposer chaque impulsion en FOF, mais en me contentant de caractériser chaque impulsion par une enveloppe spectrale grossière. Cette approche dénommée Analyse Milliseconde ou Analyse à Très Court Terme (en anglais VSTA) me semble prometteuse et j'y reviendrai dès que possible, en conjonction avec le Spectre à Bosses.

Publications sur ce sujet

C46 - C. d'Alessandro, J-S. Liénard, 1990: “Decomposition of the speech signal into short-time waveforms using spectral segmentation”, ICASSP, New York.

H6 - J-S. Liénard, C. d'Alessandro, 1989: “Wavelets and granular analysis of speech”, in “Wavelets, Time-Frequency Methods and Phase Space”, Springer Verlag.

C41 - J-S. Liénard, 1987: “Speech analysis and reconstruction using short-time, elementary waveforms”, ICASSP, Dallas.

F7 - J-S. Liénard, 1985: “Analyse à très court terme de la parole; un outil et quelques directions de recherche”, 14e JEP, Paris, juin 1985; version anglaise publiée lors du symposium franco-suédois de Grenoble, ICP, avril 1985.

B6 - J-S. Liénard, 1983: “Quelques aspects de l'analyse à très court terme de la parole”, colloque GALF-GRECO, ENST Paris, dec 1983. (texte non publié)

C36 - J-S. Liénard, 1983: “A tool for studying the fine time-frequency structures of speech”, 105th meeting of the ASA, Cincinnati, May 1983 ; résumé publié dans JASA, 73, suppl 1, p 586.

C34 - F. Manceron, J-S. Liénard, 1982: “Impulse analysis of speech ; spotting and preclassifying the impulses in the speech wave”, ICASSP, Paris.

C32 - J-S. Liénard, 1981: “Analyse impulsionnelle de la parole; expériences préliminaires”, 12e JEP, Montreal.

C29 - J-S. Liénard, 1981: “Speech as a string of pulses ; pulse coherence function”, ASA spring meeting, Ottawa.

Perspectives

Ce sujet ne relève pas seulement d'une vue théorique sur la perception de la parole et de la voix. Les travaux menés ces années-ci sur la séparation de parole et l'analyse multipitch m'ont convaincu de remettre en chantier une analyse à haute résolution temporelle. La raison en est la suivante: lorsque deux signaux voisés sont mélangés l'analyse sur une durée longue (cad plusieurs périodes) fait la part trop belle aux différences de phase des deux signaux qui entraînent de fortes distorsions du module spectral, rendant inapplicable le processus de sélection harmonique. Une approche plus appropriée pourrait se trouver dans un processus de sélection impulsionnelle, dans lequel chaque impulsion serait caractérisée spectralement et comparée aux impulsions environnantes en vue de la rattacher à l'un ou l'autre des flux en cours.

Variabilité et multicatégorisation

A compléter

Présentation

Depuis toujours, c'est-à-dire depuis les années 60, les ingénieurs qui s'intéressent à la reconnaissance automatique de la parole sont amenés à faire le constat de la très grande variabilité de la parole. De fait le signal de parole, même dans ses parties stables comme les voyelles tenues, n'est jamais identique à lui-même. Non seulement il varie au cours du temps, ce qui est bien normal puisqu'il convoie de l'information, mais encore il varie entre deux individus disant la même chose, ou d'une occurrence à l'autre pour un même locuteur. A ces variations infinies ont été imputées les difficultés initiales des algorithmes de reconnaissance. Dans les années 70 la programmation dynamique a permis de compenser en partie la variabilité temporelle entre deux séquences de même contenu phonémique. Dans les années 80 les méthodes probabilistes ont pris en compte de manière extensive les variabilités individuelle et lexico-syntaxique, moyennant puissance de calcul - aujourd'hui gratuite - et grandes bases de données, qu'il faut à grand'peine collecter, étiqueter, coder, étendre, tester.

Pourtant il y a quelque chose d'insatisfaisant à traiter la variabilité de cette manière. D'une part toutes les sources de vaiabilité ne sont pas encore prises en compte. Les variations relatives à la prise de son, au bruit ambiant, à l'effort vocal, à la spécificité de chaque locuteur et de chaque dialecte, aux distorsions de toutes sortes qui apparaissent dans la vie courante, multiplient chacune la dimension souhaitable des bases de données au point que prendre tout cela en compte n'est pas envisageable, et ce pour des raisons de main d'oeuvre plus que de puissance des outils. D'autre part cette complexité contraste avec la facilité dérisoire que nous avons, nous autres humains, à maîtriser la communication parlée en toutes circonstances, depuis la petite enfance et dans les conditions acoustiques les plus difficiles.

C'est pourquoi la thématique variabilité/invariants de la parole à tous niveaux reste actuelle: comment notre système perceptif et cognitif procède-t-il pour extraire des signaux réels les significations qui lui permettent de vivre en société ? La réponse à cette question serait scientifiquement intéressante, et permettrait sans doute d'améliorer le traitement automatique sous tous ses aspects.

Mon point de vue

Dans les années 80 j'ai adopté le slogan “la variabilité de la parole n'existe pas!”. Je voulais dire par là que toute variation systématique détectable par notre système auditif pouvait être porteuse d'une information pertinente pour l'auditeur à titre individuel, ou même pour un groupe sociolinguistique donné. A tout signal correspond un ensemble de descripteurs, largement interdépendants, de nature linguistique et non linguistique. Pour prendre un exemple élémentaire, on peut associer à une voyelle orale deux descripteurs de nature linguistique, par exemple les deux premiers formants F1 et F2. Mais ceux-ci dépendent d'un autre descripteur, de nature non linguistique, qui est le genre du locuteur (homme, femme, enfant). Si on mesure simplement F1 et F2 on ne peut pas reconnaître la voyelle de manière sûre. Mais si on connaît le genre du locuteur cette reconnaissance devient beaucoup plus précise.

Plus généralement je propose de remplacer le paradigme de la catégorisation - à un groupe d'objets perceptifs, décrits par des paramètres différents mais ayant une même fonction, est associée une même étiquette - par le paradigme de la “multicatégorisation”: tout objet perceptif est défini à deux niveaux d'abstraction, au niveau bas par des descripteurs relativement proches du monde concret, et au niveau haut par plusieurs descripteurs relativement abstraits. Selon les descripteurs de haut niveau considérés, un même objet peut apparaître dans une catégorie ou dans une autre. Cette conception, que j'ai aussi appelée “Traitement des Formes” (“Pattern Processing”) par opposition à la classique “Reconnaissance des Formes” (“Pattern Recognition”) conduit à une démarche relativement inédite dans le domaine de la parole, consistant à extraire à tous niveaux d'abstraction toutes les informations possibles, en même temps qu'un processus descendant (attentionnel) sélectionne à tous niveaux celles qui sont requises ou anticipées par les niveaux supérieurs, en fonction du comportement du sujet (ou du système). On rejoint ici les grandes lignes exposées plus haut dans la vue générale.

Travaux menés sur ce sujet

Je porte depuis très longtemps cette thématique de la variabilité et de la multicatégorisation, exprimée dans les publications mentionnées ci-dessous. J'ai bien conscience du fait qu'il s'agit d'une simple réflexion, qui ne donne lieu, en soi, ni à démonstration ni à expérimentation. Elle est cependant à la fois la base et le but de ma démarche en matière d'analyse du signal de parole: je cherche en permanence à trouver les indices caractérisant les divers types d'information présents dans le signal, et à expliquer leurs relations mutuelles.

Publications sur ce sujet

G8 - J-S. Liénard, 2003: “Une approche multicatégorielle de l'objet perçu”, journées d'étude “Objets, Sources et Scènes dans la Communication”, CNRS-STIC, RTP Communications et Dialogues, ENS Paris.

H16 - J-S. Liénard, 2002: “Variabilité et Multicatégorisation”, in Invariants et variabilité dans les Sciences Cognitives, eds J.Lautrey, B.Mazoyer, P. van Geert, Presses de la Maison des Sciences de l'Homme, Paris.

B12 - J-S. Liénard, 2000: “Variabilité et multicatégorisation”, colloque de l'Action Cognitique “Invariants et variabilité dans les Sciences Cognitives”, intervention en tant que discutant du thème “Catégories et Variabilité” (texte non publié mais repris en partie dans H16).

G4 - J-S. Liénard, 1999: “Variabilité de la parole, Traitement des Formes et Induction Analogique”, séminaire du LORIA, Nancy.

H11 - J-S. Liénard, 1996: “Perception et variabilité de la parole”, in Fondements et perspectives en traitement automatique de la parole, ed. H.Meloni, AUPELF.

C53 - J-S. Liénard, 1995: “Speech Pattern Processing : integrating the linguistic and non-linguistic aspects of voice and speech”, XIIIth Int. Congress of Phonetic Sciences, Stockholm.

H10 - J-S. Liénard, 1995: “From speech variability to pattern processing : a non-reductive view of speech processing”, in “Levels in Speech Communication : relations and interactions”, eds J.Schoentgen et al., Elseviers Science Publishers.

C47 - J-S. Liénard, 1990: “Perception, data variability and inductive inference”, AFCET COGNITIVA, Madrid.

B8 - J-S. Liénard, 1989: “Variabilité, contraintes et spécification de la parole : un cadre théorique”, actes du séminaire SFA-GCP sur la variabilité, Marseille, juin 1989 (conférence invitée, texte publié dans les actes).

C40 - J-S. Liénard, 1984: “Une approche globaliste de la variabilité de la parole”, 13e JEP, Bruxelles.

Perspectives

Induction analogique

A compléter

Présentation

Mon point de vue

Travaux menés sur ce sujet

Publications sur ce sujet

G4 - J-S. Liénard, 1999: “Variabilité de la parole, Traitement des Formes et Induction Analogique”, séminaire du LORIA, Nancy.

H13 - J-S. Liénard, 1999: “Variability, ambiguity and attention: a perception model based on Analog Induction”, in Human and Machine Perception; Emergence, Attention and Creativity, eds V.Cantoni et al., Kluwer Academic/Plenum Publ., New York, 87-98.

G2 - J-S. Liénard, 1997: “Traitement des Formes et Induction Analogique”, Poster, Journées NSI sur la Vision, Aussois.

K22 - J-S. Liénard, 1993: “Apprentissage de transformations point à point par induction analogique”, Notes et Documents LIMSI n° 93-07.

Perspectives

Traductions de cette page:

en
fr