Outils pour utilisateurs

Outils du site


lienard:recherche:travaux_recents

Travaux récents ou en cours

page en construction

maj 17-05-12


Séparation de parole monocanal

Présentation

L'audition naturelle possède une extraordinaire capacité à percevoir à volonté un signal de parole mélangé à d'autres (Effet de Cocktail Party), comme cela a été démontré dans les années 50 par le psychologue Colin Cherry.

Cet effet peut faire appel à la sélectivité directionnelle du système auditif, mais il se manifeste aussi à l'écoute de deux signaux provenant de la même direction. C'est la raison pour laquelle la séparation de parole monocanal constitue un problème plus basique, qui doit nous éclairer sur certains mécanismes fondamentaux de la perception auditive.

La séparation aveugle de sources sonores (Blind Source Separation, BSS) est aujourd'hui un domaine de pointe du traitement du signal; mais elle postule toujours un certain nombre d'hypothèses limitatives qui la distinguent de l'audition naturelle. En revanche la séparation de parole monocanal se place dans le double cadre de la psychoacoustique et de l'ingénierie du signal. L'Analyse des Scènes Auditives (ASA) a été définie dans le domaine de la psychoacoustique par Albert Bregman dans son livre fondateur (“Auditory Scene Analysis”, MIT Press, 1990). L'Analyse Computationnelle des Scènes Auditives (Computational Auditory Scene Analysis, CASA) vise à la simuler par des moyens relevant du traitement du signal et de l'intelligence artificielle. On peut trouver un état de l'art de ces deux aspects dans les ouvrages de Pierre Divenyi, ed. (“Speech Separation by Humans and Machines”, Springer, 2005) et de DeLiang Wang et Guy Brown, eds. (“Computational Auditory Scene Analysis”, Wiley, 2006).

Parmi les notions-clés développées en ASA/CASA se trouvent les idées de “glimpsing” (Cooke) et de “masque binaire” (Wang), qui considèrent que dans un mélange de deux signaux chacun peut être “aperçu” partiellement, par les “trous spectro-temporels” de l'autre (pauses, espaces fréquentiels entre formants, espaces temporels des occlusives, etc). Plusieurs systèmes ont été décrits dans la littérature, sans pour l'instant fournir une solution complète du problème.

Mon point de vue

En accord avec la vue générale on peut faire les remarques suivantes:

- il convient de distinguer diverses situations: mélange de voyelles de même intensité sonore, superposition artificielle de parole soignée enregistrée isolément, discussion en situation réelle avec prise de son globale. Dans chaque cas on a affaire à un matériau de parole plus ou moins bien articulé et de plus ou moins grande prévisibilité.

- comme en reconnaissance automatique traditionnelle, il faut prendre conscience des connaissances implicitement utilisées pour sélectionner un signal ou l'autre: langue, locuteur, syntaxe, mots, phrases, qui font qu'un système fonctionne dans des conditions données mais peut faire des erreurs aberrantes dès qu'on s'en écarte. Cette remarque vaut d'ailleurs pour tous les systèmes artificiels traitant des informations destinées à l'humain.

- l'importance reconnue de la structuration descendante (“top-down”) ne doit pas conduire à négliger le rôle de la structuration perceptive ascendante (bottom-up), séquentielle ou simultanée. Cette stucturation ascendante est d'ailleurs, en fin de compte, indispensable à l'apprentissage de connaissances nouvelles. Les bas niveaux de la perception acoustico-phonétique sont le plus souvent trop pauvrement modélisés.

Avant de vouloir résoudre l'ensemble de ce problème très complexe, il serait intéressant de construire un système effectuant “simplement” la tâche imaginaire suivante:

  1. on dispose de N locuteurs “connus” du système; le système est capable de reconnaître l'identité de chacun et de reconnaître les sons qu'il prononce
  2. on mélange des séquences prononcées par deux de ces locuteurs; ce mélange est habituellement non reconnaissable par un système classique
  3. on fournit ce mélange au système, ainsi qu'une information sur un locuteur, p.ex. son identité
  4. la tâche du système est de trouver i) ce qu'a dit le locuteur désigné, et accessoirement ii) l'identité de l'autre locuteur, et iii) ce qu'il a dit.


Un tel protocole de multicatégorisation peut s'appliquer tant à des matériaux de parole élémentaires, par exemple des voyelles isolées, qu'à des matériaux plus complexes, mots ou phrases, plus ou moins structurés. Il permet d'étudier des paramètres non-linguistiques, tels que la prosodie, le genre du locuteur (homme, femme, enfant) ou l'effort vocal, en relation avec des paramètres linguistiques. Il renvoie en fait aux travaux exposés par ailleurs dans la présente notice: “Variabilité et multicatégorisation” et “Induction analogique”.

Travaux menés sur ce sujet

Le travail mené avec François Signol en vue de sa thèse à partir de 2005 visait initialement à séparer deux signaux de parole mélangés artificiellement. Nous avons commencé par des mélanges de voyelles soutenues, car le problème paraissait simple et la littérature psychoacoustique (paradigme des doubles voyelles) nous donnait une idée assez nette des résultats à atteindre.

Nous avons testé la méthode classique de sélection harmonique consistant à isoler dans le spectre les multiples de la fréquence fondamentale de chaque voyelle constituante, F01 et F02, et à les recombiner avec leur phase et leur amplitude. Ceci fonctionne étonnamment bien vu la rusticité du procédé, mais nous avons mis en évidence deux problèmes majeurs.

- Le premier (problème des harmoniques communs) apparaît lorsque deux constituants spectraux des voyelles initiales ont sensiblement même fréquence et même amplitude. Alors l'amplitude mesurée dans cette zone est complètement dépendante de la phase relative des constituants, qui peuvent s'annuler, s'ajouter (+6dB) ou prendre n'importe quelle valeur intermédiaire. Donc les caractéristiques des harmoniques sélectionnés peuvent être largement erronées et cela peut altérer le timbre des voyelles reconstruites. Nous avons mené divers essais d'interpolation (hypothèse de continuité de l'enveloppe spectrale) pour corriger ce défaut, sans aboutir à une solution suffisamment générale.

- Le second problème est de nature méthodologique: dans une application réelle, la méthode de séparation harmonique n'a de sens que si l'on sait obtenir une estimation des F0 des deux voyelles à partir de leur mélange, puisqu'on ne dispose pas a priori de leur présentation isolée. Cette seconde considération nous a conduits à réorienter le sujet vers l'analyse multipitch.

Publications sur ce sujet

Patience… travail en cours.

Perspectives

Le travail de thèse de François Signol a abouti à un algorithme (PSH, voir ci-après) qui permet de repérer précisément les segments monovoisés dans un mélange, et de proposer plusieurs candidats dans les segments bivoisés. Une stratégie de recherche de continuité reposant sur les “îlots de confiance” des segments monovoisés devrait permettre d'identifier les bons F0 des segments bivoisés adjacents, et nous ramener au problème principal, qui sera traité selon le protocole de multicatégorisation évoqué ci-dessus.



Parole superposée

Présentation

Le terme de “Parole Superposée” désigne une forme restreinte du problème de séparation de parole. Un système de reconnaissance automatique de la parole, du locuteur, ou des deux (“diarization”), conçu pour traiter des matériaux de parole purement séquentiels, est perturbé lorsqu'un signal étranger - en particulier une autre voix - se trouve mélangé au signal à traiter. Il serait donc intéressant, dans les situations où plusieurs interlocuteurs peuvent intervenir, de savoir détecter les instants où deux séquences de parole sont en recouvrement. Ceci pour pouvoir les ignorer, ou pour en extraire les signaux composants.

Mon point de vue

Les difficultés rencontrées avec la parole superposée illustrent l'une des hypothèses implicites posées par les systèmes de reconnaissance: captée habituellement par une prise de son de proximité, la parole est considérée comme étant de nature purement séquentielle (comme l'écrit…). Ces systèmes sont donc désemparés lorsqu'ils ont à traiter plusieurs signaux de parole simultanés. Par contraste l'audition naturelle, située et interactive, munie de mécanismes d'attention et d'anticipation, est beaucoup moins perturbée par les signaux simultanés, qui font partie du quotidien.

L'analyse multipitch que nous avons développée (PSH, voir ci-après) peut être utilisée sous une forme rudimentaire mettant à profit sa capacité à détecter les segments dans lesquels coexistent zéro, un, ou plusieurs voisements. Par ailleurs il convient d'approfondir la notion de recouvrement de deux signaux de parole, dont chacun possède de nombreux trous temporels exploités par l'audition naturelle (glimpsing).

Travaux menés sur ce sujet

En ne retenant de la sortie de PSH que le caractère non-voisé (valeur 0), voisé (valeur 1) ou bi-voisé (valeur 2) de chaque trame, indépendamment de l'estimation des F0, on obtient une fonction qui, lissée sur une durée de 1s, révèle des maxima correspondant aux segments comportant deux voix mélangées.

Lorsque deux voix se superposent, les segments voisés (voyelles et consonnes sonores) ne se superposent pas en permanence. En comptant les instants marqués comme voisés par les auteurs d'une base de données classique pour l'estimation de F0 (Keele) on constate deux points importants. En premier lieu, la durée cumulée des segments voisés, pour chaque voix prise isolément, est de l'ordre de 50% seulement de la durée totale. En second lieu, lorsque ces voix sont mélangées, les segments bivoisés, comme les segments non voisés, occupent logiquement environ 25% du temps, ce qui est très peu. Les 50% restants sont constitués de segments monovoisés, qui peuvent servir de points d'ancrage pour tout traitement automatique.

Ces résultats sont présentés dans la publication C65 référencée ci-dessous.

Publications sur ce sujet

C65 - J-S. Liénard, C. Barras, F. Signol, 2011: “Time structure and detection of the multivoiced segments in mixed speech”, ICPhS17, Hong Kong.

Perspectives

Avec Claude Barras nous travaillons actuellement à tester la validité des résultats précédents dans le cadre de la diarization, avec les méthodes probabilistes et les bases de données utilisées dans ce domaine. Par ailleurs, avec les connaissances acquises sur ce problème restreint, nous allons revenir vers le problème général de séparation de parole.



Multipitch

Présentation

La détection de la fréquence fondamentale d'une source sonore - voix, instruments de musique - est un problème très ancien dont la solution n'est pas encore complètement acquise. Les méthodes employées, qu'elles soient temporelles, fréquentielles ou spectro-temporelles, présentent toutes des défauts par rapport à l'audition naturelle. Les résultats, même s'ils paraissent faibles en termes de taux d'erreur (de l'ordre de 1% sur des signaux de parole non bruités) sont encore insuffisants pour rendre perceptivement acceptables les traitements d'analyse-synthèse temps réel de type pitch-synchrone reposant sur l'hypothèse d'indépendance entre source et conduit vocal.

Lorsque plusieurs signaux sont mélangés le problème, que nous appellerons dans la suite estimation multipitch, est encore plus incertain, et les solutions proposées sont encore plus éloignées de la réalité auditive. Il n'existe aujourd'hui aucune méthode fiable pour traiter ce problème, et aucune méthodologie reconnue ne permet d'évaluer comparativement les résultats au bas niveau.

Mon point de vue

La détection de F0 pour un signal de parole n'a de sens que lorsque le signal est voisé, c'est-à-dire que le flux d'air traversant la glotte est modulé par une vibration quasi-périodique des cordes vocales. Il faut remarquer que le voisement au sens phonologique (trait distinctif, binaire) n'est pas le reflet exact de l'état vibratoire ou non du signal. C'est une notion abstraite, comme l'est l'étiquette d'un phonème par rapport à l'existence de tel ou tel formant ou autre indice acoustique. Nous sommes là dans les tout premiers niveaux de la perception auditive (niveaux 1 à 3 du schéma hiérarchique de la perception de la parole, cf vue générale).

Dans les condition ordinaires de l'écoute de la parole, le sujet humain ne fait pas d'erreurs harmoniques (perception d'une fréquence multiple de F0, p.ex. erreur d'octave) ni sous-harmoniques (perception d'une fréquence sous-multiple de F0, p.ex. sous-octave). Or tous les systèmes de détection de pitch font de telles erreurs, difficilement corrigées a posteriori au moyen de contraintes de continuité, d'interdiction des sauts d'octave ou d'optimisation globale. Ceci indique que l'audition naturelle dispose d'un mécanisme permettant d'éviter ces erreurs, vraisemblablement à un niveau proche du signal (0 ou 1).

A l'écoute d'un mélange de deux voyelles soutenues le sujet humain est parfaitement capable de distinguer les deux hauteurs - et les deux voyelles - pourvu qu'il y ait une différence soit en fréquence (quelques %, de l'ordre d'un demi-ton), soit en timbre de voix, soit en évolution temporelle (vibrato). La structuration perceptive ascendante semble simultanée mais c'est par un processus descendant (attention) que la perception sélectionne l'une ou l'autre à volonté. Ici encore, comme dans la section Séparation de parole, on voit apparaître un processus de multicatégorisation.

Travaux menés sur ce sujet

Pour ce travail François Signol, Claude Barras et moi-même avons bénéficié de deux Actions Incitatives (contrats internes) du LIMSI. Notre approche dérive de celle de Philippe Martin, dont le peigne spectral fonctionne remarquablement bien, comparé à l'autocorrélation temporelle ou spectrale. Sous sa forme originale il ne permet pas de traiter le problème d'estimation multipitch. Nous l'avons modifié de façon à éliminer d'entrée les solutions parasites de type harmonique et sous-harmonique. Nous l'avons dénommé Peigne à Suppression Harmonique (PSH). Au lieu d'un seul peigne nous utilisons conjointement deux familles de peignes, les peignes à dents manquantes et les peignes à dents négatives, chacune éliminant un sous-ensemble spécifique de solutions erronées. PSH fonctionne indifféremment en mode monopitch (une seule solution F0 attendue) ou bipitch (deux solutions attendues).

PSH a été évalué sur des mélanges de parole provenant de bases de données reconnues dans le domaine de l'estimation de pitch, et comparé à des algorithmes existants appliqués aux mêmes données. En mode monopitch PSH est proche des meilleurs résultats publiés pour des algorithmes intrinsèquement monopitch (Swipe de A.Camacho). En mode bipitch, plus difficile à évaluer, les résultats sont au niveau du meilleur algorithme testé, celui de Wu, Wang and Brown, qui met en oeuvre un puissant post-traitement et est beaucoup plus lent.

Le principe de l'algorithme et son évaluation sont décrit dans la thèse de François Signol, ainsi que dans les publications C62 et C63. Une version préliminaire, mentionnant seulement le peigne à dents négatives (peigne alterné) se trouve dans C61.

Publications sur ce sujet

C64 - F. Signol, J-S. Liénard, C. Barras, 2010: “Influence de la décision voisée/non-voisée dans l'évaluation comparative d'algorithmes d'estimation de F0”, JEP 2010, Mons.

C63 - F. Signol, C. Barras, J-S. Liénard, 2008: “Evaluation of the Pitch Estimation Algorithms in the Monopitch and Multipitch cases”, ACOUSTICS'08, Paris.

C62 - J-S Liénard, C. Barras, F. Signol, 2008: “Using Sets of Combs to Control Pitch Estimation Errors”, ACOUSTICS'08 Paris, text also published online in ASA Proceedings Of Meetings on Acoustics POMA, vol 4, 060005, 2008.

F12 - J-S. Liénard, F. Signol, 2008: “Multiple pitch estimation: a step towards speech separation”, colloque Digiteo, Supélec, Gif sur Yvette.

C61 - J-S. Liénard, F. Signol, C. Barras, 2007: “Speech Fundamental Frequency Estimation Using the Alternate Comb”, INTERSPEECH 2007, Antwerpen, 2273-2276.

F9 - F. Signol, J-S. Liénard, 2006: “Détection de F0 multiples dans des signaux de parole mélangés”, JJCAAS 2006, Lyon.

C45 - C. Marin, S. McAdams, J-S. Liénard, 1990: “Le rôle des battements sur la séparation perceptive de sources sonores simultanées due à l'indice de modulation de fréquence”, 1er Congrès Français d'Acoustique, Lyon, février 1990, publié par Le Colloque de Physique, supplément au n° 2, tome 51.

Perspectives

L'algorithme PSH ne constitue nullement un aboutissement. Il fait encore des erreurs, que nous travaillons à réduire en utilisant des informations de continuité entre trames connexes ainsi que les solutions fiables trouvées dans les segments monovoisés. Mais dès à présent nous mettons à profit ses bonnes propriétés de détection du multivoisement (décision sur trames non-voisées, monovoisées ou bivoisées) et sa rapidité d'exécution dans nos travaux sur la parole superposée (cf section ci-dessus).



Effort vocal

Présentation

En situation naturelle d'interaction orale (en l'absence d'appareillage électroacoustique ou de téléphone) l'effort vocal est lié à la situation de communication dans laquelle se trouvent les interlocuteurs: distance, niveau de bruit ambiant. Le locuteur parle assez fort pour être compris de son interlocuteur, mais pas trop fort, pour éviter tout effort inutile. Parler plus fort signifie aussi parler plus haut: la relation entre l'intensité sonore émise et la hauteur moyenne de la voix est connue depuis longtemps.

Le terme d'effort vocal renvoie à la production plus qu'à la perception. Des conditions acoustiques difficiles, certaines pathologies du larynx, une place de voix mal adaptée, peuvent entraîner une fatigue et des troubles physiologiques chez les chanteurs, les orateurs, les personnes ayant à communiquer en milieu bruyant.

Les études menées depuis une trentaine d'années ne sont pas restées sur le plan de la phonation, de la voix criée et de l'effet Lombard. Elles ont aussi cherché à déterminer l'effet de l'effort vocal sur les structures acoustiques de la parole. On a ainsi constaté que le premier formant, l'énergie des aigus, le rapport d'intensité entre les voyelles et les fricatives, augmentaient avec l'intensité et la fréquence fondamentale. On a aussi montré qu'il existait une corrélation entre la force de voix et la distance entre interlocuteurs, au moins pour les grandes distances et donc pour les fortes intensités.

Mon point de vue

Mon intérêt pour l'effort vocal vient des considérations rapportées dans la vue générale, sur la variabilité et sur les aspects situés et interactifs de la communication orale. D'une part le fait de changer la force de sa propre voix est une source de variabilité considérable, qui n'est pas prise en compte dans les systèmes automatiques (assimilée à une simple différence de timbre et traitée de manière exhaustive). D'autre part, dans la réalité de tous les jours nous ajustons en permanence l'intensité de notre voix à la distance de notre interlocuteur et aux conditions acoustiques, de manière largement inconsciente. Enfin, quand le niveau sonore reçu par l'auditeur est modifié (téléphone, système électroacoustique), celui-ci est encore capable de distinguer de nombreuses nuances de force de voix et de deviner à quelle distance le locuteur estime la position de l'interlocuteur auquel il s'adresse. Une voix chuchotée amplifiée reste une voix chuchotée et suggère une forte proximité entre les interlocuteurs. Il en résulte que les indices de l'effort vocal utilisé par le locuteur, indépendamment de l'intensité de sa voix, existent dans le signal et sont parfaitement perçus par tous les membres d'un même groupe socio-linguistique.

Ce sont ces indices, dans la communication orale ordinaire (en voix conversationnelle), qui font l'objet de mes recherches présentes sur ce thème. Les voix extrêmes - voix criée, voix chuchotée - me semblent moins dignes d'intérêt que la voix ordinaire, en situation. Je pense que n'importe quel sujet parlant est capable de distinguer au moins 7 degrés d'effort vocal: voix chuchotée, très faible, faible, normale, forte, très forte, criée, dont chacune évoque une distance de communication comprise entre quelques cm et quelques dizaines de mètres.

Travaux menés sur ce sujet

J'ai travaillé sur ce sujet - l'effort vocal comme source de variabilité - dans les années 90 (cf publications ci-après). Mon intérêt pour le sujet a été relancé par l'invitation à donner une conférence au congrès PEVOC en 2011. Cette conférence m'a amené à replacer le problème dans le cadre de la communication située, et à reprendre son étude sur de nouvelles bases.

Plusieurs collègues du LIMSI m'ont fait part de leur intérêt pour le sujet, qui a des implications dans divers champs disciplinaires: phonation, expression, émotion, analyse, traitement automatique, perception. Le LIMSI a bien voulu nous accorder - à Claude Barras et moi-même - une Action Incitative qui a commencé début 2012. L'objectif est de déterminer les indices ou combinaisons d'indices acoustiques - hors intensité - révélant le degré de force de voix utilisé par le locuteur, et si possible de les extraire automatiquement du signal.

Publications sur ce sujet

C67 - J-S. Liénard, C. Barras, 2013: “Fine-grain voice strength estimation from vowel spectral cues”, InterSpeech, Lyon.

B13 - J-S. Liénard, 2011: “Vocal effort in situation”, invited conference, Pan European Voice Conference PEVOC9, Marseille.

A8 - J-S. Liénard and M-G. Di Benedetto, 1999: “Effect of vocal effort on spectral properties of vowels”, Journal of the Acoustical Society of America, 106 (1), 411-422.

G6 - J-S. Liénard, 1999 : “L'effort vocal, facteur de variabilité du signal de parole”, séminaire du LIMSI-TLP, Orsay.

C50 - M-G. Di Benedetto, J-S. Liénard, 1994: “Influence of the vocal effort on vowels”, 127th ASA meeting, Boston, June 1994, résumé publié dans JASA 95 part 2, spring 1994.

C49 - J-S. Liénard, M-G. Di Benedetto, 1992: “Evaluation perceptive d'un corpus de voyelles françaises émises isolément par plusieurs locuteurs selon diverses forces de voix”, 19e JEP, Bruxelles.

Perspectives

L'extraction automatique des indices d'effort vocal à partir du signal, sans avoir recours à son intensité (en général non préservée à la prise de son), permettrait d'utiliser cette information non-linguistique dans une quantité d'approches et d'applications. Elle conforterait l'approche multi-catégorielle de la perception que je présente par ailleurs.


Traductions de cette page:
lienard/recherche/travaux_recents.txt · Dernière modification : 2014/03/06 09:59 de 127.0.0.1

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki