Recherche


visiteurs depuis la mise en service

Thèse


Expression langagière ambiguë et modélisation cognitive symbolique
Un modèle informatique de traitement de la polysémie d’usage

Thèse de doctorat de l’Université Paris 8
Discipline : Informatique – Spécialité : Intelligence Artificielle

Présentée et soutenue publiquement le 21 mai 1999
 Par
Sylvain Surcin
(sylvain.surcin @ free.fr)

Sous la direction de
Violaine Prince, professeur des universités à Paris 8






Effectuée sous la direction de Violaine Prince, de 1995 à 1996 au LIMSI (Université Paris 11 - Orsay), et de 1997 à 1998 au LRIA (Université Paris 8).


Résumé

Expression langagière ambiguë et modélisation cognitive symbolique.
Un modèle informatique de traitement de la polysémie d’usage.

Notre but est la mise au point d’un système de traitement automatique des ambiguïtés lexicales engendrées par les formes de polysémie complexes. L’objectif majeur est la robustesse : le système doit fournir des interprétations de mots ambigus en contexte ouvert, même lorsque l’information contextuelle est dégradée.
A partir des questions «Comment décrire linguistiquement les ambiguïtés lexicales ?» et «Quels traitements informatiques des ambiguïtés ont été proposés ?», nous aboutissons au double choix suivant : nous cherchons à modéliser le traitement des formes complexes de polysémie (les moins étudiées en informatique, ou réputées non calculables) dans le cadre linguistique de la sémantique différentielle. Nous nous concentrons plus particulièrement sur la polysémie d’usage, qui n’a été qu’effleurée en linguistique et en informatique, pour en proposer une caractérisation systématique. En conclusion, l’indécidabilité de ces ambiguïtés est nécessaire à la cohérence sémantique des énoncés qui les contiennent ; elles ne doivent pas être résolues.
En nous basant sur les systèmes informatiques existants, nous proposons un modèle de lexique dynamique inspiré du modèle EDGAR. Ce modèle, PELEAS, intègre l’ambiguïté dans ses structures. Pour une occurrence ambiguë donnée, il calcule une analyse des contributions d’une base d’usages attestés dans sa signification en contexte. Ce lexique est un hybride entre un système symbolique (structures lexicales) et connexioniste (algorithme de calcul).
Il est mis en œuvre par un jeu de logiciels sous forme de contrôles ActiveX. Leur réalisation applique des techniques de spécification formelle, de conception orientée objets avancée et de programmation distribuée.
Une phase de test de ces logiciels a permis de valider le modèle qui s’avère parfaitement robuste en conservant une pertinence et une efficacité raisonnable. Les résultats montrent qu’il est particulièrement adapté à l’interprétation des mots jokers, jeux de mots et doubles sens.

Mots clés : langage naturel – compréhension et interprétation de l’écrit – sémantique lexicale – ambiguïté – polysémie – emploi et usage
 
 

Abstract

Ambiguous linguistic expression and symbolic cognitive modelling.
A computational model for handling usage polysemy.

We aim to build a system for processing lexical ambiguities that are generated by complex forms of polysemy. Our main objective is robustness: this system must be able to interpret ambiguous words in open context, even when contextual information is degenerated.
Starting from questions like “How to linguistically describe lexical ambiguities?” and “Which computational treatments of ambiguities are available?”, we reach a double choice: we try to model the processing of complex forms of polysemy (the least studied in computer science, renowned as non-calculable) inside the frame of differential semantics. We focus especially on usage polysemy, that has never been fully studied, neither linguistically nor computationally, and we propose a systematic characterisation for it. As a conclusion, these ambiguities’ vagueness is necessary to the semantic cohesion of the statements in which they appear: they must not be resolved.
Undertaking some existing computational systems, we propose a model of dynamic lexicon inspired from the EDGAR model. Our model, PELEAS, integrates ambiguity in its structures. For a given ambiguous occurrence, it computes an analysis of the contributions of an attested usage database for the occurrence’ meaning in context. This lexicon is a hybrid between a symbolic system (lexical structures) and a connectionist network (algorithm).
It is implemented by a software pack (a set of ActiveX controls). Their development implies techniques of formal specification, advanced object oriented design and distributed programming.
PELEAS has been validated through a test phase on this software pack. The model proved to be perfectly robust while keeping a reasonable level of pertinence and efficiency. Results show that it is most efficient on joker words, plays on words and double meanings.

Keywords : natural language – written text understanding and interpretation – lexical semantics – ambiguity – polysemy - usage


Résumé complet

Objectifs
Cette thèse se situe dans le domaine du traitement automatique des langues naturelles. Elle a pour but l’étude exploratoire de certains phénomènes d’ambiguïté lexicale que nous regroupons sous la dénomination de polysémie d’usage (ex. dans "Le marché est dynamique aujourd’hui", marché désigne à la fois l’institution, la bourse, ses tendances, ses acteurs…), et la mise au point d’un prototype de traitement automatique de ces ambiguïtés par une machine.
Notre objectif est de mettre au point un système informatique permettant à une chaîne logicielle d’analyse automatique de textes en contexte ouvert de ne pas se trouver en situation d’échec lors de l’analyse sémantique d’expressions ou de mots ambigus relevant de la polysémie d’usage. Ces ambiguïtés se révèlent non résolubles par nature. En effet, elles correspondent à une multiplicité d’interprétations qu’on ne peut discriminer les unes des autres, étant donné qu’elles s’avèrent toute compatibles avec le contexte dans lequel apparaît l’ambiguïté. A moins de leur réserver un traitement particulier, un système d’analyse automatique doit donc, pour éviter une situation d’échec, opérer un choix arbitraire entre les différentes interprétations possibles afin de n’en sélectionner qu’une. Or cette politique conduit, dans le cas de la polysémie d’usage, à une perte d’information qui a de grandes chances de provoquer un échec ultérieur de l’analyse, la suite du discours pouvant toujours faire référence à l’une des interprétations qui ont été éliminées.

La polysémie d’usage est une situation dans laquelle les différentes interprétations possibles de l’expression ambiguë diffèrent entre elles par des traits caractéristiques locaux n’appartenant pas à la définition stricte (intensionnelle) de l’expression en question. Ces traits sont le produit des usages de l’expression dans la langue en un temps et en un lieu définis. Il s’agit généralement de références à des données socioculturelles locales qui sont passées implicitement dans la langue. De plus, une caractéristique essentielle de la polysémie d’usage est la simultanéité des interprétations valides : plusieurs interprétations sont à conserver en même temps, sous peine de perdre des informations potentiellement pertinentes.
En plus de l’objectif de robustesse, nous nous fixons un objectif de pertinence relative : notre modèle doit conserver un maximum d’interprétations pertinentes simultanément. Cela afin de laisser la possibilité à un analyseur sémantico-pragmatique en aval la possibilité de conserver tous les aspects évoqués par l’expression ambiguë (au prix d’une analyse non–déterministe par retour–arrière, par exemple, si cet analyseur fonctionne avec des structures sémantiques non ensemblistes).

Démarche
Nous partons d’une réflexion sur la nature des ambiguïtés lexicales, leurs descriptions par la linguistique, et leurs traitements par le traitement automatique des langues naturelles. Connaissant les difficultés de traitement provoquées par les ambiguïtés lexicales, notre première étape est de questionner la linguistique, et pour chaque réponse obtenue, d’examiner les techniques employées en informatique pour résoudre ou contourner les problèmes.
Les ambiguïtés sont expliquées en linguistique par trois théories : une théorie de l’homonymie (ou correspondance formelle fortuite entre des sens indépendants) dans la linguistique transformationnelle–générative (cf. Chomsky, Katz et Fodor), une théorie de l’indétermination (ou effacement de la référence devant les signes, cf. Martinet, Weydt, François) issue du structuralisme radical, et enfin une théorie de la polysémie (ou multiplicité des "effets de sens" pour un signe unique) chez certains structuralistes européens (cf. Le Goffic, Fuchs, Tesnières, Pottier, Culioli). Un certain nombre d’ambiguïtés sont efficacement traitées en informatique grâce à l’application des deux premières théories. Mais beaucoup d’autres sont encore insolubles, et c’est pourquoi nous nous tournons vers la théorie de la polysémie pour tenter de les traiter.
La polysémie est elle-même un vaste domaine, et après nous être munis d’outils linguistiques théoriques pour la caractériser et l’étudier, nous tentons de classer différentes formes de polysémie en fonction à la fois des traitements qui leurs sont appliqués en informatique, et de leurs caractéristiques linguistiques. Cela nous amène à distinguer la polysémie fonctionnelle (proche de l’homonymie et bien traitée en informatique), la polysémie d’acception (qui commence déjà à faire échouer les techniques classiques de restriction de la sélection des signifiés compatibles avec le contexte) et enfin la polysémie d’usage, qui contredit toute volonté d’appliquer une quelconque stratégie de résolution des ambiguïtés.
La polysémie d’usage n’est qu’effleurée en linguistique, et seuls quelques travaux exploratoires la prennent en compte en informatique. Or, elle s’avère très présente dans le langage quotidien, mais aussi dans les langages de spécialité. Face à cette lacune, nous nous proposons de l’étudier plus en détails.
La première phase de cette étude consiste à la caractériser linguistiquement : quels sont ses sous–types, ses occurrences ? Quels sont leurs points communs et leurs différences ? La complexité du phénomène nous pousse à nous interroger sur le choix du paradigme sémantique dans lequel nous le décrirons. Une brève étude des ressources descriptives offertes nous conduit à préférer la sémantique différentielle aux cadres plus traditionnels en intelligence artificielle de la sémantique référentielle et de la sémantique inférentielle. C’est dans ce cadre que nous pouvons aborder les mécanismes qui sont au cœur de la polysémie d’usage : la connotation, la profondeur sémantique et la continuité sémantique.
Dans une deuxième phase, nous cherchons, parmi les systèmes existant en traitement automatique des langues naturels, des principes de base pour la constitution d’un modèle de traitement de la polysémie d’usage. Au terme de cette revue de l’existant, nous choisissons de constituer ce modèle en tant que lexique dynamique. Nous nous inspirons plus particulièrement du modèle EDGAR de Prince, conçu dans le cadre du traitement de la polysémie des mots courants.
Pour finir cette phase préalable à la constitution d’un modèle opérationnel, nous avons mené une expérience destinée à nous fournir des renseignements complémentaires à la sémantique différentielle, qui apporte peu de données. Cette expérience consiste en l’observation d’une équipe de traducteurs professionnels face à des ambiguïtés lexicales de type polysémie d’usage. Nous partons pour cela de l’hypothèse que la traduction et l’interprétation sont des processus suffisamment proches pour être localement confondus. Nous en tirons un modèle fonctionnel qui a guidé la conception de notre modèle formel, ainsi que certains aspects de l’algorithme d’interprétation.

Le modèle PELEAS
Le modèle que nous avons conçu, PELEAS (pour Pyramids and Ellipsis as Lexical Entries in Ambiguous Sentences), a pour vocation de traiter les trois formes de polysémie que nous avons recensées : polysémie fonctionnelle, polysémie d’acception et polysémie d’usage.
C’est un modèle symbolique hybride : chaque entrée du lexique correspond à une structure de réseau d’étiquettes lexicales hiérarchique (cinq niveaux de profondeur sémantique nous donnant une approximation satisfaisante du contexte). Les liens entre les étiquettes de même niveau expriment des contraintes sémantiques propres à l’entrée, tandis que les liens inter–niveaux expriment des relâchements de contraintes génériques. Ces structures sont invariantes par symétrie d’échelle en profondeur.
L’algorithme d’interprétation d’une entrée lexicale ambiguë dans un contexte donné est amorcé par des règles de sensibilité au contexte. Il fonctionne ensuite par propagation d’activité symbolique le long des liens entre les étiquettes. Il fournit en sortie un résultat exhaustif (l’ensemble de toutes les étiquettes lexicales avec leur taux d’activité finale : saillant, saillant négatif, valide ou inhibé) et un résultat synthétique (la liste des interprétations significatives accompagnées d’une estimation de leur participation à la construction de la signification de l’entrée lexicale). Cet algorithme est de complexité linaire au pire en fonction de la taille de l’entrée lexicale.
Nous avons mis en œuvre le modèle PELEAS par un jeu de trois logiciels : le moteur d’inférences LightPeleas, l’éditeur d’entrées lexicales Melisande et un outil annexe, Bard. Cet outil est destiné à l’exploration de corpus pour l’extraction semi-automatique de données destinées à alimenter le lexique existant. Ces logiciels ont été développés sur un micro–système (PC sous Windows NT) en utilisant la technologie de distribution d’objets ActiveX. Leur conception utilise des techniques avancées de conception d’architectures logicielles et de spécification formelle.

Résultats
Le modèle PELEAS a été évalué sur un corpus composé de 110 phrases pour un lexique de 21 entrées fortement sujettes à des phénomènes de polysémie d’usage ou d’acception. Ces phrases ont été choisies pour les difficultés d’interprétation qu’elles comportent (slogans publicitaires, extraits de la presse écrite ou orale, extraits littéraires). Nous cherchons en effet à savoir ce qu’apporte PELEAS pour des situations limites, et non pas à le comparer à des outils de résolution d’ambiguïtés courantes sur gros corpus.
Sur ce corpus de test, PELEAS s’est montré tout à fait robuste (aucune situation d’échec) et raisonnablement pertinent (peu de bruit et jamais de contresens). Sur des cas de polysémie fonctionnelle, il donne des résultats équivalents à ceux d’un système classique de résolution d’ambiguïté par restriction de la sélection. De plus, un test de non–régression par rapport au modèle EDGAR lui a été appliqué avec succès.

En conclusion, le modèle PELEAS s’avère plus particulièrement intéressant pour l’interprétation de jeux de mots, cumuls de sens délibérés et phrases "à tiroirs", sans être pénalisant pour des formes d’ambiguïté lexicale plus simples.
Une extension prévue est la prise en compte des afférences locales (interactions locales entre deux entrées ambiguës). De plus, une application envisagée est son utilisation pour l’assistance à la traduction, comme outil d’aide à la prise de décision pour des expressions techniques ambiguës.


Téléchargement