visiteurs depuis la mise
en service
Thèse de doctorat de l’Université Paris 8
Discipline : Informatique – Spécialité : Intelligence
Artificielle
Présentée et soutenue publiquement le 21 mai 1999
Par
Sylvain Surcin
(sylvain.surcin @ free.fr)
Sous la direction de
Violaine Prince, professeur des universités à Paris 8
Effectuée sous la direction de Violaine Prince, de 1995 à 1996 au LIMSI (Université Paris 11 - Orsay), et de 1997 à 1998 au LRIA (Université Paris 8).
Expression langagière ambiguë et modélisation
cognitive symbolique.
Un modèle informatique de traitement de la polysémie
d’usage.
Notre but est la mise au point d’un système de traitement automatique
des ambiguïtés lexicales engendrées par les formes de
polysémie complexes. L’objectif majeur est la robustesse : le système
doit fournir des interprétations de mots ambigus en contexte ouvert,
même lorsque l’information contextuelle est dégradée.
A partir des questions «Comment décrire linguistiquement
les ambiguïtés lexicales ?» et «Quels traitements
informatiques des ambiguïtés ont été proposés
?», nous aboutissons au double choix suivant : nous cherchons à
modéliser le traitement des formes complexes de polysémie
(les moins étudiées en informatique, ou réputées
non calculables) dans le cadre linguistique de la sémantique différentielle.
Nous nous concentrons plus particulièrement sur la polysémie
d’usage, qui n’a été qu’effleurée en linguistique
et en informatique, pour en proposer une caractérisation systématique.
En conclusion, l’indécidabilité de ces ambiguïtés
est nécessaire à la cohérence sémantique des
énoncés qui les contiennent ; elles ne doivent pas être
résolues.
En nous basant sur les systèmes informatiques existants, nous
proposons un modèle de lexique dynamique inspiré du modèle
EDGAR. Ce modèle, PELEAS, intègre l’ambiguïté
dans ses structures. Pour une occurrence ambiguë donnée, il
calcule une analyse des contributions d’une base d’usages attestés
dans sa signification en contexte. Ce lexique est un hybride entre un système
symbolique (structures lexicales) et connexioniste (algorithme de calcul).
Il est mis en œuvre par un jeu de logiciels sous forme de contrôles
ActiveX. Leur réalisation applique des techniques de spécification
formelle, de conception orientée objets avancée et de programmation
distribuée.
Une phase de test de ces logiciels a permis de valider le modèle
qui s’avère parfaitement robuste en conservant une pertinence et
une efficacité raisonnable. Les résultats montrent qu’il
est particulièrement adapté à l’interprétation
des mots jokers, jeux de mots et doubles sens.
Mots clés : langage naturel – compréhension et
interprétation de l’écrit – sémantique lexicale –
ambiguïté – polysémie – emploi et usage
Ambiguous linguistic expression and symbolic cognitive modelling.
A computational model for handling usage polysemy.
We aim to build a system for processing lexical ambiguities that are
generated by complex forms of polysemy. Our main objective is robustness:
this system must be able to interpret ambiguous words in open context,
even when contextual information is degenerated.
Starting from questions like “How to linguistically describe lexical
ambiguities?” and “Which computational treatments of ambiguities are available?”,
we reach a double choice: we try to model the processing of complex forms
of polysemy (the least studied in computer science, renowned as non-calculable)
inside the frame of differential semantics. We focus especially on usage
polysemy, that has never been fully studied, neither linguistically nor
computationally, and we propose a systematic characterisation for it. As
a conclusion, these ambiguities’ vagueness is necessary to the semantic
cohesion of the statements in which they appear: they must not be resolved.
Undertaking some existing computational systems, we propose a model
of dynamic lexicon inspired from the EDGAR model. Our model, PELEAS, integrates
ambiguity in its structures. For a given ambiguous occurrence, it computes
an analysis of the contributions of an attested usage database for the
occurrence’ meaning in context. This lexicon is a hybrid between a symbolic
system (lexical structures) and a connectionist network (algorithm).
It is implemented by a software pack (a set of ActiveX controls). Their
development implies techniques of formal specification, advanced object
oriented design and distributed programming.
PELEAS has been validated through a test phase on this software pack.
The model proved to be perfectly robust while keeping a reasonable level
of pertinence and efficiency. Results show that it is most efficient on
joker words, plays on words and double meanings.
Keywords : natural language – written text understanding and interpretation – lexical semantics – ambiguity – polysemy - usage
Objectifs
Cette thèse se situe dans le domaine du traitement automatique
des langues naturelles. Elle a pour but l’étude exploratoire de
certains phénomènes d’ambiguïté lexicale que
nous regroupons sous la dénomination de polysémie d’usage
(ex. dans "Le marché est dynamique aujourd’hui", marché désigne
à la fois l’institution, la bourse, ses tendances, ses acteurs…),
et la mise au point d’un prototype de traitement automatique de ces ambiguïtés
par une machine.
Notre objectif est de mettre au point un système informatique
permettant à une chaîne logicielle d’analyse automatique de
textes en contexte ouvert de ne pas se trouver en situation d’échec
lors de l’analyse sémantique d’expressions ou de mots ambigus relevant
de la polysémie d’usage. Ces ambiguïtés se révèlent
non résolubles par nature. En effet, elles correspondent à
une multiplicité d’interprétations qu’on ne peut discriminer
les unes des autres, étant donné qu’elles s’avèrent
toute compatibles avec le contexte dans lequel apparaît l’ambiguïté.
A moins de leur réserver un traitement particulier, un système
d’analyse automatique doit donc, pour éviter une situation d’échec,
opérer un choix arbitraire entre les différentes interprétations
possibles afin de n’en sélectionner qu’une. Or cette politique conduit,
dans le cas de la polysémie d’usage, à une perte d’information
qui a de grandes chances de provoquer un échec ultérieur
de l’analyse, la suite du discours pouvant toujours faire référence
à l’une des interprétations qui ont été éliminées.
La polysémie d’usage est une situation dans laquelle les différentes
interprétations possibles de l’expression ambiguë diffèrent
entre elles par des traits caractéristiques locaux n’appartenant
pas à la définition stricte (intensionnelle) de l’expression
en question. Ces traits sont le produit des usages de l’expression dans
la langue en un temps et en un lieu définis. Il s’agit généralement
de références à des données socioculturelles
locales qui sont passées implicitement dans la langue. De plus,
une caractéristique essentielle de la polysémie d’usage est
la simultanéité des interprétations valides : plusieurs
interprétations sont à conserver en même temps, sous
peine de perdre des informations potentiellement pertinentes.
En plus de l’objectif de robustesse, nous nous fixons un objectif de
pertinence relative : notre modèle doit conserver un maximum d’interprétations
pertinentes simultanément. Cela afin de laisser la possibilité
à un analyseur sémantico-pragmatique en aval la possibilité
de conserver tous les aspects évoqués par l’expression ambiguë
(au prix d’une analyse non–déterministe par retour–arrière,
par exemple, si cet analyseur fonctionne avec des structures sémantiques
non ensemblistes).
Démarche
Nous partons d’une réflexion sur la nature des ambiguïtés
lexicales, leurs descriptions par la linguistique, et leurs traitements
par le traitement automatique des langues naturelles. Connaissant les difficultés
de traitement provoquées par les ambiguïtés lexicales,
notre première étape est de questionner la linguistique,
et pour chaque réponse obtenue, d’examiner les techniques employées
en informatique pour résoudre ou contourner les problèmes.
Les ambiguïtés sont expliquées en linguistique par
trois théories : une théorie de l’homonymie (ou correspondance
formelle fortuite entre des sens indépendants) dans la linguistique
transformationnelle–générative (cf. Chomsky, Katz et Fodor),
une théorie de l’indétermination (ou effacement de la référence
devant les signes, cf. Martinet, Weydt, François) issue du structuralisme
radical, et enfin une théorie de la polysémie (ou multiplicité
des "effets de sens" pour un signe unique) chez certains structuralistes
européens (cf. Le Goffic, Fuchs, Tesnières, Pottier, Culioli).
Un certain nombre d’ambiguïtés sont efficacement traitées
en informatique grâce à l’application des deux premières
théories. Mais beaucoup d’autres sont encore insolubles, et c’est
pourquoi nous nous tournons vers la théorie de la polysémie
pour tenter de les traiter.
La polysémie est elle-même un vaste domaine, et après
nous être munis d’outils linguistiques théoriques pour la
caractériser et l’étudier, nous tentons de classer différentes
formes de polysémie en fonction à la fois des traitements
qui leurs sont appliqués en informatique, et de leurs caractéristiques
linguistiques. Cela nous amène à distinguer la polysémie
fonctionnelle (proche de l’homonymie et bien traitée en informatique),
la polysémie d’acception (qui commence déjà à
faire échouer les techniques classiques de restriction de la sélection
des signifiés compatibles avec le contexte) et enfin la polysémie
d’usage, qui contredit toute volonté d’appliquer une quelconque
stratégie de résolution des ambiguïtés.
La polysémie d’usage n’est qu’effleurée en linguistique,
et seuls quelques travaux exploratoires la prennent en compte en informatique.
Or, elle s’avère très présente dans le langage quotidien,
mais aussi dans les langages de spécialité. Face à
cette lacune, nous nous proposons de l’étudier plus en détails.
La première phase de cette étude consiste à la
caractériser linguistiquement : quels sont ses sous–types, ses occurrences
? Quels sont leurs points communs et leurs différences ? La complexité
du phénomène nous pousse à nous interroger sur le
choix du paradigme sémantique dans lequel nous le décrirons.
Une brève étude des ressources descriptives offertes nous
conduit à préférer la sémantique différentielle
aux cadres plus traditionnels en intelligence artificielle de la sémantique
référentielle et de la sémantique inférentielle.
C’est dans ce cadre que nous pouvons aborder les mécanismes qui
sont au cœur de la polysémie d’usage : la connotation, la profondeur
sémantique et la continuité sémantique.
Dans une deuxième phase, nous cherchons, parmi les systèmes
existant en traitement automatique des langues naturels, des principes
de base pour la constitution d’un modèle de traitement de la polysémie
d’usage. Au terme de cette revue de l’existant, nous choisissons de constituer
ce modèle en tant que lexique dynamique. Nous nous inspirons plus
particulièrement du modèle EDGAR de Prince, conçu
dans le cadre du traitement de la polysémie des mots courants.
Pour finir cette phase préalable à la constitution d’un
modèle opérationnel, nous avons mené une expérience
destinée à nous fournir des renseignements complémentaires
à la sémantique différentielle, qui apporte peu de
données. Cette expérience consiste en l’observation d’une
équipe de traducteurs professionnels face à des ambiguïtés
lexicales de type polysémie d’usage. Nous partons pour cela de l’hypothèse
que la traduction et l’interprétation sont des processus suffisamment
proches pour être localement confondus. Nous en tirons un modèle
fonctionnel qui a guidé la conception de notre modèle formel,
ainsi que certains aspects de l’algorithme d’interprétation.
Le modèle PELEAS
Le modèle que nous avons conçu, PELEAS (pour Pyramids
and Ellipsis as Lexical Entries in Ambiguous Sentences), a pour vocation
de traiter les trois formes de polysémie que nous avons recensées
: polysémie fonctionnelle, polysémie d’acception et polysémie
d’usage.
C’est un modèle symbolique hybride : chaque entrée du
lexique correspond à une structure de réseau d’étiquettes
lexicales hiérarchique (cinq niveaux de profondeur sémantique
nous donnant une approximation satisfaisante du contexte). Les liens entre
les étiquettes de même niveau expriment des contraintes sémantiques
propres à l’entrée, tandis que les liens inter–niveaux expriment
des relâchements de contraintes génériques. Ces structures
sont invariantes par symétrie d’échelle en profondeur.
L’algorithme d’interprétation d’une entrée lexicale ambiguë
dans un contexte donné est amorcé par des règles de
sensibilité au contexte. Il fonctionne ensuite par propagation d’activité
symbolique le long des liens entre les étiquettes. Il fournit en
sortie un résultat exhaustif (l’ensemble de toutes les étiquettes
lexicales avec leur taux d’activité finale : saillant, saillant
négatif, valide ou inhibé) et un résultat synthétique
(la liste des interprétations significatives accompagnées
d’une estimation de leur participation à la construction de la signification
de l’entrée lexicale). Cet algorithme est de complexité linaire
au pire en fonction de la taille de l’entrée lexicale.
Nous avons mis en œuvre le modèle PELEAS par un jeu de trois
logiciels : le moteur d’inférences LightPeleas, l’éditeur
d’entrées lexicales Melisande et un outil annexe, Bard. Cet outil
est destiné à l’exploration de corpus pour l’extraction semi-automatique
de données destinées à alimenter le lexique existant.
Ces logiciels ont été développés sur un micro–système
(PC sous Windows NT) en utilisant la technologie de distribution d’objets
ActiveX. Leur conception utilise des techniques avancées de conception
d’architectures logicielles et de spécification formelle.
Résultats
Le modèle PELEAS a été évalué sur
un corpus composé de 110 phrases pour un lexique de 21 entrées
fortement sujettes à des phénomènes de polysémie
d’usage ou d’acception. Ces phrases ont été choisies pour
les difficultés d’interprétation qu’elles comportent (slogans
publicitaires, extraits de la presse écrite ou orale, extraits littéraires).
Nous cherchons en effet à savoir ce qu’apporte PELEAS pour des situations
limites, et non pas à le comparer à des outils de résolution
d’ambiguïtés courantes sur gros corpus.
Sur ce corpus de test, PELEAS s’est montré tout à fait
robuste (aucune situation d’échec) et raisonnablement pertinent
(peu de bruit et jamais de contresens). Sur des cas de polysémie
fonctionnelle, il donne des résultats équivalents à
ceux d’un système classique de résolution d’ambiguïté
par restriction de la sélection. De plus, un test de non–régression
par rapport au modèle EDGAR lui a été appliqué
avec succès.
En conclusion, le modèle PELEAS s’avère plus particulièrement
intéressant pour l’interprétation de jeux de mots, cumuls
de sens délibérés et phrases "à tiroirs", sans
être pénalisant pour des formes d’ambiguïté lexicale
plus simples.
Une extension prévue est la prise en compte des afférences
locales (interactions locales entre deux entrées ambiguës).
De plus, une application envisagée est son utilisation pour l’assistance
à la traduction, comme outil d’aide à la prise de décision
pour des expressions techniques ambiguës.