Identification de la complexité structurale de systèmes morphologiques par l’évaluation quantitative de descriptions morphologiques concurrentes

INALCO - Salle 131  -  2, rue de Lille  -  75007 Paris
En typologie linguistique, il existe un certain nombre de méthodes traditionnelles pour évaluer ce que l’on appelle la complexité linguistique. Mais, outre la définition extrêmement variable de ce terme, ces méthodes présentent toutes un certain nombre de défauts qui rendent peu fiables les résultats que l’on croit atteindre.

Les méthodes les plus anciennes à base de comptages de traits (nombre de préfixes, de suffixes, de syllabes, de variantes dans l’ordre des mots…) comme celle utilisée encore récemment par McWhorter (2001) souffrent irrémédiablement de l’arbitraire dans la sélection des traits en question. Par ailleurs, une telle méthode ne permet pas de pondérer la contribution d’un certain trait par rapport à un autre dans le calcul d’une complexité globale de la langue. D’autres méthodes, plus récentes, s’appuient sur des concepts issus de la théorie de l’information et d’interprédictibilité entre paradigmes (Ackerman et al., 2009; Bonami et al., 2011).
Dans mes travaux, j’utilise une mesure de compacité pour évaluer la distribution de la complexité au sein d’un système linguistique donné. L’idée sous-jacente est que la description d’un système capture d’autant mieux sa complexité interne qu’elle distribue efficacement l’information sur ses différentes composantes. L’efficacité de la distribution de l’information peut quant à elle se mesurer par la compacité de la description produite.

La mesure de compacité que j’utilise repose ainsi sur le concept de longueur de description minimale (Minimal Description Length ou MDL (Rissanen, 1984)) empruntée à la théorie de l’information. Développée en collaboration avec Benoît Sagot (Walther & Sagot, 2011), elle permet d’évaluer l’économie descriptive d’une description donnée et de la comparer quantitativement à des descriptions concurrentes. Cette mesure permet ainsi de montrer quantitativement qu’entre deux descriptions concurrentes implémentées, il est possible de choisir quantitativement celle qui mènera à la description la plus compacte, c’est-à-dire la moins coûteuse en termes de longueur de description.
Les études que je présenterai porteront ainsi sur la comparaison des systèmes flexionnels verbaux du latin, du français, du maltais et du khaling (kiranti). Je montrerai en particulier qu’entre deux analyses du premier binyan du maltais, l’une faisant plus appel à des règles morphologiques et l’autre reposant sur une approche plus morphonologique, la description morphonologique permet d’obtenir une description globale d’environ 12% plus compacte que la description purement morphologique.

Je présenterai ensuite l’évaluation de quatre descriptions concurrentes du système verbal du français écrit (implémentées pour 7 800 verbes, c’est-à-dire 370 000 formes fléchies), qui mettent chacune en jeu à des degrés divers une distribution variable des irrégularités flexionnelles entre lexique et règles grammaticales, notamment par un nombre plus ou moins grand de classes flexionnelles ou une allomorphie radicale plus ou moins importante. En particulier, la mesure d’économie descriptive mettra en évidence qu’une analyse à une seule classe flexionnelle et douze radicaux comme celle de Bonami & Boyé (2003) est d’environ 61% plus économique qu’une analyse multipliant les classes flexionnelles à la manière du Bescherelle (Arrivé, 1997). Mais elle se révèle être moins économique qu’une nouvelle analyse concurrente, comportant un nombre intermédiaire de classes flexionnelles et faisant ainsi usage d’une meilleure distribution des irrégularités flexionnelles entre le lexique et la grammaire. Cette dernière est d’environ 73% plus compacte que l’analyse à classes flexionnelles multiples.

La mesure a permettra également de montrer, pour deux descriptions concurrentes du système verbal latin (env. 2 300 verbes, 260 000 formes), qu’une différence de segmentation, qui à première vue semble changer considérablement le profil de l’analyse, ne se répercute en fin de compte que de façon négligeable dans l’économie descriptive quantifiable de ces analyses.
Le travail sur le khaling montrera enfin que la mesure de compacité permet d’évaluer quantitativement la pertinence d’une description morphologique de cette langue reposant sur la distinction de traits direct/inverse (Silverstein, 1976; Zúñiga, 2006) : une telle description permet en effet d’obtenir une description de 12% plus économique du système verbal khaling et met ainsi en évidence une structuration du système morphologique autour de ces traits, les identifiant comme une clef pour comprendre la complexité du système verbal de cette langue.

Les séminaires du CRLAO, organisés par Hilary Chappell (CRLAO-EHESS), ont lieu les mercredis de16h à 18h jusqu’à la fin juin, à l’INALCO, 2 rue de Lille, salle 131, 75007 Paris.

Page web des séminaires : http://crlao.ehess.fr/document.php?id=1367
Date
  • le mercredi 14 mai 2014 à 16h
Contacts
Url de référence

Haut de page