Partenariat avec Lo Congrès pour développer l’occitan sur Wikidata

Posted on 27 septembre 20199 septembre 2022 by Collectif

Ce billet est en français et en occitan, vous pouvez aussi le lire en anglais et en allemand sur le blog de Wikimedia Deutschland publié le 27 septembre 2019.

L’occitan ou lenga d’òc est une langue romane parlé en Occitanie, une région qui s’étend au Sud de la France ainsi qu’à Monaco et en partie en Espagne et en Italie. De nos jours, elle est majoritairement utilisé comme deuxième langue. À l’ère d’internet, préserver une langue régionale n’est pas une mince affaire mais heureusement le numérique propose de nouvelles possibilités.

Wikidata, la base de connaissance libre qui peut être modifiée tant par tous, donne la possibilité de saisir des données lexicographiques pour décrire des éléments de langage. Lo Congrès permanent de la lenga Occitana, une institution qui promeut le vocabulaire occitan numérique grâce à la linguistique informatique et au traitement automatique du langage (TAL), s’est attelé à la tâche de créer des mots occitans (ou plutôt des lexèmes) dans Wikidata.

Le processus d’import numérique de l’ancienne langue occitane dans Wikidata n’est pas sans rappeler la construction de la ville fortifiée de Carcassonne en Occitanie – il s’agit de bâtir des briques qui résistent à l’épreuve du temps.

Cité de Carcassonne par Chensiyuan, CC-by-SA 4.0.

Nous avons posé quelques questions à Aure et Vincent, qui ont préparé ensemble l’import de mots en occitan dans Wikidata.

Pouvez-vous vous présenter en quelques mots, ainsi que Lo Congrès, quelles sont vos activités et vos objectifs ?

Lo Congrès permanent de la lenga Occitana est une institution scientifique et morale qui a pour but de contribuer au développement de l’occitan à travers la production d’outils concernant les différents aspects de la langue occitane (lexicographie, lexicologie, terminologie, néologie, phonologie, la graphie, la grammaire et la toponymie). Il est notamment à l’origine d’outils numériques comme le dictionnaire en ligne dicod’Òc, le conjugueur verb’Òc et des outils de traitement automatique du langage (TAL).

« Pour ma part je m’appelle Vincent, j’ai 25 ans et j’habite en France. Je suis étudiant en informatique et plus précisément je me dirige vers du développement et de l’organisation de données. J’ai aussi passé par une licence d’Occitan en fac de lettre, ce qui m’a incité à faire un stage chez Lo Congrès, histoire de lier deux de mes passions. »

« Et moi je suis Aure Séguier, responsable de projets TAL au Congrès. »

Avec quel type de données linguistiques travaillez-vous, dans quel but ?

Aure : « Nous travaillons avec des données qui servent à créer des outils dans le domaine du TAL. Nous avons par exemple des dictionnaires monolingues et bilingues formatés en TEI, des lexiques de formes fléchies, des corpus de textes… »

Pourquoi avez-vous décidé d’importer des mots en occitan dans Wikidata ?

Aure : « Dans quelques années, les outils de traitement formels de l’occitan seront achevés. Il faudra à ce moment-là s’intéresser à l’analyse sémantique. Or, pour cela, il faut que les mots de notre langue soient reliés à des concepts compréhensibles par les ordinateurs. L’occitan n’a pas les moyens humains et financiers pour construire de zéro une base de concepts. Heureusement, il existe Wikidata dont l’utilisation est entièrement libre. En versant les lexèmes de l’occitan dans Wikidata, et en reliant ceux-ci à des concepts, nous offrons la possibilité aux acteurs du TAL occitan de construire des outils travaillant sur le sens d’un texte, comme les ChatBot, les outils de résumé de texte, les assistants personnels… »

Comment avez-vous procédé ? Quelles ont été les différentes étapes ?

Vincent : « La première étape a consisté à me familiariser avec l’API de Wikidata, le modèle d’organisation des données lexicographiques ainsi que le fonctionnement général de Wikidata. Le but était de savoir comment réorganiser les données du Congrès pour les faire correspondre avec le modèle de données de Wikidata. Et ensuite comment intégrer ces données, quelle fonction de l’API utiliser pour chaque fonctionnalité du script ? Comment vérifier que les requêtes ont bien fonctionné ? Comment ont-fait les autres contributeurs pour renseigner telle ou telle information ?

En parallèle avec la première tâche il nous a fallu réfléchir aux concepts même du fonctionnement du script, pour écrire l’algorithme principal, et pour répondre à des questions de principe comme : Quelle sont les caractéristiques pour déterminer si deux lexèmes sont identiques ? Je suis ensuite passé à l’écriture des fonctions du script et, après les avoir testées séparément, à l’écriture l’algorithme en lui-même.

La dernière étape a consisté en une série de tests/corrections dans l’environnement de test de Wikidata pour mettre en évidence la moindre erreur possible. Et finalement des phases de test « grandeur nature » présentées à la communauté de Wikidata. »

Comment s’est passé le projet, qu’est-ce qui a bien fonctionné, quels problèmes avez-vous rencontré ?

Vincent : « Dans l’ensemble le projet c’est très bien passé. Je dirais que tout a bien fonctionné, et pourtant ce n’était pas gagné : j’avais à écrire un script dans un langage que je ne connaissais absolument pas et je devais extraire les données de formats de fichiers avec lesquels je n’avais jamais travaillé. Je ne pensais pas réussir à rendre un programme fonctionnel au bout d’un mois (la durée de mon stage). Mais heureusement j’ai pu recevoir de l’aide et de bon conseils autour de moi ce qui m’a permi d’avancer à bon rythme.

Le problème principal que j’ai rencontré consiste surtout en ma méconnaissance de Wikidata, de son API et de sa documentation. Je me suis souvent retrouvé bloqué face à des questions comme « comment récupérer telle information ? » ou « pourquoi cette requête ne marche pas ? » jusqu’à ce que j’ose poser la question et qu’une réponse (claire, limpide et qui semblait presque évidente) me revienne à chaque fois des membres de la communauté de Wikidata. »

Quelles sont les prochaines étapes du projet, comment continuerez-vous à travailler avec Wikidata et les langues ?

Aure : « Une fois que les lexèmes seront versés, il faudra les relier aux concepts qu’ils représentent. Pour cela, il faudra faire appel à la communauté, car aucune structure ne dispose d’assez de personnel pour s’atteler à un tel projet. Pour rendre une telle tâche attractive, il faudra la présenter de manière ludique. Peut-être via une application mobile de type serious game ? »

Que pensez-vous faire grâce aux données importées ? Quels usages pouvez-vous imaginer ?

Aure : « Une fois les lexèmes reliés aux concepts, on peut tout imaginer. Wikidata permettra de désambiguïser le sens des mots. Par exemple, si je dis que je veux acheter « une souris pour mon ordinateur » à un programme, il va chercher quel concept est associé au mot « souris ». Il va en trouver deux. Il regardera lequel est lié à un autre concept associé au mot « ordinateur ». Cela lui permettra de savoir que je ne veux pas acheter une souris de laboratoire.

On peut ainsi construire des outils qui résument des textes, classent des documents par thématique, répondent automatiquement aux questions d’un utilisateur… ou même un assistant personnel intelligent pour que les smartphones parlent aussi occitan ! »

Sosten a las lengas regionalas : l’istòria d’una collaboracion entre l’occitan e Wikidata

La lenga occitana, o lenga d’òc, es una lenga romanica parlada en Occitània, una region que cobrís una part del Sud de la França atal coma Monaco e d’unes parçans d’Espanha o d’Itàlia. A l’ora d’ara, es mai que mai parlat coma segonda lenga. Salvagardar una lenga regionala a l’epòca d’Internet es pas una petita tasca, mas urosament, lo numeric ofrís de possibilitats novèlas.

Wikidata, la basa de coneissença liura que pòt èstre editada per cadun, ofrís la possibilitat d’entrar de donadas lexicograficas per descriure los elements de las lengas. Lo Congrès permanent de la lenga Occitana, una institucion qu’ajuda a menar lo vocabulari occitan dins l’edat numerica mercés a la lingüistica informatica e al tractament automatic del lengatge (TAL), decidiguèt de s’encargar de crear de mots (o lexèmas) occitans dins Wikidata.

Lo procediment d’importar l’occitan, lengatge annadit, dins Wikidata d’un biais numeric es pas desparièr del trabalh de construccion de la ciutat fortificada de Carcassona en Occitània – tot vira a l’entorn de la construccion de blòcs que resistiscan a l’espròva del temps.

Dins l’objectiu de balhar mai de detalhs sul projècte, avèm discutit amb Aure e Vincent, qu’èran totes dos implicats dins la preparacion de l’importacion de mots occitans dins Wikidata.

Vos podètz presentar, explicar çò que fasètz e presentar lo Congrès ?

Lo Congrès permanent de la lenga occitana es una institucion scientifica qu’a per tòca de contribuir al desvolopament de l’occitan a travèrs la produccion d’otisses pertocant mantun aspècte de la lenga occitana (lexicografia, lexicologia, terminologia, neologia, fonologia, grafia, gramatica e toponimia). Avèm produsit d’otisses numerics coma lo diccionari en linha dicod’Òc, lo conjugator de vèrbes vèrb’Òc e d’otisses de tractament automatic del lengatge (TAL).

Vincent Gleizes : Ai 25 ans e vivi en França. Soi estudiant en informatic e, per èstre mai especific, soi a m’orientar de cap al desvolopament e a l’organizacion de donadas. Ai tanben agut una licéncia d’occitan en fac de letras, çò que me menèt a far un estagi al Congrès, dins l’objectiu de ligar doas de mas passions.

Aure Séguier : E soi Aure Séguier, responsabla de projèctes en tractament automatic del lengatge al Congrès.

Amb quala mena de donadas lingüistica trabalhatz, per quala tòca ?

Trabalham amb de donadas utilizadas per crear d’otisses dins lo domeni del tractament automatic del lengatge. Per exemple, avèm de diccionaris monolingües e bilingües formatats en TEI, de lexics de formas flexionadas, de còrpus de tèxtes…

Perqué avètz decidit d’importar de mots occitans dins Wikidata ?

Dins qualques annadas, los otisses de tractament formals de l’occitan seràn acabats. A aquel moment, serà necessari de se concentrar sus l’analisi semantica. Mas per o poder far, cal que los mots de nòstra lenga sián ligats a de concèptes que los ordenadors pòscan compréner. L’occitan a pas las ressorsas umanas e financièras per bastir de zèro una basa de concèptes. Urosament, Wikidata existís, qu’es completament liura d’utilizacion. En ajustant los lexèmas occitans a Wikidata, e en los ligant a de concèptes, balham la possibilitat als actors del TAL occitan de bastir d’otisses que trabalhen sul sens d’un tèxte, coma los chatbots, los otisses de resumit de tèxtes, los assistents personals…

Cossí procediguèretz ? Qualas foguèron las diferentas etapas ?

Vincent : La primièra etapa foguèt de me familiarizar amb l’API Wikidata, lo modèl d’organizacion de las donadas lexicograficas e lo foncionament general de Wikidata. L’objectiu èra de saber cossí tornar organizar las donadas del Congrès per que correspòndan al modèl de donadas de Wikidata. Aquí, un fum de questions interessantas se pausèron : cossí integrar aquelas donadas, quala foncion de l’API utilizar per cada foncionalitat de lo script d’importacion ? Cossí verificar que las requèstas an plan foncionat ? Cossí los autres contributors indican tala o tala informacion ?

Dins lo meteis temps, nos calguèt pensar al concèpte el-meteis de cossí lo script d’importacion anava foncionar, escriure l’algoritme màger, e aguèrem a respondre a de questions coma : qualas son las caracteristicas per determinar se dos lexèmas son identics ? Puèi me botèri a escriure las foncions del script e, après las aver testadas d’un biais desseparat, escriguèri l’algoritme el-meteis.

La darrièra etapa foguèt una seria de tèstes/correccions dins l’environament de tèst de Wikidata per metre en evidéncia tota error possibla. E fin finala, las fasas de tèst foguèron presentadas a la comunautat de Wikidata.

Qué se debanèt pendent lo projècte, de qu’anèt plan, quales problèmas encontrèretz ?

Vincent : Dins l’ensemble lo projècte se passèt de plan. Diriái que tot foncionèt plan, çaquelà foguèt pas aisit : me calguèt escriure un bot (script) dins un lengatge que coneissiái pas briga e me calguèt extraire las donadas de fichièrs amb un format que l’aviái pas jamai trabalhat abans. Pensavi pas que poiriái far un programa foncional après sonque un mes (la durada de mon estagi). Urosament capitèri d’aver d’ajuda e de bons conselhs a l’entorn de ieu, çò que me permetèt de progressar rapidament.

Lo problèma màger qu’encontrèri foguèt ma manca de coneissença de Wikidata, sas API e la documentacion. Me trobèri sovent blocat sus de questions coma : « Cossí recuperar tala informacion ? » o « Perqué aquela requèsta fonciona pas ? » fins a çò que demandèsse, e qu’una responsa (clara, canda e que semblava quitament evidenta) m’aribèsse cada còp de sòcis de la comunautat Wikidata.

Qualas son las etapas a venir, cossí anatz contunhar a trabalhar sus Wikidata e las lengas ?

Aure : Un còp que los lexèmas seràn importats, los calrà ligar als concèptes que representan. Demandarà una implicacion de la comunautat, que cap d’estructura occitana a pas pro de personal per s’encargar d’un tal projècte. Per far la tasca agradiva, la nos calrà presentar d’un biais ludic. Benlèu via una aplicacion pels telefonets, coma un jòc ?

Que poiretz far amb las donadas importadas ? Quala utilizacion podètz imaginar ?

Aure : Un còp que los lexèmas seràn ligats als concèptes, se pòt tot imaginar. Wikidata ajudarà a desambigüizar la significacion dels mots. Per exemple, se disi que vòli crompar « una mirga per mon ordenador » a un programa, cercarà lo concèpte associat al mot « mirga ». Ne trobarà dos. Cercarà lo qu’es ligat a un autre concèpte associat al mot « ordenador ». Atal sauprà que vòli pas crompar una mirga de laboratòri.

Podèm atal bastir d’otisses que resumisson de tèxtes, classan de documents per tematica, respòndon automaticament a la question d’un utilizator… o quitament un assistent personal intelligent per que los esmartfònes pòscan tanben parlar occitan !

Entrevista collectada per Léa Lacroix, Nicolas Vigneron e Jens Ohlig.