Accueil / Non classé / Wikidata pour la science

Wikidata pour la science

Posted on

Une journée de découverte de Wikidata a été organisé le 2 février par Wikimédia France et le Center for Data Science de Paris-Saclay. Cette journée ouverte à tous s’est tenue au sein de l’Université Paris-Saclay, elle a été  pour une quarantaine d’universitaires et de doctorants de découvrir comment Wikidata parvient à constituer une des premières bases de connaissances au monde, et comment l’intégrer et l’exploiter dans les projets des étudiants et des chercheurs de l’université.

Le partage des données, avec comme objectif le Linked Data (Web des données), encore appelé Graphe Global Géant ou encore le Web 3.0, implique la constitution coûteuse de bases de connaissances, qui elles mêmes se périment très vite. L’alternative est l’élaboration collective de ces bases de connaissances de façon contributive.

Les divers domaines scientifiques sont déjà représentés dans Wikidata. Ces contributions peuvent être exploitées par exemple pour faciliter la découverte d’information, la reproductibilité et la traçabilité des travaux de recherche. Le Center for Data Science a travaillé sur les outils destinés à faciliter la découverte et la réutilisation des données de Wikidata.

Durant cette journée à travers des exemples réels et des travaux pratiques, les participants ont pu découvrir les travaux de recherche qui utilisent déjà les données de Wikidata et ces premiers outils.

Les sujets suivants ont été abordés durant la journée :

  • Qu’est-ce que Wikidata et Wikipédia ?
  • Quel est l’objectif de Wikidata ?
  • Comment peut-on contribuer, manuellement ou automatiquement à ce projet ?
  • Comment découvrir et utiliser les données de Wikidata ?
  • Quels sont les projets scientifiques qui utilisent déjà Wikidata dans lemonde et à l’université ?
  • Que peut apporter Wikidata pour partager les données de la recherche ?
  • Quels services propose le Center for Data Science de ParisSaclay dans ce domaine ?

Wikidata

La première moitié de la journée a été consacrée à une présentation de Wikidata par Sylvain Boissel, administrateur systèmes et réseaux de Wikimédia France et Harmonia Amanda, administratrice sur Wikidata.

Dernier né des projets Wikimedia, Wikidata a fêté ses trois ans en octobre dernier. Il s’agit d’une base de données collaborative placée sous licence CC0.

La présentation est organisée en trois parties, d’abord une présentation générale du site, puis les différents moyens de faire des requêtes sur la base de données et de la réutiliser et enfin comment contribuer à son amélioration.
Nouveau venu dans les bases de données en web sémantique, Wikidata a très vite pris une place centrale du fait de sa licence libre, de son aspect collaboratif et de la confiance qui lui est accordée concernant la stabilité du projet. C’est également un projet multilingue, gérant plus de 250 langues de façon native, et qui est encore en développement.

L’objectif premier du projet était proprement interne aux projets Wikimedia, puisqu’il s’agissait de centraliser les liens interwikis. Dans un deuxième temps, il s’agit de constituer une base de données structurée et réutilisable qui permette de stocker des données brutes ensuite utilisables sur les projets Wikimedia. Pour ce faire, il était nécessaire de construire une base de données requêtable et donc réutilisable plus largement.

La deuxième partie de la présentation s’intéresse aux façons de faire des requêtes sur la base de données pour pouvoir l’utiliser notamment les différents moyens de trouver un élément précis (les divers liens depuis Wikipédia, le système de recherche, la méthode de recherche par nom exact, etc.), présentation rapide de l’API et de son interface graphique.
Plusieurs exemples sont présentés :

  • réutilisations depuis Wikipédia : parsers functions, modules lua…
  • scripts en Python pour faire des requêtes et des insertions sur les sites Mediawiki (pywikibot)
  • interfaces de requêtes : Wikidata Query et SPARQL (query.wikidata.org)
  • outils spécialisés dans la réutilisation des données (outils de généalogie, de frises chronologiques, de cartes, ou encore de présentations plus lisibles pour des être humains que les éléments eux-mêmes)
  • réutilisations extérieures à Wikimédia sont également présentés

La troisième partie est consacrée à la contribution à Wikidata : créer un compte Wikimedia, paramétrer les langues d’interface, ajouter différents gadgets d’édition y compris des gadgets permettant des contributions semi-automatiques…

Retrouvez la présentation faite pendant cet atelier par ici.

Expérimentations Wikidata à Saclay

L’après midi, plusieurs chercheurs du plateau de Saclay ont présenté leurs travaux et la manière de se connecter à l’ontologie de Wikidata afin de mettre à disposition leurs données dans le Web des données.

Deux gadgets spécifiques pour Wikipédia ont été présentés. En effet, en copiant un petit bout de code dans la page de JavaScript personnalisée, les chercheurs du plateau de Saclay ont accès, depuis Wikipédia, à des onglets présentant des informations supplémentaires. Ainsi, directement depuis l’article de Wikipédia concernant un domaine de recherche, ils peuvent trouver les chercheurs compétents dans leurs domaines à l’Université de Paris-Sud (lien vers l’outil).

Autre exemple appliqué aux matériels disponibles pour les chercheurs, depuis l’article « spectromètre de masse », ils peuvent retrouver l’emplacement de tous les appareils disponibles de ce type disponibles sur le plateau (lien vers l’outil). Ces gadgets ont été présentés par Gregory Grefenstette (INRIA – TAO) et Valérie Cantonny (Institute of Plant Sciences Paris-Saclay IPS2 – Plateforme Métabolisme Métabolome)

Deux autres présentations concernaient la constitution de deux bases de connaissances ouvertes au sein de l’Université de Paris-Sud. Une base de connaissances ouverte pour les plateformes analytiques, par Sana Tfaili (Lip(Sys)2), puis une autre pour le droit canonique, nommée « projet Gregorius », par Julien Nauroy (Direction Informatique).

Karima Rafes (Paris-Sud / BorderCloud) a ensuite animé un atelier pratique, présentant comment interroger à l’aide du langage SPARQL les données de Wikidata à travers les outils du Center for Data Science.

La journée s’est terminée sur une table ronde accompagnée d’un débat avec le public. Les participants se sont interrogés sur la place de Wikidata dans la science, et la place de la science dans Wikidata. Les réflexions ont porté, notamment sur la faisabilité d’établir une ontologie couvrant l’ensemble du savoir humain, et sur les besoins des chercheurs en matière de bases de connaissances : s’ils sont souvent trop spécifiques pour que les données soient mises directement sur Wikidata, les bases peuvent en revanche être reliées entre elles par le biais des éléments Wikidata.

Prochain atelier de présentation de Wikidata : jeudi 25 février à 19:30 à La Paillasse (226 rue Saint Denis, 75002 Paris)

Top