Wikidata et la somme de tous les jeux vidéo — Édition 2018
Ce billet est une traduction libre de l’article Wikidata and the sum of all video games − 2018 edition, écrit par Jean-Frédéric et publié le 1er janvier 2019 sous licence CC BY 4.0.
Toute ressemblance avec un fructueux projet Wikidata en cours est purement fortuite.
Au cours des 12 derniers mois, j’ai concentré mes contributions Wikidata sur le thème des jeux vidéo, thème qui m’avait amené à contribuer à Wikipédia il y a plus de 10 ans.
Dans ce billet, je commencerai par un bref aperçu de l’état actuel du sujet sur Wikidata et de certaines de mes contributions l’année dernière. Je décrirai ensuite certains défis que j’ai rencontré et mes projets pour 2019.
Vue d’ensemble
Il y a actuellement 35 000 éléments jeu vidéo (Q7889) dans Wikidata (Q2013). Dans le même temps, il y a près de 48 000 entrées dans la Media Art Database (Q54760023), 49 000 dans l’Online Games-Datenbank (Q60315954), plus de 66 000 dans Giant Bomb (Q1657282), plus de 186 000 dans MobyGames (Q612975), plus de 190 000 dans l’Internet Game Database (Q20056333). Ces chiffres sont à prendre avec des pincettes car les enregistrements de ces bases de données peuvent ne pas correspondre exactement à un élément Wikidata. Néanmoins, ils soulignent à quel point nous sommes loin, dans Wikidata, d’une couverture exhaustive du sujet.
En utilisant un peu SPARQL, on peut aussi voir jusqu’à quel point ces 35 000 éléments sont correctement renseignés : 9000 n’ont pas de plateforme (P400), 9500 n’ont pas de date de publication (P577), 13 000 n’ont pas de genre (P136), 16 000 n’ont pas d’éditeur (P123), 17 000 n’ont pas de développeur (P178). Et quelque chose qui me touche encore plus : 14 000 n’ont aucun identifiant externe (et 16 000 aucun identifiant en rapport avec les jeux vidéo).
Tout ça pour dire : il y a beaucoup à faire 🙂
Quelques contributions en 2018
Liens vers des bases de données externes
Mon but ultime est de lier Wikidata avec le plus de bases de données sur les jeux vidéo. Pour commencer, quelques chiffres sur mes réalisations en 2018 :
- plus de 60 bases de données identifiées comme potentiellement intéressantes à lier ;
- 34 propriétés pour des identifiants externes proposées (et acceptées) à la création : 25 pour les jeux vidéo, 6 pour le matériel et 3 diverses ;
- 35 catalogues relatifs au jeu vidéo chargés dans Mix’n’match, pour un total de 42.
Mais pourquoi est-ce que je fais ça ?
- S’appuyer sur les bases de données existantes est, à mon avis, le meilleur moyen pour atteindre l’exhaustivité. C’était déjà le cas en 2007 sur Wikipédia, les utilisant pour construire de longues listes (et parfois les bleuir complètement 😉 ). Ces catalogues ne sont peut-être pas suffisants pour sourcer, mais le sont suffisamment pour savoir que quelque chose existe (et chercher d’autres sources). Même si les grandes bases de données (MobyGames, Giant Bomb, IGDB, etc.) sont pratiques, je crois fermement que les bases de données plus petites et ultra-spécialisées sont cruciales.
- Il a été dit que Wikidata est en train de devenir le ciment universel d’Internet. Quelques-unes de ces bases de données sont reliées les unes aux autres, mais cela reste l’exception. Wikidata peut devenir le hub qui les relie toutes, réconciliant du même coup des modèles de données hétérogènes.
- Certaines données ne peuvent pas être hébergées ou n’appartiennent pas à Wikidata. Nous n’hébergerons pas de sitôt des couvertures de jeux ou des captures d’écran sous droit d’auteur. Nous ne stockerons par exemple pas non plus le temps moyen de complétion d’un jeu. En nous reliant à des bases de données spécialisées qui, elles, hébergent de telles données, nous rendons possible leur utilisation par d’autres manières.
- Quand il n’est pas approprié d’aspirer des données de ces bases, la création de liens avec elles ouvrira la voie à l’automatisation du sourçage et à la vérification de la cohérence des informations.
- Il y a une échéance. J’ai commencé à compiler cette liste il y a seulement un an et, déjà, certaines de ces bases de données ont disparu (PCEngine Catalog Project, Nintendo NSider Forums). Internet Archive peut enregistrer les pages individuelles, mais pas le mécanisme de découverte (typiquement, quand il n’y a pas de liste statique de tous les enregistrements, mais seulement une recherche dynamique).
Communauté et gestion de projet
Avec l’aide de l’expert en SPARQL @WikidataFacts, j’ai construit un tableau de bord Listeria pour tracer les nouveaux items sur les jeux vidéo. Je le surveille régulièrement pour m’assurer que ces items ont les propriétés de base et quelques identifiants externes.
A la demande de mon collègue FR, j’ai créé une liste Listeria de jeux vidéo qui ont des articles sur de nombreuses Wikipédia, mais pas en français. C’est un moyen classique mais puissant, permettant aux wikipédiens de s’appuyer sur Wikidata pour leur travail. Il est maintenant utilisé pour créer des articles prioritaires sur la Wikipédia francophone.
Plateformes et matériel
Tout en travaillant sur les jeux, je me suis aventuré dans le sujet des plateformes et du matériel. Inspiré par l’outil platform_mapping de diggr, j’ai utilisé Mix’n’match pour aligner 5 bases de données externes avec Wikidata. En essayant de clarifier l’ontologie, j’ai créé les items pour modèle de console de jeu vidéo (Q56682555) et modèle d’ordinateur (Q55990535), et réorganisé de nombreuses plateformes en utilisant la propriété sous-classe de (P279). J’ai également travaillé sur les contrôleurs de jeu, à la fois sur Wikidata et sur Wikimedia Commons.
Contacts
En 2018, j’ai établi des contacts intéressants avec des parties tierces intéressées par Wikidata, à la fois dans et à l’extérieur du monde académique : l’équipe du projet diggr (coucou Tracy !), l’équipe d’IGDB et récemment avec les bibliothèques de l’université Standford, même si je n’ai malheureusement pas eu le temps de les suivre correctement.
Les choses qui manquent
En un an de travail sur ce sujet, j’ai rencontré de nombreux défis. Je vais en détailler quelques-uns ici.
Il nous manque un vocabulaire fondamental pour décrire les choses :
- Pour décrire les liens entre les jeux vidéo. Alors que le papier Relations entre les jeux vidéo : Les normes existantes et nouvelles définitions (Q50180192) décrit 10 types de relations (est le portage de, est le remake de, est le reboot de, est la préquelle de, est l’extension de, est l’histoire parallèle à, est le spin-off de, est le crossover de, est la suite spirituelle de, est inspiré par), Wikidata se contente grossièrement de la seule propriété basé sur (P144). Même si nous n’avons peut-être pas besoin de propriétés supplémentaires, il nous faut un meilleur système.
- Pour décrire les fonctionnalités des jeux vidéo. Nous avons les propriétés mode de jeu (P404), genre (P136) et quelques autres héritées de différents médias (lieu de l’action (P840), décrit l’univers de fiction (P1434), époque de l’action (P2408)). Pendant ce temps, le schéma des métadonnées du jeu vidéo décrit les jeux en termes de mécanique, d’ambiance, de genre narratif, de décor, de thème, de trope et de style visuel ; l’IGDB a le thème et la perspective du joueur ; MobyGames a le visuel et la perspective…
Cependant, toutes ces problématiques sont éclipsées par une seule : le modèle de données pour le jeu vidéo. Nous avons en quelque sorte hérité de celui de Wikipédia (ou de son absence), où un article peut compiler des connaissances sur différents éléments (portages, remakes, etc.). De la même façon que le projet Livres a décidé d’utiliser le modèle FRBR (Q16388), nous devrions utiliser un modèle de données plus sophistiqué, éclairé par les recherches universitaires actuelles. L’article Un modèle conceptuel pour les jeux vidéo et les médias interactifs (Q50180436) est une lecture utile, différenciant les jeux, les éditions et les publications locales.
Le lecteur intéressé pourra jeter un œil à d’autres de mes propres réflexions, ainsi qu’à celles de Tracy sur le sujet.
Ma feuille de route pour 2019
C’est le moment de fixer des objectifs trop ambitieux pour l’année à venir ! Que devrais-je faire en 2019 ?
Je vais m’efforcer d’automatiser certaines opérations typiques de gestion des identificateurs. Il s’agira notamment de :
- Annoter les déclarations d’identifiants (à l’aide de qualificatifs). Les candidats les plus susceptibles sont l’ajout de la plateforme aux déclarations GameFAQs, GameRankings, Metacritic, des bases de données Amiga, Guardiana, etc.
- Aspirer Wikipédia. J’ai eu de bons résultats d’import à partir de modèles d’identifiants (en utilisant le très pratique Harvest Templates), l’étape suivante étant d’aspirer (probablement semi-automatiquement car il est utilisé sur la plupart des articles) les URLs dans les articles Wikipédia. Cela a bien fonctionné pour les identifiants old-computers.com. Metacritic serait un très bon candidat pour cela, avec plus de 15 000 URLs sur la Wikipédia en anglais.
- Importer les identifiants d’autres bases de données. Certaines bases font des liens vers d’autres, et l’on pourrait en tirer parti pour importer des identifiants, directement (Metacritic fait des liens vers GameFAQs, GameFAQs fait des liens vers Gamespot, etc.) ou indirectement (IGDB fait des liens vers Steam et Gog, donc on pourrait renseigner les identifiants IGDB en se basant sur les identifiants Steam et Gog).
En 2018, mon projet secondaire était au sujet des plateformes et du matériel. En 2019, je m’aventurerai peut-être dans le sourçage et les métadonnées bibliographiques, par exemple en créant des items pour tous les numéros des principaux magazines de jeux vidéo et en indexant leurs critiques.
Je vais essayer de toucher les wikipédiens et d’en impliquer plus dans le fonctionnement de Wikidata. Nous ne sommes pas si nombreux à travailler sur ce sujet dans Wikidata et toute aide supplémentaire nous serait utile. De plus, les décisions prises sur Wikidata (par exemple sur la modélisation des données) auront un impact sur la réutilisation des données dans Wikipédia.
J’ai précédemment mentionné les contacts que j’ai établis au cours de l’année. Je continuerai à cultiver ces relations, en espérant impliquer davantage d’organisations et d’institutions, en nouant des réseaux de coopération et en permettant des dons et l’édition de données à grande échelle.
Enfin, je piloterai les discussions sur le modèle de données sur les jeux vidéo, en impliquant les différents acteurs (wikipédiens, chercheurs universitaires, responsables de bases de données) dans les échanges.
Venez, ça va être sympa !
Vous pouvez prolonger votre lecture sur le sujet avec l’article Alignement du vocabulaire OLAC des jeux vidéo avec Wikidata.