FRANSEM : un annotateur pour le web sémantique en français basé sur une version enrichie de DBpedia

 

Philippe Langlais

Université de Montréal

 

Domaine : technologies de l'information et des communications

Programme projet de recherche en équipe

Concours 2012-2013

Le Web sémantique, dont l'idée a été introduite en 2001, désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessibles et utilisables par les agents logiciels, grâce à un système de métadonnées formelles (les triplets RDF) qui permet de représenter de façon non ambiguë, interopérable et manipulable par la machine, le contenu que l'on retrouve dans les informations non structurées actuellement publiées en format HTML. DBpedia, générée à partir des pages de Wikipedia est une base du Web sémantique qui contient à elle seule plus de 672 millions de triplets qui décrivent plus de 3,5 millions de concepts.

Le projet FRANSEM a pour objectif double de doter la langue française d'une ressource comparable à DBpedia et à doter la communauté francophone d'outils pour faire le lien entre leur production textuelle (documents) et le web sémantique. Nous proposons à cet effet d'adapter l'ensemble des concepts présents dans DBpedia au français en traduisant de manière précise les étiquettes anglaises de cette ressource et en enrichissant DBpedia à l'aide d'autres formes de surface que celles émanant des titres des pages de Wikipedia.

Nous mettrons cette base française à l'essai grâce à l'annotateur sémantique que nous développerons, à l'instar de ceux qui sont offerts pour l'anglais. Ressources et outils seront disponibles sur le Web afin qu'une large communauté d'usagers (industriels, institutions, particuliers) puissent développer leurs propres outils et ainsi promouvoir le développement du Web sémantique pour le français.