Détails | Portail de démonstration Syrtis

Un cadre pour l’analyse temporelle d’Internet

Spaniol, Marc

Thèse

A Framework for Temporal Web Analytics

Résumé

Web-preservation organization like the Internet Archive not only capture the history ofborn-digital content but also reflect the zeitgeist of different time periods over more thana decade. This longitudinal data is a potential gold mine for researchers like sociologists,politologists, media and market analysts, or experts on intellectual property.Longitudinal data analytics – the Web of the Past – poses research challenges, but has notreceived due attention. The sheer size and content of Web archives render them relevantto analysts within a range of domains. The Internet Archive holds more than 350 billionversions of Web pages, captured since 1996. This coverage can no longer be maintained, asWeb content is growing at enormous rates. A high-coverage archive would have to be anorder of magnitude larger.A Web archive of timestamped versions of Web sites over a long-term time horizon opensup great opportunities for analysts. However, difficulties arise from name ambiguities,requiring a disambiguation mapping of mentions (noun phrases in the text) onto entities.For example, “Bill Clinton” might be the former US president William Jefferson Clinton,or any other William Clinton contained in Wikipedia. Ambiguity further increases if thetext only contains “Clinton” or a phrase like “the US president”. The temporal dimensionintroduces additional complexity, for example when names of entities have changed overtime (e.g. people getting married or divorced, or organizations that undergo restructuring intheir identities). By mapping names and phrases onto canonicalized entities, we raise theentire analytics to a semantic rather than keyword-level in order to make sense of the rawand often noisy Web contents. La conservation et l’organisation des données Internet, comme avec Internet Archive ne permettent pas seulement d’écrire l’histoire des contenus numériques d’origine, mais aussi de capter l’esprit du temps (zeitgeist) de différentes périodes couvrant plus d’une décennie. Ces données longitudinales sont une mine d’or à exploiter par les sociologues, politologues, les analystes des médias et des marchés, ou encore les experts en propriété intellectuelle.Le domaine de l’analyse des données longitudinales — l’Internet du passé — pose des défis importants de recherche qui n’ont pas reçu l’attention qu’ils méritent. La taille et la diversité de contenu de la Toile et de ses archives rendent son analyse intéressante pour de multiples domaines. L’archive Internet contient plus de 350 billions de versions de pages Web, archivées depuis 1996. Cette couverture n’est plus possible désormais, à cause de la croissance à des taux énormes du nombre de documents Internet. Il faudrait des archives plus importantes d’un ordre de grandeur, pour tout conserver.Une archive Internet contenant des versions datées de sites Web sur une période longue ouvre de grandes opportunités de recherche. Mais une des difficultés tient à l’ambiguïté des noms propres, requérant une désambigüisation des mentions de syntagmes nominaux dans le texte et leur classement en entités. Par exemple, « Bill Clinton » peut désigner William Jefferson Clinton, ancien président des Etats-Unis d’Amérique ou n’importe laquelle des personnes nommées William Clinton recensées par Wikipedia. L’incertitude augmente si le nom est simplement « Clinton » ou encore « le président des Etats-Unis ». La dimension temporelle ajoute une complexité supplémentaire, lorsque les noms changent au fil du temps (lorsque les personnes se marient, divorcent, ou que les organisations fusionnent ou sont restructurées). Pour hisser l’analyse au niveau sémantique, et non plus seulement opérer au niveau des mots-clefs, il faut alors relier les noms propres et les syntagmes avec des entités canoniques, dans l’objectif de donner du sens aux données brutes et bruitées d’Internet.

Thèse

CCSD

2014-12-09

https://hal.science/tel-01103973v1/document

https://hal.science/tel-01103973v1/file/HDRMarcSpaniol.pdf

Infos complémentaires

thesis advisor :

Gaël Dias

,
degree committee member :

Patrice Bellot, Professeur, LSIS, Université d'Aix Marseille (rapporteur)

Eric Gaussier, Professeur, LIG/AMA, Université J. Fourier/ Grenoble 1 (rapporteur)

Mathieu Roche, HDR, Cirad UMR TETIS (rapporteur)

Mohand Boughanem, Professeur, IRIT, Université Paul Sabatier

Aldo Gangemi, Professeur, LIPN, Université Paris Nord

Gaël Dias, Professeur, GREYC, Université de Caen Basse Normandie
Langue originale :

anglais
Date de la thèse :
2014-12-09
Informations sur la thèse :
Domaine : Computer Science [cs]/Document and Text Processing , Domaine : Humanities and Social Sciences/Library and information sciences
Institution :

Equipe Hultech - Laboratoire GREYC - UMR6072

Groupe de Recherche en Informatique, Image et Instrumentation de Caen

Université de Caen Normandie

Normandie Université

École Nationale Supérieure d'Ingénieurs de Caen

Centre National de la Recherche Scientifique
Accès :
Distributed under a Creative Commons Attribution 4.0 International License

Sujets

FAQ

Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?

Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?

Les horaires d'ouverture changent-ils pendant les vacances scolaires ?

Combien de temps faut-il arriver avant le début d'une animation ?