Aller au contenu principal
logo
Accueil
ouverture_bib
user_account

User account menu

  • Les bibliothèques du réseau
  • Mon compte
    • Connexion
    • J'active mon compte
    • Je me préinscris
main_menu

Main navigation

  • Catalogue
    • Livres
    • Jeux et jouets
    • Livres numériques
    • Lire autrement
    • Presse et magazines
    • Films et séries
    • Musiques
  • Agenda
  • Dossiers documentaires
  • Patrimoine
  • Offres en ligne
  1. Accueil
  2. Détails
Un cadre pour l’analyse temporelle d’Internet
Spaniol, Marc
Thèse
A Framework for Temporal Web Analytics
Résumé Web-preservation organization like the Internet Archive not only capture the history ofborn-digital content but also reflect the zeitgeist of different time periods over more thana decade. This longitudinal data is a potential gold mine for researchers like sociologists,politologists, media and market analysts, or experts on intellectual property.Longitudinal data analytics – the Web of the Past – poses research challenges, but has notreceived due attention. The sheer size and content of Web archives render them relevantto analysts within a range of domains. The Internet Archive holds more than 350 billionversions of Web pages, captured since 1996. This coverage can no longer be maintained, asWeb content is growing at enormous rates. A high-coverage archive would have to be anorder of magnitude larger.A Web archive of timestamped versions of Web sites over a long-term time horizon opensup great opportunities for analysts. However, difficulties arise from name ambiguities,requiring a disambiguation mapping of mentions (noun phrases in the text) onto entities.For example, “Bill Clinton” might be the former US president William Jefferson Clinton,or any other William Clinton contained in Wikipedia. Ambiguity further increases if thetext only contains “Clinton” or a phrase like “the US president”. The temporal dimensionintroduces additional complexity, for example when names of entities have changed overtime (e.g. people getting married or divorced, or organizations that undergo restructuring intheir identities). By mapping names and phrases onto canonicalized entities, we raise theentire analytics to a semantic rather than keyword-level in order to make sense of the rawand often noisy Web contents. La conservation et l’organisation des données Internet, comme avec Internet Archive ne permettent pas seulement d’écrire l’histoire des contenus numériques d’origine, mais aussi de capter l’esprit du temps (zeitgeist) de différentes périodes couvrant plus d’une décennie. Ces données longitudinales sont une mine d’or à exploiter par les sociologues, politologues, les analystes des médias et des marchés, ou encore les experts en propriété intellectuelle.Le domaine de l’analyse des données longitudinales — l’Internet du passé — pose des défis importants de recherche qui n’ont pas reçu l’attention qu’ils méritent. La taille et la diversité de contenu de la Toile et de ses archives rendent son analyse intéressante pour de multiples domaines. L’archive Internet contient plus de 350 billions de versions de pages Web, archivées depuis 1996. Cette couverture n’est plus possible désormais, à cause de la croissance à des taux énormes du nombre de documents Internet. Il faudrait des archives plus importantes d’un ordre de grandeur, pour tout conserver.Une archive Internet contenant des versions datées de sites Web sur une période longue ouvre de grandes opportunités de recherche. Mais une des difficultés tient à l’ambiguïté des noms propres, requérant une désambigüisation des mentions de syntagmes nominaux dans le texte et leur classement en entités. Par exemple, « Bill Clinton » peut désigner William Jefferson Clinton, ancien président des Etats-Unis d’Amérique ou n’importe laquelle des personnes nommées William Clinton recensées par Wikipedia. L’incertitude augmente si le nom est simplement « Clinton » ou encore « le président des Etats-Unis ». La dimension temporelle ajoute une complexité supplémentaire, lorsque les noms changent au fil du temps (lorsque les personnes se marient, divorcent, ou que les organisations fusionnent ou sont restructurées). Pour hisser l’analyse au niveau sémantique, et non plus seulement opérer au niveau des mots-clefs, il faut alors relier les noms propres et les syntagmes avec des entités canoniques, dans l’objectif de donner du sens aux données brutes et bruitées d’Internet.
Thèse
CCSD
-
2014-12-09
https://hal.science/tel-01103973v1/document
https://hal.science/tel-01103973v1/file/HDRMarcSpaniol.pdf
Infos complémentaires
  • thesis advisor :
    Gaël Dias
    ,
    degree committee member :
    Patrice Bellot, Professeur, LSIS, Université d'Aix Marseille (rapporteur)
    Eric Gaussier, Professeur, LIG/AMA, Université J. Fourier/ Grenoble 1 (rapporteur)
    Mathieu Roche, HDR, Cirad UMR TETIS (rapporteur)
    Mohand Boughanem, Professeur, IRIT, Université Paul Sabatier
    Aldo Gangemi, Professeur, LIPN, Université Paris Nord
    Gaël Dias, Professeur, GREYC, Université de Caen Basse Normandie
  • Langue originale :
    anglais
  • Date de la thèse : 2014-12-09
  • Informations sur la thèse : Domaine : Computer Science [cs]/Document and Text Processing , Domaine : Humanities and Social Sciences/Library and information sciences
  • Institution :
    Equipe Hultech - Laboratoire GREYC - UMR6072
    Groupe de Recherche en Informatique, Image et Instrumentation de Caen
    Université de Caen Normandie
    Normandie Université
    École Nationale Supérieure d'Ingénieurs de Caen
    Centre National de la Recherche Scientifique
  • Accès : Distributed under a Creative Commons Attribution 4.0 International License
Sujets
  • Information Science and Communication
  • science de l'information et de la communication

FAQ

Liens FAQ
Quels documents sont nécessaires pour s'inscrire ou se réinscrire à la bibliothèque ?
Combien de documents puis-je emprunter ? Combien de temps ? Et comment les prolonger ?
Les horaires d'ouverture changent-ils pendant les vacances scolaires ?
Combien de temps faut-il arriver avant le début d'une animation ?

Autres informations et mentions légales

Logo Tech'Advantage

Body

Tech'Advantage
Syrtis

532 avenue Napoléon Bonaparte
92500 RUEIL-MALMAISON
01 56 84 02 00
Contact
Body

Informations générales

  • Mentions légales
  • Accessibilité : non conforme
  • Données personnelles
Body

Réseaux sociaux

  • LinkedIn
  • X