De nos jours le web représente indéniablement une source volumineuse d'information incluant des données à caractère stratégique. Ce constat est à l'origine des systèmes d'information basés sur le Web. Ces sous-ensembles sont composés de documents web qui sont principalement des pages web HTML. Ainsi à partir de ces sous-ensembles web, comment extraire de l'information et apporter une valeur ajoutée à l'utilisateur. Notre objectif est de faciliter la prise de décision à partir de documents web provenant d'un seul site ou de plusieurs sites web. Pour cela nous avons besoin de représenter de manière uniforme et identique tout document web, puis d'extraire des données web structurées et non structurées, et enfin de définir des règles d'association entre ces données web. Cependant, à notre connaissance, il n'existe pas de classification standard des données web, mais uniquement des énumérations propriétaires. En ce sens, nous avons défini une classification hiérarchisée des types de données web et des algorithmes d'extraction des données dans l'optique de réaliser des opérations de fouille sur les données.
En appuyant sur le bouton "j'accepte" vous nous autorisez à déposer des cookies afin de mesurer l'audience de notre site. Ces données sont à notre seul usage et ne sont pas communiquées. Consultez notre politique relative aux cookies