Soutenance de thèse de Bilal BERJAWI – 1er septembre 2017
1er septembre 2017 – 14h00 – LIRIS – Bâtiment Blaise PASCAL – salle de réunion (501-301) – 3ème étage – Campus LyonTech la Doua, 7 avenue Jean Capelle, 69100 Villeurbanne
Bilal BERJAWI soutiendra sa thèsé intitulée « Intégration des données hétérogènes issues de plusieurs fournisseurs de services géo-localisés : un cas d’utilisation sur les points d’intérêt touristique » le 1er septembre prochain. Cette thèse a été financée par le LAbeEx IMU dans le cadre du projet UNIMAP (2012).
Le jury sera composé de :
• Pr DEVOGELE Thomas, Professeur des Université, Université de Tours, Rapporteur
• Pr LBATH Ahmed, Professeur des Université, Université Grenoble Alpes, Rapporteur
• Pr LAMARRE Philippe, Professeur des Universités, INSA de Lyon, Examinateur
• Pr GAIO Mauro, Professeur des Universités, Université de Pau et des Pays de L’Adour, Examinateur
• Pr LIBOUREL Thérèse, Professeur des Universités, Université de Montpellier 2, Examinatrice
• Dr ZANIN Christine, Maître de Conférence, Université Paris Diderot, Examinatrice
• Dr MIQUEL Maryvonne, Maître de Conférence (HDR), INSA de Lyon, Directrice de thèse
• Dr FAVETTA Franck, Maître de Conférence, Université Claude Bernard Lyon 1, Encadrant de thèse
Elle sera suivie d’un pot de thèse en salle 501.342 auquel vous êtes également conviés.
Résumé de la thèse
Les services de géolocalisation (LBS) sont impliqués dans de nombreuses applications pour fournir des informations géospatiales pertinentes basées sur une position ou une adresse géographique. La quantité de données géospatiales disponible augmente constamment et constitue des sources d’informations précieuses pour enrichir les applications LBS. Cependant, ces données géospatiales sont souvent incohérentes et contradictoires d’une source à l’autre. Aussi, pensons-nous que l’intégration de données géospatiales à partir de plusieurs sources peut améliorer la qualité de l’information offerte aux utilisateurs.
Dans cette thèse, nous nous intéresserons plus spécifiquement aux données représentant les points d’intérêt (POIs) que les touristes peuvent obtenir grâce à des applications LBS. Techniquement, un POI est représenté par une entité géospatiale qui décrit ses informations terminologiques et spatiales. La récupération, l’alignement et la fusion de ces entités géospatiales mènent à plusieurs défis. Nous nous focalisons principalement sur trois principaux défis : (i) traiter les différents schémas et structures des entités, (ii) détecter et fusionner les entités correspondantes issues de multiples sources et (iii) tenir compte de l’incertitude liée aux entités intégrées et proposer leur représentation dans les applications LBS.
Tout d’abord, nous présentons un aperçu technique qui met en évidence les méthodes utilisées par les actuels fournisseurs LBS pour partager leurs POIs ainsi que leurs limites. Ensuite, nous définissons une taxonomie de différences et d’incohérences observées entre les entités qui représentent les POIs. Cette taxonomie permet de modéliser et de comprendre comment les données peuvent différer d’une source à l’autre, ce qui nous aide à étudier comment nous devrions les intégrer. En se basant sur cette taxonomie, nous présentons PABench, un benchmark pour l’alignement des entités géospatiales. PABench peut fournir une évaluation précise des différents aspects de la qualité des approches d’alignement d’entités géospatiales et également faciliter la compréhension de leurs capacités et faiblesses quant à l’intégration géospatiale.
En ce qui concerne l’intégration des données, nous nous concentrons sur deux _étapes : l’alignement d’entités et la fusion d’entités. Nous proposons l’approche Global Similarity pour l’alignement des entités géospatiales qui utilise à la fois des informations spatiales et terminologiques pour détecter les entités correspondantes. Au préalable notre approche consiste à utiliser une méthode de blocage spatial pour réduire le nombre d’entités potentiellement correspondantes. Ensuite, les entités groupées sont comparées en utilisant des mesures de similarité afin de détecter les paires correspondantes. Pour les attributs spatiaux, nous utilisons une mesure que nous avons définie et comparée _a d’autres mesures existantes. Pour les attributs terminologiques, nous utilisons des mesures de similarité issues de la littérature que nous avons sélectionnées selon le type de l’attribut. Une fois les entités correspondantes détectées, un algorithme de fusion de données est mis en œuvre pour fusionner les entités correspondantes et pour estimer l’incertitude des valeurs choisies. L’incertitude sera ensuite utilisée pour informer les utilisateurs de l’exactitude des informations qu’ils reçoivent.
Enfin, nous avons étudié la visualisation d’entités fusionnées et de l’incertitude dans des cartes interactives. Nous utilisons des tests cognitifs pour déterminer les variables visuelles à utiliser et les informations à représenter directement et les informations à représenter à la demande. Nous montrons la faisabilité et l’intérêt de notre étude en développant un prototype LBS multifournisseurs et en évaluant notre proposition pour les utilisateurs potentiels.
Bilal BERJAWI will support his thesis entitled « Integration of Heterogeneous Data from Multiple Location-Based Services Providers: a Use Case on Tourist Points of Interest » on Friday, September 1st 2017 at 02pm in room 501.301, 3rd floor, Blaise Pascal Building, Campus de la Doua, 7 avenue Jean Capelle, 69100 Villeurbanne.
Composition of the Jury:
• Pr DEVOGELE Thomas, Université de Tours, Reviewer
• Pr LBATH Ahmed, Université Grenoble Alpes, Reviewer
• Pr LAMARRE Philippe, INSA Lyon, Examiner
• Pr GAIO Mauro, Université de Pau et des Pays de L’Adour, Examiner
• Pr LIBOUREL Thérèse, Université de Montpellier 2, Examiner
• Dr ZANIN Christine, Université Paris Diderot, Examiner
• Dr MIQUEL Maryvonne, INSA Lyon, PhD Supervisor
• Dr FAVETTA Franck, Université Claude Bernard Lyon 1, PhD Advisor
You are also kindly invited at the reception that will follow the defense in room 501.342.
Abstract
Location Based Services (LBS) had been involved to deliver relevant geospatial information based on a geographic position or address. The amount of geospatial data is constantly increasing, making it a valuable source of information for enriching LBS applications. However, these geospatial data are highly inconsistent and contradictory from one source to another. We assume that integrating geospatial data from several sources may improve the quality of information offered to users.
In this thesis, we specifically focus on data representing Points of Interest (POIs) that tourists can get through LBS. Technically, a POI is represented by a geospatial entity that describes the terminological and spatial information of the POI. Retrieving, matching and merging such geospatial entities lead to several challenges. We mainly focus on three main challenges including (i) dealing with different schemas and structures of entities, (ii) detecting and merging corresponding entities across multiple sources and (iii) considering the uncertainty of integrated entities and their representation in LBS applications.
First, we represent a technical overview to highlight the limitations and methods used by current LBS providers to share their POIs. Then, we define a taxonomy of observed differences and inconsistencies between the entities that represent the POIs. This taxonomy shows how data may differ from one source to another, which helps us understand how we should integrate them. Based on this taxonomy, we introduce PABench, a benchmark for geospatial entity matching. PABench can provide an accurate evaluation of the different quality aspects of geospatial entity matching approaches, and also facilitate an understanding of their weaknesses and abilities with respect to geospatial integration.
Concerning the data integration, we focus on two steps namely: entity matching and entity merging. We propose a geospatial entity matching approach namely Global Similarity that uses both spatial and terminological information to detect the corresponding entities. Our method uses a spatial blocking method to reduce the number of the potentially corresponding entities. Then, the grouped entities are compared using similarity measures in order to detect the corresponding pairs. We propose a spatial similarity measure and compare it to existing similar measures. We also compared a set of terminological similarity measures in order to select the appropriate measure to compare values of a given attribute. Once corresponding entities are detected, a data fusion algorithm is proposed to merge corresponding entities and to estimate the uncertainty of chosen values. The uncertainty is then used to inform users about the accuracy of the information they receive.
Finally, we studied the visualization of merged entities in interactive maps. We use cognitive tests to find which visual variables to use and what information to be represented directly and what information to be represented on demand. We proved the feasibility and the benefits of our study by implementing a multi providers LBS prototype and by evaluating our proposal for potentially users.