Ontologies ingénierie du web sémantique par ontologie Fusion et classification

Doctorant : 
Directeur(s) : 
Co-responsable(s) : 
Date de début : 
septembre 2010
Date de soutenance : 
Lundi 15 avril 2013
Institution locale : 

Le Web Sémantique constitue un environnement dans lequel les agents humains et machine vont communiquer selon une base sémantique. Le Web Sémantique utilise la notion d'ontologies pour la conceptualisation et l’extraction des connaissances du domaine et les stocke en termes de concepts et de propriétés dans la machine d'une manière compréhensible et traitable. En raison de leurs capacités de décidabilité et d'expressivité, les ontologies ont joué un rôle fondamental pour décrire la sémantique des données non seulement dans le web sémantique émergents, mais aussi dans l'ingénierie des connaissances traditionnelles et les systèmes de traitement de l'information. Néanmoins, l’augmentation du nombre d'ontologies développées et maintenues sur le web, exige une multitude de nouvelles techniques pour la réalisation de la vision du Web sémantique. Cette thèse traite deux tâches de gestion d'ontologies multiples sur le web sémantique, c'est à dire la fusion d'ontologies hétérogènes et leur classification. Aujourd’hui, les ontologies sont développées pour des fins, des besoins et des exigences multiples. Les mêmes ontologies partagent des domaines de connaissance qui se chevauchent et peuvent être utilisées pour l'annotation de sources de données multiples telles que les pages Web, les référentiels XML, les bases de données relationnelles, etc. Une telle utilisation d'ontologies représente un moyen de fournir une compréhension partagée / commune de divers domaines ce qui permet d’avoir un certain degré d'interopérabilité entre ces sources de données. Afin répondre à ces exigences, l'alignement d'ontologies, la cartographie et les systèmes de fusion ont fait leur apparition. Ces techniques sont les solutions les plus répondues dans les domaines d'application puisqu’elles établissent des collaborations qui impliquent le partage des données, des connaissances et des ressources entre les sociétés modernes. Elles aident aussi à développer une nouvelle ontologie existante en réutilisant des ontologies ouvertes et réduire considérablement le coût de la construction d'une nouvelle ontologie. Bien, qu’il y a un grand effort réalisé, néanmoins, la fusion des définitions axiomatiques des concepts reste une question de recherche encore ouverte. En outre, l’état de l'art des systèmes de fusion d'ontologies est semi-automatique qui réduit uniquement le fardeau de la création manuelle et la maintenance des mappings et des besoins d'intervention humaine pour leur validation. Cette thèse présente des travaux de recherche concernant la fusion sémantique, DKP, qui proposent des méthodes nouvelles pour la détection automatique des incohérences sémantiques, la fusion des définitions axiomatiques et les stratégies de résolution des conflits dans le processus de fusion d’ontologies. L’objectif principal est de vérifier l'exactitude et la cohérence sémantique d'applications, et d'assurer la satisfiabilité de l'ontologie fusionnée. Pour atteindre cet objectif, d'abord, ce travail utilise une stratégie hybride pour détecter d’éventuels mapping en suivant divers correspondances individuelles. Puis, il emploie des critères de test qui détectent les incohérences sémantiques à partir de la liste des mappings initiales en exploitant toutes sortes de connaissances dans les ontologies locales. Il vérifie que les concepts lexicalement similaires, au sein de l'ontologie locale source, ne se contredisent pas tout en respectant le jeu d'axiomes (subsomption, disjonction, etc.). Les mappings initiaux entre les concepts des ontologies locales sont marqués en fonction du degré de différence ou de conflit dans le schéma individuel. Le module de vérification de cohérence agit comme un filtre à l'étape initiale de fusion en vérifiant l'ensemble des conditions de base avant d'autoriser les axiomes d'être ajouté à l'ontologie globale. En outre, nous avons conçu un nouvel algorithme qui construit l'espace de recherche pour la cartographie basée sur des partitions disjointes dans des ontologies source. Recherchez dans les partitions disjointes minimise l'espace de recherche pour dans le processus de recherche de mappings. Cette action permet par conséquent de réduire la complexité d'exécution de la fusion d'ontologies. Le cadre d’étude proposé est mis en œuvre et évalué sur différents cas réels de test avec des résultats encourageants qui ont prouvé empiriquement ses avantages. Notre cadre permet d’exploiter plus la sémantique fournie dans les ontologies sources et d’utiliser des critères de test pour les mappings initiaux trouvés. De plus notre approche améliore la précision de la fusion d’ontologies, minimise l'intervention humaine un pas de plus vers le bas pendant le processus de fusion, et produit une ontologie globale cohérente et complète à partir d’ontologies locales hétérogènes. De cette façon, il forme une couche globale à partir de laquelle plusieurs ontologies locales hétérogènes peut être consulté et donc serait l'échange d'information dans les mœurs sémantiquement. Nous avons appliqué la méthodologie de fusion d'ontologies sur l'intégration de données pour vérifier son efficacité et efficience. L'intégration de données fait apparaitre le problème de formation d’une vue unifiée des sources de données distribuées et hétérogènes. La nécessité de tels systèmes est nécessaire lorsque deux entreprises allaient être fusionnées ou des pièces différents unités de l'entreprise adoptent des systèmes différents pour gérer leurs données critiques. Un de ces cas est l'entreposage de données, où le système extrait, transforme et charge des données provenant de plusieurs sources dans un schéma unique interrogeable. Cette approche (ETL) donne les meilleurs résultats des requêtes puisque les données résident ensemble dans un référentiel unique, mais, engendre un coût énorme lorsque les sources locales de données sont actualisées. Pour remédier à cet inconvénient, la tendance est favorisée par la construction d'un entrepôt virtuel basé sur un médiateur dans les dernières années. L’intégration virtuelle des données facilite le placement physiquement dans les sources de données originales et laisse le choix à l'utilisateur de localiser les sources locales pertinentes pour une requête, d'interagir avec chacun d'eux indépendamment et de combiner manuellement les données provenant de sources multiples. En fait, il existe plusieurs problèmes liés à l'intégration de données virtuelles, mais dans notre étude de cas, nous nous sommes intéressés à l’analyse et la construction de critères de qualité pour améliorer les résultats des requêtes. Les principales composantes de l'étude de cas est la correspondance des schémas pour construire un schéma global, le calcul des correspondances sémantiques entre les schémas individuels, et l’exécution de la requête pour récupérer les résultats par la réécriture de requêtes, l’obtention des réponses locales, et enfin la construction de réponses globales. L'utilisateur formule une requête en fonction du schéma global générée par notre outil de fusion d’ontologies (DKP) et le médiateur adopte des mécanismes pour exécuter la requête afin d'apporter des réponses significatives. Pour cela, il traduit une requête formulée sur le schéma médiation en une requête dédiée directement à des schémas dans les sources de données. Les résultats d'intégration de données générés souffrent souvent d'incohérence, d'incomplétude et de redondance.

 Toutefois, à partir de cette étude de cas, nous avons trouvé que la qualité du schéma global a un lien fort avec les résultats obtenus des requêtes, parce que lorsque le schéma global comporte des incohérences relatives à des informations incomplètes de la source locale ou des redondances, les résultats à la requête serait fortement compromis.

Une information globale redondante dans le schéma global entraine l’accès à des informations inutiles par le médiateur et l'exécution des requêtes peut prendre beaucoup plus de temps. L'incomplétude du schéma global ne donne pas à l'utilisateur une vue complète unifiée sur des données distribuées sur laquelle la requête peut être effectuée. De même, l'incohérence dans le schéma global fournit des résultats vides, contradictoires et inexacts. Notre étude de cas a permis d'améliorer le mécanisme de réponse à des requêtes. Ce mécanisme de réponse est basé sur la sémantique des ontologies sous-jacentes et fournit un mécanisme pour trouver des informations plus implicites sur les sources de données. Le mapping sémantique des concepts a permis l'extraction inférée d'autres types d'information implicite à partir de plusieurs chemins sémantique entre sources de données. Les requêtes des utilisateurs sont transformées en requêtes qui peuvent fournir des résultats plus significatifs afin de mieux répondre aux intentions de l'utilisateur. Nous avons conclu que les critères de qualité basés sur la détection d'incohérence, l'incomplétude et la redondance est en effet un modèle approprié pour soutenir l'entrepôt virtuel fiable. Cette thèse explore une autre tâche essentielle de la classification des ontologies Web. L’intérêt du web sémantique avec le nombre de plus en plus important d'ontologies, où les ontologies multiples associées à un même domaine / concept semble être assez fréquent, sont d'une importance immense pour classer les ontologies Web en hiérarchies de domaine respectifs. Il aide les humains et les agents Web pour trouver l'ontologie correcte et souhaitée (ou concept) sur le web et soutient les processus d'ingénierie ontologique. La classification d’ontologies est également essentielle pour de nombreuses autres tâches telles que le développement des répertoires d’ontologie sur le web, la focalisation sur la récupération d’ontologies, le concept d'analyse spécifique d’ontologies modulaires, l'amélioration de la qualité de la recherche, etc. Dans le but de relever le défi réel de la recherche et la récupération d'ontologies, cette thèse a présenté l'approche basée ontologie pour la classification d’ontologies. Nous pensions que les ontologies une fois classées correctement, elles sont recherchées de manière sémantique dans les applications basées ontologies sur le Web sémantique. Pour construire une approche de classification sémantique, nous avons utilisé notre méthodologie de correspondance d'ontologies et remplacé l'approche de classification de texte par l'approche d’ontologie spécifique pour le classement des ontologies Web. Nous avons réalisé une étude de cas et nous sommes conscients que l'approche d’ontologie basée fonctionne mieux pour faire chevaucher les ontologies qui se croisent en raison de leurs hétérogénéités sémantiques et l'exigence de la structure des connaissances lors de la modélisation du domaine. La classification d’ontologies, fondée sur une approche de correspondance d’ontologies, exploite la correspondance de la connaissance du contexte spécifique qui résulterait d'une ontologie de classification arbitraire dans une catégorie appropriée, avec la distribution de probabilité sur l'ensemble des catégories. L'utilisation de la correspondance d'ontologies à la classification d’ontologie a donné une plus grande précision du processus de classification en particulier dans le cas des ontologies qui se chevauchent, où les algorithmes de classification texte ne fonctionnent pas bien dans les portails actuels du web sémantique. Ce travail de classification des ontologies Web peut bénéficier de la construction, l'entretien ou l'expansion des répertoires d’ontologies sur le web sémantique. Actuellement, les répertoires d’ontologies sont maintenus par des éditeurs humains qui facilitent aux utilisateurs d’explorer des ontologies au sein d'un ensemble prédéfini de catégories. Le classificateur d’ontologies fait ce travail fastidieux de façon automatique en remplaçant les efforts manuels pour aider à actualiser et élargir ces annuaires.

 

MOTS-CLES : Ontologie Fusion; Classification ontologie; interopérabilité des systèmes d'information; Systèmes Hétérogènes