Gestion de la vulnérabilité de la cyber-sécurité à l’aide de réseaux de neurones LSTM

Doctorant : 
Directeur(s) : 
Co-responsable(s) : 
Date de début : 
février 2017
Date de soutenance : 
Mercredi 15 juillet 2020
Institution locale : 

Le nombre de vulnérabilités découvertes et signalées chaque année dans le domaine de cyber sécurité augmente
constamment. Des dizaines de milliers de vulnérabilités dans les systèmes informatiques sont publiées dans
des bases publiques annuellement, tel que CVE (Common Vulnerabilities and Exposures). Ces vulnérabilités
sont exploitées principalement entre le moment où elles sont découvertes et le moment où un correctif est
fourni. Étant donné que tout le monde n'installe pas les correctifs rapidement, certaines vulnérabilités
continuent d'être exploitées même après qu'un correctif soit disponible. La principale raison est le manque de
sensibilisation à ces vulnérabilités et aux correctifs disponibles.


Pour fournir rapidement des renseignements liés à ces vulnérabilités à la communauté de la cyber sécurité,
souvent les informations doivent être extraites d'un texte brute non structuré dans des blogs en ligne, des
articles, etc. Ensuite, ces informations sont représentées sous une forme intégrée, partagée et structurée tel que
des bases de données ou des ontologies. Plusieurs contributions ont cherché à modéliser les concepts du
domaine de la gestion des vulnérabilités sous forme d'ontologies. Certaines ontologies proposées étaient assez
expressives et couvraient la plupart des concepts du domaine. Cependant, ces ontologies ne pouvaient pas être
utilisées dans des applications pratiques en raison de limites d’acquisition des connaissances. Sans information,
les ontologies ne sont que des squelettes, et le principal défi reste dans l’insertion automatisée des informations
dans ces ontologies. La raison principale liée à la difficulté de la tâche est que les informations sont
principalement stockées dans un format textuel en langage naturel. Ceci rend la conversion manuelle de ces
informations en données structurées non pratique car elle nécessite beaucoup de temps et d'énormes ressources
humaines.


À travers cette thèse, nous avons étudié la pertinence des modèles basés sur LSTM (Long Short Term Memory)
dans l'extraction d'informations à partir de corpus de cyber sécurité et plus spécifiquement les descriptions
textuelles des vulnérabilités des systèmes informatiques. Nous avons utilisé les techniques du traitement du
langage naturel (NLP) et des réseaux de neurones LSTM. Les techniques NLP aident à l'automatisation de
l'extraction et la transformation de l'information. L'extraction d'informations est un sous-domaine de l’NLP
qui implique la reconnaissance de contenu sémantique dans le texte en langage naturel. Des travaux antérieurs
ont montré que les outils NLP standard ne sont pas capables d'extraire des entités liées à la cyber sécurité et
les relations entre elles. Les outils traditionnels utilisés pour NER (reconnaissance d’entités nommées) donnent
les meilleurs résultats, et s'appuient sur l'ingénierie des caractéristiques pour l'extraction d'informations.
L'ingénierie des caractéristiques souffre de plusieurs limitations. Les méthodes basées sur les réseaux de
neurones LSTM, qui sont devenues plus efficaces ces dernières années, offrent une alternative prometteuse
aux méthodes traditionnelles d'extraction d'informations. Leur principal avantage est l'élimination de
l’extraction manuelle des caractéristiques, car les réseaux de neurones peuvent apprendre à modéliser les
caractéristiques à partir des données, ce qui soulage de la laborieuse définition des caractéristiques.


Les résultats obtenus ont montré une amélioration remarquable de la tâche NER par rapport au modèle CRF
(Conditional Random Fields) statistique traditionnel. Les modèles LSTM utilisés pour l'extraction des relations
ont montré qu'il existe une variance dans leurs performances dans ce domaine. En conséquence, un des modèles
(SDP : Shortest Dependency Path) a atteint la plus grande précision. L'un des points forts des LSTM étudiés
est l’indépendance par rapport au domaine sur lequel ces modèles sont appliqués. Avec notre approche, le
besoin d'outils spécifiques au domaine est éliminé. Le corpus d’entrainement est par conséquent beaucoup plus
simple et nécessite un prétraitement plus simplifié. Enfin, les modèles LSTM ont été intégrés dans un
framework qui peut être utilisé pour convertir les descriptions textuelles des vulnérabilités en informations
utilisées pour remplir une ontologie de gestion des vulnérabilités. Cette ontologie ouvrirait la voie à des
systèmes qui fourniraient rapidement des informations pertinemment sur ces vulnérabilités et menaces.

Mots-clés : cyber sécurité, NER, extraction de relations, gestion des vulnérabilités, LSTM