Nouvelles

Comment automatiser le classement des sites web .be ?

13 juillet 2023

Mise à jour

Le code utilisé par Thomas pour classer les sites web .be est désormais libre.

Dans le cadre de son mémoire de master, Thomas Daniels a étudié la possibilité d’un classement automatique des sites web à l’aide du machine learning (apprentissage automatique). Thomas recourt à l'intelligence artificielle (IA) pour alimenter un ordinateur en exemples, classés par nos soins, de sorte que l'ordinateur auto-apprenant puisse ensuite traiter d'autres données.

DNS Belgium se charge chaque année de classer bon nombre de sites web .be de manière à connaître la finalité des noms de domaine .be. Ces données sont systématiquement consignées dans notre rapport annuel. Pour un classement structuré des sites web, nous utilisons depuis cinq ans le modèle de classement du Registry-Registrar Data Group de CENTR  qui définit 25 catégories (au premier niveau).

Jusqu'à l'année dernière, ce classement se faisait à la main. De concert avec des volontaires, nous constituons un échantillon de plusieurs milliers de sites web .be aléatoires. Après analyse de leur objet, les sites sont classés dans l'une des 25 catégories - Un travail laborieux et peu gratifiant que Thomas va nous permettre d’automatiser à l'avenir.

Dans quelle mesure l'échantillon et la machine sont-ils valides ?

Lors du classement manuel, la question s’est bien entendu posée de la pertinence des conclusions tirées d'un échantillon d'environ 2 000 sites quand elles sont extrapolées aux 1,3 million de sites .be existants.

Statistiquement, l’échantillon est suffisamment représentatif. La difficulté réside toutefois dans le fait qu'un tel échantillon reste muet quant aux sous-ensembles non aléatoires de la zone .be, par exemple les sites web enregistrés auprès d'un agent d'enregistrement particulier.

Le classement manuel de notre échantillon a permis de constater, par exemple, que 4,85 % de l’ensemble des sites autres que low content - les sites low content ou au contenu faible affichent un contenu plutôt superficiel - relèvent de la catégorie restaurant/café. Dans le modèle développé par Thomas, elle affiche 4,13 %. Pour minime qu’elle paraisse, cette différence équivaut pourtant à plus de 5 500 sites web.

Il n'est par ailleurs pas toujours évident de déterminer la catégorie à laquelle appartient un site web. Prenons l’exemple d’un hôtel dont le restaurant haut de gamme accueille également des non-résidents et qui utilise un même site web pour l'hôtel et le restaurant. Ce site se range-t-il dans la catégorie tourisme et hébergement ou dans la catégorie restaurants ?

« À la base, il y a un modèle linguistique, que nous connaissons tous depuis l'avènement de ChatGPT. »

Avantages du machine learning

Notre modèle ML n’est pas capable de résoudre ce problème, mais il est suffisamment précis et rapide pour classer tous les sites web .be. En plus de produire un chiffre (ou pourcentage) pour telle catégorie, il peut aussi générer la liste complète des sites web d'une catégorie.

Il devient donc possible de calculer les pourcentages pour un sous-ensemble particulier, par exemple tous les noms de domaine enregistrés en 2023. Il permet aussi d’analyser les corrélations avec d'autres variables, comme la probabilité de renouvellement d'un nom de domaine.

Le machine learning dans la pratique

« Comme nous le savons depuis l’avènement de ChatGPT, notre approche repose sur un modèle linguistique », explique Thomas. « Ce modèle linguistique s’inscrit dans le cadre d'un modèle plus large qui prend également en compte les liens sortants et diverses caractéristiques numériques du site web. Un tel modèle se compare à une fonction mathématique complexe qui convertit l’input en output (des catégories en l’occurrence). » En guise de pré-entraînement, le modèle linguistique se nourrit d’une masse de données (issues de plus de 100 langues) qui vont lui permettre d’appréhender le fonctionnement global de la langue.

L’éventail des exemples étiquetés est divisé en un ensemble d'apprentissage - les données utilisées pour entraîner le modèle - et un ensemble de test (généralement plus restreint) pour vérifier si le modèle fonctionne correctement.

Après avoir entraîné le modèle à l’aide des données étiquetées, on vérifie s’il peut être généralisé et traiter des données issues de sites web qui n'ont pas été utilisés pour entraîner le modèle. La procédure est appliquée à l’ensemble de test.

« S’il atteint un taux de classement correct supérieur à 80 %, l’ordinateur fait mieux que l’homme. »

Chaque site web est évalué par trois personnes, ceci afin de vérifier d’une part que le modèle est alimenté en données correctes et, d'autre part, de déterminer le taux de précision du fonctionnement humain. Dans une étape suivante, Thomas a examiné dans quelle mesure les résultats du modèle correspondaient au classement manuel.

Il a procédé à de multiples expériences pour déterminer quelle approche produisait les meilleurs résultats et a observé que c’est la combinaison de trois modèles qui s’est avérée la plus efficace.

La machine fait-elle mieux que l'homme ?

La question clé reste bien sûr de savoir si une machine auto-apprenante pilotée par IA se montre plus précise dans le classement que nos employés.

Pour l’instant, ce n'est pas encore le cas. « S’il atteint un taux de classement correct supérieur à 80 %, l’ordinateur fait mieux que l’homme », explique Thomas. « Si on considère que seul le classement établi par deux ou trois personnes est correct, le taux de précision s’établit actuellement à 75 %. Si on suppose que la catégorie choisie par l'une des trois personnes est également correcte, le modèle affiche un taux de précision de 85,15 %. »

« Une machine offre l'avantage de pouvoir examiner tous les sites web .be, alors que l’homme en vérifie quelques milliers et amplifie les erreurs qu'il y commet en les extrapolant aux 1,3 million de sites web .be. »

À grande échelle, l'ordinateur se montrera plus précis, mais nous n'en saurons jamais davantage à ce sujet dans la mesure où nous tenons à éviter à notre personnel de devoir analyser chaque site web .be.

 

Le mémoire de master de Thomas vous intéresse ?

Avec cet article, nous contribuons à réaliser ces objectifs de développement durable de l’Organisation des Nations Unies.