Blog / Fondations, Visuellement parlant, Intelligence artificielle

Balisage programmatique

Peter Krogh
Wed May 06 2020

Dans l’article d’aujourd’hui, je décris certains types de marquage qui peuvent être effectués automatiquement.

Soyons réalistes : (presque) personne n’a envie de passer beaucoup de temps à étiqueter des images, et l’un des atouts de la communication photographique est d’éviter de devoir rédiger des descriptions écrites. À mesure que les collections d’images se développent de plus en plus, les outils d’intelligence artificielle deviennent de plus en plus importants pour classer les images. Ensemble, ces nouveaux outils constitueront un élément essentiel de la création de la sémantique de l’imagerie.

Voici quelques-unes des capacités programmatiques qui relèvent de l’intelligence artificielle et du balisage informatique :

Apprentissage automatique

Les ordinateurs peuvent être formés pour effectuer toutes sortes de tâches de reconnaissance visuelle, de l’identification des espèces à la lecture de l’écriture manuscrite en passant par la recherche de défauts dans les produits manufacturés. L’apprentissage automatique est la vaste catégorie englobant tout système pouvant être formé. Certains systèmes s’appuient sur des serveurs et des bases de données centralisés, et d’autres peuvent être exécutés localement sur votre propre ordinateur.

Reconnaissance faciale

L’une des principales capacités de l’apprentissage automatique est la reconnaissance faciale. C’est un besoin évident dans de nombreuses situations différentes, des forces de l’ordre aux médias sociaux en passant par la gestion de l’image personnelle. Certains services peuvent reconnaître des personnes remarquables. D’autres sont conçus pour être formés à reconnaître des personnes spécifiques.

Reconnaissance d'objets

Des dizaines de services commerciaux peuvent analyser des images et identifier ce qui est représenté. Il peut s'agir de services généralisés, capables de reconnaître de nombreux types d'objets, ou d'algorithmes d'apprentissage automatique très spécialisés, entraînés pour des tâches spécifiques.

Analyse situationnelle

De nombreux services capables de reconnaître des objets peuvent également émettre des hypothèses sur la situation affichée. Il s'agit généralement d'une description de l'activité, comme la natation, ou du type d'environnement, comme un aéroport.

Classement esthétique

La vision par ordinateur peut évaluer la qualité de l'image. Elle peut détecter les visages, les clignements des yeux et les sourires. Elle peut également vérifier la couleur, l'exposition et la composition et effectuer certaines évaluations de classement programmatique.

Analyse émotionnelle

Les images peuvent être analysées pour déterminer si les expressions des personnes sont heureuses, tristes, en colère, etc. Certains services peuvent également être en mesure d’attribuer une étiquette émotionnelle aux images en fonction du sujet, par exemple en ajoutant le mot-clé « triste » à une photo d’enterrement.

Reconnaissance optique de caractères

L'OCR désigne le processus de lecture des lettres ou des chiffres affichés dans une image. Bien entendu, cela peut s'avérer très utile pour déterminer le sujet et le contenu.

Services de recherche d'images

La recherche d'images est une technologie assez mature, mais les services basés sur la recherche d'images n'en sont qu'à leurs débuts. Utilisée sur le Web ouvert, par exemple, la recherche d'images peut vous renseigner sur la diffusion d'une idée ou d'un mème. Elle peut également vous aider à trouver des images en double ou similaires dans votre propre système, entreprise ou bibliothèque.

Données liées

Comme décrit précédemment, il existe un corpus illimité de connaissances sur les personnes, les lieux et les événements représentés dans une collection d’images, bien plus que ce que l’on pourrait jamais intégrer dans une base de données. Relier des objets multimédias à des piles de données sera un outil essentiel pour comprendre le sujet de la photo dans un contexte programmatique.

Épuisement des données

J’utilise ce terme pour désigner les données personnelles que vous créez lorsque vous naviguez dans le monde, et qui peuvent être utilisées pour vous aider à comprendre le sens et le contexte d’une image. Vos entrées de calendrier, vos textes ou vos e-mails contiennent tous des informations utiles pour étiqueter automatiquement les images. Cela soulève de nombreux problèmes de confidentialité, mais c’est le moyen le plus prometteur d’associer automatiquement des connaissances spécifiques au créateur à l’objet.

Traitement du langage naturel

La PNL est la science du décodage du langage tel que les humains l’utilisent réellement plutôt que selon les définitions strictes du dictionnaire. La PNL permet de détecter l’argot, la mauvaise grammaire, les métaphores, etc. C’est ce qui vous permet d’entrer une syntaxe humaine normale dans une recherche Google et d’obtenir le bon résultat. C’est ce qui permet à une recherche sur « Cool dog photo » de faire apparaître cette photo au lieu d’un simple chien dans la neige.

Traduction de la langue

Nous savons tous probablement que Google Translate permet de traduire une phrase d’une langue à une autre. Intégrer la traduction linguistique à la sémantique de l’image permet d’en faire un système de communication véritablement transculturel.

Toutes les catégories de marquage répertoriées ci-dessus sont disponibles sous une forme ou une autre en tant que services d'IA, qui peuvent être utilisés pour étiqueter de nombreuses images très rapidement et à moindre coût. Certaines de ces balises peuvent même être utiles. (Malheureusement, à l'heure actuelle, beaucoup d'entre elles sont soit erronées, soit inutiles.) Il peut y avoir pas mal de négligence ici.

Les services d’apprentissage automatique tentent de filtrer les erreurs grâce à des notes de confiance. Les balises peuvent être filtrées en fonction de la confiance de l’algorithme dans chaque résultat. Bien que cela puisse être utile, à mon avis, cela ne résout pas le défi le plus important, qui est l’intégration de la curation humaine aux outils d’apprentissage automatique. Comme vous pouvez l’imaginer, c’est un problème que nous étudions de près et nous avons des approches prometteuses.

Dans le prochain article, nous verrons comment tous ces outils de balisage peuvent être réunis pour créer une méthode plus complète pour comprendre le contenu des images par programmation.

Mediagraph est-il adapté à votre organisation ?

Découvrons-le ensemble.

Réservez votre démo aujourd'hui