L’apprentissage automatique et d’autres services d’IA peuvent ajouter des informations utiles à une bibliothèque visuelle, mais ils ne peuvent baliser que les éléments qu’ils « comprennent ». Certains sujets sont relativement faciles à apprendre à un ordinateur. Certains sont très difficiles, et d’autres sont presque impossibles.
Les capacités de marquage seront une liste toujours plus longue et seront en grande partie déterminées par la volonté des personnes et des entreprises de payer pour ces services. Mais, au moment où nous écrivons ces lignes, les catégories suivantes deviennent assez courantes :
- Objets présentés- C'était l'un des premiers objectifs des services d'IA, et depuis, beaucoup de chemin a été parcouru. La plupart des services d'étiquetage informatique peuvent identifier des objets courants, des paysages et d'autres éléments identifiables de manière générique.
- Personnes et activités présentées- Les services d’IA peuvent généralement identifier si une personne apparaît sur une photo. Ils ne savent généralement pas qui est cette personne, à moins qu’il s’agisse d’une célébrité ou que le service n’ait été formé pour cette personne en particulier. De nombreuses activités peuvent désormais être reconnues par les services d’IA, allant du sport au travail en passant par les loisirs.
- Espèces représentées- Il n’y a pas si longtemps, il était difficile pour l’intelligence artificielle de faire la différence entre un chat et un chien. Aujourd’hui, il est courant que les services soient capables de vous dire quelle race de chat ou de chien (ainsi que de nombreux autres animaux et plantes) il s’agit. Cela convient parfaitement à un projet d’apprentissage automatique, car les plantes et les animaux constituent un ensemble d’apprentissage bien catégorisé et il existe de nombreux cas d’utilisation évidents.
- Lieu indiqué- Même lorsqu'aucune donnée GPS n'est incluse, certains services peuvent identifier un emplacement par l'apparence visuelle d'un bâtiment célèbre ou d'un autre point de repère.
Voici un exemple d'emplacement que Google Cloud Vision a pu reconnaître. Il vous donne également la position GPS du château affiché.
- Contenu réservé aux adultes- De nombreux services de balisage informatique peuvent identifier le contenu réservé aux adultes, ce qui est très utile pour le filtrage automatique. Bien entendu, les notions de contenu réservé aux adultes varient considérablement selon les cultures.
- Texte lisible- La reconnaissance optique de caractères est un élément essentiel des services d’IA depuis le tout début. Elle est désormais étendue à la reconnaissance de l’écriture manuscrite. Et une fois les informations transformées en texte, il est possible de traduire le texte en plusieurs langues.
- Traitement du langage naturel- C’est une chose de pouvoir lire un texte, c’en est une autre de comprendre son sens. Le traitement du langage naturel (TALN) est l’étude de la façon dont nous utilisons le langage. Le TALN nous permet de comprendre l’argot et les métaphores en plus du sens littéral strict. Par exemple, nous pouvons comprendre la phrase « combien ces chaussures vous ont-elles coûté ? » Le TALN est important pour le balisage, mais plus important encore dans le processus de recherche.
- Analyse des sentiments- Les systèmes de marquage peuvent être capables d'ajouter des balises décrivant des sentiments. Un exemple : il est de plus en plus courant que les services classent les expressions faciales comme étant joyeuses, tristes ou en colère. Quant à savoir si elles ont raison, c'est une autre histoire.
- Analyse situationnelle- L’une des prochaines grandes avancées dans le domaine du marquage informatique sera la capacité d’apprentissage automatique pour l’analyse situationnelle. Certaines de ces fonctionnalités sont simples (par exemple, « Ceci est un match de football »). D’autres sont plus difficiles (par exemple, « Ceci est une situation dangereuse »). À l’heure actuelle, une grande partie de l’analyse situationnelle est en fait basée sur des règles (par exemple, « Ajoutez le mot-clé « vacances » lorsque vous voyez une photo de plage »).
- Célébrités- Il existe un marché important pour les photos de célébrités et il existe d'excellents kits de formation. Un certain nombre de services le font plutôt bien.
- Marques et produits- Les marques sont également faciles à identifier et il existe un marché pour l’identification des marques. Par exemple, « avertissez-moi lorsque notre marque apparaît dans le fil Instagram de quelqu’un ».

Google Cloud Vision est capable d'identifier les logos Canon et Coca-Cola sur cette photo. Cependant, il ne semble pas trouver les logos Fuji, Philips, JVC ou Lowenbrau.
- Éléments graphiques- Les services ML peuvent évaluer les images en fonction de presque tous les composants graphiques. Cela inclut les formes et les couleurs d'une image. Ces éléments peuvent être utilisés pour trouver des images similaires dans une seule collection ou sur le Web en général. Il s'agissait d'une capacité précoce des services d'IA basés sur des règles et elle reste un objectif important pour les services d'apprentissage automatique et d'apprentissage profond.
- Légendes- Certains services peuvent créer des légendes à partir de l'analyse qu'ils effectuent. Actuellement, celles-ci ont tendance à être un peu comiques. Mais à mesure que toutes les fonctionnalités ci-dessus s'améliorent
Services formables
La plupart des balises répertoriées ci-dessus peuvent être intégrées dans un service de balisage IA générique. Mais certaines personnes souhaiteront un outil de balisage capable d’identifier des éléments très spécifiques. Si vous souhaitez identifier des personnes spécifiques qui ne sont pas des célébrités, vous devrez entraîner le système à les reconnaître. Cela est également nécessaire pour la plupart des services d’identification de produits. Dans ces cas, vous aurez besoin d’un système d’IA qui vous permettra de fournir un ensemble d’images de formation et de fournir des commentaires sur l’exactitude. Ces services peuvent utiliser la reconnaissance basée sur des règles, le Machine Learning ou le Deep Learning, selon les besoins.