Dans cet article, nous examinons les différentes manières dont les ordinateurs peuvent être utilisés pour baliser automatiquement les fichiers image. Il existe des différences importantes dans les approches que vous pouvez utiliser. Nous commencerons par une discussion sur les deux principales méthodes d'apprentissage automatique.
Examinons la différence entre les services qui créent un ensemble de balises statiques et ceux qui fonctionnent comme des services de boîte noire. Chacun présente des avantages et des inconvénients.
Services d'étiquetage
Au moment de la rédaction de cet article, il existe des dizaines de services de balisage informatique capables de créer automatiquement des balises pour vos images. Ces services peuvent analyser une image et renvoyer une liste de balises probables décrivant le contenu visuel. Cela peut inclure une description d'objets, d'activités, de personnes et d'autres caractéristiques situationnelles. Chacune de ces balises est généralement accompagnée d'un score de confiance qui indique la certitude d'une balise particulière.
Les balises informatiques peuvent être écrites dans votre base de données d'images sous forme de métadonnées statiques, ce qui signifie qu'elles ne changeront pas à moins que quelqu'un ne le leur demande. Vous devriez pouvoir voir ces balises, les associer aux champs appropriés et décider de les accepter ou de les rejeter, tout comme les métadonnées ajoutées par une personne.
Essentiellement, vous êtes « propriétaire » des balises.
SERVICES D'ÉTIQUETAGE STATIQUE
Il existe une ruée de services pour devenir leaders du marché dans la création d'offres de marquage statique. Il s'agit notamment des grands acteurs commeVision de Google Cloud,Reconnaissance d'Amazon, et Services cognitifs Microsoft AzureIl y a aussi beaucoup de startups commeClarifiersuivent le même chemin. Au moment où j'écris ces lignes, la plupart de ces services fonctionnent de manière similaire.
Balisage par API
Les balises statiques sont généralement fournies au moyen d'une interface de programmation d'application (API). Une API permet à un service (par exemple, une application DAM) de communiquer avec un autre (par exemple, un service de balisage informatique). Le DAM peut envoyer des photos pour analyse, et le service de balisage renvoie une liste de balises, généralement sous la forme d'un fichier JSON. L'application DAM est ensuite chargée d'ajouter les balises à la base de données pour chaque image.
La figure ci-dessous montre à quoi ressemble ce fichier JSON.
Dans la plupart des services de balisage informatique, une copie d'une image est envoyée au service via une API et les balises résultantes sont renvoyées au format JSON. Dans cet exemple, Microsoft Cognitive Services a attribué les balises « people_portrait ». Il a également reconnu la personne sur la photo comme étant Gwen Ifill et a dessiné un rectangle autour de son visage. Vous pouvez également constater un taux de confiance très élevé, supérieur à 99 %.
Basé localement ou dans le cloud
La plupart des services de marquage seront basés sur le cloud. Ces services s'appuient sur des bases de données massives et en constante amélioration ainsi que sur des ordinateurs cloud très puissants. Ils sont capables de s'améliorer rapidement car ils voient des millions d'images et peuvent bénéficier des commentaires de nombreux utilisateurs.
Certaines personnes ne souhaitent pas envoyer leurs images à des services externes pour analyse. Les images peuvent être hautement confidentielles ou le gestionnaire de la collection peut tout simplement être mal à l'aise à l'idée de laisser passer de nombreuses images par des services externes.
Il existe également un certain nombre de services de marquage qui peuvent fonctionner sur votre propre ordinateur, sans avoir à passer par le cloud.Lightroom Classique, par exemple, effectue le marquage des visages sur votre ordinateur local et n'envoie pas d'images via son cloud.Imaginerest un service commercial qui peut également fonctionner sur votre propre ordinateur.
Boîtes noires
Dans un service de boîte noire, l'analyse informatique n'est pas une opération ponctuelle. Au lieu de cela, les images sont continuellement retraitées à mesure que le service acquiert de nouvelles capacités ou qu'il acquiert une meilleure compréhension de vous et de votre collection. Au fur et à mesure que le service apprend, les résultats de recherche devraient continuer à s'améliorer. Ces services ne vous montreront peut-être jamais toutes les balises qu'ils stockent actuellement pour une image, car ils s'attendent à créer un meilleur ensemble de balises à un moment donné dans le futur.
Recherche intelligente
Une partie importante des fonctionnalités de la boîte noire réside dans les capacités de recherche à l’intérieur de la boîte. Les métadonnées conventionnelles sont généralement utilisées dans une opération de filtrage (par exemple, pour masquer toutes les images qui n’ont pas la balise « Kensington, Maryland »). Les boîtes noires peuvent fonctionner davantage comme Google, où les fautes d’orthographe, les synonymes et les termes associés peuvent produire des résultats même lorsqu’il n’y a pas de correspondance exacte.
Vous ne possédez ni ne contrôlez les données
Lorsque vous utilisez un service de boîte noire, les balises et autres informations résident généralement dans le service. Vous n’en êtes pas propriétaire. Au lieu de cela, vous en louez l’accès. Il s’agit d’un problème structurel qui sera difficile à éviter, du moins dans un horizon temporel proche.
Les meilleures boîtes noires ne se contentent pas d’inclure un ensemble de balises. Elles disposent de graphiques sémantiques détaillés de ce que peut signifier une balise. Ce n’est pas quelque chose qu’elles peuvent vous exporter, si vous décidez de quitter le service. De même, les données qu’elles possèdent sur vous ne sont probablement pas exploitables, même si vous pouviez en obtenir une copie. (Votre historique de recherche, ce que vous aimez, où vous allez, etc.)
Et le traitement sémantique qu’ils effectuent va également rester au sein du service. (Est-ce que « navire qui coule » indique une catastrophe maritime ou une vente au détail d’appareils de plomberie ?)
Pour certains, notamment dans le secteur de la consommation, ce manque de contrôle peut être acceptable. Mais pour de nombreuses institutions, cela peut être un obstacle.
Idéal pour la localisation linguistique
Travailler avec plusieurs langues est un avantage inhérent à certains services de balisage en boîte noire. Dans de nombreux cas, la compréhension sémantique d’une image n’est pas liée à une langue particulière. Google sait que « car » en français se dit « voiture » et peut donc fournir des résultats similaires. (Google sait également qu’une personne qui recherche « voiture » est intéressée par une recherche de voitures en français et est peut-être plus susceptible de vouloir une Citroën qu’une Ford.)
À mesure que les services de balisage en boîte noire continuent de s’améliorer, nous les verrons probablement devenir particulièrement populaires pour les collections qui doivent servir des publics multilingues.
La plupart des boîtes noires ignorent vos balises
La plupart des efforts actuels pour créer des balises de boîte noire efficaces ignorent largement les données que l'utilisateur prend la peine de mettre sur la photo. (La principale exception semble être le marquage des personnes, qui utilise vos balises pour vous aider à savoir qui sont les individus). Cela signifie qu'ils ignorent souvent les données les plus importantes au profit d'informations plus triviales.
La plupart des exemples que j’ai vus semblent s’attendre à ce que, si on lui donne suffisamment de puissance, la machine apprenne tout ce qui est utile et soit capable de remplacer l’humain. Mais il y a souvent beaucoup de contexte ou d’histoire de fond que la machine ne peut pas connaître. (Pourquoi la photo a-t-elle été prise ? Pourquoi a-t-elle été téléchargée ?)
Je pense que le problème de l’intégration de l’apprentissage automatique et du marquage/de la conservation humaine est sous-estimé. (Et, oui, c’est l’une des choses sur lesquelles nous travaillons dur.)
Quel chemin prendre ?
Nous finirons probablement par obtenir un mélange très utile de balises statiques, de boîtes noires, de crowdsourcing et de curation humaine. Mais cela n’existe pas vraiment pour le moment. Alors, quelle est la meilleure marche à suivre ? Voici mes réflexions.
- Les boîtes noires sont idéales pour les consommateursIls sont moins susceptibles de créer leurs propres balises et plus susceptibles de bénéficier d'un gros coup de pouce grâce à une optimisation de base de l'apprentissage automatique.
- Les services de marquage sont probablement meilleurs pour les organisations.Étant donné le stade précoce du balisage informatique, il est probable que les services et la stratégie vont évoluer relativement rapidement. Je ne pense donc pas qu’il soit temps de s’engager sur un seul service à long terme. Cela signifie qu’il est important de « posséder » les balises. De plus, les services de balisage statique permettent au gestionnaire de collection de surveiller le service et de voir quand de nouvelles fonctionnalités atteignent le niveau d’utilité. Les balises d’état ont également tendance à mieux s’intégrer au balisage et à la conservation humains dont dépendent la plupart des collections.