[web] TinEye, la recherche d’image intelligente
TinEye (oeil de conserve, oeil en étain) est un moteur de recherche d’image. Mais attention, il ne s’agit pas d’une recherche par mot clé comme Google Image ou autres. C’est un recherche d’image “par l’exemple”.
Qu’est-ce que cela veut dire
Imaginons que en surfant sur Factornews, je cherche à savoir d’où est tiré telle vignette qu’ils ont utilisé dans leur news (vu qu’ils ne citent jamais de source ou de copyright ou cropent et resizent méchamment sur tel ou tel élément de l’image originale). Traditionnellement si je ne connais pas la source de l’image ou si je ne connais pas quelqu’un qui connait la source de l’image il est peu probable que je retrouve l’original. Je peux essayer de faire une recherche si j’arrive à nommer un des éléments de l’image mais ce n’est pas toujours évident (ou carrément impossible).
Heureusement TinEye est capable de travailler avec un morceau très limité de l’image originale en supposant bien entendu que la référence soit plus grande qu’un ou deux pixels.
Utilité
Bien entendu la possibilité de chercher la source des vignettes de Factornews semble plutôt gadget. Mais il y a d’autres utilisations possibles.
On peut imaginer que j’ai une représentation d’une peinture de maître en basse résolution mais que je cherche à voir s’il y a une version plus haute résolution disponible sur le web.
Ou encore j’ai publié des photos/dessins sur mon site web et je veux savoir si la photo a été copiée/reprise/modifiée sur un autre site web (recherche de plagiat).
Ou encore pour Google et autres moteurs de recherche veulent afficher des résultats uniques et éviter qu’une image se retrouve dupliquée à l’infini dans leur résultats de recherche. Ainsi Digg utilise un moteur similaire créé par les auteurs de TinEye (Idée) pour filtrer la soumission d’image.
Ou encore j’ai une image caractéristique comme un logo (Starbucks) et je cherche à trouver des images où ce logo apparaît pour illustrer un article, une présentation ou autre.
Ou juste pour le fun.
Robustesse
Au vu des quelques exemples, l’algorithme utilisé semble assez robuste. Mais on peut pousser l’expérimentation un peu plus loin.
L’image la plus grande (1158×1139) du Cri de Munch génère 440 résultats.
La même image réduite de moitié génère 427 résultats. Du quart on repasse à 440 résultats bizarrement. Au huitième on est à 401 résultats. Au seizième (75×74) de la taille on est à 278 résultats. Au trente-deuxième de la taille on génère 34 résultats. La première image à ne pas générer de résultats est à 19×19 (un soixante quatrième de la taille d’origine) et il s’agit peut-être d’une limitation artificielle (pour éviter les reconnaissances fantaisistes).
TinEye est capable de retrouver une image dont le sujet est légèrement tourné. Mais l’angle ne peut pas être très élevé. Ainsi avec un angle de rotation de 11 degré sur notre image originale il ne peut retrouver que trois images semblables.
Il peut retrouver les images dont les couleurs ont été légèrement altérées (313 images), mais pas trop. Par exemple, il ne trouve aucun résultat pour un simple négatif.
L’algorithme semble incapable de reconnaitre les images dont l’aspect ratio a été modifié de manière trop flagrante, voire les images qui ont subi une transformation “mirroir”.
Les filtres photoshop courants affectent ses résultats, mais il a toujours possibilité de reconnaitre certains détails, comme ci dessous avec un filtre “unfocus” (113 images)
Une partie de l’image peut être remplacée. Par exemple le remplacement de la partie la plus reconnaissable (visage) par un grand rectangle noir donne toujours des résultats (3 images)
Enfin l’altération de Pantoreille pour Rage donne 12 images résultat.
Bien entendu il est possible de faire la recherche de manière récursive. Même si il n’y a que trois images résultats, on peut faire une recherche sur ces trois résultats pour obtenir un panel plus large.
Limitations et futur
Certains des problèmes de robustesse cités ci-dessus peuvent être amélioré dans le futur à n’en pas douter.
Les limitations actuelles sont cependant encore nombreuses. La quantité d’images que l’on peut chercher est très petite par rapport à la totalité des images présentes sur Internet. Ce qui fait que seules les images les plus populaires ont pour l’instant un droit de cité dans les résultats. Ce qui peut limiter l’utilité par exemple pour la recherche de plagiat. On se doute que leur base de donnée d’images va augmenter considérablement dans le futur (à moins que la boite ne puisse plus subvenir aux besoins de puissance de calcul et de stockage). En tout cas ce serait vraiment dommage qu’elle ne se développe pas.
Ensuite la similarité pour l’instant concerne la copie pure et dure. Même si le même objet pris sous un angle très peu différent a des chances d’apparaitre, ce n’est pas le cas pour les angles trop différents, éclairages différents. Pas possible de rechercher des visages par exemple. L’algorithme utilisé ne leur permet certainement pas de faire ce genre de requête (trouver les photos avec Jean Dupont dedans), mais tout n’est pas encore perdu parce que d’autres boîtes ont de bons résultats. La dernière version de Picasa (ainsi que Picasaweb) a un moteur de reconnaissance faciale décent : si vous taggez une personne dans une photo, Picasa va automatiquement chercher dans les autres photos si cette personne apparaît. Ce qui est plus ou moins précis suivant l’angle de vue etc, mais on pourrait imaginer voir apparaître cette feature dans les moteurs de recherche existants (le moteur google image ne peut travailler pour l’instant qu’avec le contenu du texte qui pointe vers l’image mais pourrait à l’avenir faire de la reconnaissance de texte et de la reconnaissance d’objet sans passer par Google Labeler).
Et vous quelle utilité voyez-vous à ce genre de technologie ? La recherche du contenu dans l’image (sans intervention humaine) vous semble-t-elle être la prochaine barrière des moteurs de recherche sur le web ?











Quelle utilité? Trouver des images en plus hautes résolution ou meilleure qualité, ou même éviter un recadrage fait à l’arrache. Merci pour le lien, ca peut me servir.
Utilités: les mêmes que toi je dirais.
Poster une photo d’une copine et voir si elle a pas fait des trucs x / un sosie qui fait des trucs x.
L’Informatique au service de l’Homme.
Excellent ! Dans la même veine que Midomi mais pour l’image !
Quelle époque de dingue…
C’est marrant j’ai découvert TinEye cette semaine.
Ca devrait me servir à trouver les sources de certaines images ou des versions de meilleures qualités.
Cela permet aussi de savoir si une personne ou qu’une organization ne retouchent pas vos photos copyrightées sans permissions.
Testé et approuvé par le forum Dpreview, au moins une fois par mois on voit des cas extrêmes dans leur forum.
Tu viens de signer la fin du quizz jeux video de wefrag !
OMG mais c’est géant cette application web. Dommage que la base de données soit pas encore ultra détaille, mais c’est déjà pratique pour trouver la source d’images de pr0n. D’ici quelques temps on pourra retrouver les nudz qu’une copine a posté sur 4chan ?
@caroline
Je n’y avais même pas pensé.
Pour éviter ça il suffirait de prendre soit même la screenshot du jeu, et elle sera introuvable sur internet.
Et puis je viens de faire l’essai sur les 5 derniers jeux du sujet, seul Deus a été trouvé.
Haaaa le quiz est mort, non sérieux il a trouvé tous les exemples que j’ai testé, soit 5 pour l’instant.
Par contre je comprends pas pourquoi il trouverait pas une image correspondante, pour cet exemple:
les résultats proposent des variantes proches de l’image et issues du même jeu:
oui il va falloir trouver des quiz plus durs :)
Ceci dit, qui vous dit que les gagnants précédents n’utilisaient pas déjà cet outil sans vous le dire ? Au moins ça équilibre les chances..