Les nouveaux moteurs d'IA de Google peuvent zoomer et s'améliorer, comme dans les films
Agence web » Actualités du digital » Les nouveaux moteurs d’IA de Google peuvent zoomer et s’améliorer, comme dans les films

Les nouveaux moteurs d’IA de Google peuvent zoomer et s’améliorer, comme dans les films

Vous savez comment, dans les films, quand il y a une image sur l’ordinateur et que le détective qui se tient à côté de The Guy In The Chair dit « Pouvez-vous zoomer et améliorer cette plaque d’immatriculation ? » Cette technologie est désormais réelle, grâce aux derniers moteurs d’IA de Google.

Le processus pour ce faire est extrêmement complexe et difficile à maîtriser, car ils sont basés sur des modèles de diffusion (et des mathématiques très avancées) et travaillent pour ajouter des détails à une image qui n’étaient pas là à l’origine. Cela se fait par conjecture à l’aide d’images similaires et est une technique que Google a surnommée synthèse d’image naturelle, et dans ce cas, super-résolution d’image.

De toute évidence, vous commencez avec une image petite et pixélisée (comme les images sur le côté gauche de chacun des ensembles d’images ci-dessus) et vous vous retrouvez avec une image de résolution beaucoup plus élevée qui non seulement semble plus nette mais semble réelle à l’œil humain, même s’il ne correspond pas exactement à 100 % à l’original. Pour faire le travail, Google a utilisé deux nouveaux outils d’IA : la super-résolution via le raffinement répété (SR3) et les modèles de diffusion en cascade (CDM).

Le premier, SR3, ajoute du bruit à une image (cela ressemble à l’électricité statique ou à la neige que vous voyez sur un écran de télévision lorsque le signal est faible), puis inverse le processus. Il utilise une grande base de données d’images et une série de calculs de probabilité pour déterminer à quoi ressemble une version basse résolution de l’image, avec laquelle le chercheur de Google Chitwan Saharia approfondit ici.

Exemples sélectionnés de générations d'images naturelles 256 × 256 conditionnelles de classe pour que le moteur d'IA puisse apprendre.  Chaque ligne contient des exemples d'une classe particulière.

« Les modèles de diffusion fonctionnent en corrompant les données d’apprentissage en ajoutant progressivement du bruit gaussien, en effaçant lentement les détails des données jusqu’à ce qu’elles deviennent du bruit pur, puis en formant un réseau de neurones pour inverser ce processus de corruption », a expliqué Saharia.

Le deuxième outil, CDM, utilise des « pipelines » par lesquels les différents modèles de diffusion (y compris SR3) peuvent être dirigés pour produire les mises à niveau haute résolution. Cet outil crée des images plus grandes des modèles d’amélioration à l’aide de simulations soigneusement calculées basées sur des probabilités avancées, sur lesquelles Google a publié un document de recherche.

Le résultat final ? Lorsque la recherche a présenté les images finalisées aux personnes lors d’un test, elles ont choisi que les visages générés étaient confondus avec de vrais visages environ la moitié du temps. Bien qu’un taux de 50 % puisse ne pas sembler satisfaisant, il est conforme à ce à quoi on pourrait s’attendre avec un algorithme parfait. Google affirme que cette méthode produit de meilleurs résultats que les autres options d’amélioration d’image, y compris les réseaux antagonistes génératifs qui utilisent des réseaux de neurones concurrents pour affiner une image.

Google dit qu’il a l’intention de faire plus avec ces moteurs d’IA et leurs technologies associées, au-delà de la mise à l’échelle de l’image, comme d’autres domaines de la modélisation probabiliste. Et bien que cette technologie de « zoom et amélioration » facilite la réalisation de choses comme des photos anciennes haut de gamme, elle a également un potentiel indéniable, comme, eh bien, zoomer et améliorer une photo ou une plaque d’immatriculation ou autre.

via Alerte scientifique

★★★★★