Qu'est-ce que ScreenAI : la technologie Google expliquée
Agence web » Actualités du digital » Qu'est-ce que ScreenAI : la technologie Google expliquée

Qu'est-ce que ScreenAI : la technologie Google expliquée

Récemment introduit via Google Research, ScreenAI est une nouvelle technologie Google passionnante.

Bien qu'il soit encore en phase de recherche, poursuivez votre lecture pour en savoir plus sur ScreenAI, son fonctionnement et quand vous pourriez avoir l'occasion d'essayer la technologie vous-même.

Qu’est-ce que ScreenAI ?

ScreenAI est décrit comme étant un nouveau « modèle de langage de vision pour les interfaces utilisateur et les infographies qui permet d'obtenir des résultats de pointe sur les tâches basées sur l'interface utilisateur et les infographies ».

En d’autres termes, ScreenAI est un modèle de langage de vision, ce qui signifie qu’il peut comprendre simultanément des données d’image et de texte. Il a été conçu pour simplifier la lecture et la compréhension des données provenant des interfaces utilisateur (UI) et des infographies, telles que des graphiques, des diagrammes et des tableaux.

En termes simples, vous pouvez demander à ScreenAI de résumer une capture d'écran ou un graphique et vous devriez en recevoir un résumé clair et concis. Vous pouvez également poser des questions à ScreenAI basées sur la capture d'écran et recevoir des réponses correctes basées sur les données fournies.

Comment fonctionne ScreenAI ?

Premièrement, l'architecture de ScreenAI est construite sur le modèle langage-image multilingue PaLI, mais ScreenAI l'améliore en fait avec pix2struct. Pix2struct est un modèle image-texte pré-entraîné pour la compréhension du langage visuel, qui peut être affiné sur des tâches contenant un langage visuellement situé.

ScreenAI utilise deux étapes pour fonctionner : une étape de pré-formation d'apprentissage auto-supervisée, réalisée en utilisant des pages Web accessibles au public, et une étape de réglage fin qui utilise des données triées manuellement par de vrais utilisateurs.

Aux côtés de ScreenAI, trois nouveaux ensembles de données ont été publiés pour aider à évaluer le modèle de manière plus approfondie. Ces ensembles de données incluent Screen Annotation, qui évalue la capacité de compréhension de la disposition de ScreenAI, ScreenQA et Complex ScreenQA pour évaluer sa capacité de réponse aux questions (QA).

Quels sont les avantages de ScreenAI ?

ScreenAI est capable d'effectuer des tâches qui étaient auparavant complexes, telles que l'assurance qualité et l'assurance qualité spécifique à l'interface utilisateur, les annotations, les résumés et la navigation.

Selon Google Research, ScreenAI est capable d'obtenir des résultats de pointe sur les tâches basées sur l'interface utilisateur et l'infographie et des performances « meilleures de sa catégorie » par rapport à des modèles de taille similaire.

Où puis-je essayer ScreenAI ?

Nous devrons être patients pour essayer cette technologie révolutionnaire, car ScreenAI est encore un projet de recherche et n'est actuellement pas disponible pour un usage public. Il n’y a également aucune indication quant au moment où cela pourrait changer.

★★★★★