A snarky notification from Home Assistant describing someone at the door on an iPhone.
Agence web » Actualités du digital » Comment j'utilise l'assistant à domicile pour décrire qui est à la porte en utilisant l'IA

Comment j'utilise l'assistant à domicile pour décrire qui est à la porte en utilisant l'IA

Résumé

  • L'assistant à domicile peut utiliser Google Gemini pour décrire qui est à la porte en fonction d'un instantané de la sonnette vidéo.

  • Vous devrez installer LLM Vision, obtenir une clé API Google Gemini et avoir l'application Home Assistant pour les notifications.

  • La vision LLM peut être utilisée à d'autres fins, comme garder un compte de voitures garées.

Lorsque les chatbots AI sont apparus pour la première fois, ils étaient limités aux entrées de texte. La seule façon de retirer une réponse d'un chatbot était de s'y rendre une réponse. De nos jours, cependant, de nombreux modèles d'IA sont multimodaux, ce qui signifie qu'ils peuvent gérer bien plus que le texte.

Vous pouvez désormais utiliser l'IA pour analyser les images, par exemple, générer des descriptions détaillées de ce que contient l'image. Il est possible de rentrer à la maison pour exploiter cette capacité à décrire qui est à la porte en fonction d'une image de votre sonnette vidéo, avec des résultats souvent hilarants.

Ce dont vous aurez besoin

Si vous utilisez déjà un assistant à domicile et que votre sonnette de porte vidéo intelligente est connectée, vous avez probablement la plupart des choses que vous avez besoin de configurer. Vous devez exécuter l'assistant à domicile avec votre sonnette vidéo ajoutée via une intégration. L'assistant à domicile prendra un instantané de votre sonnette vidéo et le passera à Google Gemini pour analyse. Cela générera alors une description de qui est à votre porte.

Vous devrez installer l'intégration LLM Vision. Il s'agit de l'intégration de l'assistant à domicile qui prend votre instantané à sonnette, le transmet aux Gémeaux pour analyser, puis enregistre la réponse dans une variable que vous pouvez utiliser au sein de l'assistant à domicile.

Vous avez également besoin d'une clé API pour Google Gemini, qui vous permet d'utiliser les modèles de Gemini pour analyser vos images. J'utilise Google Gemini car il offre une utilisation gratuite d'API, contrairement à la plupart des autres modèles. Cependant, vous aurez besoin d'un compte Google pour créer votre clé API.

Pour recevoir des notifications sur votre téléphone, vous aurez besoin de l'application Home Assistant installée sur votre téléphone et connectée à votre serveur d'assistant domestique. Votre téléphone doit ensuite apparaître comme une destination pour les notifications envoyées par l'assistant à domicile.

Génération d'une clé API pour Google Gemini

La création d'une clé API est incroyablement rapide et facile à faire via Google AI Studio. Accédez au site Web de Google AI Studio et connectez-vous à votre compte Google. Cliquez sur le bouton « Obtenez la touche API », puis cliquez sur « Créer la touche API ». Une clé API unique sera générée, et elle sera enregistrée sur votre compte Google afin que vous puissiez le revenir à une date ultérieure si vous en avez besoin. Vous pouvez cliquer sur le bouton « Copier » pour copier la touche API à tout moment.

Une fois que vous avez généré la touche API, laissez Google AI Studio ouvert afin que vous puissiez revenir et copier la clé API lorsque vous en avez besoin.

Installation de l'intégration de la vision LLM

Maintenant que vous avez une clé API que vous pouvez utiliser, vous devez installer l'intégration LLM Vision. Il s'agit d'une intégration personnalisée qui a été créée pour l'assistant à domicile. Il est conçu pour vous permettre d'analyser les images, les vidéos et les flux en direct à l'aide de modèles d'IA multimodaux. Les informations extraites par ces modèles d'IA sont ensuite mises à disposition dans l'assistant à domicile pour que vous puissiez utiliser dans vos automations.

LLM Vision n'est pas une intégration officielle, vous devez donc l'installer via le magasin communautaire adjoint à domicile (HACS). Il s'agit d'une plate-forme pour installer des intégrations d'assistant domestiques personnalisées créées par la communauté qui offrent des fonctionnalités au-delà de l'ensemble officiel d'intégrations. Si vous n'avez pas déjà installé HACS, vous pouvez suivre les instructions d'installation officielles.

Une fois HACS installé, ouvrez-le et recherchez la vision LLM. Sélectionnez l'intégration LLM Vision et cliquez sur le bouton « Télécharger » pour le télécharger. Redémarrez l'assistant à domicile.

Configuration de la vision LLM

Une fois que vous avez installé l'intégration LLM Vision, vous devez l'ajouter à Home Assistant et le configurer avec la clé API que vous avez générée.

Une fois que l'assistant à domicile a redémarré, accédez à Paramètres> Appareils et services. Dans l'onglet « INTERGATIONS », cliquez sur le bouton « Ajouter l'intégration », rechercher « LLM » et sélectionner « LLM Vision ».

Dans la liste déroulante « Provider », sélectionnez « Google » et cliquez sur « Soumettre ». Copiez et collez votre clé API Google Gemini dans le champ « clé API » et cliquez sur « Soumettre ».

LLM Vision est maintenant configurée pour utiliser Google Gemini pour analyser les images de votre sonnette vidéo.

Création d'une automatisation pour envoyer une notification descriptive

La raison pour laquelle j'ai mis cela en place était d'obtenir une description rapide de qui était à la porte chaque fois qu'une personne était détectée. En envoyant cela en tant que notification à mon téléphone, je pouvais voir en un coup d'œil que ce soit quelqu'un qui livrait un colis, mes enfants courir dehors pour jouer ou quelqu'un agissant avec suspicion devant ma maison. Comme j'utilisais une IA générative pour décrire les images, cela signifiait également que je pouvais lui demander de les rendre un peu sarcastiques, pour offrir des divertissements chaque fois que quelqu'un venait à la porte.

J'ai créé une automatisation qui est déclenchée lorsqu'une personne est détectée à ma porte. Le déclencheur exact sera différent en fonction du type de sonnette que vous utilisez et des événements que l'intégration de l'assistant à domicile de la porte expose. Dans cet exemple, j'utilise une sonnette REOLINK. Certaines sonnettes vidéo, telles que les modèles d'anneau, peuvent être plus compliquées à installer car elles ne vous permettent pas facilement de prendre un instantané de la nourriture.

Accédez à Paramètres> Automations et scènes. Dans l'onglet « Automations », cliquez sur « Créer l'automatisation ». Sélectionnez « Créer une nouvelle automatisation ».

Cliquez sur « Ajouter le déclencheur » et choisissez « l'appareil ». Cliquez sur le champ « Device », commencez à taper le nom de votre sonnette et sélectionnez-le dans les résultats. Cliquez sur la liste déroulante « Trigger » et sélectionnez un déclencheur qui détecte le mouvement. Dans cet exemple, avec une sonnette de Reolink, je vais utiliser « la porte d'entrée Reolink allumée ».

L'étape suivante consiste à prendre un instantané de la vue depuis votre sonnette vidéo une fois le mouvement détecté. Cette image toujours sera envoyée aux Gémeaux pour analyser, et une description de l'instantané sera retournée.

Cliquez sur le bouton « Ajouter une action », sélectionnez « Caméra » et choisissez « Prenez un instantané ». Cliquez sur le bouton « Choisissez l'appareil » et sélectionnez votre sonnette vidéo. Entrez un chemin pour enregistrer l'instantané; J'enregistre les instantanés sur « /config/www/reolink_snapshot/last_snapshot_doorbell.jpg » que je peux ensuite transmettre à LLM Vision.

Cliquez sur « Ajouter une action » et tapez « LLM ». Sélectionnez « LLM Vision: Image Analyzer » dans les résultats. Dans le champ « Provider », sélectionnez « Google Gemini ». Si vous souhaitez utiliser un modèle plus compétent, entrez « Gemini-1.5-Pro » dans le champ « Modèle ». Il s'agit d'un modèle plus puissant, mais vous êtes limité à 50 demandes par jour, contre 1500 par jour avec le modèle par défaut de Gemini-1.5-Flash.

Dans le champ « invite », entrez une invite demandant aux Gémeaux d'analyser l'image de votre sonnette. Il est préférable de demander une seule phrase afin que votre notification ne soit pas trop longue. J'ai demandé que les réponses soient effrontées, ce qui les rend plus divertissants, mais vous n'avez pas besoin de faire de même. Mon invite était la suivante:

Describe the image in a single sentence. If you see a person, describe them. If you see multiple people, give a count of the number of people and describe them. Try to determine if they are arriving or leaving and state which if you can. Make the description a bit cheeky.

Dans le champ « Fichier image », entrez l'emplacement de l'instantané que vous avez créé dans les étapes ci-dessus. Dans le champ « variable de réponse », entrez un nom pour la réponse de Gemini. Vous vous référez à ce nom pour ajouter la réponse à votre notification. J'utilise « Doorbell_description ».

Cliquez sur « Ajouter une action » Type « Notification » et sélectionnez l'option pour envoyer une notification à votre mobile. Vous devrez avoir l'installation de l'application mobile pour que cette option apparaisse. Dans le champ « Data », Type « Image: / Local / » suivi du dossier et du nom de fichier pour votre instantané de sonnette. Dans cet exemple, dans le champ « Data », je vais entrer ce qui suit:

"image: /local/reolink_snapshot/last_snapshot_doorbell.jpg"

Sélectionnez le champ « Message » et commencez à taper « {{qui devrait faire apparaître un message indiquant que l'éditeur visuel ne prend pas en charge cette configuration. Dans le code sous ce message, supprimez le texte déjà là et remplacez-le par ce qui suit:

"{{doorbell_description.response_text}}"

Assurez-vous d'inclure les citations au début et à la fin. Vous devez remplacer « Doorbell_description » par le nom que vous avez donné dans l'action LLM Vision.

Cliquez sur « Enregistrer », donnez un nom à votre automatisation et cliquez à nouveau sur « Enregistrer ». Maintenant, allez courir dehors et tenez-vous devant votre sonnette vidéo.

Si tout est configuré correctement, vous devez recevoir une notification sur votre téléphone avec un instantané de votre sonnette et une description de la scène.

D'autres façons d'utiliser LLM Vision

La méthode ci-dessus envoie une notification décrivant qui est à la porte, même si la personne ne sonne pas à la porte. Il est utile de savoir quand les gens ont quitté la maison, pour vous faire savoir si quelqu'un plane près de votre porte d'entrée sans sonner la cloche, ou simplement pour vous informer que quelqu'un a jeté un colis à votre porte.

Cependant, vous pourriez préférer ne recevoir une notification que si quelqu'un sonne réellement la sonnette. Si tel est le cas, vous pouvez créer la même automatisation, mais au lieu que le déclencheur soit lorsque le mouvement est détecté, vous utiliseriez le déclencheur « Visitor allumé », qui ne se déclenche que lorsque la sonnette est sonore.

J'ai une automatisation séparée configurée lorsque ma sonnette est sonore plutôt que de simplement détecter une personne. Lorsque la sonnette est sonore, elle prend un instantané, analyse l'image à l'aide de LLM Vision, puis annonce que quelqu'un est à la porte sur les haut-parleurs intelligents de ma maison, ainsi que la description générée par LLM Vision.

De cette façon, même si je n'ai pas mon téléphone sur moi, je peux toujours obtenir une description de qui sonne la cloche.

LLM Vision peut aussi faire beaucoup plus. Il peut également analyser les fichiers vidéo et les flux en direct et même mettre à jour des capteurs en fonction des images. Par exemple, vous pouvez utiliser l'analyseur de données pour garder un compte du nombre de voitures garées à l'extérieur de votre maison et déclenchez des automatisations si ce numéro frappe ou tombe en dessous d'une valeur définie.

Running LLM Vision localement

Dans cet exemple, j'ai utilisé le niveau gratuit de Google Gemini pour effectuer l'analyse d'image, car il est rapide, raisonnablement précis et libre d'utiliser pour le nombre limité de fois que les gens apparaissent à ma porte. Vous n'aimerez peut-être pas l'idée d'envoyer des images de personnes qui viennent à votre porte du nuage, même si c'est ce que les sonnettes vidéo telles que Ring font par défaut.

Si c'est le cas, et si vous avez assez de matériel assez puissant, vous pouvez héberger un LLM sur votre machine locale et que toute l'analyse ait lieu localement. Il existe des modèles LLM locaux qui peuvent fonctionner sur des ordinateurs moins puissants, mais ils auront du mal à effectuer une analyse d'image assez rapidement pour être utile.

Vision LLM prend en charge des options auto-hébergées populaires telles que Ollama, Open Webui et Localai, qui vous permettent d'utiliser des modèles tels que Gemma3 et Llama3.2Vision pour faire l'analyse.

★★★★★