J'ai vécu l'incarnation Gemini Live pour comprendre le monde : Choc !
C'est déconcertant d'entendre une IA parler d'un ton étrangement amical et me demander de nettoyer le désordre sur mon poste de travail. J'en suis assez fier, mais je pense qu'il est temps d'empiler les outils dispersés au hasard et de ranger le désordre des fils.
Ma sœur serait également d’accord. Mais passer à l’action après que l’IA a « vu » mon bureau, reconnu le désordre et proposé des conseils d’entretien ménager est la solution la plus complète. Le chatbot Gemini AI de Google peut désormais faire exactement cela. Et bien plus encore.
La sauce secrète ici est une récente mise à jour de fonctionnalités appelée Projet Astra. Il est en développement depuis des années et a finalement commencé à être déployé au début du mois. L’idée générale est de fournir une IA qui voit tout, qui entend tout et qui est ouvertement intelligente sur votre téléphone.
Google commercialise ces superpouvoirs sous un nom plutôt peu inspirant : Gemini Live avec caméra et partage d'écran. Développé par l'unité DeepMind de l'entreprise, l'entreprise a commencé à le développer comme un assistant IA universel. C'est dommage que le nom final ne soit pas ambitieux.

Commençons par le mode d'accès. Cette capacité est désormais disponible pour les utilisateurs. pixel 9 و Galaxy S25. Mais si vous possédez un téléphone Android avec un abonnement Gemini Advanced, vous pouvez accéder à la nouvelle boîte à outils.
Cela représenterait 20 $ par mois, soit dit en passant. Je l'ai essayé sur les deux téléphones ci-dessus et maintenant cela fonctionne également sur mon OnePlus 13. La partie la plus douce ? Vous n’avez pas besoin de passer par des obstacles techniques pour y arriver.
Une combinaison des boutons d'alimentation/volume ou un glissement du coin de l'écran pour invoquer Gemini est tout ce dont vous avez besoin. Quelle que soit l'application que vous exécutez, vous pouvez accéder à une nouvelle caméra et au partage d'écran en superposition dans chaque coin du système d'exploitation.
Comprendre le monde qui vous entoure
J'ai commencé à pointer l'appareil photo vers un tableau et à poser des questions à ce sujet. Gemini Live a pu détecter avec précision qu'il s'agissait d'une peinture de style Madhubani, déchiffrant l'utilisation audacieuse des couleurs et la représentation des animaux.

Il m’a ensuite donné une brève leçon d’histoire et des différences qui se sont développées au fil des années. Les informations étaient exactes, jusqu’au plus petit niveau. Heureusement, vous pouvez également choisir d'avoir une conversation textuelle avec Gemini, si vous vous trouvez dans un endroit où les conversations vocales peuvent être inconfortables.
Ce que j'aime le plus dans la nouvelle fonctionnalité de partage d'appareil photo et d'écran de Gemini Live, c'est qu'elle n'est pas trop bavarde. Vous pouvez interrompre à tout moment, ce qui ajoute à l’attrait des conversations « naturelles ».
J'ai essayé Gemini dans divers scénarios. Je n'étais pas préparé à ça.
Les réponses qu'il donne sont généralement brèves, comme s'il voulait vous donner une chance (ou même un coup de pouce) de poser une question complémentaire plutôt que de donner une réponse trop longue. Il excelle dans toute une gamme de thèmes visuels et de scénarios, mais il présente quelques pièges.

Il ne peut pas encore utiliser Google Lens, ce qui signifie que Gemini ne peut pas comparer les images qu'il voit sur l'écran de votre téléphone aux résultats correspondants sur le Web. De plus, il ne peut pas accéder aux informations en temps réel si vous demandez à Gemini de rechercher les derniers développements sur un sujet ou un personnage.
Je lui ai posé des questions sur les espèces de plantes, les menus des restaurants, la saisie de données sur les panneaux d'affichage et ma prescription pour une récente grippe. Gemini a très bien fonctionné, mieux que n'importe quel chatbot IA que j'ai connu jusqu'à présent.
Libérer la banque de connaissances : une analyse approfondie
Ensuite, les Gémeaux vous poussent à comprendre des sujets académiques complexes. J'ai mis un livre sur le Machine Learning dans le cadre de la caméra. Gemini Live l'a non seulement reconnu, mais a également procédé à me donner un aperçu du contenu et des thèmes principaux du livre. Cette capacité reflète une compréhension avancée de l’apprentissage automatique et la capacité à résumer des informations complexes.

Curieusement, j’ai commencé à feuilleter les pages et je suis tombé sur la liste des chapitres. L'IA a reconnu les progrès, a arrêté de parler et m'a demandé si j'étais intéressé par un cours en particulier maintenant que je consultais la liste des sujets. Cette fonctionnalité démontre la capacité de Gemini à s'adapter et à répondre en temps réel à l'interaction de l'utilisateur, ce qui en fait un outil puissant pour l'apprentissage interactif.
J'ai été complètement surpris à ce moment-là.
J'ai demandé à l'IA d'analyser certains sujets complexes, et elle a fait un travail respectable, allant même au-delà du contenu de la page et puisant dans sa propre vaste banque de connaissances.
Par exemple, lorsque je lui ai posé une question sur le contenu de la page d’introduction du roman « Tamas » de Bhisham Sahni, l’IA a correctement détecté la référence au prix Sahitya Akademi. Il a ensuite mentionné des détails qui n'étaient même pas mentionnés sur la page, comme l'année où elle a remporté le prestigieux prix littéraire et le sujet du roman. Cela démontre la capacité de l’IA à comprendre le contexte et à extraire des informations supplémentaires.
D’un autre côté, lire l’hindi avec Gemini Live était horrible. Ce n’était pas seulement un mauvais accent, Gemini prononçait fréquemment du charabia et des absurdités. En essayant de lire l'ourdou, le persan et l'arabe, il a fait un travail considérablement meilleur, mais a souvent mélangé des mots à partir de lignes aléatoires. Cela indique que les performances de Gemini varient selon la langue et peuvent nécessiter des améliorations significatives dans certaines langues.

Lors de ma première tentative avec la poésie ourdou, il a non seulement reconnu le texte ourdou, mais a également donné un résumé précis du poème. Le plus grand défi, encore une fois, était le récit. Entendre la version anglaise de l’ourdou m’a vraiment fait mal aux oreilles. Cela souligne l’importance de la qualité de la prononciation et de l’accent dans l’expérience utilisateur, en particulier lorsqu’il s’agit de langues étrangères.
excelle dans des endroits inattendus
L’intelligence artificielle est un excellent outil de résolution de problèmes, et de nombreux critères de référence le prouvent. Je l'ai testé sur des problèmes de physique liés à la thermodynamique, aux équations électrochimiques et aux problèmes de statistiques qui apparaissaient dans un cahier manuscrit. Gemini Live a fait un excellent travail sur ces tâches.
Il excellait même dans les tâches créatives. Ma sœur, créatrice de mode, a montré l'un de ses croquis devant la caméra, demandant des commentaires ainsi que des améliorations. Gemini Live a commencé par faire l'éloge du design, en établissant des comparaisons avec les idéologies de conception de quelques marques de mode et en proposant quelques recommandations. Ces recommandations ont été très utiles pour améliorer la conception.

Lorsqu'AI a été invité à présenter Plus, il a également conseillé ma sœur sur les meilleurs outils pour convertir des croquis dessinés à la main en concepts numériques. Il a ensuite fourni à sa sœur des informations utiles sur le logiciel et où trouver du matériel pédagogique. Ces conseils ont été précieux pour optimiser le processus de conception numérique.
Lorsque j'ai placé une paire de piles Duracell dans le champ de vision de la caméra, celle-ci les a non seulement reconnues avec précision, mais m'a également indiqué des plateformes de commerce électronique locales qui pouvaient me les livrer en quelques minutes. Cette capacité s’est avérée particulièrement utile pour identifier les produits et leur disponibilité locale.
Les services — appelés Blinkit et Swiggy Instamart — ne sont disponibles qu'en Inde et sont principalement destinés aux zones urbaines. Même dans une pièce faiblement éclairée, il a pu identifier une paire d’écouteurs filaires dès le premier essai. Cela démontre la capacité de l’intelligence artificielle à reconnaître des objets dans différentes conditions.
La connaissance de la situation est sa principale force.
Par rapport à un chat Gemini classique ou à ce que vous trouvez dans la section Présentation de l'IA de la recherche Google, les chats Gemini Live adoptent une approche plus prudente pour diffuser les connaissances, en particulier si elles sont de nature sensible. J'ai remarqué que des sujets tels que les recommandations alimentaires et les traitements médicaux sont traités avec une approche de plus en plus prudente, orientant souvent les utilisateurs vers la recherche de la ressource experte appropriée. Cette mise en garde reflète l'importance accordée par Google à la fourniture d'informations précises et fiables, en particulier dans les domaines qui nécessitent une expertise spécialisée.
Quelques défis familiers

Ma principale conclusion est que la transformation du projet Astra en Gemini est très impressionnante. C'est un aperçu de ce que les smartphones peuvent accomplir dans le futur. Avec quelques améliorations, intégrations et flux de travail inter-applications, la recherche Google pourrait vous donner l'impression d'être une relique. Mais pour l’instant, il y a quelques défauts flagrants.
À quelques reprises, j’ai remarqué que mon système de mémoire devenait détraqué. Lorsque l'IA a été invitée à identifier un bracelet de fitness dans la vue de la caméra, elle l'a correctement identifié comme un Samsung Galaxy Fit 3. Mais lorsque j'ai posé une question complémentaire, l'appareil a été identifié par erreur comme un bracelet de fitness Huawei.
Il peut aussi mentir de manière flagrante. Et je peux le dire en toute confiance. Par exemple, lorsque je lui ai demandé de résumer mon avis sur le wearable, l'IA a répondu que Digital Trends ne l'avait pas encore évalué. En fait, l’article a été publié il y a une semaine.
Ensuite, je lui ai demandé de parcourir certains articles sur ma page d’auteur après avoir activé le partage d’écran. Gemini a fait un travail décent en expliquant les histoires, mais a parfois trébuché sur la compréhension contextuelle. Par exemple, il a été indiqué à tort que seuls Intel et AMD pouvaient rendre les unités de traitement neuronal (NPU) éligibles au badge. Copilote+.

D'autre part, l'article indique clairement que Qualcomm a été le premier à respecter cette norme, avant la concurrence. Ce n'est qu'à la fin de l'année dernière qu'AMD et Intel ont finalement réussi à intensifier leurs efforts et à répondre aux besoins des puces d'IA avec une nouvelle gamme de processeurs.
Au milieu d'une conversation sur un article, il a de nouveau eu un problème de mémoire. Au lieu de résumer l’histoire en discussion, il est revenu à la discussion sur le premier article qu’il avait vu via le partage d’écran. Lorsque je l’ai interrompu au milieu de sa narration, Gemini a corrigé son erreur.
Un autre problème que j'ai remarqué avec la narration en langue non anglaise était que Gemini Live changeait aléatoirement la voix et la vitesse au milieu de la narration. C'était extrêmement ennuyeux, et la prononciation était complètement robotique, complètement différente de ses compétences linguistiques en anglais, semblables à celles d'un humain.

Des difficultés de vision artificielle surviennent également avec des lignes épurées. À quelques reprises, il a craché avec assurance des informations incorrectes et, lorsqu'on lui a demandé de se corriger, l'IA a exprimé son incapacité à trouver les informations les plus récentes sur le sujet. Ces scénarios sont rares, mais les erreurs des Gémeaux demeurent.
Pour résumer, je pense que Gemini Live avec sa caméra et son partage d’écran est l’un des plus grands progrès réalisés par l’IA jusqu’à présent. Il s’agit de l’une des applications les plus pratiques et les plus enrichissantes de l’IA générative à ce jour. Tout ce dont il a besoin, c’est d’un peu de variété et d’une solution à son syndrome du « menteur confiant ».
Les choses sont définitivement sur la bonne voie maintenant, de manière écrasante, mais nous sommes encore à quelques étapes critiques de devenir le compagnon d’IA parfait pour les rêves techno-futuristes.
Les commentaires sont fermés.