Google lance Gemini 2.0 Pro et Flash-Lite, connectant Flash Thinking à YouTube, Maps et Search

La série Gemini de modèles de langage de grande taille (LLM) de Google a connu des débuts difficiles il y a près d'un an avec quelques images embarrassantes mal générées, mais ils se sont régulièrement améliorés depuis lors, et la société semble déterminée à faire de son effort de deuxième génération - Gemini 2.0 - le plus grand et le meilleur à ce jour pour les consommateurs et les entreprises.

Aujourd'hui, Annoncé La société a annoncé la sortie publique de Gemini 2.0 Flash, a présenté Gemini 2.0 Flash-Lite et a publié une version bêta de Gemini 2.0 Pro.

Ces modèles, conçus pour accompagner les développeurs et les entreprises, sont désormais disponibles via Google AI Studio et Vertex AI, avec Flash-Lite disponible en version préliminaire publique et Pro disponible pour des tests préliminaires.

« Tous ces modèles seront dotés d'une entrée multimédia avec sortie de texte dès leur sortie, avec des supports Plus disponibles pour une utilisation générale dans les mois à venir », a écrit Koray Cavukcioglu, directeur technique de Google DeepMind, dans le billet de blog de l'entreprise annonçant l'annonce - montrant un avantage que Google apporte à la table même si des concurrents comme Recherche profonde et OpenAI En lançant des concurrents puissants.

Google exploite ses capacités multimédias

Ni le DeepSeek-R1 ni Le nouveau modèle o3-mini d'OpenAI Acceptez les entrées multimédias, c'est-à-dire les images, les téléchargements de fichiers ou les pièces jointes.

Bien que le modèle R1 puisse les accepter sur son site Web et son application de chat mobile, il utilise la reconnaissance optique de caractères (OCR), une technologie vieille de plus de 60 ans, pour extraire uniquement le texte de ces téléchargements - et ne comprend ni n'analyse aucune des autres fonctionnalités qu'ils contiennent.

Cependant, tous deux représentent une nouvelle classe de modèles de « pensée » qui prennent délibérément plus de temps pour réfléchir aux réponses et aux « chaînes de pensée » et à la validité de leurs réponses. Cela contraste avec les modèles de langage de grande taille typiques comme la série Gemini 2.0 pro. Comparer Gemini 2.0 à DeepSeek-R1 et OpenAI o3 revient donc à comparer des pommes à des oranges.

Mais il y a eu quelques nouvelles du côté de la réflexion de Google aujourd'hui également : le PDG de Google, Sundar Pichai, a annoncé via Plateforme X À propos de la mise à jour de l'application Google Gémeaux Pour les téléphones mobiles iOS et Android avec Gemini 2.0 Flash Thinking. Le modèle peut être connecté à Google Maps, YouTube et Google Search, permettant un tout nouvel ensemble de recherches et d'interactions basées sur l'IA que les nouveaux concurrents comme DeepSeek et OpenAI ne peuvent pas égaler sans ces services.

Je l'ai brièvement essayé sur l'application iOS Google Gemini sur mon iPhone pendant que j'écrivais cet article, et c'était impressionnant d'après mes recherches initiales, trouvant des similitudes entre les 10 vidéos YouTube les plus regardées du mois dernier et me donnant une liste des cabinets médicaux à proximité et leurs heures d'ouverture/fermeture, le tout en quelques secondes.

Version publique Flash de Gemini 2.0

Le modèle Gemini 2.0 Flash, initialement lancé en version bêta, est devenu En décembre, prêt pour la production maintenant.

Conçu pour les applications d’IA hautement efficaces, il fournit des réponses à faible latence et prend en charge le raisonnement multimodal à grande échelle.

L’un de ses principaux avantages par rapport à la concurrence est sa fenêtre contextuelle, ou le nombre de jetons qu’un utilisateur peut ajouter dans une incitation et recevoir en retour dans une seule interaction aller-retour avec un chatbot ou une API alimenté par LLM.

Alors que de nombreux modèles phares, comme le nouveau o3-mini d'OpenAI lancé la semaine dernière, prennent en charge 200000 400 jetons ou moins (l'équivalent d'un roman de 500 à 2.0 pages), Gemini XNUMX Flash prend en charge XNUMX million de jetons, ce qui signifie qu'il peut gérer des quantités massives d'informations, ce qui le rend particulièrement utile pour les tâches à haute fréquence et à grande échelle.

Gemini 2.0 Flash-Lite : solutions d'IA à faible coût

Gemini 2.0 Flash-Lite est un tout nouveau modèle de langage de grande taille qui vise à fournir des solutions d'IA rentables sans compromettre la qualité.

Google DeepMind rapporte que Flash-Lite surpasse son prédécesseur pleine taille (plus paramétré), Gemini 1.5 Flash, sur des benchmarks externes comme MMLU Pro (77.6 % contre 67.3 %) et Bird SQL (57.4 % contre 45.6 %), tout en conservant le même prix et la même vitesse.

Il prend également en charge l'entrée multimédia et dispose d'une fenêtre contextuelle de 1 million de jetons, similaire au modèle Flash complet.

Flash-Lite est actuellement disponible en version préliminaire publique via Google AI Studio et Vertex AI, avec une disponibilité générale prévue dans les semaines à venir.

Comme indiqué dans le tableau ci-dessous, Gemini 2.0 Flash-Lite est vendu au prix de 0.075 $ par million de jetons (entrée) et de 0.30 $ par million de jetons (sortie). Flash-Lite est une option très abordable pour les développeurs, surpassant Gemini 1.5 Flash dans la plupart des benchmarks tout en conservant la même structure de coûts.

Logan Kilpatrick a souligné le coût et la valeur des modèles Gemini 2.0 Flash, comme Mentionné sur la plateforme X« Le Gemini 2.0 Flash est le meilleur rapport qualité-prix de tous les modèles LLM, il est temps de construire ! »

En fait, par rapport à d’autres modèles LLM traditionnels de premier plan disponibles via l’API du fournisseur, tels que OpenAI 4o-mini (0.15 $/0.6 $ par million de jetons d'E/S), et Anthropique Claude (0.8 $/4 $ ! par million de jetons d'E/S) et même le LLM V3 traditionnel de DeepSeek (0.14 $/0.28 $), Gemini 2.0 Flash semble être le meilleur rapport qualité-prix.

Gemini 2.0 Pro Beta arrive avec 2 millions d'icônes dans la fenêtre contextuelle

Le modèle Gemini 2.0 Pro (bêta) est désormais disponible pour les tests, pour les utilisateurs qui ont besoin de capacités d'IA plus avancées.

Google DeepMind décrit ce modèle comme son modèle le plus puissant en matière de performances de programmation et de capacité à gérer des invites complexes. Il dispose d'une fenêtre contextuelle de 2 millions de caractères et de capacités de raisonnement améliorées, avec la possibilité d'intégrer des outils externes tels que la recherche Google et l'exécution de code.

Sam Witteveen, cofondateur et PDG de Red Dragon AI et expert externe en développement d'apprentissage automatique chez Google qui collabore souvent avec VentureBeat, a discuté, Modèle professionnel dans la critique YouTube. « Le nouveau modèle Gemini 2.0 Pro dispose d'une fenêtre contextuelle de 1.5 millions d'icônes, prend en charge les widgets, l'exécution de code, les appels de fonctions et l'intégration avec la recherche Google — tout ce que nous avions dans Pro XNUMX, mais amélioré. »

Il a également souligné l'approche itérative de Google en matière de développement de l'IA : « Une différence clé dans la stratégie de Google est qu'elle publie des versions bêta des modèles avant qu'ils ne soient généralement disponibles (GA), ce qui permet une itération rapide basée sur les commentaires. »

Les tests de performance démontrent davantage les capacités de la famille de modèles Gemini 2.0. Par exemple, Gemini 2.0 Pro surpasse Flash et Flash-Lite sur des tâches telles que le raisonnement, la compréhension multilingue et le traitement de contextes longs.

Sécurité de l'IA et développements futurs

Parallèlement à ces mises à jour, Google DeepMind met en œuvre de nouvelles mesures de sécurité et de sûreté pour ses modèles Gemini 2.0. L'entreprise utilise des techniques d'apprentissage par renforcement pour améliorer la précision des réponses, en utilisant l'intelligence artificielle pour critiquer et améliorer ses résultats. De plus, des tests de sécurité automatisés sont utilisés pour identifier les vulnérabilités, y compris les menaces d’injection de réclamations indirectes.

À l’avenir, Google DeepMind prévoit d’étendre les capacités de la famille de modèles Gemini 2.0, avec des méthodes supplémentaires au-delà du texte qui devraient devenir généralement disponibles dans les mois à venir.

Avec ces mises à jour, Google renforce son avancée dans le développement de l'IA, en introduisant une suite de modèles conçus pour l'efficacité, l'abordabilité et la résolution avancée de problèmes, répondant à l'essor de DeepSeek avec sa propre suite de modèles allant de puissants à très puissants et très abordables à légèrement moins chers (mais toujours abordables).

Cela suffira-t-il à aider Google à percer sur le marché de l’IA d’entreprise, qui était auparavant dominé par OpenAI et qui est désormais dominé par DeepSeek ? Nous continuerons à suivre et à vous tenir au courant !

Si vous souhaitez impressionner votre patron, VB Daily vous aidera. Nous vous donnons un aperçu privilégié de ce que font les entreprises avec l'IA générative, des transformations organisationnelles aux déploiements pratiques, afin que vous puissiez partager vos idées pour maximiser votre retour sur investissement.