Lansarea Modelului Gemini 2.5 Computer Use

Articolul furnizează detalii despre lansarea modelului Gemini 2.5 Computer Use, un model specializat construit pe capabilitățile Gemini 2.5 Pro care permite agenților AI să interacționeze cu interfețele utilizator (UI). Acest model nou este disponibil prin API-ul Gemini și este optimizat în principal pentru controlul browserului web, deși arată promisiuni și pentru sarcinile mobile. Documentul explică modul în care funcționează modelul într-o buclă iterativă, utilizând intrări precum solicitările utilizatorilor și capturi de ecran pentru a genera acțiuni UI. De asemenea, subliniază performanța superioară a modelului față de alternativele principale pe diverse benchmark-uri, menținând în același timp o latență scăzută. În cele din urmă, sursa discută măsurile de siguranță integrate pentru a aborda riscurile unice asociate agenților AI care controlează computerele.

Următorul pas pentru asistenții AI

Suntem obișnuiți ca asistenții AI să funcționeze prin comenzi vocale sau prin interfețe de programare (API-uri) structurate. Dar ce-ar fi dacă un AI ar putea interacționa direct cu aplicațiile și site-urile web la fel cum o facem noi? Acesta este conceptul din spatele noului model Gemini 2.5 Computer Use de la Google un tip de inteligență artificială care poate vedea ce este pe ecran pentru a da clic, a tasta și a derula, navigând interfețe grafice complexe. Această capacitate reprezintă un „pas următor crucial în construirea unor agenți puternici, cu scop general”, transformând AI-ul dintr-un simplu interpret de comenzi într-un operator digital capabil să execute sarcini în lumea digitală reală.

Dincolo de API-uri un AI care "vede" și interacționează cu interfețe grafice

Spre deosebire de modelele AI care se bazează pe API-uri predefinite pentru a interacționa cu software-ul, modelul Gemini 2.5 Computer Use este conceput pentru a lucra direct cu interfețele grafice ale utilizatorului (GUI). Acest lucru îi permite să execute sarcini pe orice site web sau aplicație, la fel ca un om, inclusiv completarea formularelor, navigarea pe pagini web și operarea în spatele unui login. Capacitățile sale de bază sunt expuse prin noul instrument computer_use din API-ul Gemini. Într-o buclă iterativă, instrumentul primește ca input solicitarea utilizatorului, o captură de ecran a mediului și un istoric al acțiunilor recente. Apoi, generează o acțiune, cum ar fi „clic pe buton” sau „tastează text”. Acțiunea este executată, se face o nouă captură de ecran, iar ciclul se repetă până când sarcina este finalizată. Este important de menționat că modelul Gemini 2.5 Computer Use este optimizat în principal pentru browsere web și demonstrează un potențial ridicat pentru controlul interfețelor mobile. Momentan, nu este încă optimizat pentru controlul la nivelul sistemului de operare desktop.

Performanță de top cu latență redusă

Conform datelor publicate, modelul Gemini 2.5 Computer Use „depășește alternativele de top în mai multe benchmark-uri de control web și mobil”. Unul dintre cele mai importante aspecte este că atinge această acuratețe ridicată „cu o latență mai mică”. Testele efectuate pe platforma Browserbase pentru Online-Mind2Web confirmă că modelul oferă o calitate de vârf în controlul browserului, menținând în același timp un timp de răspuns foarte scăzut. Această combinație de acuratețe ridicată și latență redusă este o realizare fundamentală pentru AI-ul agentic. Latența scăzută este cheia pentru crearea unor agenți care se simt reactivi și practici pentru sarcini în timp real, transformându-i din roboți lenți și greoi în asistenți digitali fluizi și eficienți.

Siguranța este integrată, nu adăugată ulterior

Google subliniază că a abordat siguranța ca pe o componentă fundamentală a modelului. Agenții AI care controlează computere introduc riscuri unice, precum utilizarea abuzivă, comportamentul neașteptat sau vulnerabilitatea la atacuri de tip „prompt injection”. Pentru a contracara aceste riscuri, funcționalitățile de siguranță au fost integrate direct în model. În plus, dezvoltatorii primesc controale de siguranță specifice pentru a preveni acțiuni potențial periculoase. Acestea includ: Serviciul de siguranță per-pas: Un serviciu care rulează la momentul inferenței și evaluează fiecare acțiune propusă de model înainte de a fi executată. • Instrucțiuni de sistem (System instructions): Dezvoltatorii pot specifica reguli suplimentare pentru ca agentul să refuze sau să ceară confirmarea utilizatorului înainte de a efectua anumite acțiuni cu miză mare.

Această abordare responsabilă este critică pentru a construi agenți AI de încredere. 4. Nu este un concept, ci o tehnologie deja în producție Această tehnologie nu este doar un experiment de laborator, ci este deja implementată în produse și servicii reale. Conform Google, versiuni ale acestui model sunt deja folosite pentru: • Testarea interfețelor de utilizator (UI testing) în cadrul Google, accelerând dezvoltarea software-ului. • Susținerea proiectului Project Mariner. • Alimentarea Firebase Testing Agent. • Anumite capabilități agentice din modulul AI Mode in Search. Implementarea în scenarii reale demonstrează maturitatea și utilitatea practică a modelului, confirmând că este pregătit pentru a fi utilizat în aplicații complexe.

Concluzie ce înseamnă pentru viitor un AI care "folosește computerul"?

Asistăm la o tranziție fundamentală: inteligența artificială evoluează de la înțelegerea comenzilor noastre la operarea directă a interfețelor digitale pe care le folosim în fiecare zi. Modele precum Gemini 2.5 Computer Use deschid calea către o nouă generație de automatizare, în care sarcinile digitale complexe pot fi delegate unui agent inteligent. Pentru dezvoltatorii dornici să exploreze aceste capabilități, modelul este disponibil începând de astăzi în public preview, accesibil prin API-ul Gemini în Google AI Studio și Vertex AI. Acest lucru ne lasă cu o întrebare provocatoare: ce noi posibilități se deschid atunci când oricine poate automatiza sarcini digitale complexe doar descriindu-le în limbaj natural?

< Older Post

Lansarea Agentului AI Stancu Print

By Stancu Print • October 8, 2025

Cum un laborator foto din România folosește AI pentru a revoluționa serviciul clienți.

Caracteristici cheie ale HP DesignJet T870

Lansare HP DesignJet T870 și Extinderi Platforme AEC

By Stancu Print • October 8, 2025

Imprimarea multi-format fără schimbare manuală a suportului, de la A4 până la A1/D, cu timpi de printare foarte rapizi (doar 21 secunde pentru o foaie A1).

Lansările Domino de prese digitale N410 și N730i

Domino lansează două mașini noi la Labelexpo Europe

By Stancu Print • October 8, 2025

Sursa prezintă lansarea a două noi mașini de imprimare digitală de etichete de către Domino la Labelexpo Europe: Domino N410 și o versiune îmbunătățită a N730i.

Cerneală inovatoare pentru reciclarea PET retenție și magnetizare

Masterpress, în colaborare cu Magnomer și furnizorii de cerneluri, a dezvoltat cerneluri retentive și magnetizabile pentru manșoane termocontractabile.

By Stancu Print • October 7, 2025

Pe măsură ce ambalajele intră într-o nouă eră a sustenabilității, detaliile fine, inclusiv cerneala utilizată pe etichete, devin esențiale pentru reciclabilitatea.

Stancu Print Imprimare securizată prin Signal România

Un singur canal pentru siguranța clienților de ce serviciul nostru de printare mizează totul pe Signal

By Stancu Print • October 5, 2025

Stancu Print oferă servicii profesionale de imprimare în România. Trimitere fișiere securizată doar prin Signal. Confidențialitate 100%. contact@stancuprint.org

Dimensiuni Foto Standard România Stancu Print

Ghidul dimensiunilor standard de printare foto

By Stancu Print • October 4, 2025

Ghid complet dimensiuni printare foto în România: 10x15, 13x18, 20x25, A4, A3. Evită ramele incompatibile. Stancu Print - printare profesională oriunde.

Noul Azon Chorus este conceput pentru a trece prin ușile standard

Azon schimbă regulile Jocului în DTF noul chorus shaker aduce automatizare universală

By Stancu Print • October 3, 2025

Noul agitator de pulbere Azon, dezvoltat pentru a aduce precizie, automatizare și consecvență sporite fluxurilor de lucru pentru imprimarea DTF (Direct-to-Film)

Linia INO HTAJS a introdus o nouă tehnologie de imprimare serigrafică plană

AJS lansează un sistem de serigrafie plană pentru transferuri

By Stancu Print • October 3, 2025

Linia INO A6 HT, construită exclusiv pentru producția de transfer termic de volum mare.

Tehnologia de Imprimare UVgel de la Canon

Avantajele și performanțele cernelei originale Canon Colorado XL UVgel pentru imprimare profesională

By Stancu Print • October 3, 2025

Cerneala oferă imprimări instantaneu uscate, durabile, cu o gamă largă de culori și rezultate de culoare consecvente.

Konica Minolta a lansat KM1800iSHK-DC capul de Imprimare dual color

By Stancu Print • October 2, 2025

Konica Minolta a anunțat astăzi lansarea KM1800iSHK-DC.