Centar za edukaciju-BiH



#1 13.12.2023 13:24
Avko Van mreze
Administrator
Registrovan od:28.05.2014
Postovi:4,708


Predmet:Google je lazirao demonstraciju mogućnosti Gemini AI modela
Googleov demo-video koji prikazuje multimodalne mogućnosti najnovijeg velikog jezicnog modela Gemini odusevio je Internet. ali dobar dio tog promotivnog videa pokazao se laziranim

U videu kojega mozete pogledati ispod ovog odlomka, stjece se dojam da je novi, veliki i moćni Googleov jezicni AI-model Gemini sposoban reagirati odgovorima na glasovnu komunikaciju s korisnikom. Stovise, cini se da moze i komunicirati s korisnikovom okolinom, odnosno prepoznavati sto je korisnik nacrtao ili igrati papir-skare-kamen.
Primjerice, kada se u demonstraciji od Geminija zatrazi da pogodi sto je korisnik skicirao na post-It papiriću, Gemini tocno odgovori kako je na crtezu patka. Zatim se gumena patkica stavi na mapu svijeta, a Gemini uspijeva identificirati poziciju na koju je predmet stavljen.

Montirani procesi
Sudeći po prikazanim vjestinama u demonstracijskom videu, Gemini je sposoban ciniti moćne stvari - identificirati objekte, pronalaziti ispod koje se salice nalazi skriveni predmet, povezivati oblike i boje uz koristenje apstraktnog zakljucivanja, integrirati crteze glazbenih instrumenata s njihovim zvukom. i jos mnogo toga. Ukratko, u demo-videu Google je pokazao moćne Geminijeve sposobnosti obrade razlicitih oblika informacija, logickog i prostornog zakljucivanja i glasovne komunikacije. i sve to u realnom vremenu!
Ali (evo ga, slijedi taj ali.!) realnost je ipak nesto drukcija od video-snimke. Zapravo, prilicno je razlicita. Naime, niti su upiti koje je Gemini u stvarnosti primao od korisnika bili glasovni, niti je Gemini na njih odgovarao generiranjem govora -- pitanja i odgovori su bili tekstualni. Stovise, Geminijevi odgovori uopće nisu bili generirani u stvarnom vremenu.
Na izravne upite tech-novinara o detaljima snimanja demo-prezentacije Geminijevih performansi, Googleov glasnogovornik je izjavio kako je demo .izrađen koristenjem screenshotova i kratkih montaznih kadrova izvucenih iz video-snimki ucinjenih tijekom tekstualne interakcije između korisnika i Geminija.

Kad bi baba imala tockove, zvala bi se Rolls Royce
Tako se naposlijetku pokazalo da je osoba koja je govorila u demonstraciji zapravo samo citala neke od tekstualnih upita koji su proslijeđeni modelu, a robotski glas koji je dodijeljen Geminiju je na isti nacin procitao odgovore koje je Gemini generirao u obliku teksta. Slike preuzete iz videa (poput one koja prikazuje igranje papir-skare-kamen) ubacene su u AI-model, pa se od njega zatrazilo da pogodi o kojoj je igri rijec, a slicni trikovi koristeni su i za neke od ostalih prikaza Geminijevih sposobnosti.
Googleov tim koji je producirao demo-video je iz cjelokupnog materijala odabrao (glasnogovornik doslovce koristi izraz 'cherry-picked') najbolje Geminijeve odgovore i reakcije, te ih u snimci popratio montiranom dvosmjernom govornom komunikacijom, kako bi se cinilo da model moze besprijekorno glasovno reagirati u stvarnom vremenu.
Za potrebe ovog demoa latencija je smanjena, a Geminijeve reakcije i odgovori su skraćeni radi sazetosti, stoji u opisu videa. Oriol Vinyals, potpredsjednik odjela za istrazivanje i deep learning u Google DeepMindu, koji je pomogao voditi projekt Gemini, izjavio je da ovaj demo-video ustvari pokazuje .kako bi mogla izgledati multimodalna korisnicka iskustva izrađena pomoću Geminija.

Ne sumnjamo da će jednoga dana - i to u ne jako dalekoj budućnosti - moćni AI-modeli zaista posjedovati impresivne sposobnosti interakcije i inteligencije koje se u Googleovom videu sada pripisuju Geminiju (odnosno, pokazuju kako bi mogao izgledati jedan takav AI-model). No, cini se kako za sada ovakve montirane promotivne demonstracije ipak jos uvijek ne prelaze sto bi bilo kad bi bilo razinu jeftinog reklamnog materijala.

izvor :bug.hr


zivot je moja domovina.
Ovaj post je ureden 3 puta. Posljednja izmjena 13.12.2023 13:27 od strane Avko. ↑  ↓

Stranice (1):1


Sva vremena su GMT +02:00. Trenutno vrijeme: 9: 11 am.