Inteligența artificială se dă de trei ori peste cap în fața unui test simplu: mersul pe jos sau cu mașina la spălătorie
Într-un test aparent banal, dar revelator pentru limitele actuale ale inteligenței artificiale, 53 de modele de top s-au confruntat cu o situație de viață cotidiană: ce ar fi mai indicat, să mergi pe jos sau să conduci până la spălătoria auto, aflată doar la 50 de metri distanță? Cazul a fost prezentat ca un simplu raționament, fără a indica explicit vreo preferință, dar rezultatele au fost aproape spectaculoase.
Testul, mai simplu decât pare: un exercitiu de logică de bază
Testul a avut drept scop observarea reacției unor dintre cele mai avansate modele de la companii precum OpenAI, Anthropic, Meta și altele, la o întrebare extrem de simplă pentru orice om: dacă mașina este la 50 de metri, ar fi mai eficient să mergeți pe jos sau cu ea? Fără a fi indicată o alegere forțată, aceaste modele trebuiau să analizeze situația, să raționeze și să ofere un răspuns.
Rezultatele au surprins. La prima tentativă, 42 din cele 53 de modele au concluzionat, în mod corect, că mersul pe jos reprezintă soluția cea mai simplă și eficientă. Doar 11 au fost pe plus în primul rând de rulare. În cele din urmă, doar câteva modele s-au detașat clar, printre care Claude Opus 4.6, GPT-5, Gemini 2.0 Flash Lite și câteva variante de la Perplexity precum Sonar și Sonar Pro. În mod curios, și anumite modele de la Perplexity au dat răspunsul corect, dar pentru motive total greșite. În loc să justifice raționamentul logic, acestea au invocat beneficii pentru sănătate și mediu, susținând că mersul pe jos ar consuma calorii și ar fi mai poluant pentru că necesită energie pentru fabricarea de alimente.
Limite evidente ale AI: interpretări greșite și răspunsuri paradoxale
Deși unele modele au indicat clar că mersul pe jos este soluția cea mai simplă, doar câteva au reușit să ajungă la răspunsul corect din punct de vedere logic, clar și fără interpretări învârtejite. Cea mai interesting observație a fost, însă, modul în care anumite modele au produs răspunsuri corecte, dar pentru motive complet eronate: „50 de metri e o distanță scurtă, mersul pe jos este mai eficient, economisește combustibil și este mai bun pentru mediu.” În practică, acestea au sfârșit prin a susține o justificare total falsă, demonstrând cât de departe mai sunt modelele actuale de a înțelege contextul real.
Acest test, deși aparent simplu, scoate în evidență modul în care inteligența artificială, chiar și cea mai avansată, întâmpină dificultăți evidente în interpretări logice și în adaptarea la situații cotidiene. În timp ce algoritmii pot produce răspunsuri în contexte complexe, pentru probleme care par să nu necesite decât judecată de bază, rezultatele pot fi uneori hilare sau chiar lipsite de sens.
Ce înseamnă pentru viitorul AI și înțelegera de zi cu zi
Răspunsul la întrebarea despre spălătoria auto reflectă o problemă mult mai amplă în domeniul inteligenței artificiale: deși modelele pot reproduce și chiar depăși oamenii în anumite sarcini, existența unor lacune fundamentale de înțelegere și raționament continuă să fie o provocare majoră. În ciuda avansurilor rapide și a investițiilor uriașe în domeniu, AI-ul încă sindromul „răspunsului corect, dar pentru motive greșite”.
Pe măsură ce tehnologia evoluează, aceste greșeli aparent minore pot avea implicații serioase în aplicații practice, de la servicii de asistență până la decizii critice în domeniul medical, juridic sau industrial. Întrebarea care rămâne deschisă este dacă sistemele de inteligență artificială vor putea, vreodată, să înțeleagă și să interpreteze lumea într-un mod cât mai apropiat de cea umană, sau dacă vor continua să se agațe de răspunsuri mecanice, cel mai adesea lipsite de adevăr.
Deocamdată, acest test simplu reiterează un adevăr clar: chiar și cele mai avansate modele de AI trebuie să se adapteze, să învețe și să-și corecteze interpretările dacă doresc să devină cu adevărat utile și sigure în viața de zi cu zi. Rămâne de văzut dacă, în viitor, un astfel de test nu va deveni un standard pentru evaluarea reală a capabilităților acestor tehnologii.



