Conform Mediafax: Startup-ul Inworld, din Mountain View, lansează un nou sistem de inteligență artificială vocală, Realtime TTS-2, care poate detecta și reproduce emoțiile pentru a oferi interacțiuni mai naturale. Modelul analizează indicii vocali precum tonul și ritmul pentru a adapta vocea AI, o evoluție care ar putea crește semnificativ implicarea utilizatorilor.
Emoții în vocea AI
Realtime TTS-2 este conceput pentru a înțelege contextul unei conversații și a răspunde la emoțiile vorbitorului. Sistemul detectează semnale emoționale în timp real, ajustând continuu „starea utilizatorului” și „starea agentului” pentru a ghida răspunsurile AI. Această abordare vizează depășirea limitărilor modelelor AI vocale existente, care adesea par „ca un om care citește un scenariu”. CEO-ul Inworld, Kylan Gibbs, consideră că rezolvarea componentei emoționale este vitală pentru scalarea acestei tehnologii. „Conversația în timp real, așa cum avem acum, este modul natural în care interacționează oamenii”, a subliniat Gibbs. „Cu cât te apropii mai mult de asta, cu atât vezi mai mult engagement.”
În cadrul unei demonstrații, AI-ul a demonstrat capacitatea de a trece prin diverse stări emoționale, de la empatie la amuzament subtil, în funcție de context. De exemplu, după o glumă nepotrivită, AI-ul a oferit un răspuns echilibrat: „Ei bine, a fost cu siguranță eficient. Cu siguranță mi-a atras atenția. Nu aș spune că a fost amuzant, dar a fost impresionant într-un fel.”
O nouă direcție pentru Inworld
Lansarea TTS-2 marchează o schimbare de direcție pentru Inworld, care a atras investiții de peste 100 de milioane de dolari de la companii precum Founders Fund, Intel și Microsoft. Modelul anterior al companiei se afla deja în topul clasamentelor din industrie. Gibbs a precizat că accentul se mută de la producerea de produse de consum la furnizarea de infrastructură pentru dezvoltatori prin intermediul unui API. Această strategie permite dezvoltatorilor să creeze propriile aplicații bazate pe modelul Inworld, o decizie menită să evite competiția directă cu clienții săi.
Strategia Inworld: API-uri pentru dezvoltatori
Inworld intenționează să ofere TTS-2 ca infrastructură pentru dezvoltatori, prin intermediul unor interfețe de programare a aplicațiilor sau API-uri. Această abordare diferă de cea a competitorului ElevenLabs, care activează la nivelul aplicațiilor pentru clienți. Prin oferirea accesului la modelele de bază, Inworld facilitează crearea de aplicații personalizate. Gibbs a explicat că această strategie este și o reacție la creșterea instrumentelor de codare AI, care simplifică dezvoltarea de aplicații. „Acum producem doar modele și API-uri”, a conchis Gibbs.
Sursa: Mediafax



