Mark Zuckerberg intensyfikuje rozwój sztucznej inteligencji głosowej w Meta, stawiając na ulepszenie funkcji głosowych w nadchodzącej wersji Llama 4. Firma planuje, aby jej AI opierało się na naturalnych rozmowach, umożliwiając płynne dialogi między użytkownikiem a systemem. Meta, walcząc o pozycję lidera w dziedzinie sztucznej inteligencji, rozważa także wprowadzenie płatnych subskrypcji i reklam, aby skomercjalizować rozwój tej technologii.


Informatorzy, na których powołuje się „Financial Times”, twierdzą, że firma planuje wprowadzenie ulepszonych funkcji głosowych do swojego najnowszego modelu językowego open-source Llama 4, który ma zostać wydany w najbliższych tygodniach. Przedsiębiorstwo stawia na to, że tzw. agenci napędzani AI będą opierać się na rozmowie, a nie tekście.
Meta stawia na dialogi głosowe zamiast sztywnych odpowiedzi
Firma skupia się na tym, aby rozmowa między użytkownikiem a modelem głosowym była bardziej naturalna i przypominała dwukierunkowy dialog, pozwalający na przerwy ze strony użytkownika, a nie tylko na sztywne pytania i odpowiedzi.
Ruch w stronę rozwoju głosowej AI pojawia się w momencie, gdy Zuckerberg przedstawił ambitne plany, by uczynić Meta liderem w dziedzinie AI, określając 2025 rok jako przełomowy dla wielu produktów firmy opartych na sztucznej inteligencji. Meta ściga się z takimi konkurentami jak OpenAI, Microsoft i Google, by skomercjalizować tę technologię.
W związku z tym firma rozważa testowanie płatnych subskrypcji dla swojego asystenta AI Meta AI, oferując zadania związane z agentowymi funkcjami, takimi jak rezerwacje czy tworzenie wideo – powiedzieli informatorzy „Financial Times”. Firma zastanawia się także nad wprowadzeniem płatnych reklam lub sponsorowanych postów do wyników wyszukiwania swojego asystenta AI.
Zuckerberg ujawnił plany budowy agenta AI, który miałby zdolności programistyczne i rozwiązywania problemów na poziomie średniozaawansowanego inżyniera, co jego zdaniem może stworzyć „bardzo duży rynek”.
Meta odmówiła „Financial Times” komentarza w tym temacie.
Natywna mowa zamiast tłumaczenia tekstu
Dyrektor ds. produktów grupy, Chris Cox, 5 marca przedstawił część planów dotyczących Llama 4, mówiąc, że będzie to „model omni”, w którym mowa będzie „natywna... zamiast tłumaczenia głosu na tekst, wysyłania tekstu do LLM, odbierania tekstu i ponownego zamieniania go w mowę”.
Występując na konferencji technologicznej Morgan Stanley, dodał: „Wierzę, że to ogromna sprawa dla produktu interfejsu, pomysł, że można rozmawiać z internetem i po prostu zapytać go o cokolwiek. Myślę, że wciąż nie do końca zdajemy sobie sprawę, jak potężne to jest”.
Dyskusje te mają miejsce w obliczu fali premier konkurencyjnych rozwiązań i ostrzeżeń nowo mianowanego „cara sztucznej inteligencji” Davida Sacksa, inwestora venture capital z Doliny Krzemowej, który stwierdził, że chce się upewnić, że amerykańskie modele sztucznej inteligencji nie będą stronnicze politycznie ani „przebudzone”.
Rywalizacja na rynku głosowych asystentów AI
OpenAI wprowadziło tryb głosowy w zeszłym roku, koncentrując się na nadaniu mu odmiennych osobowości, podczas gdy Grok 3, stworzony przez xAI Elona Muska i dostępny na platformie X, wprowadził funkcje głosowe dla wybranych użytkowników pod koniec ubiegłego miesiąca.
Model Grok został specjalnie zaprojektowany tak, aby mieć mniej zabezpieczeń, w tym „tryb bez ograniczeń”, który celowo reaguje w sposób, który zgodnie z oświadczeniem firmy, ma być „kontrowersyjny, niewłaściwy i obraźliwy”.
Meta w ubiegłym roku zaprezentowała mniej „świętoszkowatą” wersję swojego modelu AI w trzeciej iteracji Llama, po krytyce, że Llama 2 odmawiała odpowiedzi na niewinne pytania.
Umożliwienie użytkownikom interakcji z asystentem AI za pomocą poleceń głosowych to kluczowa funkcja inteligentnych okularów Ray-Ban Meta, które niedawno stały się dużym hitem wśród konsumentów. Firma przyspieszyła swoje plany budowy lekkich zestawów słuchawkowych, które mogą zastąpić smartfony jako główne urządzenie obliczeniowe konsumentów.


























































