რთულ გარემოში ადამიანებს უფრო კარგად ესმით მეტყველების მნიშვნელობა, ვიდრე ხელოვნური ხელოვნური ინტელექტი, რადგან ჩვენ ვიყენებთ არა მხოლოდ ყურებს, არამედ თვალებსაც.
მაგალითად, ჩვენ ვხედავთ ვიღაცის პირის მოძრაობას და შეიძლება ინტუიციურად ვიცოდეთ, რომ ხმა, რომელსაც ჩვენ გვესმის, ამ ადამიანისგან უნდა მოდიოდეს.
Meta AI მუშაობს ახალ AI დიალოგის სისტემაზე, რომელიც ასწავლის ხელოვნურ ინტელექტს, ასევე ისწავლოს დახვეწილი კორელაციების ამოცნობა იმას შორის, რასაც ხედავს და ისმენს საუბრისას.
VisualVoice სწავლობს ისევე, როგორც ადამიანები სწავლობენ ახალი უნარების დაუფლებას, რაც საშუალებას აძლევს აუდიო-ვიზუალური მეტყველების გამიჯვნას ვიზუალური და სმენითი ნიშნების შესწავლით არალეგირებული ვიდეოებიდან.
მანქანებისთვის ეს ქმნის უკეთეს აღქმას, ხოლო ადამიანის აღქმა უმჯობესდება.
წარმოიდგინეთ, რომ შეგეძლოთ მონაწილეობა მიიღოთ ჯგუფურ შეხვედრებში მეტავერსიაში კოლეგებთან მთელი მსოფლიოდან, შეუერთდეთ მცირე ჯგუფების შეხვედრებს ვირტუალურ სივრცეში გადაადგილებისას, რომლის დროსაც სცენაზე ხმოვანი რევერბები და ტემბრები გარემოს შესაბამისად არეგულირებენ.
ანუ, მას შეუძლია ერთდროულად მიიღოს აუდიო, ვიდეო და ტექსტური ინფორმაცია და აქვს უფრო მდიდარი გარემოს გაგების მოდელი, რაც მომხმარებლებს საშუალებას აძლევს ჰქონდეთ "ძალიან ვაუ" ხმის გამოცდილება.
გამოქვეყნების დრო: ივლის-20-2022