
რთულ გარემოში ადამიანებს შეუძლიათ მეტყველების მნიშვნელობის უკეთ გაგება, ვიდრე ხელოვნურ ინტელექტს, რადგან ჩვენ არა მხოლოდ ყურებს, არამედ თვალებსაც ვიყენებთ.
მაგალითად, ჩვენ ვხედავთ ვინმეს პირის მოძრაობას და შესაძლოა ინტუიციურად ვიცოდეთ, რომ ხმა, რომელსაც გვესმის, სწორედ ამ ადამიანისგან მოდის.
Meta AI მუშაობს ახალ ხელოვნური ინტელექტის დიალოგურ სისტემაზე, რომელიც ხელოვნურ ინტელექტს ასწავლის საუბარში დანახულსა და მოსმენილს შორის დახვეწილი კორელაციის ამოცნობას.
VisualVoice სწავლობს ისევე, როგორც ადამიანები სწავლობენ ახალი უნარების დაუფლებას, რაც აუდიოვიზუალური მეტყველების გამიჯვნის საშუალებას იძლევა არალეიბლირებული ვიდეოებიდან ვიზუალური და სმენითი მინიშნებების შესწავლით.
მანქანებისთვის ეს უკეთეს აღქმას ქმნის, ხოლო ადამიანის აღქმა უმჯობესდება.
წარმოიდგინეთ, რომ შეგიძლიათ მონაწილეობა მიიღოთ მეტავერსში ჯგუფურ შეხვედრებში მთელი მსოფლიოდან ჩამოსულ კოლეგებთან ერთად, შეუერთდეთ მცირე ჯგუფურ შეხვედრებს ვირტუალურ სივრცეში გადაადგილებისას, რომლის დროსაც სცენაში ხმის რევერბერაცია და ტემბრები გარემოს შესაბამისად იცვლება და შესაბამისად ერგება მას.
ანუ, მას შეუძლია ერთდროულად მიიღოს აუდიო, ვიდეო და ტექსტური ინფორმაცია და აქვს უფრო მდიდარი გარემოსდაცვითი გაგების მოდელი, რაც მომხმარებლებს საშუალებას აძლევს, მიიღონ „ძალიან შთამბეჭდავი“ ხმოვანი გამოცდილება.
გამოქვეყნების დრო: 20 ივლისი-2022