ჰოლდინიგ Alphabet-ის განხყოფილება ხელოვნური ინტელექტის სფეროში DeepMind ამბობს, რომ ადამიანის საუბრის სინთეზის ტექნოლოგია WaveNet ახლა უკვე მზად არის Google Assistant-ში ჩასართავად. სისტემა WaveNet გასულ წელს წარმოადგინას და მან ადამიანის ხმის სინთეზი ხარისხობრივად ახალ დონეზე აიყვანა. მანამდე ამისთვის საკმაოდ დიდი გამოთვლითი რესურსები იყო საჭირო მაგრამ, DeepMind-ის სპეციალისტებმა ეს პროცესი 1 000-ჯერ უფრო ეფექტური გახადეს.
წარსულში ტექსტის გასახმოვანებლად კონკატინაციური TTS სისტემები გამოიყენებოდა, რომლებიც დიდ მონაცემთა ბაზას საჭიროებდა ერთი ავტორისაგნა. ეს ჩანაწერები იყოფოდა მცირე მონაკვეთებად, რომლებიც შემდგომში ერთიანდებოდა სინთეტური საუბრის გენერაციისთვის. სწორედ ამიტომ ასეთი საუბარი ყურში ცუდად და არაბუნებრივად გვხვდება.
WaveNet-ს საფუძვლა ნეირონული ქსელები უდევს ნაცვლად წინასწარ ჩაწერილი სიტყვებისა და წინადადებისა. ნეირონული ქსელები ადამიანის საუბრის უამრავი ნიმუშიდან სწავლობს და შემდგომში აგენერირებს დამიანის მსგავს საუბარს. ამ ეტაპზე ნეირონული ქსელი განსაზღვრავს საუბრის მთავარ სტრუქტურას, ტონების თანმიმდევრობას და არკვევს, რომელი მათგანია უფრო რეალისტური. შემდგომის ის ასინთეზირებს ერთ ხმას მეორეს მიყოლებით და ითვალიწინებს წინა ნიმუშის თავისებურებებს. შედეგად ხმაში ბუნებრივი ინტონაცია და ტუჩების მოძრაობისას წარმოქმნილი რხევებიც კი იწარმოება.
ეს მიდგომა არა მხოლოდ აგენერირებს უფრო ბუნებრივ სინთეტიკურ საუბარს არამედ საშუალებას იძლევა დროთა განმავლობაში უკეთესი შედეგი მივიღოთ, რადგანაც ნეირონული ქსელები მუდმივად განაგრძობენ სწავლას. ასეთ მოდელს მოდიფიკაციების სიმარტივეც ახასიათბს, რითაც შესაძლებელი ხდება ნებისმიერი რაოდენობის უნიკალური ხმების შექმნა.
თავიდან WaveNet-ს შეეძლო მხოლოდ 0,02 წამი სინთეტური ხმის გენერაცია 1 წამში, მაგრამ ახალ ვერსიაში 1 000-ჯერ უფრო სწრაფად აკეთებს ამას და ჩვეულებრივი საუბრის 20 წამს ის 1 წამში აგენერირებს. მას ასევე შეუძლია 16-ბიტიანი აუდიო 24 კილოჰერცით აწარმოოს, რაც CD დისკის ჩანაწერის ხარისხის ტოლფასია. საშუალო შეფასება WaveNet-ის შედეგებისთვის 4,2-დან 4,35-მდე აიწია და ეს ძალიან მაღალი ქულაა თუ გავითვალისწინებთ, რომ ადამიანის ბუნებრივი შესაძლებლობები საშუალოდ 4,67-ია.