ნეირო-გახმოვანების სამყაროში მნიშვნელოვანი მოვლენა მოხდა: ElevenLabs-ის ბიჭებმა ახლახან გამოუშვეს თავიანთი ახალი ტექსტი-მეტყველების მოდელი — Eleven v3. ეს არის ნაბიჯი ხელოვნურ და ბუნებრივ ხმას შორის ზღვრის საბოლოოდ წაშლისკენ.

რით არის v3 ასეთი მაგარი? წარმოიდგინეთ ნეიროქსელი, რომელიც არა უბრალოდ ტექსტს კითხულობს, არამედ შეუძლია:

  • ინტონაციის შეცვლა უმალვე — მხიარული შეძახილიდან მოფიქრალ სევდამდე.
  • სიცილი [laughs], ოხვრა [sighs]** ან ჩურჩულზე გადასვლა** [whispers] — დიახ, პირდაპირ ტექსტში შეგიძლიათ ასეთი აუდიო-ტეგები ჩასვათ.
  • რამდენიმე პერსონაჟის დიალოგების გახმოვანება განსხვავებული ხასიათებით — იდეალურია აუდიო-დრამებისთვის, პოდკასტებისთვის ან თამაშებისთვის.
  • ჟღერდეს გულწრფელად, დრამატულად, სარკასტულად — მოკლედ, ემოციების მთელი სპექტრის გადმოცემა.
  • მარტივად აქცენტების ან ტონალობის შეცვლა პირდაპირ წინადადების შუაგულში.
  • და თუნდაც სიმღერა. (ჯერ ალფა ვერსიაში.)

ყოველივე ეს შესაძლებელი გახდა მოდელის სრულიად ახალი არქიტექტურის წყალობით. დეველოპერები აცხადებენ, რომ Eleven v3 — დღეისათვის ყველაზე ექსპრესიული TTS-მოდელია. საკვანძო სიტყვა აქ არის — კონტროლი. გსურთ, რომ აუდიოწიგნის გმირი შიშისგან აკანკალდეს ან გაიცინოს? ინებეთ. გჭირდებათ დიალოგში ორ პერსონაჟს შორის შეუფერხებლად გადართვა? მარტივად. ეს მიიღწევა სპეციალური აუდიო-ტეგების მეშვეობით პირდაპირ პრომპტში — როგორც ბრძანებები გამოცდილი გახმოვანების მსახიობისთვის.

„Eleven v3-ით თქვენ იღებთ სრულ კონტროლს ემოციებზე, გადმოცემაზე და არავერბალურ სიგნალებზე,“ — სიამაყით განაცხადა მატი სტანისევსკიმ, ElevenLabs-ის თანადამფუძნებელმა და აღმასრულებელმა დირექტორმა. — „თქვენ შეგიძლიათ მართოთ ტემპი, ემოცია და სტილი, რათა ისინი იდეალურად შეესაბამებოდეს ნებისმიერ სცენარს. და ჩვენი გლობალური მისიის შესაბამისად, მოხარულნი ვართ, რომ მოდელის მხარდაჭერა 70-ზე მეტ ენაზე გავაფართოვეთ.“

და დიახ, ენებზე — ეს ცალკე დიდი პლუსია. თუ ადრე მოდელი 33 ენას ესმოდა (მოიცავდა პლანეტის მოსახლეობის ~60%-ს), ახლა მათი რაოდენობა 70-ზე მეტია, ხოლო დაფარვა შთამბეჭდავ 90%-მდე გაიზარდა. მართალია, ყველა ენაზე სანდოობასთან დაკავშირებით შეიძლება ჯერ კიდევ იყოს ნიუანსები — ამაზე სამომავლო განახლებებში მუშაობას გვპირდებიან.

ვისთვის არის ეს?

უპირველეს ყოვლისა — კონტენტის შემქმნელებისთვის, დეველოპერებისთვის და კომპანიებისთვის, რომლებიც ექსპრესიულ პროექტებზე მუშაობენ:

  • აუდიოწიგნები და პოდკასტები, სადაც ცოცხალი პერსონაჟები მნიშვნელოვანია.
  • სთორითელინგი და ინტერაქტიული ისტორიები (როგორიცაა ტექსტური ქვესტები ან ვიზუალური ნოველები).
  • ასევე NPC-ის მეტყველების გენერაცია თამაშებში.
  • ნებისმიერი პროექტი, სადაც საჭიროა არა უბრალოდ ინფორმაცია, არამედ ემოციური სიღრმე და სიცოცხლისუნარიანობა.

ცალკე აღნიშვნის ღირსია დიალოგის რეჟიმი (Dialogue Mode). ის მოდელს საშუალებას აძლევს ბუნებრივად დაამუშაოს შეწყვეტები, ტონის ცვლა და საუბრის ემოციური ნაკადი რამდენიმე მოსაუბრეს შორის. უახლოეს გეგმებში კი — სტრიმინგის მხარდაჭერა რეალური დროისთვის. ეს ხსნის კარს ქოლ-ცენტრებსა და ახალი თაობის ჩატ-ბოტებში გამოყენებისთვის, სადაც მეტყველების სინთეზი მყისიერი და უწყვეტი უნდა იყოს.

„ეს გამოშვება არის თანადამფუძნებლის, პეტრეს, ხედვისა და ლიდერობის შედეგი და იმ წარმოუდგენელი კვლევითი გუნდის, რომელიც მან შექმნა,“ — დაამატა სტანისევსკიმ. — „კარგი პროდუქტის შექმნა რთულია — სრულიად ახალი პარადიგმის შექმნა თითქმის შეუძლებელია. ჩვენ ყველა ElevenLabs-ში თავს იღბლიანად ვგრძნობთ, როდესაც ვხედავთ იმ მაგიას, რომელსაც გუნდი აცოცხლებს.“

დასკვნა

Eleven v3 უკიდურესად იმედისმომცემად გამოიყურება. ეს არის სერიოზული განაცხადი ლიდერობაზე ემოციური და კონტროლირებადი მეტყველების სინთეზის სფეროში. ახლა ჯერი კონტენტის შემქმნელებსა და დეველოპერებზეა — რა წარმოუდგენელ აუდიო-სამყაროებს ააშენებენ ისინი ასეთი ხელსაწყოებით?

გენერირების ცდა შეგიძლიათ აქ, მთავარ გვერდზე: https://elevenlabs.io/v3 (საჭირო იქნება ანგარიშის რეგისტრაცია).

წინა სტატიაChatGPT ახლა უერთდება Outlook-ს, Teams-ს, Gmail-ს, Google Drive-ს და სხვა სერვისებს
შემდეგი სტატიაDaVinci Resolve 20.0-ის რელიზი

პასუხის გაცემა

შეიყვანეტ კომენტარის ტექსტი
შეიყვანეთ თქვენი სახელი