Ключови изводи
- DeepZen използва AI (изкуствен интелект), за да създава удивително реалистични аудиокниги от текст.
- Технологията използва актьори с истински човешки глас, за да осигури градивните елементи.
- Amazon и Audible в момента не приемат компютърно генерирани аудиокниги.
DeepZen е компания, която създава компютърни гласове, използвани в аудиокниги, базирани на реални гласове на човешки актьори. Качеството е плашещо - достатъчно добро, за да слушате часове наред. Трикът тук е компонентът AI (изкуствен интелект), който може да прочете текста и да изведе правилната емоционална реакция въз основа на контекста. След това влага тази емоция в гласа.
Впечатляващо е и много удобно. Но наистина ли искаме хомогенизирано изживяване с аудиокниги? А какво да кажем за тези гласови актьори?
"От гледна точка на независимия издател всичко, което намалява разходите за производство на аудиокниги, е много интересно", каза Рик Карлайл, собственик на независимия издател Carlile Media, пред Lifewire по имейл.
"Но това привличане предполага, че продуктът ще бъде със същото качество като традиционното разказване. Не мисля, че все още сме на сто процента. Не ме разбирайте погрешно, DeepZen е удивително добър. Това е огромен пробив и създателите му заслужават огромна похвала и успех. Но все още не е съвършен."
Аудио, което е „достатъчно добро“
Най-добрият начин да разберете качеството на DeepZen е да слушате семплите. Ако не сте знаели, че са компютърно генерирани, може дори да не разберете. Във всеки случай не за известно време. Да приемем, че AI на DeepZen е перфектен и че никога не тълкува погрешно емоционалните нотки, които би трябвало да удря.
Дори тогава човек може да предложи по-нюансирани и често по-изненадващи интерпретации. Един актьор може да направи неочакван обрат на думите, който компютърът дори не би обмислил. И в действителност интерпретацията на AI със сигурност все още не е толкова добра, колкото тази на професионален гласов актьор.
"Като човек, който работи върху филми и напоследък в света на аудио диктора, въпреки че съм впечатлен от AI-знам със сигурност, че има дълбоки дълбочини на значението, които машината не може да интерпретира," професионален глас актьорът Пол Крам каза на Lifewire по имейл.
"Ще има ли голям брой неизвестни автори, които ще го използват? Гарантирам, че ще има, защото е "достатъчно добър"."
Да бъдеш достатъчно добър, съчетан с удобството и спестяването на разходи, може да е достатъчно, за да насочи независимите издатели към услугата.
"Аудиокнигите могат да струват до $500 за завършен час аудио (много повече за глас на знаменитост) и това не включва разходите за време за управление и администратор", казва Карлайл. „Да можеш да намалиш наполовина тези разходи чрез просто качване на ръкопис на доставчик като DeepZen е изключително привлекателно.“
Проблеми с говоренето
Все още не е толкова лесно като уволняването на гласовите ви актьори и качването на ръкописи в DeepZen. Понастоящем има една пречка пред лесната реч с изкуствен интелект за аудиокниги и тя е от Amazon.
"В момента ACX, пътят на самоиздателя към разпространението на аудиокниги Audible и Amazon, няма да приема аудиокниги, които не са записани от човек", казва Карлайл.
Защо? качество. Ето записа с ЧЗВ от уебсайта:
"Не се разрешава преобразуване на текст или други автоматизирани записи. Аудио слушателите избират аудиокниги за изпълнението на материала, както и за историята. За да отговори на това очакване, вашата аудиокнига трябва да бъде записана от човек."
Това означава, че генерираните от DeepZen аудиокниги са излезли поне засега. Това е чиста спекулация, но DeepZen би изглеждало като доста добро придобиване за Amazon, позволявайки му да продаде услугата и да я запази само за Audible книги. И дори това да не се случи, ако качеството на компютърно генерираните аудиокниги е толкова добро, тогава изглежда малко причина да не се прави изключение от това правило.
Ще се радвате ли да слушате направени по този начин аудиокниги? Когато се случи, повечето хора дори няма да подозират. Някои може да предпочетат съвършенството на компютърно генерираните гласове, защото ще бъдат освободени от вокалните тикове и навици, които понякога могат да разсейват. Технологията е подходяща и за видео игри, телевизионни и радио реклами и всеки друг сценарий, при който бихте наели гласов актьор.
Технологиите на DeepZen също биха направили чудесен начин за автоматично създаване на новинарски подкасти от писмени статии, което може да бъде удобно при пътуване до работното място.
А какво ще кажете за тези гласови актьори? Е, ще има поне една възможност: те могат да отидат и да работят за DeepZen.