Чувам мъртви хора? естественият езиков технология оживява миналите и настоящите гласове

2025

Съдържание:

Големи промени в NLP
Вълнуващи творения „Текст на глас“ във VivoText
Изкуствен глас в маркетинга
Вашият глас живее
През 2525 година

В наши дни повечето компютърни гласове са пасе. Вероятно не се вълнувате твърде много от киборгите и роботите, когато чуете „дроида“ на телефона си, който ви помага с плащане на сметката или ви пита какъв отдел искате. Но какво ще стане, ако изведнъж чуете Кърт Кобейн да ви моли за информация за картата? Или Джон Ф. Кенеди разказва за чудесата на предсрочното гласуване? Или Елвис да получи вашето име и адрес, преди да се прекъсне в "парче, парче от горяща любов?"

Всичко това би било … някак странно, но още по-завладяващо е, че технологията по принцип вече е тук. Само преди десетина години бяхме изумени от способността на компютъра да говори дори изобщо. Сега предстои да бъдем затворени от безплатни, компютърно генерирани гласове, които звучат точно като хора, които познаваме.

Големи промени в NLP

Ако обръщате внимание на областта на обработката на естествен език (NLP), може би сте чували за някои скорошни постижения, които надхвърлят видовете гласове за консервиран виртуален асистент, които сега чуваме в нашите глобални системи за позициониране (GPS) и автоматизиран бизнес телефонни линии.

Началото на НЛП изискваше доста изследвания в общата механика на човешката реч. Изследователите и инженерите трябваше да идентифицират индивидуалната фонетика, да ги сгънат в по-големи алгоритми за генериране на фрази и изречения и след това да се опитат да управляват всичко това на мета ниво, за да генерират нещо, което звучи реално. С течение на времето лидерите на НЛП овладяха това и започнаха да изграждат усъвършенствани алгоритми, за да разберат какво казват хората. Сглобявайки тези двама, компаниите издигнаха драйверите за днешните виртуални асистенти и напълно дигитални чиновници за плащане на сметки, чиито маниери - макар и досадни - все още са невероятни, когато спрете да мислите за работата, която им се наложи.

Сега някои компании излизат извън общия виртуален глас, за да съберат по-специфичен персонализиран резултат. Това изисква преминаване през лексикон на конкретен човек и събиране на големи количества уникални гласови видеоклипове, а след това прилагане на този архив към сложните ритми за фонетика, акцент, каданс и всички други малки намеци, които езиковедите често групират под широкото знаме на „просодия“.

Това, което излиза, е глас, който слушателите смятат за „притежаван“ от конкретен човек - или някой, когото познават и са разговаряли, или някой, чийто глас признават в резултат на славата на човека.

От Елвис до Мартин Лутър Кинг, гласът на никого вече може да бъде „клониран“ по този начин - при условие, че има съществено записан запис на речта им. Прилагайки още по-подробен анализ и манипулация върху отделни малки звуци, компаниите са в състояние да направят виртуално копие от нечий глас, което звучи много като истинското.

Вълнуващи творения „Текст на глас“ във VivoText

VivoText, например, е една компания, която работи за революция в използването на изкуствени човешки гласове за всякакви кампании, от аудиокниги до интерактивен гласов отговор (IVR). Във VivoText изследователски и продуцентски екипи работят върху процеси, които теоретично биха могли конкретно да възпроизведат гласовете на починали знаменитости, като самия Ol 'Blue Eyes.

„За да клонираме гласа на Франк Синатра, всъщност бихме преминали през записаното му наследство“, казва изпълнителният директор на VivoText Гершон Силбърт, като говори за това как би могъл да работи този вид технологии.

В момента VivoText работи по архивирането на гласовете на онези, които все още са с нас, като кореспондента на NPR Нийл Конан, който се е подписал като модел за този вид проект за пионери в ИТ. Промоционално видео показва работниците на VivoText старателно създавайки фонетични модулни кодове, използвайки предоставен гласов вход от Conan. След това те създават моделите за инструменти за текст в реч (TTS), които предизвикват драматично човешки и персонифициран резултат.

Според Бен Feibleman, вицепрезидент по стратегията и развитието на бизнеса във VivoText, компютърът работи на фонематично ниво (използвайки най-малките уникални части на речта), за да съответства на прозодичен модел за индивидуален човешки глас.

„Знае как гласът говори“, казва Feibleman и добавя, че използвайки „подбор на единици“, компютърът избира няколко парчета, за да събере една кратка дума, например където думата „петък“ получава пет компонента, които помагат за развитието особен акцент и тонален резултат.

Изкуствен глас в маркетинга

И така, как работи това в маркетинга? Продуктите на VivoText могат да бъдат изключително полезни при създаването на продукти, като аудиокниги, които да достигнат до целевата аудитория. Например, колко по-ефективен би бил гласът на Елвис в сравнение с един от днешните общи, мъртви, автоматизирани гласове, ако той се използва за продажба на продукти, свързани с развлечения?

Или, какво ще кажете за политиката? Feibleman работи върху различни идеи за използване на проекти като тези, за да подобри маркетинга за компании или други страни, които се нуждаят от по-ефективни съобщения.

"Ако познавате политици, които се кандидатират за президент, това би могло 10 милиона избиратели да получат лично обаждане от кандидат, благодаря им за подкрепата им, казвайки им къде трябва да отидат да гласуват, времето и всички подстригвания вечер преди изборите “, каза Фейбълман.

Вашият глас живее

Има още едно очевидно приложение за цялата тази технология. Компаниите с естествен език като VivoText биха могли да създадат лична услуга, която да качва всички гласови данни на клиента в продукт, който би позволил на този човек да "говори вечно".

Практическото изпълнение вероятно би повдигнало редица въпроси за това как чуваме и интернализираме говоримите гласове. Например, какво е необходимо, за да се направи звуков поток точно като някой? Колко добре трябва да познаваме човек, за да разпознаем определен глас? И интересното е, че какво се случва, ако услугата по естествен език създава груба карикатура, а не непреодолима мимикрия?

Според Feibleman оценката на резултатите често зависи от съобразяването с контекста. Например, той казва, че децата обикновено не задават въпроси за това кой говори, когато слушат история. Те просто искат повече. Освен това, много възрастни може да не се замислят кой говори с тях, като се има предвид определен сценарий, като например пасивно излъчване или телефонно съобщение. Освен това е по-лесно да се заблудите от компютър по телефона, защото приглушеният звук може да маскира грешки или други несъответствия между компютърните резултати и човешкия глас.

"Не ти хрумва да оспорваш автентичността на гласа", казва Фийбилман.

През 2525 година

Докато компаниите напредват в разработването на продукти и услуги и отговарят на тези въпроси, технологиите „жива реч“ могат да ни насочат към сближаването на технологиите и човешкия ум, което класически се нарича изкуствен интелект (AI).

Ако компютрите могат да говорят като нас, те може да успеят да подмамят другите потребители да мислят, че те мислят като нас, захранвайки се с по-големия принцип на сингулярност, вложен в нашия лексикон от Джон фон Нойман, технологичен пионер от епохата на 1950 г., евангелизиран от писателите и мислители като Рей Курцвайл. Книгата на Курцвайл от 2005 г. „Сингуларността е близо“ вълнува някои и плаши други. Курцвайл предвиждаше, че до 2045 г. „интелигентността“ като явление ще стане значително свързана с човешкия мозък и ще мигрира в технологиите, размивайки линиите между машините и техните човешки господари.

Безсмъртен в текстовете на "За годината 2525" на Zager & Evans (никой не прави страховити научнофантастични балади като тези)

През 4545 година

Няма да ти трябват зъбите, няма да има нужда

твоите очи

Няма да намерите нещо, което да дъвчете

Никой няма да те гледа

През 5555 година

Ръцете ви увиснат отстрани

Краката ти няма какво да правят

Някаква машина прави това за вас

Дали компютърните гласове са стъпка в тази посока? Като нов начин за възлагане на някои от функциите на човешкото тяло (или по-често за симулирането им), този вид технологичен прогрес е един от най-големите - и вероятно недостигната - напредък на хоризонта, докато разглеждаме единствено бъдеще, (за „сингулярността“ в „Ще бъдат ли компютрите способни да имитират човешкия ум?“)