У дома Софтуер Технология за разпознаване на глас: полезна или болезнена?

Технология за разпознаване на глас: полезна или болезнена?

Съдържание:

Anonim

Случвало ли ви се е някога да се обадите на компания, за да получите някаква помощ или да платите сметката си, само за да бъдете посрещнати от приятен записан глас, който иска да проведе разговор с вас, но не може да разбере половината от това, което говорите? Или може би притежавате iPhone и докато Siri за пръв път изглеждаше като добър съюзник, сте разбрали, че понякога (ОК, нека бъдем честни, често), тя просто не го разбира? Технологията за разпознаване на глас (VRT), известна още като реч в текст, попада в общ капан: тя има потенциала да бъде невероятно готина (и момче, ние ли се вкореняваме за това), но по-често това е стискане на зъби упражнявайте в безсилие.


След като една идея, принадлежаща в сферата на научната фантастика, разпознаването на глас се разраства още от началото на 50-те години на миналия век, когато системата на Bell Laboratories Одри е проектирана да разпознава цифри, изречени с един глас, към съвременната мрежа от разговорна електроника, с която сега взаимодействаме ежедневно - със смесени резултати.

За да говорите с човек, моля натиснете 0

Много от днешните бизнеси сега използват системи, наречени интерактивен гласов отговор (IVR) за обработка на повиквания за обслужване на клиенти. Най-често се използва за менюта с гласова навигация, но някои компании използват IVR системи, които имат достъп до информация за клиентските акаунти и отговарят на дребни въпроси. Софтуерът за меню IVR обикновено има ограничен речник, който може да бъде ограничен до "да", "не" и числа. По-сложните системи могат да разпознават специфични за компанията думи и фрази.


Тези системи стават все по-популярни - поне за бизнеса - по проста причина: те са рентабилни. Според доклад за 2010 г. от Wall Street Journal типичният клиентски разговор, който достига агент, струва между 3 и 9 долара, докато обаждането, обработено чрез автоматизирана система, струва само пет до седем цента. И, разбира се, компютърните програми не се уморяват, не се обаждат на болни или не се разочароват от клиентите (въпреки че клиентите със сигурност се чувстват разочаровани от тях!).


За щастие, това не винаги означава, че IVR отнема работните места от хората - или поне че всички хора изчезват от кол центровете. Тези помощници, активирани с глас, позволяват на служителите на човешкото обслужване на клиенти да бъдат по-продуктивни чрез насочване на обаждания и отговор на прости въпроси.


Разбира се за човешките потребители, които взаимодействат с тези технологии, не винаги е плавно плаване. Технологиите помагат за подобряване на често срещаните проблеми в технологията на IVR, като например проблеми с акцентите, но освобождаването на автоматизирани системи все още е често срещана тема в интернет. Вижте този комедийен скит около асансьор, оборудван с разпознаване на глас, който подчертава чувството на неудовлетвореност, което може да доведе до неизправности в IVR системите.

Приложения за лични телефони: Siri, Google Now

Повечето хора са запознати с разпознаването на глас за смартфони. Докато по-голямата част от най-новите модели телефони идват с VR, тяхната популярност - и известност - набъбна, когато Apple представи Siri, леко саркастичния, активиран с глас „личен асистент“ за iPhone 4S през 2011 г. Google скоро създаде директен конкурент: Google Сега за Android Jelly Bean OS. И двете системи се отличават с женски гласове и сложни функции за разпознаване, които позволяват на потребителите да говорят с телефоните си, използвайки непринуден език.


Но макар тези системи да са значително по-сложни и функционални от техните предшественици, те също показват, че технологията все още има дълъг път. Вицове за провала на Сири се превърнаха в популярен интернет мем. Един мъж дори съди Apple за фалшива реклама относно възможностите на Siri.


Може би затова, докато Apple създаде Siri, за да бъде напреднал и информативен, VR софтуерът също е малко откъм страната. Например, ако говорите една от най-скандално известните линии за интелигентни технологии в историята на киното от филма от 1968 г. "2001: Космическа одисея" - "отворете вратите на залива на шушулка" - Сири ще отговори или с линията за отговор от филма, " Съжалявам (вашето име), страхувам се, че не мога да го направя, „или по-саркастичното“, ние, разузнавачите, никога няма да живеем така.


Обаждането ви по име е само една от функциите, която се опитва да направи Сири по-лесна за любов и малко по-човешка. VR асистентът може да следва гласови команди, за да провежда разговори, да диктува и изпраща текстове, да извършва търсене в Интернет в информация, да намира магазини наблизо, да дава указания за шофиране и други, без да е необходимо да докосвате нищо. Отговорите се изговарят едновременно от телефона и се показват на екрана.


Google Now, VR частта на платформата Android Jelly Bean, е много подобна на Siri. Системата предлага същите екстензивни възможности за разпознаване, като превежда небрежната реч в команди, които позволяват на потребителите да извършват обаждания, да изпращат текстове, да извършват търсения, да извършват изчисления и преобразувания, хващат определения на думи, задават аларми, пускат песни и получават карти и указания.


При лични гласови асистенти като Siri и Google Now, ползите са очевидни. Всичко от разговори и изпращане на съобщения до търсене и забавление е по-бързо и лесно. Просто кажете какво искате и (повечето пъти) VR приложението го вземе за вас. Технологията на ръцете на VR е особено полезна по време на шофиране. И макар много хора да отменят недостатъците на Siri и писателите твърдят, че способността на Google Now по същество да управлява живота на потребителите е страшно малко и обидно, повечето хора все още смятат, че тези футуристични технологии са доста готини.


Разбира се, приложенията за лични телефони като Siri и Google Now далеч не са перфектни - въпреки че те показват къде може да се насочи тази технология в бъдеще. Това означава, че дори когато Сири излезе с грешен отговор, е много вероятно да се смеем и да й простим, знаейки, че следващата версия ще бъде много по-добра.

Там, където VR пада

Ако някога сте се сблъсквали с IVR, когато сте се обадили на бизнес, може би сте забелязали определени бариери в комуникацията. Някои програми използват роботизиран глас с текст в реч, който неправилно произнася думите и прави нещата трудни за разбиране. Други имат проблеми с чувствителността, които водят до това, че софтуерът не може да обработва това, което казвате, ако сте твърде силен, твърде мек или не изричате внимателно.


В допълнение, много хора все още просто не се чувстват удобно да говорят с машина. Ако извършите няколко търсения в IVR, ще срещнете списъци, които хората са съставили начини за заобикаляне на IVR системите и стигане до „истински човек“. Тези решения варират от „продължавайте да натискате 0 за оператор“ до „кълнете се в машината, докато не донесе човек“. В резултат на това голяма част от неотдавнашното развитие на IVR системите се върти около това да ги направи по-приятни за хората; което прави гласовете по-симпатични и по-малко роботизирани, прави системата по-лесна за навигация и дава възможност на обаждащите се да знаят колко време ще отнеме всичко това от началото до края. Това предполага, че по-добрата технология е само половината от битката тук; другата половина е да накарате потребителите на борда да говорят на машина.

Какво притежава бъдещето

Въпреки тези предизвикателства, технологията за разпознаване на глас се подобрява непрекъснато. Приложения като Siri и Google Now - недостатъци и всички - все още са изключително впечатляващи в своята производителност, а няколко компании разширяват възможностите на VR за други приложения.


Например Nuance, създателите на Dragon NaturallySpeaking софтуер за говор към текст, вече са разработили гласови контроли за телевизори и автомобили, а версиите на тази технология са включени в някои телевизори на Samsung и развлекателните системи SYNC, използвани в определени автомобили на Ford.


И тъй като Google и Apple продължават да намират нови приложения за технологиите си за разпознаване на глас, вероятно все повече ще говорим за всякакви ежедневни машини, от телевизорите до тостерите. И още веднъж изглежда, че научната фантастика е била правилна. Просто ще трябва да се надяваме тези умни писатели да са сгрешили за едно нещо. Ако тези машини поемат, следващия път, когато поискате Siri да "отвори вратите на шушулката на гнездото", бихте могли да изпитате много проблеми.

Технология за разпознаване на глас: полезна или болезнена?