Q:
Каква е разликата между речта към текста и чатботите?
A:Многобройните съществени разлики между технологиите за реч в текст и чатботите са част от това, което се изследва в бързото развитие на проектите за чат и глас.
Технологията за реч в текст е просто тази, която преобразува словесната реч в текст на цифрова страница. Това е неговата пълна функция, но не е такава, която е проста за проектиране. За да преобразува словесната реч в текст, технологията трябва да разбие думите и изреченията в отделни фонеми и да работи с тях по сложни алгоритми, за да създаде текст, който е точен и представлява онова, което е казал ораторът.
От друга страна, чатовете са технологии, които постигат целта за комуникация с човек. Има два типа чатботи: текстови чатботи и гласови. Текстовите чатботи съществуват много по-дълго, тъй като не се нуждаят от елемента на реч в текст, който гласовите ботове използват.
Основната разлика между технологиите за реч в текст и чатботите е обхватът. Както споменахме, всичко, което трябва да направите, е да преписвате словесната реч. От друга страна, чатботът трябва да приема реч под каквато и да е форма, да я разбере и да предостави отговори, които се стремят да преминат теста на Тюринг - тестът дали технологията може да заблуди човек да мисли, че той или тя е разговор с друг човек.
Имайки това предвид, чатботите са много по-лесни за създаване от гласовите. Чатботът поема текста на човека и предоставя текстов отговор. Дори сравнително прости чат-ботове са успели да осигурят интересни и приятни резултати за хората от края на 80-те и началото на 90-те години.
Гласовият робот, от друга страна, трябва да поеме словесна реч, да я преобразува в текст, да я провери за точност, да произведе отговор и да изгради този отговор от машинен език в звукова реч. Този голям брой доста значими задачи означава, че гласовият робот отнема много изчислителна мощност и много дизайн, за да изгради.
Проекти като Siri, Cortana и Alexa демонстрират част от авангарда на технологиите за гласови работи. Те също така илюстрират, че тази технология все още е в начален стадий. Въпреки че Alexa и други технологии могат да реагират устно на човешката реч, те не са изключително способни в смисъл, който свързваме с вербалната човешка реч като цяло. С други думи, има доста ограничение в отговорите, които тези технологии могат да предоставят. Има дори ограничена способност на днешното поколение лични асистенти наистина да генерират реч в текст, например с цел преписване на имейл или помагане на някого да напише есе, без да използва ръцете си. Някои от специфичните програми за реч на текст на пазара се справят по-добре от Siri или Cortana, вероятно поради разпределението на ресурсите. Има обаче признаци, че скоростта на гласовите роботи скоро ще изчезне - като платформата на Lex на Amazon, която позволява на студийната среда за изграждане на този тип технологии.
В умно и поучително есе по темата Тобиас Гьобел говори за разликата между тези технологии, като контрастира процеса на „преписване“, който речта в текст прави, за работата на разбирането, която чатботите трябва да вършат.
„Докато премахването на необходимостта от разпознаване на реч улеснява нещата за чатбот, основното предизвикателство за изграждане на функциониращи ботове се крие в разбирането на естествения език“, пише Гьобел.
Goebel също така идентифицира много от настоящите играчи в бранша:
Лидер на пазара за разпознаване на реч е Nuance, който стои зад добре познати системи като Dragon NaturallySpeaking за диктовка на компютър, която съществува от деветдесетте години, но също и Siri: задачата за разпознаване / транскрипция на реч, проведена в облака на Apple, използва Nuance технология зад кулисите. Други са LumenVox, Verbio или Interactions, но разпознаването на реч вече се предлага и като облачна услуга чрез API, като Amazon, Google, Microsoft и IBM.
Докато чатботите се развиват, се предполага, че тяхното разбиране ще продължи да се увеличава по някаква траектория - и също така до голяма степен се предполага, че повече бот технология ще премине от текстови интерфейси към вербални интерфейси, което ще изисква допълнителни количества изчислителна мощност.