Съдържание:
Определение - Какво означава токенизация?
Токенизацията е акт на разбиване на последователност от низове на парчета като думи, ключови думи, фрази, символи и други елементи, наречени символи. Токените могат да бъдат отделни думи, фрази или дори цели изречения. В процеса на токенизация някои символи като препинателни знаци се изхвърлят. Токените стават вход за друг процес като разбор и извличане на текст.
Токенизацията се използва в компютърните науки, където тя играе голяма роля в процеса на лексикалния анализ.
Техопедия обяснява токенизацията
Токенизацията разчита най-вече на простата евристика, за да се разделят маркерите, като следвате няколко стъпки:
- Токените или думите се разделят с бяло пространство, препинателни знаци или прекъсвания на реда
- Бялото пространство или препинателните знаци могат или не могат да бъдат включени в зависимост от необходимостта
- Всички знаци в съседни низове са част от маркера. Токените могат да се състоят от всички алфа символи, буквено-цифрови символи или само цифрови символи.
Самите токени също могат да бъдат разделители. Например, в повечето езици за програмиране идентификаторите могат да бъдат поставени заедно с аритметични оператори без бели празни пространства. Въпреки че изглежда, че това би изглеждало като една дума или токен, граматиката на езика всъщност счита математическия оператор (токен) за разделител, така че дори когато множество символи са събрани заедно, те все още могат да бъдат разделени чрез математическата оператор.