Tokens et tokenisation
Une définition claire et précise du concept des tokens et de la tokenisation
9/9/20241 min read
Tokenisation (Tokenization en anglais):
Définition :
Processus de découpage d'un texte en morceaux, comme la segmentation d'une phrase en mots.
La tokenisation est le processus par lequel un texte est découpé en petits morceaux, appelés tokens. Un token est donc un caractère ou un groupe de caractère.
Ces tokens peuvent être des mots, des phrases ou même des parties de mots comme des préfixes ou des suffixes.
Cette étape est cruciale dans le traitement du langage naturel car elle aide les modèles à analyser et comprendre le texte de manière structurée.