目录:
定义-令牌化是什么意思?
令牌化是将一串字符串分解成多个部分的动作,例如单词,关键字,短语,符号和其他称为令牌的元素。 令牌可以是单个单词,短语甚至整个句子。 在标记化过程中,某些字符(如标点符号)被丢弃。 令牌成为另一个过程(如解析和文本挖掘)的输入。
标记化用于计算机科学,在词法分析过程中起很大作用。
技术百科解释了令牌化
令牌化主要依靠简单的启发式方法,以通过执行以下步骤来分离令牌:
- 标记或单词由空格,标点符号或换行符分隔
- 根据需要,可以包含或可以不包含空格或标点符号
- 连续字符串中的所有字符都是令牌的一部分。 令牌只能由所有字母字符,字母数字字符或数字字符组成。
令牌本身也可以是分隔符。 例如,在大多数编程语言中,可以将标识符与算术运算符放在一起,而无需空格。 尽管看起来好像是单个单词或标记,但该语言的语法实际上将数学运算符(标记)视为分隔符,因此即使将多个标记组合在一起,也可以通过数学将它们分开操作员。
