naiveTokenizer: Naive Tokenizer
In LazerLambda/RolliNLP: Natural Language Processing and String Editing Utilities

Description Usage Arguments

View source: R/NaiveTokenizer.R

Simple Tokenizer to split words among punctuation and whitespaces. If possible, prefer a DL Tokenizer. WARNING: This tokenizer is build for the english language and can be applied to other latin-based or cyrillic-based languages. This tokenizer does not work on other alphabets like chinese, devanagari, thai, japanese, hebrew or arabic.