pre_tokenizer_byte_level: Byte level pre tokenizer
In tok: Fast Text Tokenization

pre_tokenizer_byte_level

R Documentation

Byte level pre tokenizer

Description

Byte level pre tokenizer

Details

This pre-tokenizer takes care of replacing all bytes of the given string with a corresponding representation, as well as splitting into words.

Super class

tok::tok_pre_tokenizer -> tok_pre_tokenizer_whitespace

Methods

Method `new()`

Initializes the bytelevel tokenizer

Usage

pre_tokenizer_byte_level$new(add_prefix_space = TRUE, use_regex = TRUE)

Arguments

add_prefix_space: Whether to add a space to the first word
use_regex: Set this to False to prevent this pre_tokenizer from using the GPT2 specific regexp for spliting on whitespace.

Method `clone()`

The objects of this class are cloneable with this method.

Usage

pre_tokenizer_byte_level$clone(deep = FALSE)

Arguments

deep: Whether to make a deep clone.

tok
Fast Text Tokenization

pre_tokenizer_byte_level: Byte level pre tokenizer
In tok: Fast Text Tokenization

Byte level pre tokenizer

Description

Details

Super class

Methods

Public methods

Method `new()`

Usage

Arguments

Method `clone()`

Usage

Arguments

See Also

Related to pre_tokenizer_byte_level in tok...

R Package Documentation

Browse R Packages

We want your feedback!

tok Fast Text Tokenization

pre_tokenizer_byte_level: Byte level pre tokenizer In tok: Fast Text Tokenization

Byte level pre tokenizer

Description

Details

Super class

Methods

Public methods

Method new()

Usage

Arguments

Method clone()

Usage

Arguments

See Also

Related to pre_tokenizer_byte_level in tok...

R Package Documentation

Browse R Packages

We want your feedback!

tok
Fast Text Tokenization

pre_tokenizer_byte_level: Byte level pre tokenizer
In tok: Fast Text Tokenization

Method `new()`

Method `clone()`