Home

/

GitHub

/

wrathematics/ngram

/

splitter: Character Splitter

splitter: Character Splitter
In wrathematics/ngram: Fast n-Gram 'Tokenization'

View source: R/splitter.r

splitter

R Documentation

Character Splitter

Description

A utility function for use with n-gram modeling. This function splits a string based on various options.

Usage

splitter(
  string,
  split.char = FALSE,
  split.space = TRUE,
  spacesep = "_",
  split.punct = FALSE
)

Arguments

`string`	An input string.
`split.char`	Logical; should a split occur after every character?
`split.space`	Logical; determines if spaces should be preserved as characters in the n-gram tokenization. The character(s) used for spaces are determined by the `spacesep` argument. characters.
`spacesep`	The character(s) to represent a space in the case that `split.space=TRUE`. Should not just be a space(s).
`split.punct`	Logical; determines if splits should occur at punctuation.

Details

Note that choosing split.char=TRUE necessarily implies split.punct=TRUE as well — but not necessarily that split.space=TRUE.

Value

A string.

Examples

x = "watch out! a snake!"

splitter(x, split.char=TRUE)
splitter(x, split.space=TRUE, spacesep="_")
splitter(x, split.punct=TRUE)

wrathematics/ngram documentation built on Jan. 28, 2024, 12:14 p.m.

wrathematics/ngram index

README.md

rdrr.io home R language documentation Run R code online

CRAN packages Bioconductor packages R-Forge packages GitHub packages

Note that we can't provide technical support on individual packages. You should contact the package authors for that.

wrathematics/ngram
Fast n-Gram 'Tokenization'

splitter: Character Splitter
In wrathematics/ngram: Fast n-Gram 'Tokenization'

Character Splitter

Description

Usage

Arguments

Details

Value

Examples

Related to splitter in wrathematics/ngram...

R Package Documentation

Browse R Packages

We want your feedback!

wrathematics/ngram Fast n-Gram 'Tokenization'

splitter: Character Splitter In wrathematics/ngram: Fast n-Gram 'Tokenization'

Character Splitter

Description

Usage

Arguments

Details

Value

Examples

Related to splitter in wrathematics/ngram...

R Package Documentation

Browse R Packages

We want your feedback!

wrathematics/ngram
Fast n-Gram 'Tokenization'

splitter: Character Splitter
In wrathematics/ngram: Fast n-Gram 'Tokenization'