tokenize_simple: Tokenise text into a sequence of words
In DIGI-VUB/udpipe.vosters: UDPipe Models Built on Corpus Vosters

Description Usage Arguments Value See Also Examples

View source: R/pkg.R

Tokenise text into a sequence of words. The function uses strsplit to split text into words by using the [:space:] character classes.

1	tokenize_simple(x, split = "[[:space:]]+")

`x`	a character string of length 1
`split`	passed on to `strsplit`

a character vector with the sequence of words in x

strsplit

1
2
3

tokenize_simple("This just splits. Text.alongside\nspaces right?")
tokenize_simple("Also .. multiple punctuations or ??marks")
tokenize_simple("Joske  Vermeulen")

DIGI-VUB/udpipe.vosters documentation built on Sept. 9, 2020, 12:36 a.m.

DIGI-VUB/udpipe.vosters index

README.md

rdrr.io home R language documentation Run R code online

CRAN packages Bioconductor packages R-Forge packages GitHub packages

Note that we can't provide technical support on individual packages. You should contact the package authors for that.

DIGI-VUB/udpipe.vosters
UDPipe Models Built on Corpus Vosters

tokenize_simple: Tokenise text into a sequence of words
In DIGI-VUB/udpipe.vosters: UDPipe Models Built on Corpus Vosters

Description

Usage

Arguments

Value

See Also

Examples

Related to tokenize_simple in DIGI-VUB/udpipe.vosters...

R Package Documentation

Browse R Packages

We want your feedback!

DIGI-VUB/udpipe.vosters UDPipe Models Built on Corpus Vosters

tokenize_simple: Tokenise text into a sequence of words In DIGI-VUB/udpipe.vosters: UDPipe Models Built on Corpus Vosters

Description

Usage

Arguments

Value

See Also

Examples

Related to tokenize_simple in DIGI-VUB/udpipe.vosters...

R Package Documentation

Browse R Packages

We want your feedback!

DIGI-VUB/udpipe.vosters
UDPipe Models Built on Corpus Vosters

tokenize_simple: Tokenise text into a sequence of words
In DIGI-VUB/udpipe.vosters: UDPipe Models Built on Corpus Vosters