README.md

tangela

GitHub last
commit tangela status
badge GitHub
license

tangela is an rJava wrapper of atilika/kuromoji (bundled v0.7.7).

Kuromoji is a “self-contained Japanese morphological analyzer” such that tangela only requires Java; It never has any other dependencies such as MeCab and its dictionaries.

Usage

Installation

remotes::install_github("paithiov909/tangela")

Call tagger

res <- tangela::kuromoji(
  c("なぜ分かり合えないのか!?",
    "なぜ貴様等は他を出し抜こうとするのか!?",
    "ところできのこはあんな縦に長かったか!?")
)
str(res)
#> 'data.frame':    33 obs. of  5 variables:
#>  $ doc_id : chr  "1" "1" "1" "1" ...
#>  $ token  : chr  "なぜ" "分かり" "合え" "ない" ...
#>  $ feature: chr  "副詞,助詞類接続,*,*,*,*,なぜ,ナゼ,ナゼ" "動詞,自立,*,*,五段・ラ行,連用形,分かる,ワカリ,ワカリ" "動詞,自立,*,*,一段,未然形,合える,アエ,アエ" "助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ" ...
#>  $ is_unk : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...
#>  $ is_user: logi  FALSE FALSE FALSE FALSE FALSE FALSE ...

Prettify Output

res <- tangela::prettify(res)
head(res)
#>   doc_id  token is_unk is_user   POS1                     POS2 POS3 POS4
#> 1      1   なぜ  FALSE   FALSE   副詞               助詞類接続 <NA> <NA>
#> 2      1 分かり  FALSE   FALSE   動詞                     自立 <NA> <NA>
#> 3      1   合え  FALSE   FALSE   動詞                     自立 <NA> <NA>
#> 4      1   ない  FALSE   FALSE 助動詞                     <NA> <NA> <NA>
#> 5      1     の  FALSE   FALSE   名詞                   非自立 一般 <NA>
#> 6      1     か  FALSE   FALSE   助詞 副助詞/並立助詞/終助詞 <NA> <NA>
#>   X5StageUse1 X5StageUse2 Original  Yomi1  Yomi2
#> 1        <NA>        <NA>     なぜ   ナゼ   ナゼ
#> 2  五段・ラ行      連用形   分かる ワカリ ワカリ
#> 3        一段      未然形   合える   アエ   アエ
#> 4  特殊・ナイ      基本形     ない   ナイ   ナイ
#> 5        <NA>        <NA>       の     ノ     ノ
#> 6        <NA>        <NA>       か     カ     カ

The output has these columns.

Pack Output

res <- tangela::kuromoji(
  c("なぜ分かり合えないのか!?",
    "なぜ貴様等は他を出し抜こうとするのか!?",
    "ところできのこはあんな縦に長かったか!?",
    "とにかく不様、そんな事ではあの小娘には勝てないわ。",
    "そう、皆で協力して挑むのだ!",
    "えー、まぁ今回はその件で伺いました。")
) |> 
  tangela::prettify() |> 
  tangela::pack()
print(res)
#>   doc_id                                                             text
#> 1      1                                なぜ 分かり 合え ない の か ! ?
#> 2      2            なぜ 貴様 等 は 他 を 出し抜こ う と する の か ! ?
#> 3      3               ところで きのこ は あんな 縦 に 長かっ た か ! ?
#> 4      4 とにかく 不様 、 そんな 事 で は あの 小娘 に は 勝て ない わ 。
#> 5      5                           そう 、 皆 で 協力 し て 挑む の だ !
#> 6      6                  えー 、 まぁ 今回 は その 件 で 伺い まし た 。

License

© 2023 Akiru Kato

Licensed under the Apache License, Version 2.0. This software includes the works distributed under the Apache License, Version 2.0.

Icons made by Eucalyp from www.flaticon.com.



paithiov909/tangela documentation built on Dec. 1, 2023, 2:52 a.m.