Intro

KoNLP는 한글 처리에 대한 전문적인 지식이 없는 사회학, 경영, 경제학 등의 연구자들 그리고 일반인들이 R 기반으로 통계적 텍스트 분석을 수행하기 위한 편의를 제공하는데 목적을 두고 있다. 최대한 전문적인 경험이 필요없게 구성을 하고 있으나 몇가지 사용자들이 어려움을 겪는 공통적인 부분이 있다는 것을 이곳에 정리하여 시행착오를 출이고자 한다. 물론 이런 부분을 패키지에 넣으면 되지 않을까 생각하시는 분들이 있을 수 있으나 대부분 이곳에 언급하는 어려움들은 패키지 레벨에서 해결하기 어려운 환경적인 이슈와 엮여 있다는 것을 미리 언급해 둔다. 어떤 사용자분들은 이런 경험을 하나도 하지 못할 경우도 있고, 어떤 분들은 대부분 경험해 봤을 수 있는 이슈들이라 생각되는 것을 정리하고자 한다.

윈도우 rJava loading error

R만으로 한글에 대한 처리를 하는건 매우 어렵다. 텍스트 처리 관련 함수도 적고, 여러 인코딩 이슈도 발생한다. 무엇보다 처리 속도 이슈가 있는데, 이를 위해 JavaScala 언어를 기본 처리 언어로 사용하고 있다. 따라서 대부분의 R함수들은 JavaScala 기반의 함수를 호출하기 위한 Wrapper 역할을 수행한다. 따라서 KoNLP가 수행되기 위한 자바 환경이 구축되는 것은 정상적으로 KoNLP를 사용하기 위한 필수 조건이다. 그리고 KoNLP가 의존성을 가지고 있는 rJava 패키지는 R에서 존재하는 수많은 자바 기반의 패키지들을 구동하는데 매우 필수적으로 사용되는 패키지이다. 따라서 적절히 환경을 설정해 놓는다면 앞으로 R을 사용하는데 많은 도움이 될 것이다.

rJava 로딩 에러는 대부분 윈도우 기반의 환경에서 발생한다. 가장 중요한 부분은 사용자가 설치한 R의 버전과 Java의 버전이 맞는지 확인하는 것이다.

Sys.getenv("R_ARCH")

위 명령어로 확인해보면 R이 32비트 기반인지 64비트 기반인지 출력된다. 만일 /x64로 출력되면 64비트의 R이 설치된 것이다. 따라서 자바의 경우도 설치된 R의 아키텍처에 맞게 설치가 되어야 되는데, rJava로 문제가 생기는 대부분 이 부분이 맞지 않아서 생기는 문제이다.

자바 환경 설치는 이곳에서 자동으로 다운로드 가능하다. 여기서 다른 문제가 있는데, 바로 구동되는 시스템이 아닌 구동된 브라우저의 아키텍처에 따라 64비트 자바 혹은 32비트 자바가 자동으로 선택되어져 다운로드 된다는 것이다. 이 부분은 여기를 확인해보면 정확한 정보를 얻을 수 있을 것이다. 64비트 자바를 설치하기 위해서는 64비트 브라우저를 열어 설치 링크를 통해 설치해야 된다. 현재 자신의 시스템에 설치된 자바를 보고 싶다면 윈도우 제어판에서 Java 정보를 확인해 보는것도 도움이 될 것이다.

맥에서 rJava 문제

Mac + R + rJava의 조합은 맥에서 가장 어려운 조합으로 보여진다. 이는 맥에서 기본적으로 제공하고있는 Java 1.6이 시스템의 자바 설정에 강제하고 있는 부분이 있는 것으로 판단되고 이를 R에서 해결하는게 매우 까다로운 것으로 알려져 있기 때문이다. 맥에서의 문제만 아니면 필자는 벌써 Java 1.7 이나 1.8로 KoNLP를 바꾸었을 것이다. 지금껏 KoNLP에서 Java 1.6을 지원하는 가장 큰 원인은 맥에서의 문제 때문이다.



haven-jeon/KoNLP documentation built on July 8, 2021, 12:26 a.m.