knitr::opts_chunk$set(
  collapse = TRUE,
  comment = "#>"
)
library(N2H4)

네이버 뉴스의 기사는 여러 부분으로 구성되어 있습니다. 제목, 본문, 게시시간, 수정시간, 신문사 등 입니다.

기사의 링크로 위 데이터를 가져오는 함수는 getContent() 입니다.

dat <- getContent("https://n.news.naver.com/article/374/0000300375")
dat
str(dat)

데이터의 각 컬럼은 아래와 같은 의미를 가집니다.

url: 데이터를 수집한 기사의 주소입니다.
정치, 경제, 생활, 세계 등이 있습니다.
section: 네이버 뉴스의 기사 카테고리입니다. 3개의 숫자로 되어 있습니다. getMainCategory() 함수에서 한글명을 확인할 수 있습니다. datetime: 기사가 최소 게시된 시간입니다. 원신문사의 게시시간과 차이가 있을 수 있습니다.
edittime: 기사가 수정된 시간입니다. 기사가 수정되지 않았다면 datetime과 같은 값입니다.
press: 기사를 송고한 매체입니다. 보통 신문사나 방송사등의 이름입니다.
title: 기사의 제목입니다.
body: 기사의 본문입니다.
value: 기사의 데이터를 가져왔는지 확인하는 컬럼입니다. 기사의 주소가 옮겨졌거나 삭제되었다면, FALSE, 정상이라면 TRUE가 입력됩니다.

getContent() 함수는 필요한 컬럼만 가져올 수 있습니다.

getContent(
  "https://n.news.naver.com/article/374/0000300375",
  c("title", "body")
)


forkonlp/N2H4 documentation built on Feb. 27, 2024, 6:38 a.m.