binning_by: 스코어링 모델링을 대상으로 한 최적 비닝

Description Usage Arguments Details Value "optimal_bins" 클래스의 속성 See Also Examples

Description

binning_by()는 최적 비닝을 사용하여 수치형 변수의 동일한 길이의 구간(interval)을 찾습니다. 최적 비닝은 스코어링 모델링의 이면적 사용을 위해 수치형 변수를 bins로 범주화합니다.

Usage

1
binning_by(.data, y, x, p = 0.05, ordered = TRUE, labels = NULL)

Arguments

.data

데이터 프레임

y

character. 이진 응답 변수(0, 1)의 이름 변수는 0과 1의 요소만을 포함해야 합니다. 단, 2개의 수준을 가진 요소의 경우, 계산 과정에서 타입 변환이 수행됩니다.

x

character. 연속형 변수의 이름. 최소 5개의 다른 값이어야 하며, Inf는 허용되지 않습니다.

p

numeric. 빈(bin)당 레코드 비율. 기본값은 5\% (0.05). 이 매개변수는 0.00 (0\%)보다 크고 0.50 (50\%)보다 작은 값만 허용합니다.

ordered

logical. 비닝된 결과를 ordered factor로 생성할지의 여부

labels

character. 각 수준에 사용할 라벨 이름

Details

이 함수는 dplyr 패키지의 mutate, 혹은 transmute 함수와 사용하면 효율적으로 데이터를 비닝할 수 있습니다. 또한 이 함수는 smbinning 패키지의 smbinning() 함수를 사용하여 실행됩니다.

Value

"optimal_bins" 클래스 객체 "optimal_bins" 클래스의 속성은 다음과 같습니다.

"optimal_bins" 클래스의 속성

"optimal_bins" 클래스의 속성은 다음과 같습니다.

비닝의 이해를 위해서 vignette("transformation") 명령어로 비네트를 참고하세요.

See Also

binning, plot.optimal_bins.

Examples

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
library(dplyr)

# 예제를 위한 데이터 생성
heartfailure2 <- heartfailure
heartfailure2[sample(seq(NROW(heartfailure2)), 5), "creatinine"] <- NA

# 문자를 사용한 최적 비닝
bin <- binning_by(heartfailure2, "death_event", "creatinine")

# 이름을 사용한 최적 비닝
bin <- binning_by(heartfailure2, death_event, creatinine)
bin

# 성능 테이블
attr(bin, "performance")

# optimal_bins 클래스의 요약
summary(bin)

# optimal_bins 클래스의 모든 정보 시각화
plot(bin)

# optimal_bins 클래스의 WoE 정보 시각화
plot(bin, type = "WoE")

# optimal_bins 클래스의 모든 정보 시각화(타이포 그래픽 제외)
plot(bin, typographic = FALSE)

# 비닝된 결과의 추출
extract(bin) %>%
  head(20)

bit2r/kodlookr documentation built on Dec. 19, 2021, 9:49 a.m.