In gandalfnicolas/SADCAT: Dictionary creation with stereotype content dictionaries

library(devtools)
library(roxygen2)
library(tidyverse)
library(pkgdown)
library(wordnet)
setDict("C:\\dict")

Dictionaries_FT = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\FULL dictionaries ft shortened 060220.csv", stringsAsFactors = F)##not updated on 062921 like others
All.steps_Dictionaries_FT = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\Pre dictionaries ft shortened 060220.csv", stringsAsFactors = F)##not updated on 062921 like others
All.steps_Dictionaries = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\Large Dictionaries 031324 longer.csv", stringsAsFactors = F) 
Dictionaries = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\Preprocessed Only Dictionaries 063023.csv", stringsAsFactors = F) 
Full_Vectors_Avg = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\Full_Vectors AVG.csv", stringsAsFactors = F) ##not updated on 062921 like others
Seed_Vectors_Avg = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\Seed vectors Average 080221.csv", stringsAsFactors = F)
Seed_Vectors_personcontext_Avg = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\Seed vectors person context Average 080221.csv", stringsAsFactors = F)
Sentiments = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\SENT_dict.csv")
Obituary_data = read.csv("C:\\Users\\Windows\\Dropbox\\Research Projects & Files\\Dictionary creation Project\\obituaries_p.csv")

#######
Dictionaries_FT = read.csv("D:\\Dropbox\\Dictionary creation Project\\FULL dictionaries ft shortened 060220.csv", stringsAsFactors = F)##not updated on 062921 like others
All.steps_Dictionaries_FT = read.csv("D:\\Dropbox\\Dictionary creation Project\\Pre dictionaries ft shortened 060220.csv", stringsAsFactors = F)##not updated on 062921 like others
All.steps_Dictionaries = read.csv("D:\\Dropbox\\Dictionary creation Project\\Large Dictionaries 031324 longer.csv", stringsAsFactors = F) 
Dictionaries = read.csv("D:\\Dropbox\\Dictionary creation Project\\Preprocessed Only Dictionaries 063023.csv", stringsAsFactors = F) 
Full_Vectors_Avg = read.csv("D:\\Dropbox\\Dictionary creation Project\\Full_Vectors AVG.csv", stringsAsFactors = F) ##not updated on 062921 like others
Seed_Vectors_Avg = read.csv("D:\\Dropbox\\Dictionary creation Project\\Seed vectors Average 080221.csv", stringsAsFactors = F)
Seed_Vectors_personcontext_Avg = read.csv("D:\\Dropbox\\Dictionary creation Project\\Seed vectors person context Average 080221.csv", stringsAsFactors = F)
Sentiments = read.csv("D:\\Dropbox\\Dictionary creation Project\\SENT_dict.csv")
Obituary_data = read.csv("D:\\Dropbox\\Dictionary creation Project\\obituaries_p.csv")



#Dictionaries = Dictionaries[-1]
colnames(Dictionaries)
names(Dictionaries)[names(Dictionaries) == "values3"] = "word"

Dictionaries_FT = Dictionaries_FT[-1]
names(Dictionaries_FT)[names(Dictionaries_FT) == "values3"] = "word"

use_data(Dictionaries_FT,overwrite = TRUE)
use_data(All.steps_Dictionaries_FT,overwrite = TRUE)
use_data(All.steps_Dictionaries,overwrite = TRUE)
use_data(Dictionaries,overwrite = TRUE)
use_data(Full_Vectors_Avg,overwrite = TRUE)
use_data(Seed_Vectors_Avg,overwrite = TRUE)
use_data(Sentiments,overwrite = TRUE)
use_data(Obituary_data,overwrite = TRUE)
use_data(Seed_Vectors_allwords_Avg,overwrite = TRUE)
use_data(Seed_Vectors_personcontext_Avg,overwrite = TRUE)

document()

# may need
Sys.setenv("R_REMOTES_NO_ERRORS_FROM_WARNINGS"=TRUE)

devtools::install(build_vignettes = F)

library(SADCAT)

pkgdown::build_site()

# library(SADCAT)

# SADCAT:::Code_single
# 
# Code_singlex = function (data, text = "word", more2na = T) 
# {
#     res = merge(x = data, y = Dictionaries, by.x = text, by.y = "word", 
#         all.x = T)
#     res2 = dplyr::select(res, contains("_dict"))
#     for(i in colnames(res2)){
#     res2[i] = apply(res2[i], 1, function(x) ifelse(is.na(x), 0, x)  )
#     }
#     res = dplyr::select(res, -contains("_dict"))
#     res = cbind(res,res2)
#     Dicts_v3pre = unique(Dictionaries$word)
#     res$NONE = as.numeric(!(as.matrix(res[[text]]) %in% as.matrix(Dicts_v3pre)))
#     res$NONE2 = ifelse(stringr::str_count(res[[text]], "\\S+") > 
#         2, NA, as.numeric(!(res[[text]]) %in% as.matrix(Dicts_v3pre)))
#     if (more2na == F) {
#         return(res)
#     }
#     else {
#         data.table::setDT(res)
#         nm1 <- grep("_dict", names(res), value = TRUE)
#         for (j in nm1) {
#             data.table::set(res, i = NULL, j = j, value = ifelse(stringr::str_count(res[[text]], 
#                 "\\S+") > 2, NA, res[[j]]))
#         }
#         return(res)
#     }
# }
# 
# 
# Code_sentx = function(data, raw_text = "rawword", preproc_text = "word"){
#   SENT_dictv1 = Sentiments[,-c(8,9,10)]
#   SENT_dictv2 = Sentiments %>%
#     dplyr::select(word = word4,Val_bing2=Val_bing,Val_NRC2=Val_NRC,Val_afinn2=Val_afinn,Val_loughran2 =Val_loughran,Val_sentiwn2 =Val_sentiwn)%>%
#     dplyr::group_by(word)%>%
#     dplyr::summarize_all(funs(mean(.,na.rm=T)))
#   data$tv = sapply(data[[raw_text]], tolower)
#   data$tv = sapply(data$tv, trimws)
#   data2 = merge(x = data, y =SENT_dictv1, by.x = "tv",by.y = "word", all.x = TRUE) #Find first if there is a match with original response - different lemmas (next code) might have different sentiment, so this is ideal
#   data3 = merge(x = data2, y = SENT_dictv2, by.x = preproc_text,by.y = "word", all.x = TRUE)
#   return(data3)
# }
# 
# dtatat = data.frame(TEStt = c("hello","warm"))
# dtatat$TEStt = as.character(dtatat$TEStt)
# 
# TRYYc = SADCAT::Code_words(dtatat,"TEStt")
# 
# Code_sentx
# 
# SADCAT:::Code_single

# SENT_dictv1 = Sentiments[,-c(8,9,10)]
# SENT_dictv2 = Sentiments %>%
#     dplyr::select(word = word4,Val_bing2=Val_bing,Val_NRC2=Val_NRC,Val_afinn2=Val_afinn,Val_loughran2 =Val_loughran,Val_sentiwn2 =Val_sentiwn)
# SENT_dictv3 = aggregate(formula = cbind(Val_bing2, Val_NRC2, Val_afinn2,Val_loughran2,Val_sentiwn2) ~ word,
#                           data = SENT_dictv2,
#                           FUN = function(x){
#                             c(mean(x,na.rm=T))
#                           })  
# SENT_dictv3 = by(SENT_dictv2,
#                  INDICES = list(SENT_dictv2$word),
#                  FUN = function(x){
#                    data.frame(word = unique(x$word),
#                               Val_bing2 = mean(x$Val_bing2,na.rm=T),
#                               Val_NRC2 = mean(x$Val_NRC2,na.rm=T),
#                               Val_afinn2 = mean(x$Val_afinn2,na.rm=T),
#                               Val_loughran2 = mean(x$Val_loughran2,na.rm=T),
#                               Val_sentiwn2 = mean(x$Val_sentiwn2,na.rm=T))
#                  })
# do.call(rbind,SENT_dictv3)