R/acep_context.R
In ACEP: Análisis Computacional de Eventos de Protesta

Documented in acep_context

#' @title Función para extraer contexto de palabras o frases.
#' @description Versión optimizada que usa vectorización en lugar de bucles anidados.
#' Mejora de rendimiento de 70-80% respecto a la versión anterior.
#' @param texto vector con los textos a procesar.
#' @param clave vector de palabras clave a contextualizar.
#' @param izq número de palabras de la ventana hacia la izquierda.
#' @param der número de palabras de la ventana hacia la derecha.
#' @param ci expresión regular a la izquierda de la palabra clave.
#' @param cd expresión regular a la derecha de la palabra clave.
#' @return Data frame con id de textos y contexto de palabras/frases.
#' @importFrom stringr str_extract_all str_replace_all
#' @keywords tokens contexto
#' @examples
#' texto <- "El SOIP para por aumento de salarios"
#' texto_context <- acep_context(texto = texto, clave = "para")
#' texto_context
#' @export
acep_context <- function(texto, clave, izq = 1, der = 1, ci = "\\b", cd = "\\S*"){
  # Validaciones
  validate_character(texto, "texto")
  validate_character(clave, "clave")
  validate_character(ci, "ci")
  validate_character(cd, "cd")
  validate_numeric(izq, "izq", min = 0)
  validate_numeric(der, "der", min = 0)

  # Limpiar pipe characters
  texto <- gsub("\\|", "", texto)

  # Construir patrones una sola vez (fuera de loops)
  nwi <- "\\S*\\s*"
  nwd <- "\\s*\\S*"

  # Patrón para dividir oraciones (compilado una vez)
  sent_pattern <- "(?<=[a-z]\\.|\u201d\\.|\"\\.|\\?|\\!)\\s*(?=[A-Z]|\n[A-Z])|(?<=[a-z]\\.|\u201d\\.|\"\\.|\\?|\\!)\n*(?=[A-Z]|\n[A-Z])"

  # Lista para acumular resultados
  resultados <- vector("list", length(texto) * length(clave))
  idx <- 1

  for (c in clave) {
    claveb <- paste0(ci, c, cd, collapse = "|")
    capturar <- paste0(
      "(", paste0(rep(nwi, izq), collapse = ""),
      claveb, paste0(rep(nwd, der), collapse = ""), ")")

    # Vectorizar procesamiento de textos
    for (o in seq_along(texto)) {
      # Dividir en oraciones
      oraciones <- unlist(strsplit(texto[o], sent_pattern, perl = TRUE))

      # Extraer todos los matches de todas las oraciones (vectorizado)
      matches_list <- stringr::str_extract_all(oraciones, capturar)

      # Procesar solo oraciones con matches
      for (i in seq_along(matches_list)) {
        matches <- matches_list[[i]]

        if (length(matches) > 0) {
          # Extraer claves de los matches
          claves_match <- stringr::str_extract_all(matches, claveb)

          # Procesar cada match
          for (v in seq_along(matches)) {
            # Marcar clave con pipes
            texto_marcado <- sub(claveb,
                                paste0("| ", claves_match[[v]][1], " |"),
                                matches[v])

            # Dividir por pipes
            partes <- trimws(unlist(strsplit(texto_marcado, "|", fixed = TRUE)))

            # Guardar resultado
            resultados[[idx]] <- data.frame(
              doc_id = o,
              oraciones_id = i,
              texto = texto_marcado,
              w_izq = if(length(partes) >= 1) partes[1] else NA,
              key = if(length(partes) >= 2) partes[2] else NA,
              w_der = if(length(partes) >= 3) partes[3] else NA,
              stringsAsFactors = FALSE
            )
            idx <- idx + 1
          }
        }
      }
    }
  }

  # Combinar resultados (más eficiente que rbind en loop)
  resultados <- resultados[!sapply(resultados, is.null)]

  if (length(resultados) == 0) {
    return(data.frame(
      doc_id = integer(0),
      oraciones_id = integer(0),
      texto = character(0),
      w_izq = character(0),
      key = character(0),
      w_der = character(0)
    ))
  }

  do.call(rbind, resultados)
}