acep_postag_hibrido: Etiquetado POS, lematizacion y extraccion de entidades con...
In ACEP: Análisis Computacional de Eventos de Protesta

acep_postag_hibrido

R Documentation

Etiquetado POS, lematizacion y extraccion de entidades con spacyr

Description

Realiza analisis linguistico completo de textos usando la biblioteca spaCy a traves de spacyr. Incluye: etiquetado POS (Part-of-Speech), lematizacion, tokenizacion, extraccion de entidades nombradas, frases nominales y geocodificacion de ubicaciones. La funcion procesa automaticamente grandes volumenes de texto dividiendolos en lotes (chunks) y soporta procesamiento paralelo para acelerar el analisis

Usage

acep_postag_hibrido(
  texto,
  core = "es_core_news_lg",
  bajar_core = TRUE,
  inst_spacy = FALSE,
  inst_miniconda = FALSE,
  inst_reticulate = FALSE,
  chunk_size = 1000,
  parallel_chunks = FALSE,
  n_cores = NULL,
  geocode_cache_file = "geocode_cache.json",
  use_cache = TRUE,
  show_progress = TRUE
)

Arguments

`texto`	Vector de caracteres con los textos a analizar.
`core`	Modelo de lenguaje de spaCy a utilizar. Opciones: '"es_core_news_sm"', '"es_core_news_md"', '"es_core_news_lg"' (espanol), '"en_core_web_sm"', '"en_core_web_md"', '"en_core_web_lg"' (ingles), '"pt_core_news_sm"', '"pt_core_news_md"', '"pt_core_news_lg"' (portugues). Por defecto: '"es_core_news_lg"'.
`bajar_core`	Logico. Si 'TRUE', descarga automaticamente el modelo si no esta instalado.
`inst_spacy`	Logico. Si 'TRUE', instala la biblioteca spaCy en el entorno Python.
`inst_miniconda`	Logico. Si 'TRUE', instala Miniconda (necesario para spaCy).
`inst_reticulate`	Logico. Si 'TRUE', instala el paquete reticulate de R.
`chunk_size`	Numero de textos a procesar por lote. Valores mas bajos consumen menos memoria pero tardan mas. Por defecto: 1000.
`parallel_chunks`	Logico. Si 'TRUE', procesa los lotes en paralelo usando multiples nucleos del CPU. Requiere los paquetes 'future' y 'furrr'. Por defecto: 'FALSE'.
`n_cores`	Numero de nucleos de CPU a usar en modo paralelo. Si es 'NULL', detecta automaticamente el numero de nucleos disponibles menos uno.
`geocode_cache_file`	Ruta al archivo JSON donde se almacena el cache de geocodificacion para evitar consultas repetidas. Por defecto: '"geocode_cache.json"'.
`use_cache`	Logico. Si 'TRUE', usa y actualiza el cache de geocodificacion.
`show_progress`	Logico. Si 'TRUE', muestra mensajes de progreso en la consola.

Value

Lista con 6 data frames que contienen diferentes niveles de analisis:

texto_tag: Tokenizacion completa con etiquetas POS, lemas, dependencias sintacticas y atributos morfologicos para cada token
texto_tag_entity: Tokens con entidades nombradas consolidadas (ej: "Mar del Plata" como una sola entidad en lugar de 3 tokens separados)
texto_only_entity: Solo las entidades nombradas extraidas (personas, organizaciones, ubicaciones, fechas, etc.)
texto_only_entity_loc: Entidades de tipo ubicacion (LOC) con coordenadas geograficas (latitud/longitud) obtenidas mediante geocodificacion
texto_nounphrase: Tokens con frases nominales consolidadas
texto_only_nounphrase: Solo las frases nominales extraidas

Examples

## Not run: 
# Analisis basico de un texto
texto <- "El SUTEBA convoco a un paro en Mar del Plata el 15 de marzo."
resultado <- acep_postag_hibrido(texto)

# Ver tokens con etiquetas POS
head(resultado$texto_tag)

# Ver entidades nombradas
print(resultado$texto_only_entity)

# Ver ubicaciones geocodificadas
print(resultado$texto_only_entity_loc)

# Procesar multiples textos con procesamiento paralelo
textos <- c("Primera noticia sobre conflictos.",
            "Segunda noticia sobre protestas.",
            "Tercera noticia sobre reclamos.")
resultado <- acep_postag_hibrido(textos,
                                 parallel_chunks = TRUE,
                                 chunk_size = 100)

## End(Not run)

ACEP documentation built on May 14, 2026, 5:08 p.m.