initiatie: Initiatiestap met opsplitsen van dataset volgens modeltypen
In inbo/dhcurve: Automated Modelling of Diameter Height Curves for Trees

initiatie

R Documentation

Initiatiestap met opsplitsen van dataset volgens modeltypen

Description

De functie initiatie() maakt de dataset klaar voor de verdere stappen van het opstellen van diameter-hoogtecurves: ze berekent de noodzakelijke variabelen en splitst de dataset op basis van het aantal metingen per boomsoort-domeincombinatie in 4 delen: 3 delen die als parameter meegegeven kunnen worden voor de fit.xxx()-functies per modeltype (basismodel, afgeleid model en lokaal model), en een vierde deel met de resterende gegevens.

Usage

initiatie(
  Data,
  Uitzonderingen = data.frame(DOMEIN_ID = "", BMS = "", min_basis = NA_integer_,
    min_afgeleid = NA_integer_, stringsAsFactors = FALSE),
  Bestandsnaam = "VerwijderdeGegevensInitiatie.html",
  verbose = TRUE,
  PathWD = getwd()
)

Arguments

`Data`	Dataframe met metingen van bomen die als basis moeten dienen om diameter-hoogtecurves op te stellen. De dataframe moet de velden `DOMEIN_ID` (identificatienummer voor domein), `BOS_BHI` (domeinnaam), `IDbms` (identificatienummer voor boomsoort), `BMS` (boomsoort), `C13` (omtrek in centimeter, gemeten op 1,3 m hoogte), `HOOGTE` (in meter) en `Status` bevatten en mag eventueel velden `TYPE_METING` en `JAAR` bevatten (die worden bij `rmse.basis()` als groeperende variabelen gebruikt). `Status` mag enkel gegevens met status "Niet gecontroleerd", "Te controleren" of "Goedgekeurd" bevatten, dus gegevens met status "Afgekeurd" of "Negeren" moeten vooraf verwijderd worden.
`Uitzonderingen`	Lijst met boomsoort-domeincombinaties waarvoor uitzonderingen gelden voor de limieten van minimum 50 en minimum 10 bomen. De dataframe moet de velden `DOMEIN_ID`, `BMS`, `min_basis` (= vervangende waarde voor 50) en `min_afgeleid` (= vervangende waarde voor 10) bevatten. Daarnaast kan in een extra veld `min_uitbreiden_model` aangegeven worden vanaf hoeveel metingen een uitbreiding naar hogere omtrekklassen opnieuw bekeken moet worden (= vervangende waarde voor 10). De waarde NA geeft telkens aan dat de default gebruikt mag worden. De default voor dit argument is dat er geen uitzonderingen zijn (wat sowieso het geval is als de curves nog niet gevalideerd zijn).
`Bestandsnaam`	Een naam voor het validatierapport (`.html`-bestand) dat gegenereerd wordt, bestaande uit een string die eindigt op `.html`
`verbose`	Dit geeft de toestand van het systeem aan en zorgt ervoor dat boodschappen niet onnodig gegeven worden. (Defaultwaarde behouden.)
`PathWD`	Het path van de working directory, dus het path waarin het validatierapport opgeslagen moet worden (default wordt het in de op dat moment actieve working directory opgeslagen).

Value

Als er gegevens verwijderd worden, genereert de functie een validatierapport (.html-bestand) waarin een overzicht gegeven wordt van de verwijderde gegevens, dit zijn gegevens met omtrek > 3 m en omtrek < 0.2 m.

De functie geeft een list van dataframes terug, met in elke dataframe behalve de variabelen uit Data de berekende variabelen Omtrek (= omtrekklasse), logOmtrek, logOmtrek2, Q5k en Q95k (de grenzen van het bruikbaar interval), nBomen (= aantal metingen behalve de verwijderde gegevens), nBomenOmtrek05 (aantal metingen met omtrek > 0.5 m en < 2.8 m), nBomenInterval (= aantal metingen binnen het bruikbaar interval), nBomenIntervalOmtrek05 (aantal metingen binnen het bruikbaar interval met omtrek > 0.5 m) en nExtra (aantal metingen boven het bruikbaar interval op basis waarvan een uitbreiding van de curve naar hogere omtrekklassen gevalideerd zou kunnen worden)

De 4 dataframes die achtereenvolgens in de list zitten, zijn:

⁠[["Basis"]]⁠ gegevens van boomsoorten waarvoor meer dan 50 metingen (binnen het bruikbaar interval met omtrek > 0.5 m) beschikbaar zijn in minimum 6 domeinen, waarbij enkel gegevens worden opgenomen van de domeinen waarvoor minimum 50 metingen beschikbaar zijn. Op basis van deze dataset kan een basismodel berekend worden, bestaande uit een Vlaams model per boomsoort en domeinspecifieke modellen.
⁠[["Afgeleid"]]⁠ gegevens van domeinen met minder metingen (< 50 metingen binnen het bruikbaar interval en > 10 metingen boven 0.5 m) van boomsoorten waarvoor een Vlaams model berekend kan worden (dus boomsoorten die in dataset "Basis" voorkomen), op basis waarvan een afgeleid model berekend kan worden.
⁠[["Lokaal"]]⁠ gegevens van domeinen met veel metingen voor een boomsoort (> 50 metingen binnen het bruikbaar interval met omtrek > 0.5 m) waarvan er te weinig domeinen (< 6) zijn met voldoende metingen om een Vlaams model op te stellen. Voor deze boomsoort-domeincombinaties kan een lokaal model berekend worden.
⁠[["Rest"]]⁠ metingen van de boomsoort-domeincombinaties die niet tot de 3 voorgaande categorieën behoren en waar dus geen model voor opgesteld kan worden.

Voor de eerste en derde dataframe worden metingen binnen het bruikbaar interval gemarkeerd als VoorModelFit en ook metingen boven dit interval tot een omtrek van 3 m worden bijgehouden voor een eventuele uitbreiding van het model (tot maximaal 10 omtrekklassen); voor het afgeleid model (2de dataframe) worden de metingen met omtrek tussen 0,5 m en 2,8 m bijgehouden.

In geval er gegevens verwijderd zijn, wordt aan de list een extra dataframe ⁠[["VerwijderdeGegevens"]]⁠ toegevoegd met de gegevens uit het validatierapport.

inbo/dhcurve documentation built on June 13, 2025, 2:46 p.m.