knitr::opts_chunk$set(echo = FALSE)
library(dplyr)
library(dhcurve)
library(knitr)
library(DT)

Wat geeft deze info weer en wat wordt verwacht?

Voor het berekenen van de curves worden enkel meetgegevens met omtrek binnen een bepaald interval gebruikt (20-240 cm, zie documentatie van package voor meer informatie hierover). Dit betekent dat een aantal gegevens voor de analyse volledig buiten beschouwing gelaten worden. Deze zonder meer negeren is geen goed idee: wat als bv. in een domein alle omtrekken in een andere eenheid dan cm opgemeten zijn? De gegevens verdwijnen dan zonder dat het opgemerkt wordt. Om dit te vermijden en deze gegevens toch even onder de aandacht te brengen, is dit rapportje uitgewerkt.

Welke info is hierin terug te vinden?

Per boomsoort-domeincombinatie wordt een overzicht gegeven van:

Deze dataset is opgesplitst in 3 delen op basis het aantal meetgegevens dat overblijft (nInterval) om het iets overzichtelijker te houden (zie verschillende onderdelen hieronder). Omdat hier geen rekening gehouden is met bomen die buiten het "bruikbaar interval" van een boomsoort-domeincombinatie vallen, komen deze categorieën niet exact overeen met de uiteindelijke indeling in modeltypen (zie documentatie van package voor meer informatie hierover).

Boomsoort-domeincombinaties met minder dan 10 bomen in totaal (nTotaal) zijn weggelaten, omdat deze toch niet voor analyses gebruikt kunnen worden.

Wat kan ik doen om de gegevens na te kijken?

Wat nakijken?

Praktisch:

Genoeg gegevens binnen interval

Hier is er geen probleem wat betreft het aantal bomen, op basis van de overblijvende bomen kan een model ontwikkeld worden (tenzij nInterval maar net boven de 50 ligt en er uitschieters zijn qua omtrek). Hier zou de focus van de beoordeling dus moeten liggen op de betrouwbaarheid en representativiteit van de gegevens en bijgevolg het model dat hieruit afgeleid wordt.

datatable(DataRapport %>%
            filter(nInterval > 50) %>%
            arrange(desc(percTeDik)),
            filter = "top")

10-50 gegevens binnen interval

Als er voor de hieronder gespecifieerde boomsoort een basismodel gemaakt wordt, kan voor het domein op basis van de gegevens een afgeleid model gemaakt worden. Anders moeten minstens 50 bomen binnen het interval 20-240 cm vallen om een model te kunnen maken voor die boomsoort-domeincombinatie.

In elk geval moet de focus liggen op betrouwbaarheid en representativiteit, zoals bij de eerste groep. Daarnaast kan het voor de domeinen met nInterval net onder 50 zinvol zijn om op zoek te gaan naar typfouten bij de weggelaten gegevens om boven die limiet van 50 bomen te geraken (waardoor een basismodel of lokaal model opgesteld kan worden).

datatable(DataRapport %>%
            filter(nInterval <= 50 & nInterval >= 10) %>%
            arrange(desc(percTeDik)),
            filter = "top")

Te weinig gegevens binnen interval

Onderstaande boomsoort-domeincombinaties bereiken de minimumlimiet van 10 bomen niet. Zonder extra bomen binnen het interval 20-240 cm kan er helemaal geen model opgesteld worden.

Zoals bij de andere groepen willen we in de eerste plaats zeker zijn dat de metingen betrouwbaar zijn en representatief voor die boomsoort in dat domein. Als dat het geval is, kan het zinvol zijn om op zoek te gaan naar typfouten bij de weggelaten gegevens om boven die limiet van 10 bomen te geraken (waardoor een afgeleid model opgesteld kan worden, tenminste als er een basismodel bestaat voor de boomsoort). Op zich is de gemaakte winst groter bij dit deel van de dataset dan de voorgaande (wel een model vs. geen model), maar de kans om hier iets te bereiken (een fout te vinden in het vaak beperkt aantal gegevens), is relatief klein. Misschien wil je je hier beperkten tot boomsoort-domeincombinaties met nInterval = 9 en nTeDik zo hoog mogelijk?

datatable(DataRapport %>%
            filter(nInterval < 10) %>%
            arrange(desc(percTeDik)),
            filter = "top")


inbo/dhcurve documentation built on April 6, 2023, 5:17 a.m.