OliveHealthR è un software che svolge analisi sui dati provenienti dal progetto OliveHealth. L'obiettivo principale del progetto è quello di identificare le componenti salutistiche (es. polifenoli) in prodotti della filiera olivicola (quali foglie, drupe e olio) correlandole alla geo-localizzazione di ciascun appezzamento. Sulla base di queste informazioni verranno prodotti dataset delle variabili rappresentative delle principali caratteristiche fenotipiche, biochimiche e genetiche associate all’ulivo dalle quali nascerà un database messo a disposizione ai produttori olivicoli campani.Per maggiori informazioni sul progetto clicca qui.\
OliveHealthR è un pacchetto creato utilizzando le librerie shiny di R e, pertanto, per poter utilizzarlo bisogna installare i software R e Rstudio. Se li hai già installati puoi saltare questi passaggi e andare allo step 3.
Scarica e installa R da uno di questi link. Scegli in base al sistema operativo utilizzato.
Dopo aver installato R, installare RStudio. Apri il seguente link https://www.rstudio.com/products/rstudio/download/#download e scegliere la versione corrispondente al tuo sistema operativo.
Per poter far funzionare correttamente il software è necessario eseguire alcuni passaggi supplementari che cambiano in base al tuo sistema operativo:
Solo per utenti Windows.\ Se sei un utente Windows è necessario installare anche Rtools utilizzando questo link: https://cran.r-project.org/bin/windows/Rtools. Se il tuo computer non ha Windows puoi tranquillamente saltare questo passaggio.
Solo per utenti MacOS (da controllare).\ Se sei un utente MacOS è necessario lanciare questa riga di comando dal Terminale del computer:
r
brew install imagemagick@6
Solo per utenti Ubuntu (testato su 18.04).\
Se sei un utente Ubuntu bisogna installare delle librerie aggiuntive lanciando dal terminale le seguenti linee di codice:\
sudo apt install build-essential libcurl4-gnutls-dev libxml2-dev libssl-dev
sudo apt-get install libcairo2-dev
sudo apt-get install libxt-dev
sudo apt install libudunits2-dev
sudo apt install libgdal-dev
sudo apt install libmagick++-dev
sudo apt-get install libc6
sudo apt-get install cargo
Ora che hai installato tutti i software necessari, avvia il programma Rstudio. Al primo avvio la schermata iniziale è la seguente:
Tutti i codici di R che dovrai utilizzare nei passaggi seguenti dovranno essere copiati e incollati nella parte evidenziata nella figura precedente. Una volta incollati, per eseguire il comando basta premere il tasto Invio.
Detto ciò, procediamo all'installazione del pacchetto OliveHealthR lanciando i codici qui sotto:
if(!requireNamespace("devtools"))install.packages("devtools")
devtools::install_github("ShinyFabio/OliveHealthR")
Per farlo seleziona semplicemente le due righe di codice, incollale in RStudio e premi Invio. Se esce un messaggio come questo nella figura sottostante cliccare su No.
Il processo di installazione richiede qualche minuto. Al termine OliveHealthR sarà pronto all'uso. Prima di avviare il software, puoi decidere di installare tutte le immagini accessorie (cromatogrammi, foto di drupe, foto di foglie etc.). Questo passaggio è facoltativo. Per farlo lancia il codice qui sotto riportato:
OliveHealthR::download_photo()
Arrivati a questo punto sei pronto per lanciare OliveHealthR. Esegui semplicemente le due righe di codice qui riportate:
library(OliveHealthR)
OliveHealthR::run_OliveHealthR()
Qualora fossero disponibili versioni più aggiornate del software, per eseguire l’aggiornamento è sufficiente lanciare questo codice:
devtools::install_github("ShinyFabio/OliveHealthR")
Dopo che l’aggiornamento è completato, è necessario riscaricare le foto (vedi step 2.2).
Appena viene lanciato il comando per far partire OliveHealthR, la prima schermata che viene visualizzata è una pagina di benvenuto contenente una breve descrizione del progetto e dei partner coinvolti. Cliccando sul tasto "VAI!" ci si ritrova nel software vero e proprio. Il software è suddiviso in menu (barra grigia a sinistra) e ogni menu può avere o meno dei sottomenu. La suddivisione è basata principalmente sulla tipologia di dati. Cinque sono i menu presenti:
Il primo menu che si apre dopo aver cliccato il pulsante "VAI!" è il menu File. Qui è presente una panoramica di tutti i dati che sono stati raccolti dai vari partner e che sono stati già pre-elaborati e installati nel software. Una volta che ci si è assicurati che tutti i file siano presenti (spunte verdi in ogni casellina) si possono caricare i dati cliccando sul pulsante "Carica tutti i dati!". Delle notifiche in basso a destra mostrano l'avanzamento del caricamento e l'avvenuto.
Fatto ciò è possibile analizzare i dati cliccando sugli altri menu.
Questo menu contiene tutte le informazioni relative alle aziende che hanno partecipato al progetto. Come si può vedere nella figura sottostante, il menu è suddiviso in tre schede "Tabella", "Cultivar" e "Mappa".
In "Tabella" è possibile cercare un'azienda semplicemente scrivendo una sua informazione (che può essere il nome, il codice o anche il comune) nella casella "Search" e cliccando il tasto Invio.
Accedendo alla scheda “Cultivar”è, inoltre, possibile visualizzare le cultivar principali del progetto tramite grafico a torta o grafico a barre. Questo, ma anche quasi tutti gli altri grafici, sono interattivi. Ciò significa che:
In "Dati meteo" sono presenti le informazioni relative alle tre misure di precipitazioni che sono state prelevate dal progetto Copernicus. Nello specifico dai dati ERA5-Land monthly averaged data from 1950 to present sono stati scaricati tre tipologie di misure: Precipitazioni totali, volume di acqua nello strato di suolo 7-28cm e volume di acqua nello strato di suolo 28-100cm. Per ulteriori informazioni riferirsi al link precedente. I dati si riferiscono ai mesi giugno-novembre sia dell'anno 2020 che 2021 e possono essere visualizzati sia in formato di mappa (sia statica che animata), che in forma di grafico.
Nel grafico è possibile confrontare i dati meteo tra anni diversi e tra aziende. Nel caso del confronto tra aziende, è possibile scegliere l'anno (o gli anni), l'azienda (o le aziende) e la tipologia di grafico (statico o animato).
Nella scheda “Mappa” è, invece, possibile mostrare su mappa le aziende. Cliccando sul tasto “Carica mappa” verrà mostrata la mappa della regione Campania suddivisa in province in cui ogni punto si riferisce ad un’azienda (vedi figura sottostante). Dal menu a tendina è possibile selezionare la variabile in base alla quale colorare i punti delle aziende (es. per cultivar principale o per areale).
La mappa è anch'essa interattiva: ci si può spostare, zoommare, cambiare la mappa di base o nascondere un layer (tasto a sinistra sotto i pulsanti di zoom, le prime tre opzioni sono le mappe di base disponibili, shp e utmcoord23 sarebbero i layer utilizzati) e cliccando su un punto si apre un box con tutte le informazioni di quel punto.\ \ \
In questo menu sono mostrati i dati relativi alle schede campionamento fornite da Aprol. Nello specifico, Aprol ha fornito tre tipologie di dati: le schede campionamento di drupe e foglie, le schede di campionamento dell’olio e le schede dei panel test sull’olio. Il menu è suddiviso in quattro sottomenu: “Drupe e foglie”, “Olio”, “Calendario campionamenti” e “Analisi sensoriali”.
In Drupe e foglie sono mostrati tutti i dati relativi alle schede redatte dai tecnici al momento del campionamento di drupe e foglie. Per ogni azienda sono state redatte quattro schede di cui due relative alla fase fenologica e all’indice di maturazione del primo campionamento (drupe non ancora mature indicate con la sigla R1) e due relative al secondo campionamento (drupe pronte per il raccolto indicate con la sigla R2). Oltre a visualizzare questi dati in forma di tabella, vi è la possibilità di mapparli e graficarli. I grafici possibili sono lo scatterplot e il barplot. In entrambi i grafici è possibile selezionare l'informazione da utilzzare per l'asse X e per l'asse Y (a sinistra del grafico). Nel caso dello scatterplot è possibile scegliere l'anno e il numero del campionamento e l'informazione con la quale colorare i punti (in alto al grafico). Nel caso del barplot, invece, si possono comparare campionamenti diversi selezionando i campionamenti d'interesse dai box.
Infine, nella scheda “Galleria” selezionando la riga dell’azienda è possibile mostrare le foto di foglie e drupe dei campioni raccolti. È possibile scegliere il numero di campionamento (primo o secondo) e l’anno della raccolta.
Analogamente agli altri menu, in Olio sono mostrate le schede campionamento dell’olio sia in forma di tabella che su mappa. Riferirsi ai menu precedenti.
In Calendario campionamenti è presente un calendario che permette di visualizzare i giorni in cui sono stati effettuati i campionamenti sia di drupe e foglie che dell’olio. Si può decidere che tipo di dati mostrare, scegliere l’anno ed eventualmente mostrare solamente i dati di un’azienda.
In Analisi sensoriali sono presenti i dati relativi ai panel test condotti sugli oli. È possibile visualizzare i dati in formato di tabella, creare tre tipi di grafici (scatterplot, barplot e spiderplot) in cui sono mostrati i valori di mediana fruttato, mediana amaro e mediana piccante, visionare i file originali forniti dagli assaggiatori e, infine, mappare i dati. Le uniche differenze rispetto ai grafici precedenti riguardano il barplot e lo spiderplot. Nel barplot è possibile selezionare due tipologie di grafico:
Nello spiderplot, selezionando un'azienda sono mostrate le tre misure. È possibile aggiungere una seconda azienda cliccando sulla relativa casella e poi scegliendo una seconda azienda.
In questo menu sono mostrati i dati sui polifenoli (sia totali che individuali) e sulla morfometria. Analisi laboratorio si suddivide in tre sottomenu: Polifenoli totali, Polifenoli individuali e Analisi morfometrica.
Polifenoli totali contiene i dati relativi alla presenza totale dei polifenoli in drupe, foglie, olio, posa e sansa. La scelta della parte da analizzare è resa possibile dai pulsanti in blu posti sulla sinistra. Data la natura dei dati in questione (presenza di replicati tecnici) è stato aggiunto un tasto (vedi figura sottostante) che permetta di lavorare sia sui dati mediati (un valore per ogni azienda) che sui dati non mediati (più valori per ogni azienda).
Questo tipo di scelta è presente anche nei polifenoli individuali e nella morfometria. Una volta scelto il tipo di dato, è possibile visualizzare una tabella, uno scatterplot, un barplot e la mappa. Al di sotto della tabella è presente anche un box informativo in cui viene effettuato un controllo sull’eventuale presenza di dati mancanti (cosìdetti “NA”). Qualora siano presenti, con un pulsante è possibile visualizzare due grafici che mostrano la loro distribuzione nel dataset. Questo tipo di controllo è presente in tutte le tabelle presenti nel menu Analisi laboratorio.
Polifenoli individuali contiene, invece, i dati sui singoli polifenoli di drupe, foglie, olio e posa. Anche qui sono mostrati una tabella, la mappa, lo scatter plot e il barplot, ma a questi si aggiungono:
La Heatmap è un tipo di grafico in cui ogni cella assume un valore (ad esempio la concentrazione di un polifenolo) e viene colorata di conseguenza. L'heatmap presente in questo software si spinge oltre e presenta svariate funzionalità, come si può vedere dalla figura sottostante.
Tra le opzioni della Heatmap, oltre alla scelta del campionamento e dell'anno, è possibile:
Il Correlation Plot è la rappresentazione grafica della matrice di correlazione calcolata sui polifenoli. La correlazione può assumere valori compresi tra -1 e +1, dove per -1 si intende una forte correlazione negativa (ad esempio tra due polifenoli), per +1 si intende una forte correlazione positiva e per 0 si intende nessuna correlazione.
Nella scheda PCA è possibile eseguire l'Analisi delle componenti principali (PCA), una tecnica di semplificazione dei dati che ha lo scopo di ridurre il numero più o meno elevato di variabili che descrivono un insieme di dati a un numero minore di variabili "artificiali" (dette componenti principali o PC), limitando il più possibile la perdita di informazioni. In questo caso il nostro dataset dei polifenoli individuali contiene 7 diversi polifenoli, ma se volessimo rappresentare graficamente queste informazioni non potremmo perchè il massimo delle dimensioni che è possibile graficare è 3 (grafico tridimensionale). La PCA permette, dunque, di ricavare un numero ridotto di componenti principali che possono essere più facilmente rappresentate su un grafico (da 7 a 2 dimensioni come nel caso del biplot).
Dopo aver scelto se utilizzare i dati sintetizzati o quelli con i replicati, e aver selezionato il tipo di matrice su cui eseguirla (correlazione o covarianza), sono mostrati vari grafici informativi tra cui uno screeplot, il plot dei loadings (in cui si può scegliere il numero di componenti principali), il biplot (con la possibilità di scegliere sia la colonna di riempimento che una geometria) e il grafico tridimensionale con le prime tre componenti principali (anche qui è possibile scegliere la colonna da usare come riempimento). Un esempio del biplot e del grafico tridimensionale è visionabile nella figura sottostante.
Plot e Biplot rappresentano i dati in uno spazio bidimensionale, utilizzando le prime due PC che spiegano il massimo della varianza. Sull'asse x si ha la prima Componente con la sua relativa varianza spiegata in percentuale, sull'asse y la seconda componente. Lo screeplot è un grafico che aiuta nella scelta del numero di PC da utilizzare (un valore di 90% sul secondo puntino indica che è possibile spiegare il 90% dei dati semplicemente utilizzando le prime due PC). Il plot dei loadings mostra, invece, la relazione tra le varie PC e le variabili originali. Il plot 3D è semplicemente un grafico tridimensionale delle prime tre PC.
Analisi morfometrica contiene i dati morfometrici relativi a foglie, drupe, endocarpo e rapporti e la scelta è data da quattro pulsanti posti a lato. Anche i dati morfometrici presentano un numero variabile di replicati per campione: ciò si traduce nella scelta di poter utilizzare sia i dati individuali che i dati sintetizzati (scegliendo, inoltre, la variabile attraverso la quale sintetizzare i dati). La parte dell’analisi morfometrica contiene funzionalità aggiuntive rispetto alle altre sezioni tra cui: un boxplot, un plot IOC, il clustering e vari test inferenziali. Inoltre, in “Galleria” è possibile visualizzare le foto di foglie o drupe che sono state misurate.
Come già detto in precedenza, in analisi morfometrica è possibile scegliere la variabile per cui sintetizzare i dati. Per farlo, una volta abilitata l'opzione "Sintetizza i dati", selezionare una o più opzioni tra quelle proposte. Di default l'opzione selezionata è "Codice_azienda" dove i dati verranno sintetizzati per azienda (ogni azienda avrà un solo valore per misura); ma, se ad esempio si sceglie "Provincia", tutte le aziende appartenenti alla stessa provincia verranno sintentizzate e quindi si avranno solo cinque righe nella tabella (una misura per ogni provincia). La selezione multipla è leggermente più complessa: scegliere ad esempio "Cultivar_principale" e "Provincia" comporta il raggruppamento e la sintesi dei dati per queste due variabili e dunque, si avranno cinque valori per ogni cultivar, uno per provincia (es. Ravece-SA, Ravece-AV, Ravece-CE...).
Infine, data la tipologia di dati, è possibile scegliere anche quante cifre decimali visualizzare nella tabella attraverso l'opzione "Numero di cifre decimali".
Il funzionamento della scheda Galleria è analogo agli altri, selezionando un’azienda dalla tabella è possibile visualizzare le foto che ritraggono le drupe o le foglie. Nel caso delle drupe sono presenti anche i modelli 3D ottenuti mediante microtomografie a raggi X come si può vedere nella figura sottostante.
Relativamente ai grafici, sono presenti diversi tipi di grafici: boxplot, barplot, scatterplot, IOC, heatmap e correlation plot. Tra questi, l'unica differenza rispetto ai grafici dei polifenoli individuali è rappresentata dalla scheda IOC. Nei dati morfometrici sono state aggiunte delle variabili categoriche basate sulle classificazioni dell’International Olive Council (IOC). Questi dati sono mostrati nella relativa scheda, dove è possibile scegliere la misura IOC da visualizzare e il tipo di grafico tra grafico a torta e grafico a barre, Nel grafico a barre è possibile, inoltre, scegliere se usare la frequenza assoluta (essenzialmente sarebbe la conta delle classi per ogni azienda) o relativa (la stessa informazione ma in scala da 0 (0%) a 1 (100%).
Nella scheda PCA è possibile eseguire una PCA sui dati morfometrici. Per ulteriori informazioni riferirsi alla PCA nei polifenoli individuali.
Nella scheda Clustering è possibile eseguire un clustering sui dati morfometrici. Il clustering consiste in un insieme di metodi per raggruppare oggetti in classi omogenee. Un cluster è un insieme di oggetti che presentano tra loro delle similarità, ma che, per contro, presentano dissimilarità con oggetti in altri cluster. Gli algoritmi di clustering si dividono in due categorie principali: Algoritmi di clustering gerarchico e Algoritmi di clustering partizionale. I primi organizzano i dati in sequenze nidificate di gruppi che potremmo rappresentare in una struttura ad albero. Gli algoritmi di clustering partizionale, invece, determinano il partizionamento dei dati in cluster in modo da ridurre il più possibile la dispersione all’interno del singolo cluster e, viceversa, di aumentare la dispersione tra un cluster e un altro. La scelta dell'algoritmo da utilizzare è data dai due pulsanti in "Tipo di clustering" e, in base alla tipologia selezionata, sono mostrati grafici diversi quali gap statistic, silhouette plot, dendrogrammi, cluster plot. I grafici presenti nella scheda "Numero cluster" sono grafici che aiutano nella scelta del numero di cluster ottimale, mentre nella scheda Cluster plot vi sono i grafici con il clustering vero e proprio: dendrogramma nel caso del clustering gerarchico e cluster plot nel caso del clustering partizionale.
La scheda Test d’ipotesi contiene vari tipi di test inferenziali che è possibile eseguire sui dati morfometrici. Questi test sono stati suddivisi in quattro schede:
In Test di correlazione è possibile confrontare due variabili diverse per vedere se vi è correlazione tramite il test di correlazione di Pearson. A questo è abbinato uno scatterplot con relativo modello lineare delle due variabili prese in considerazione. Ad esempio nella figura sottostante è mostrato il test di correlazione tra "Larghezza” e “Irregolarità_contorno”. Dai Shapiro-Wilk normality test emerge che entrambe le variabili presentano una distribuzione normale dei dati (p-value < 0.05), mentre il Pearson's product-moment correlation mostra che le due variabili sono abbastanza correlate positivamente (p-value < 0.05 e cor = 0.39). Oltre al test statistico si vede anche lo scatterplot con relativo modello lineare e intervallo di confidenza.
In Confronto tra due gruppi viene eseguito un T-test (o un Wilcoxon-Mann-Whitney test se una o più variabile non segue una distribuzione normale) tra una variabile dipendente e un fattore esplicativo in base ad una variabile numerica. Nell'immagine seguente è mostrato un esempio in cui, dopo aver scelto di fare il confronto utilizzando il Codice_azienda, si scelgono due aziende (SA_01 e BN_04) e le si confrontano in relazione alla variabile numerica (Rotondità). Dal Test sulla varianza le due aziende non hanno differenze significative in termini di varianza (p-value > 0.05), ma dal T-test (in Test statistico) emerge che esistono differenze significative tra le medie della Rotondità tra le due aziende (p-value < 0.05).
In Confronto tra più gruppi è possibile eseguire un ANOVA (one-way o two-way) o un Kruskal-Wallis. Se si sceglie l'opzione "One-way ANOVA", bisognerà scegliere una variabile numerica e una variabile categorica. Fatto ciò, oltre al classico test sulla normalità (se il p-value è minore di 0.05 scegliere "Kruskal-Wallis"), viene eseguito il test ANOVA (o Kruskal-Wallis).
Nell'Anova one-way, un p-value significativo (< 0.05) indica che alcune delle medie dei gruppi sono differenti, ma non sappiamo quali gruppi sono differenti.Per sapere quali gruppi sono differenti si esegue un altro test chiamato post-hoc e ad esso è collegato un relativo grafico riassuntivo. Nell'immagine seguente è mostrato l'ANOVA condotta tra "Area" e "Cultivar_principale". In basso vi è il post-hoc (in questo caso Tukey HSD). Dal grafico del post-hoc emerge che, considerando l'Area, le cultivar Marinese e Frantoio hanno medie significativamente differenti.
L'Anova two-way differisce dalla prima per la possibilità di aggiungere al modello una seconda variabile categorica. É possibile, inoltre, scegliere se utilizzare il modello additivo o il modello con interazione.
In Test d’indipendenza è possibile identificare la possibile associazione tra le categorie di due variabili qualitative (es. la Cultivar_principale e Lunghezza_IOC). In base ai tipi di dati si può scegliere se eseguire il test d’indipendenza Chi-quadro o il test esatto di Fisher. È possibile anche effettuare il test solo su una porzione di dati (ad esempio scegliendo solo alcune cultivar).
Infine, nel menu Integrazione dati è possibile effettuare confronti tra misure diverse. Il menu si compone di tre schede: Tabella, Grafici e Test d'ipotesi. Alla sinistra di ogni scheda vi è una sezione in cui è possibile selezionare il tipo di confronto che si vuole effettuare:
Una volta fatta la selezione del confronto, nella scheda Tabella vi sarà riportata la tabella riassuntiva dei dati uniti e mediati. In basso è presente un tasto per poter scaricare i dati della tabella in formato excel.
Nella scheda Grafici sono riportati due tipi di grafici: uno scatterplot e un correlation plot. Lo scatterplot in questa parte è altamente personalizzabile. In "Dati da analizzare" è possibile scegliere che dati si vuole usare: scegliendo "Tutti" si usano tutti i dati che sono mostrati anche in tabella, se si sceglie "Filtra per cultivar" appare un'altra casella in cui è possibile una o più cultivar con le quali filtrare i dati. Al di sotto della scelta dei due assi, si ha un'altra parte chiamata "Altre opzioni" che mostra opzioni variabili in base alle scelte fatte. Nel caso in cui vengono selezionati più anni apparirà una casella in cui è possibile dividere il grafico in due parti (una parte per anno), se invece si decide di filtrare per cultivar, appariranno altre due caselle: "Density plot 2D", che aggiunge un density plot allo scatterplot, e "Fit" che aggiunge un modello di fit dei dati (è possibile scegliere tra "lm" ovvero un modello lineare e "loess" ovvero un modello polinomiale).
Per quanto riguarda la personalizzazione dello scatterplot, sopra di esso vi sono varie caselle in cui è possibile scegliere uno o più numeri di campionamento, una variabile con la quale colorare i punti, una per la dimensione dei punti (solo numerica) e una per la forma dei punti (solo categorica).
Inoltre, nella scheda seguente è possibile eseguire uno correlation plot (solo tra misure numeriche, il confronto con Schede campionamento è escluso da questo grafico).
Infine, in Test d'Ipotesi è possibile analizzare i confronti dal punto di vista statistico. Nella prima scheda vi è il test di correlazione (anche qui il confronto con Schede campionamento è escluso), nella seconda vi è il Confronto tra due gruppi (T-test) e nell'ultima è presente il confronto tra più gruppi (ANOVA). Per ulteriori informazioni sui test riferirsi al paragrafo della morfometria.
Si ringrazia la Regione Campania per aver aver finanziato questo progetto e tutti i partner coinvolti (Aprol Campania, CNR-IRET, CNR-IAC).
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.