distdend: Análise de agrupamento com estimativas de distâncias, seleção...

Description Usage Arguments Details Author(s)

Description

Função para estimativa de distâncias em uma matriz de dupla entrada (genótipos e variáveis) com diversas opções, incluindo um algorítimo para seleção de variáveis e ferramentas para confecção de dendrogramas personalizados.

Usage

1
2
3
4
distdend(data, scale = FALSE, selvar = FALSE, results = TRUE,
dendrogram = TRUE, pvclust = FALSE, verbose = TRUE,
nboot = 1000, alpha = 0.95, distmethod = "euclidean", 
clustmethod = "average", type = "rectangle", nclust = NULL, ...)

Arguments

data

O conjunto de dados. Variáveis e indivíduos como nome da linha.

scale

Argumento lógico, padrão TRUE. Se FALSE, as variáveis não são padronizadas pelo desvio padrão..

selvar

Argumento lógico, padrão FALSE. Se TRUE, (válido quando scale = FALSE) um algorítimo de seleção de variáveis (p) é executado e p-1 modelos são calculados.

results

Argumento lógico, padrão TRUE. Os resultados numéricos da análise são retornados. Se FALSE, apenas o gráfico é mostrado.

dendrogram

Argumento lógico, padrão TRUE. O dendrograma é confeccionado. Se FALSE, apenas os resultados são gerados.

pvclust

Argumento lógico, padrão false. Se TRUE um procedimento de reamostragem bootstrap é utilizado para calcular p-valores para os agrupamentos hierárquicos.

verbose

Argumento lógico, padrão TRUE. Se FALSE, o progresso da computação não é mostrado.

nboot

O número de reamostragens bootstrap a ser realizada. Argumento válido se pvclust = TRUE.

alpha

O nível de significancia para o agrupamento. Padrão é 0.95. Assim, grupos com p-valor > 0.95 são considerados significativos.

distmethod

O método de distância a ser utilizado. Padrão é "euclidean". Outros métodos válidos são: "pearson", "kendall", "spearman", "maximum", "manhattan", "canberra", "binary", "minkowski" ou "gower".

clustmethod

O método de agrupamento a ser utilizado. Padrão é "average" (= UPGMA). Outros métodos válidos são: "ward.D", "ward.D2", "single", "complete", "mcquitty" (= WPGMA), "median" (= WPGMC) ou "centroid" (= UPGMC).

type

O tipo de dendrograma a ser gerado. Os argumentos válidos são: "rectangle", "triangle", "circular", "phylogenic".

nclust

O número de clusters a ser mostrado no dendrograma. Padrão é NULL, ou seja, nenhum cluster é mostrado. Se um valor maior que 2 é declarado, os clusters são diferenciados por diferentes cores.

...

Outros argumentos importados da função fviz_dend() do pacote factoextra.

Details

Quando selvar = TRUE um algorítimo de seleção de variáveis é executado. O objetivo é selecionar um grupo de variáveis que mais contribuam para explicar a variabilidade dos dados originais. A seleção das variáveis é baseada na análise da no componete do autovetor com maior peso no último autovalor. A computação inicia com todas as variáveis e a cada passo, uma variável é excluída. Em cada etapa, a matriz de distância e a matriz cofenética são calculadas dependendo dos argumentos informados. O coeficiente de correlação entre estas matrizes é estimado. Além disso, um teste de mantel é realizado para comparar a matriz de distâncias obtida em cada passo, com a matriz de distâncias inicial (com todas as variáveis). Os seguintes objetos são retornados: statistics = um data.frame com o resumo de todos os modelos; models = uma lista com todos os modelos ajustados. Em cada modelo são apresentados o número e nome das variávies utilizadas, a variável excluída, a matriz de distâncias obtida e a correlação de mantel com a matriz de distâncias inicial. Ao final do procedimento, um gráfico com os valores do coeficiente de correlação cofenética (cofgrap) é confeccionado. As variáveis incluídas no modelo com maior coeficiente de correlação cofenética são utilizadas na estimação da matriz de distâncias (distances) e o dendrograma (graphic).

Author(s)

Tiago Olivoto tiagoolivoto@gmail.com


TiagoOlivoto/cursoR documentation built on May 13, 2019, 1:23 p.m.