Nossa sugestão do mês de fevereiro é um artigo publicado na BMC Bioinformatics que conta um pouco mais sobre as diferenças entre métodos supervisionados e não-supervisionados, assim como suas vantagens, desvantagens e critérios de seleção. Como pontos de partida na nossa discussão, o autor afirma:
“PLS-DA can be thought of as a “supervised” version of Principal Component Analysis (PCA) in the sense that it achieves dimensionality reduction but with full awareness of the class labels. Besides its use for dimensionality-reduction, it can be adapted to be used for feature selection [8] as well as for classification [9–11].”
Com isso, perguntamos: existe um workflow adequado para análise quimiométrica? Sempre o PCA deve ser realizado antes do PLS-DA? Além disso, o PCA pode ser utilizado para criar o modelo usado no PLS-DA se não existe nenhuma informação sobre os dados? Como você realiza essa análise?
“It is important to note that its role in discriminant analysis can be easily misused and misinterpreted [2, 12]. Since it is prone to overfitting, cross-validation (CV) is an important step in using PLS-DA as a feature selector, classifier or even just for visualization [13, 14].”
Nessa afirmacão, levantamos dois questionamentos:
- Em literatura, existem diferentes tipos de CV que podem ser usados para validar um método quimiométrico (venetian blinds, contiguous blocks, random subsets, leave-one-out). Quais atributos influenciam na seleção do melhor método para seus dados?
- Além do CV, outros métodos de validação são comumente utilizados, como a análise de p-value por t-test. Neste teste, valores menores que 0.05 indicam que o modelo é siginificativo a 95% de nível de confiança. Porém, assim como CV, diferentes algorítimos podem ser implementados, como Wilcoxon, sign test, rand t-test. Como selecionar o melhor método?
*Devido aos direitos de publicação, não disponibilizamos o artigo em formato pdf.