Um ponderado

blog

LarLar / blog / Um ponderado

Oct 17, 2023

Um ponderado

Scientific Reports volume 13, Artigo número: 14061 (2023) Cite este artigo Detalhes das métricas Na atual cultura digital baseada em dados, há uma demanda crítica por soluções otimizadas que essencialmente

Scientific Reports volume 13, Artigo número: 14061 (2023) Citar este artigo

Detalhes das métricas

Na atual cultura digital orientada por dados, há uma demanda crítica por soluções otimizadas que essencialmente reduzam as despesas operacionais e, ao mesmo tempo, tentem aumentar a produtividade. A quantidade de memória e o tempo de processamento que podem ser usados ​​para processar enormes volumes de dados estão sujeitos a uma série de limitações. Isto seria, sem dúvida, um problema maior se um conjunto de dados contivesse informações redundantes e desinteressantes. Por exemplo, muitos conjuntos de dados contêm uma série de recursos não informativos que enganam principalmente um determinado algoritmo de classificação. Para resolver isso, os pesquisadores têm desenvolvido uma variedade de técnicas de seleção de recursos (FS) que visam eliminar informações desnecessárias dos conjuntos de dados brutos antes de colocá-los na frente de um algoritmo de aprendizado de máquina (ML). Algoritmos de otimização meta-heurística são frequentemente uma escolha sólida para resolver problemas NP-difíceis como FS. Neste estudo, apresentamos uma técnica de wrapper FS baseada no algoritmo de busca pardal (SSA), um tipo de meta-heurística. SSA é um método de inteligência de enxame (SI) que se destaca por sua rápida convergência e maior estabilidade. O SSA tem algumas desvantagens, como menor diversidade de enxames e fraca capacidade de exploração em iterações tardias, como a maioria dos algoritmos SI. Assim, usando dez mapas caóticos, tentamos melhorar a SSA de três maneiras: (i) a geração inicial do enxame; (ii) a substituição de duas variáveis ​​aleatórias no SSA; e (iii) prender os pardais que cruzam a área de busca. Como resultado, obtemos CSSA, uma forma caótica de SSA. Comparações extensas mostram que o CSSA é superior em termos de diversidade de enxame e velocidade de convergência na resolução de várias funções representativas do conjunto de benchmarks do Congresso de Computação Evolutiva (CEC) do Instituto de Engenheiros Elétricos e Eletrônicos (IEEE). Além disso, a análise experimental do CSSA em dezoito conjuntos de dados de ML interdisciplinares e multiescala do repositório de dados da Universidade da Califórnia Irvine (UCI), bem como três conjuntos de dados de microarray de alta dimensão, demonstra que o CSSA supera doze algoritmos de última geração em uma tarefa de classificação baseada na disciplina FS. Finalmente, uma análise estatística post-hoc com nível de significância de 5% baseada no teste de classificação sinalizada de Wilcoxon, no teste de classificação de Friedman e no teste de Nemenyi confirma a significância do CSSA em termos de aptidão geral, precisão de classificação, tamanho do recurso selecionado, tempo computacional, traço de convergência e estabilidade.

O século XXI tornou-se a era dos dados, com a análise e utilização de dados visíveis em todos os aspectos da vida, e estes dados são frequentemente de carácter altamente dimensional1,2,3,4,5. No entanto, é inevitável que esses dados contenham um número substancial de características redundantes e irrelevantes, aumentando a sobrecarga computacional e o risco de overfitting quando manipulados por algoritmos tradicionais de aprendizado de máquina (ML)6,7,8. Como resultado, para fazer melhor uso dos dados, procedimentos eficientes, como a seleção de recursos (FS), devem ser desenvolvidos para lidar com os recursos inúteis9,10,11. Wrappers, filtros e técnicas FS incorporadas são comumente usadas para diferenciá-los com base em sua avaliação para subconjuntos de recursos12. As abordagens baseadas em wrapper dependem de algoritmos de ML predefinidos para obter maior precisão de classificação, mas são muito caras para calcular porque os algoritmos de ML devem ser executados inúmeras vezes13. Pelo contrário, ao avaliar subconjuntos de recursos, as abordagens baseadas em filtros não usam nenhum algoritmo de ML, o que reduz o custo de computação, mas pode reduzir a precisão da classificação14. As técnicas incorporadas incorporam FS no aprendizado do modelo, levando em consideração a influência do modelo algorítmico e, ao mesmo tempo, reduzindo o peso computacional; entretanto, esses métodos apresentam baixa capacidade de generalização e complexidade computacional significativa15.

Como o número de subconjuntos de recursos varia geometricamente devido à dimensionalidade dos dados, é um desafio produzir resultados adequados usando métodos tradicionais, especialmente quando se trabalha com dados de alta dimensão. Para reduzir o alto custo computacional causado pela maldição da dimensionalidade, novas abordagens de seleção de subconjuntos de recursos podem ser desenvolvidas com base em algoritmos de inteligência de enxame (SI) wrapper devido à sua robustez e ajustabilidade . Os algoritmos SI possuem três características essenciais: flexibilidade, auto-organização e resiliência. Esses algoritmos são frequentemente inspirados no comportamento de grupo na natureza, como forrageamento, antipredação e migração19. Algoritmos SI típicos são otimização de colônia de formigas (ACO)20, otimização de enxame de partículas (PSO)21, otimizador de lobo cinzento (GWO)22, colônia de abelhas artificiais (ABC)23, algoritmo de otimização de baleias (WOA)24, algoritmo de otimização de gafanhotos (GOA) 25, otimização de Harris Hawks (HHO)26 e algoritmo de enxame de pássaros (BSA)27. Outros algoritmos de otimização incluem algoritmo de morcego (BA)28, otimização de busca de átomos (ASO)29 e otimização de solubilidade de gás Henry (HGSO)30. Em geral, os algoritmos meta-heurísticos podem lidar eficazmente com problemas de FS, reduzindo a complexidade computacional e ao mesmo tempo alcançando uma maior precisão de classificação, e as abordagens SI têm, portanto, sido aplicadas consistentemente a problemas de FS31,32,33,34. Por exemplo, Hussain et al.35 integraram o algoritmo seno-cosseno (SCA) no HHO para equilibrar as capacidades de exploração e aproveitamento do HHO, e resultados experimentais em diversas otimizações numéricas, bem como problemas de FS revelaram a vantagem competitiva do algoritmo proposto sobre outros algoritmos SI. Neggaz et al.36 aplicaram pela primeira vez o HGSO para resolver problemas de FS. Resultados experimentais em conjuntos de dados com diferentes tamanhos de recursos (de 13 a 15.009) mostraram que o HGSO é eficaz na minimização do tamanho dos recursos, especialmente em dados de alta dimensão, preservando ao mesmo tempo a máxima precisão de classificação.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>