A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks. Emerging Science Research, [S. l.], v. 3, n. 01, p. 36–49, 2025. Disponível em: http://emergingpub.com/index.php/sr/article/view/78. Acesso em: 3 mar. 2026.