“A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks”. Emerging Science Research 3, no. 01 (June 24, 2025): 36–49. Accessed April 23, 2026. https://emergingpub.com/index.php/sr/article/view/78.