“A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks” (2025) Emerging Science Research, 3(01), pp. 36–49. Available at: https://emergingpub.com/index.php/sr/article/view/78 (Accessed: 23 April 2026).