“A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks” (2025) Emerging Science Research, 3(01), pp. 36–49. Available at: http://emergingpub.com/index.php/sr/article/view/78 (Accessed: 3 March 2026).