“A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks”. Emerging Science Research, vol. 3, no. 01, June 2025, pp. 36-49, http://emergingpub.com/index.php/sr/article/view/78.