A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks. Emerging Science Research [Internet]. 2025 Jun. 24 [cited 2026 Mar. 3];3(01):36-49. Available from: http://emergingpub.com/index.php/sr/article/view/78