A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks. (2025). Emerging Science Research, 3(01), 36-49. http://emergingpub.com/index.php/sr/article/view/78