“A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks”. 2025. Emerging Science Research 3 (01): 36-49. https://emergingpub.com/index.php/sr/article/view/78.