[1]

“A Benchmark Study of Hybrid CNN-Transformer Architectures in Vision-Language Tasks”, Emerging Science Research, vol. 3, no. 01, pp. 36–49, Jun. 2025, Accessed: Apr. 23, 2026. [Online]. Available: https://emergingpub.com/index.php/sr/article/view/78