Transformer-based Models for Computer Vision - a vlbthambawita Collection

vlbthambawita 's Collections

New Transformers or alternatives

Transformer-based Models for Computer Vision

Transformer-based Models for Computer Vision

updated Jan 28, 2025

MIO: A Foundation Model on Multimodal Tokens

Paper • 2409.17692 • Published Sep 26, 2024 • 53
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Paper • 2010.11929 • Published Oct 22, 2020 • 15
Going deeper with Image Transformers

Paper • 2103.17239 • Published Mar 31, 2021
Training data-efficient image transformers & distillation through attention

Paper • 2012.12877 • Published Dec 23, 2020 • 2
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Paper • 2103.14030 • Published Mar 25, 2021 • 5
Masked Autoencoders Are Scalable Vision Learners

Paper • 2111.06377 • Published Nov 11, 2021 • 6
DINOv2: Learning Robust Visual Features without Supervision

Paper • 2304.07193 • Published Apr 14, 2023 • 9
Emerging Properties in Self-Supervised Vision Transformers

Paper • 2104.14294 • Published Apr 29, 2021 • 4
BEiT: BERT Pre-Training of Image Transformers

Paper • 2106.08254 • Published Jun 15, 2021 • 2
Learning Transferable Visual Models From Natural Language Supervision

Paper • 2103.00020 • Published Feb 26, 2021 • 21
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

Paper • 2106.10270 • Published Jun 18, 2021 • 3
Biomedical SAM 2: Segment Anything in Biomedical Images and Videos

Paper • 2408.03286 • Published Aug 6, 2024
SAM 2: Segment Anything in Images and Videos

Paper • 2408.00714 • Published Aug 1, 2024 • 122