Shusheng Yang

I am currently a 2nd-year Ph.D. student at NYU Courant, advised by Prof. Saining Xie. My research interests lie at the intersection of computer vision and multimodal learning, with a particular focus on representation learning, world modeling, spatial intelligence, and long-context modeling.

News

[01/2026] Cambrian-S and VideoNSA are accepted to ICLR 2026! See you in Rio!
[11/2025] Cambrian-S is released, please check out the details here!
[02/2025] Our paper Thinking in Space is accepted to CVPR 2025 as Oral presentation!
[09/2024] Excited to start my Ph.D. journey at NYU Courant, advised by Prof. Saining Xie.

Publications

(* indicates equal contribution). For full publication list, please refer to my Google Scholar page.

Cambrian-S: Towards Spatial Supersensing in Video

ICLR 2026

Shusheng Yang*, Jihan Yang*, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie

[Paper] [Website] [Code]

Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts

COLM 2026

Ellis Brown, Jihan Yang, Shusheng Yang, Rob Fergus, Saining Xie

[Paper] [Project Page] [Code]

VideoNSA: Native Sparse Attention Scales Video Understanding

ICLR 2026

Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu

[Paper] [Project Page] [Code]

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

CVPR 2025 (Oral)

Jihan Yang*, Shusheng Yang*, Anjali W. Gupta*, Rilyn Han*, Li Fei-Fei, Saining Xie

[Paper] [Project Page] [Code]

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

NeurIPS 2024 (Oral)

Shengbang Tong*, Ellis Brown*, Penghao Wu*, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Ziteng Wang, Rob Fergus, Yann LeCun, Saining Xie

[Paper] [Project Page] [Code]

Qwen-vl: A frontier large vision-language model with versatile abilities

Tech Report

Jinze Bai*, Shuai Bai*, Shusheng Yang*, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

[Paper] [Blog] [Code]

Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection

ICCV 2023

Yuxin Fang*, Shusheng Yang*, Shijie Wang*, Yixiao Ge, Ying Shan, Xinggang Wang

[Paper] [Code]

Masked Visual Reconstruction in Language Semantic Space

CVPR 2023

Shusheng Yang, Yixiao Ge, Kun Yi, Dian Li, Ying Shan, Xiaohu Qie, Xinggang Wang

[Paper] [Code]

Temporally Efficient Vision Transformer for Video Instance Segmentation

CVPR 2022 (Oral)

Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu Liu, Xun Zhao, Ying Shan

[Paper] [Code]

Instances as queries

ICCV 2021 & CVPRW 2021

Yuxin Fang*, Shusheng Yang*, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu

[Paper] [Code]

Crossover learning for fast online video instance segmentation

ICCV 2021

Shusheng Yang*, Yuxin Fang*, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu

[Paper] [Code]