Qi She（佘琪）'s Publications

Qi She (佘琪)

ByteDance · Research Scientist

MLLMs · Agentic AI · AIGC

Selected Top-tier Publication

[Note] Selected peer-reviewed papers listed below. For the full and most up-to-date publication list, see Google Scholar: Qi She

★ Selected Highlights

2025

MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation

T Shen, X Wan, T Chen, R Zhang, J Pan, D Lu, F Lei, Z Lu, Y Yang, ...

ICCV 2025

Beyond text-visual attention: Exploiting visual cues for effective token pruning in vlms

Q Zhang, A Cheng, M Lu, R Zhang, Z Zhuo, J Cao, S Guo, Qi She, ...

2024

Mammothmoda: Multi-modal large language model

Qi She, J Pan, X Wan, R Zhang, D Lu, K Huang

CSUR 2021

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Zhengwei Wang, Qi She , Tomas E Ward.

CVPR 2022

On Learning Contrastive Representations for Learning with Noisy Labels

Li Yi, Sheng Liu, Qi She, Lei Zhu, A. Ian McLeod, Boyu Wang

CVPR 2022

Learning from Temporal Gradient for Semi-supervised Action Recognition

Junfei Xiao, Longlong Jing, Lin Zhang, Ju He, Qi She, Zongwei Zhou, Alan Yuille, Yingwei Li

ICCV 2021

MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis

Jiaxin Li, Zijian Feng, Qi She, Henghui Ding, Changhu Wang, Gim Hee Lee.

CVPR 2021

Involution: Inverting the Inherence of Convolution for Visual Recognition

Duo Li, Jie Hu, Changhu Wang, Xiangtai Li, Qi She, Lei Zhu, Tong Zhang, Qifeng Chen.

CVPR 2021

ACTION-Net: Multipath Excitation for Action Recognition

Zhengwei Wang, Qi She, Aljosa Smolic.

ICRA 2020

OpenLORIS-Object: A Robotic Vision Dataset and Benchmark for Lifelong Deep Learning

Qi She, Fan Feng, Xinyue Hao, Qihan Yang, Chuanlin Lan, Vincenzo Lomonaco, Xuesong Shi, Zhengwei Wang, Yao Guo, Yimin Zhang, Fei Qiao, Rosa H. M. Chan.

ICRA 2020

Are We Ready for Service Robots? The OpenLORIS-Scene Datasets for Lifelong SLAM

Xuesong Shi, Dongjiang Li, Pengpeng Zhao, Qinbin Tian, Yuxin Tian, Qiwei Long, Chunhao Zhu, Jingwei Song, Fei Qiao, Le Song, Yangquan Guo, Zhigang Wang, Yimin Zhang, Baoxing Qin, Wei Yang, Fangshi Wang, Rosa H. M. Chan, Qi She

Journal 7

Background-aware Classification Activation Map for Weakly Supervised Object Localization TPAMI
Lei Zhu, Qi She, Qian Chen, Xiangxi Meng, Mufeng Geng, Lujia Jin, Yibao Zhang, Qiushi Ren, Yanye Lu

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023.

Localization

PDF BibTex Code
Generative Adversarial Networks in Time Series: A Systematic Literature Review CSUR
Eoin Brophy, Zhengwei Wang, Qi She , Tomas E Ward.

ACM Computing Surveys (CSUR), 2023.

PDF BibTex arXiv
Power Law in Deep Neural Networks: Sparse Network Generation and Continual Learning With Preferential Attachment TNNLS
Fan Feng, Lu Hou, Qi She , Rosa H. M. Chan, James T Kwok

IEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022.

BibTex
Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy CSUR
Zhengwei Wang, Qi She , Tomas E Ward.

ACM Computing Surveys (CSUR), 2021.

PDF BibTex Code arXiv
An Efficient and Flexible Spike Train Model via Empirical Bayes TSP
Qi She , Xiaoli Wu, Beth Jelfs, Adam S. Charles, Rosa H. M. Chan.

IEEE Transactions on Signal Processing (TSP), 2021.

PDF BibTex Code arXiv
Synthetic-Neuroscore: Using a Neuro-AI Interface for Evaluating Generative Adversarial Networks
Zhengwei Wang, Qi She , Alan F Smeaton, Tomas E Ward, Graham Healy.

Neurocomputing, 2020.

PDF BibTex Code arXiv
Evaluating the Small-World-Ness of a Sampled Network: Functional Connectivity of Entorhinal-Hippocampal Circuitry
Qi She , Guanrong Chen, Rosa H. M. Chan.

Nature Scientific Reports, 2016.

PDF BibTex Nature Scientific Reports

Conference 23

Video-KTR: Reinforcing Video Reasoning via Key Token Attribution ICLR
Z Wang, S Jin, Z Zuo, J Wu, H Qiu, Qi She, H Zhang, X Jiang

International Conference on Learning Representations (ICLR), 2026.

VideoReasoning
ThinkGen: Generalized Thinking for Visual Generation CVPR
S Jiao, Y Lin, Y Zhong, Qi She, W Zhou, X Lan, Z Huang, F Yu, Y Yu, ...

Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

GenerationMLLM
CodeDance: A Dynamic Tool-integrated MLLM for Executable Visual Reasoning CVPR
Q Song, H Li, Y Yu, H Zhou, L Yang, S Bai, Qi She, Z Huang, Y Zhao

Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

MLLMReasoning
UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying CVPR
C Bai, J Chen, X Bai, Y Chen, Qi She, M Lu, S Zhang

Conference on Computer Vision and Pattern Recognition (CVPR), 2026.
TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning ICLR
J Pan, Q Zhang, R Zhang, M Lu, X Wan, Y Zhang, C Liu, Qi She

International Conference on Learning Representations (ICLR), 2026.

VideoAgent
Branchgrpo: Stable and efficient grpo with structured branching in diffusion models ICLR
Y Li, Y Wang, Y Zhu, Z Zhao, M Lu, Qi She, S Zhang

International Conference on Learning Representations (ICLR), 2026.
Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs NeurIPS
Q Zhang, M Liu, L Li, M Lu, Y Zhang, J Pan, Qi She, S Zhang

Neural Information Processing Systems (NeurIPS), 2025.

MLLMEfficiency
Beyond text-visual attention: Exploiting visual cues for effective token pruning in vlms ICCV
Q Zhang, A Cheng, M Lu, R Zhang, Z Zhuo, J Cao, S Guo, Qi She, ...

International Conference on Computer Vision (ICCV), 2025.

VLMEfficiency
PDO-s3DCNNs: Partial Differential Operator Based Steerable 3D CNNs ICML
Zhenyang Shen, Tao Hong, Qi She, Jinwei Ma, Zhouchen Lin

International Conference on Machine Learning (ICML), 2022.

PDF BibTex arXiv
Weakly Supervised Object Localization as Domain Adaption CVPR
Lei Zhu, Qi She, Qian Chen, Yunfei You, Boyu Wang, Yanye Lu

Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

PDF BibTex Code
On Learning Contrastive Representations for Learning with Noisy Labels CVPR
Li Yi, Sheng Liu, Qi She, Lei Zhu, A. Ian McLeod, Boyu Wang

Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

PDF BibTex arXiv
Learning from Temporal Gradient for Semi-supervised Action Recognition CVPR
Junfei Xiao, Longlong Jing, Lin Zhang, Ju He, Qi She, Zongwei Zhou, Alan Yuille, Yingwei Li

Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

PDF BibTex
Unifying Nonlocal Blocks for Neural Networks ICCV
Lei Zhu, Qi She, Duo Li, Yanye Lu, Xuejing Kang, Jie Hu, Changhu Wang

International Conference on Computer Vision (ICCV), 2021.

PDF BibTex Code arXiv
MT-ORL: Multi-Task Occlusion Relationship Learning ICCV
Panhe Feng, Qi She, Lei Zhu, Jiaxin Li, Lin ZHANG, Zijian Feng, Changhu Wang, Chunpeng Li, Xuejing Kang, Anlong Ming.

International Conference on Computer Vision (ICCV), 2021.

PDF BibTex Code arXiv
MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis ICCV
Jiaxin Li, Zijian Feng, Qi She, Henghui Ding, Changhu Wang, Gim Hee Lee.

International Conference on Computer Vision (ICCV), 2021.

PDF BibTex Code arXiv Papers With Code
Involution: Inverting the Inherence of Convolution for Visual Recognition CVPR
Duo Li, Jie Hu, Changhu Wang, Xiangtai Li, Qi She, Lei Zhu, Tong Zhang, Qifeng Chen.

Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

ArchitectureCNN

PDF BibTex Code arXiv Papers With Code
ACTION-Net: Multipath Excitation for Action Recognition CVPR
Zhengwei Wang, Qi She, Aljosa Smolic.

Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

PDF BibTex Code arXiv
Learning the Superpixel in a Non-iterative and Lifelong Manner CVPR
Lei Zhu, Qi She, Bin Zhang, Yanye Lu, Zhilin Lu, Duo Li, Jie Hu.

Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

PDF BibTex Code
OpenLORIS-Object: A Robotic Vision Dataset and Benchmark for Lifelong Deep Learning ICRA
Qi She, Fan Feng, Xinyue Hao, Qihan Yang, Chuanlin Lan, Vincenzo Lomonaco, Xuesong Shi, Zhengwei Wang, Yao Guo, Yimin Zhang, Fei Qiao, Rosa H. M. Chan.

The International Conference on Robotics and Automation (ICRA), 2020.

PDF BibTex Project page Code arXiv
Are We Ready for Service Robots? The OpenLORIS-Scene Datasets for Lifelong SLAM ICRA
Xuesong Shi, Dongjiang Li, Pengpeng Zhao, Qinbin Tian, Yuxin Tian, Qiwei Long, Chunhao Zhu, Jingwei Song, Fei Qiao, Le Song, Yangquan Guo, Zhigang Wang, Yimin Zhang, Baoxing Qin, Wei Yang, Fangshi Wang, Rosa H. M. Chan, Qi She

The International Conference on Robotics and Automation (ICRA), 2020.

PDF BibTex Project page arXiv
Neural Dynamics Discovery via Gaussian Process Recurrent Neural Networks UAI
Qi She , Anqi Wu.

Uncertainty in Artificial Intelligence (UAI), 2019.

Oral PDF BibTex Code Supp. Materials arXiv
Reduced-Rank Linear Dynamical Systems AAAI
Qi She , Yuan Gao, Kai Xu, and Rosa H.M. Chan.

AAAI Conference on Artificial Intelligence (AAAI), 2018.

PDF BibTex
Stochastic Dynamical Systems Based Latent Structure Discovery in High-dimensional Time Series ICASSP
Qi She , Rosa H.M. Chan.

The international Conference on Acoustics, Speech, & Signal Processing (ICASSP), 2018.

BibTex

Workshop 3

Avalanche: an End-to-End Library for Continual Learning
CVPR 2021, Workshop on Continual Learning in Computer Vision..

PDF BibTex Code
CatNet: Class Incremental 3D ConvNets for Lifelong Egocentric Gesture Recognition
Zhengwei Wang, Qi She , Tejo Chalasani, Aljosa Smolic.

CVPR 2020, Workshop on Continual Learning in Computer Vision..

PDF BibTex
A Neuro-AI Interface for Evaluating Generative Adversarial Networks
Zhengwei Wang, Qi She , Alan F. Smeaton, Tomas E. Ward, Graham Healy.

ICLR 2020, Workshop on Bridging AI and Cognitive Science..

PDF BibTex

Preprint 9

MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation
T Shen, X Wan, T Chen, R Zhang, J Pan, D Lu, F Lei, Z Lu, Y Yang, ...

arXiv preprint arXiv:2511.18262, 2025.

arXiv
ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better
Y Zhang, M Lu, J Pan, T Huang, K Cheng, Qi She, S Zhang

arXiv preprint arXiv:2511.17106, 2025.

arXiv
On the Faithfulness of Visual Thinking: Measurement and Enhancement
Z Liu, J Pan, Qi She, Y Gao, G Xia

arXiv preprint arXiv:2510.23482, 2025.

arXiv
Loss-Oriented Ranking for Automated Visual Prompting in LVLMs
Y Zhang, CK Fan, T Huang, M Lu, S Yu, J Pan, K Cheng, Qi She, S Zhang

arXiv preprint arXiv:2506.16112, 2025.

arXiv
FastInit: Fast Noise Initialization for Temporally Consistent Video Generation
C Bai, Y Li, Z Zhao, J Chen, P Jia, Qi She, M Lu, S Zhang

arXiv preprint arXiv:2506.16119, 2025.

arXiv
TimeSearch: Hierarchical video search with spotlight and reflection for human-like long video understanding
J Pan, R Zhang, X Wan, Y Zhang, M Lu, Qi She

arXiv preprint arXiv:2504.01407, 2025.

arXiv
ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance
Y Li, P Jia, D Hong, Y Jia, Qi She, R Zhao, M Lu, S Zhang

arXiv preprint arXiv:2412.06163, 2024.

arXiv
MC-LLaVA: Multi-concept personalized vision-language model
R An, S Yang, M Lu, R Zhang, K Zeng, Y Luo, J Cao, H Liang, Y Chen, ...

arXiv preprint arXiv:2411.11706, 2024.

arXiv
Mammothmoda: Multi-modal large language model
Qi She, J Pan, X Wan, R Zhang, D Lu, K Huang

arXiv preprint arXiv:2406.18193, 2024.

arXiv

Patent 2

Object identification based on adaptive learning
SG Manepalli, SW Chin, P Guo, Qi She, Y Shen, L ZHANG, Y Zhang

US Patent 12,511,887, 2025.
Trajectory prediction using directed graph and destination features
L ZHANG, Qi She, P Guo

US Patent 12,198,460, 2025.