Large Multimodal Model (LMM)

From GM-RKB

(Redirected from LMM)

Jump to navigation Jump to search

A Large Multimodal Model (LMM) is a deep learning model that can process and generate different modalities of data, such as text, images, audio, and video.

See: Multimodal Model.

References

2023

(Yang, Li et al., 2023) ⇒ Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, and Lijuan Wang. (2023). “The Dawn of LMMs: Preliminary Explorations with GPT-4V (ision).” In: arXiv preprint arXiv:2309.17421. doi:10.48550/arXiv.2309.17421

Retrieved from "http://www.gabormelli.com/RKB/index.php?title=Large_Multimodal_Model_(LMM)&oldid=842084"

Concept