LLaVA
加拿大
AI对话工具AI开源程序

LLaVA

大语言模型的视觉助手,GPT-4V平替,免费开源!

标签:
1AiBox AI社群
LLaVA

LLaVA:大语言模型的视觉助手

GPT-4V有了一个新的开源竞争对手,很多测试过后的人,说超越了GPT-4V ,LLaVA 是一个端到端训练的大型多模态模型,用于通用视觉和语言理解。LLaVA 能够实现与多模态 GPT-4 类似的聊天能力,它不仅能理解文本,还能理解图像,并能在聊天中灵活运用这些信息。LLaVA 在多模态指令跟随数据集上表现出色,与 GPT-4 相比有 85.1% 的相对分数。在 Science QA 上,其准确率达到了新的最高水平,为 92.53%

 

LLaVA能做什么?

LLaVA 几乎可以识别图片中的任何内容和信息,例如:识别验证码、识别狗狗的品种、前端代码、根据图片识别电影、识别冰箱的食材并给你食谱等等。

 

模型架构

LLaVA模型将一个预训练的视觉编码器(CLIP ViT-L/14)与一个大型语言模型(Vicuna)连接在一起。 使用简单的投影矩阵(Using a simple projection matrix):这两个模型通过一个简单的投影矩阵连接,该矩阵负责将视觉和语言特征对齐或转换,以便它们可以在一个统一的空间内进行操作。

 

训练过程

LLaVA的训练分为两个阶段:
阶段1:特征对齐的预训练
只更新投影矩阵:在这个阶段,只有连接视觉编码器和语言模型的投影矩阵被更新。
基于CC3M子集:这一阶段的训练是基于CC3M数据集的一个子集进行的。

阶段2:端到端的微调
更新投影矩阵和LLM:在这个阶段,投影矩阵和大型语言模型(LLM)都会被更新。
两种不同的使用场景:LLaVA在这个多模态指令跟随数据集上进行微调,以适应日常用户导向的应用。
科学问答(Science QA):LLaVA在这个多模态推理数据集上进行微调,专门用于科学领域。

相关导航