在人工智能領域,多模態技術正在掀起新一輪的技術革命。近日,阿里巴巴國際團隊推出了全新的多模態大語言模型——Ovis2,這款模型在多模態理解與生成、視頻處理、多語言支持等方面展現了卓越性能。本文將深入解析Ovis2的技術特點、應用場景及其對AI領域的重要意義。

Ovis2是什么?
Ovis2是阿里巴巴國際團隊推出的一款新型多模態大語言模型,基于結構化嵌入對齊技術,有效解決了視覺與文本模態間的差異。與前代Ovis相比,Ovis2在以下幾個方面實現了顯著提升:
-
強化小規模模型能力:優化訓練策略,提升小規模模型的能力密度。
-
增強推理能力:通過指令微調和偏好學習,顯著提升了思維鏈(CoT)推理能力。
-
引入視頻處理能力:支持多圖像輸入和關鍵幀選擇,提升跨幀視覺信息處理能力。
-
多語言支持與OCR能力:支持多種語言的文本處理,從復雜視覺元素中提取結構化數據。
Ovis2提供1B、2B、4B、8B、16B和34B六個不同參數規模的模型版本,均在OpenCompass多模態評測榜單中表現出色,尤其在數學推理和視頻理解方面表現突出。
Ovis2的主要功能
-
多模態理解與生成 Ovis2能夠處理文本、圖像、視頻等多種輸入模態,生成高質量的文本輸出,支持復雜場景下的視覺和語言任務。
-
強化推理能力 基于思維鏈(CoT)推理能力的提升,Ovis2能夠解決復雜的邏輯和數學問題,提供逐步推理的解決方案。
-
視頻和多圖像處理 Ovis2引入視頻理解能力,支持關鍵幀選擇和多圖像輸入,能夠處理跨幀的復雜視覺信息。
-
多語言支持和OCR能力 Ovis2支持多種語言的文本處理,并能夠從復雜視覺元素(如表格、圖表)中提取結構化數據。
-
小模型優化 通過優化訓練策略,Ovis2使小規模模型達到高能力密度,滿足不同應用場景的需求。
Ovis2的技術原理
-
結構化嵌入對齊 Ovis2基于視覺tokenizer將圖像分割成圖像塊(patch),提取特征后映射到“視覺單詞”上,形成概率化的視覺token。視覺token與文本token一起輸入到LLM中,實現模態間的結構化對齊。
-
四階段訓練策略
-
第一階段:凍結LLM,訓練視覺模塊,學習視覺特征到嵌入的轉化。
-
第二階段:進一步訓練視覺模塊,增強高分辨率圖像理解和多語言OCR能力。
-
第三階段:用對話形式的視覺數據,使視覺嵌入對齊LLM的對話格式。
-
第四階段:進行多模態指令訓練和偏好學習,提升模型對用戶指令的遵循能力和輸出質量。
-
-
視頻理解增強 Ovis2采用MDP3算法(基于幀與文本的相關性、組合多樣性和序列性)選擇關鍵幀,提升視頻理解能力。
-
基于Transformer架構 Ovis2結合強大的視覺編碼器(如ViT)和語言模型(如Qwen),實現高效的多模態融合和生成。
Ovis2的應用場景
-
研究人員和開發者 Ovis2為從事人工智能和多模態技術研究的專業人員提供了強大的工具,助力模型優化和算法改進。同時,開發者可以利用Ovis2開發智能應用。
-
內容創作者 新聞媒體、廣告和營銷從業者可以通過Ovis2快速生成圖片或視頻的描述、文案和標題,顯著提升創作效率。
-
教育工作者和學生 教師可以利用Ovis2生成圖片或視頻的解釋性文字,幫助學生理解復雜內容。學生則可以通過視覺問答功能解決學習中的問題。
-
企業用戶 金融、法律、醫療等行業從業者可以利用Ovis2處理復雜的文檔、圖像或視頻數據,提取關鍵信息,輔助決策。
-
普通用戶和技術愛好者 Ovis2為對人工智能感興趣的人群提供了探索技術的機會,支持簡單的多模態任務,如生成圖片描述或進行視覺問答。
Ovis2的項目地址
-
GitHub倉庫:https://github.com/AIDC-AI/Ovis
-
HuggingFace模型庫:https://huggingface.co/collections/AIDC-AI/ovis2
結語
Ovis2的推出不僅為多模態大模型的研究和應用提供了新的方向,也為各行各業的用戶提供了強大的工具。無論是技術開發者、內容創作者,還是普通用戶,Ovis2都能滿足多樣化的應用場景需求。未來,隨著Ovis2的開源和社區支持的增強,其在AI領域的影響力將進一步擴大。