廣目多聞--基於多模態大模型的文旅遊覽助手 | OPENAIGC開發者大賽企業組企業組優秀作品
在第二屆拯救者杯OPENAIGC開發者大賽中,涌現出一批技術突出、創意卓越的作品。爲了讓這些優秀項目被更多人看到,我們特意開設了優秀作品報道專欄,旨在展示其獨特之處和開發者的精彩故事。
無論您是技術專家還是愛好者,希望能帶給您不一樣的知識和啓發。讓我們一起探索AIGC的無限可能,見證科技與創意的完美融合!
創未來AI應用賽-企業組優秀作品
作品名稱:廣目多聞--基於多模態大模型的文旅遊覽助手
參賽團隊:上海墀聖信息技術有限公司天山長歌
作品簡介
本項目是一款基於多模態大模型,爲用戶提供AI導遊服務的應用方案。本方案可以根據用戶提供的博物館展品照片、基於預先標出的值得關注的部分,爲用戶提供導遊和問答互動,讓遊客便捷地獲取相關知識、典故、軼事,增加遊覽興趣,尤其是可作爲研學用戶的高效助手,在上線後繼續拓展海外市場。
項目設計
本項目提出了一款可根據用戶拍攝的博物館文物與展品照片,使用戶可以和多模態模型互動,獲取導覽內容,達到導遊的目的。功能主要有:
用戶側:
用戶拍攝展品照片後,在交互界面上傳,獲得展品上的”重點區域“標識
導覽內容包括:
博物館在後臺編輯的內容介紹
網絡上關於該展品及區域的介紹
專業資料和書籍對該展品及區域的介紹
“重點區域”也可以通過用戶的推薦而生成。用戶點擊生成遮罩,提交導覽內容和簡介,經審覈和用戶匿名投票後,達到標準的展示爲新的”值得關注的區域“。通過交互滿足社交性、趣味性、娛樂性,增加用戶參與度和使用粘性。
管理側:
博物館管理方在後臺可新增、編輯、刪除所屬的展品、”重點區域“信息,保證專業性和嚴肅性。
核心技術和創新點
主要使用如下多模態技術:
Segment Anything進行遮罩選取與分割
ImageBind+Lora進行圖像編碼和文本標題簡介的拉齊
基於Qwen-14B的RAG系統,結合文本標題簡介,提供經審覈的、嚴肅的學術性介紹和用戶互動功能
在RAG系統上的Agent,蒐集更多其它信息用戶互動
技術成果和突破
對齊了多模態編碼、圖像識別、大模型文本生成內容的功能;
將多模態不僅作爲大模型的黑盒子使用,而且拆分出來滿足用戶的個性化需求;
使用openvino,加速文本生成,使用戶體驗更好。
未來發展
本項目後面會拓展到自然景觀的應用,面向外部條件更復雜的戶外景觀,在光照、惡劣天氣等情況下實現落地。
另一方面迭代多模態大模型的版本和量化方式,使生成的速度和性能不斷提升。
- END -
報告下載
大 佬觀點分享
關於RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公衆號後臺回覆【RPA】或者【流程挖掘】
可受邀加入相關的交流羣