智慧城市网

登录

佳都科技中央研究院多模态大模型TransCore-M 发布!MMBench高居第二

来源:佳都科技
2023/12/5 10:03:5537358
  【智慧城市网 品牌专栏】近日,在上海人工智能实验室发布的多模态大模型榜单 MMBench中,来自佳都科技中央研究院的TransCore-M超过LLaVA、mPLUG-Owl2、Qwen-VL-Chat 等 20 余个来自世界一流大学和业界大厂的多模态大模型,分别在 4 个榜单中都高居第二。目前,TransCore-M 的模型和推理 demo 已在 huggingface 开源,并开放体验。
 
  △MMBench榜单(其一),MMBench是上海AI lab和南洋理工大学联合推出的基于ChatGPT的全方位多模能力评测体系,其它榜单详情请见文末。
 
  模型架构与训练
 
图片
  TransCore-M 采用预训练和指令微调两种训练策略,来提升模型的多模态能力:
 
  l预训练阶段:冻结视觉模块(Visual Encoder)和语言模型(PCITransGPT),使用大量图文数据将图像和文本知识进行对齐;
 
  l指令微调阶段:构造多样性的文本和多模态联合数据,保持视觉模块冻结,将视觉对齐模块和语言模型进行全参微调,使得模型能够具备更丰富的多模态理解能力。
 
  交通行业能力
 
  技术上,佳都科技布局视觉模型多年,自 2015 年开始加强在人脸识别、视频大数据领域的技术投入,2017 年成立中央研究院,开展数据和智能中台建设,2019年推出城轨智慧运营系统华佳 Mos,2020 年开始研发基于数字孪生技术的 AR(增强现实)引擎,将多维信息和 3D 虚拟界面融合。
 
  应用场景方面,佳都长期深耕智慧大交通主赛道,积累了深厚的智慧交通行业项目经验和数据优势。一类是直接与视觉感知有关,主要是前端的采集智能设备,另一类是交通场景,包括车站客流分析、行车图优化、应急调度指挥、智能运维、智能安检,信号灯调优、交通拥堵分析、综合枢纽与公交客流分析导向等。
 
  通过将以往的经验和数据沉淀为行业资产,多模态大模型深度融合了丰富的领域知识,结合高质量的专业语料库,确保模型具有卓越的理解和判断能力。
 
  点击huggingface 主页中的 demo 链接后,用户仅需上传图片,即可与TransCore-M 进行对话。
 
  示例1:交通视觉描述
 
图片
  示例2:交通违规检测
 
图片
  示例3:路况检测
 
图片
  示例4:异常事件检测
 
图片
  示例5:异常事件检测
 
图片
  榜单排名情况
 

上一篇:与蓉共进,智慧畅行!佳都科技助力成都轨道交通19号线二期开通初期运营

下一篇:千方科技入选工信部2023年度先进计算典型应用案例

相关资讯:

首页|导航|登录|关于本站|联系我们