5 月 26 日消息,微软微软近期推出其小语言 AI模型新成员“Phi-3-vision”,发布以卓越的视觉“视觉”处理能力著称,能够深度解析图文信息并在移动设备上稳定运行。型AI新
据悉,模型Phi-3-vision 作为微软 Phi-3 家族的微软首款多模态模型,继承自 Phi-3-mini 的发布文本理解能力,兼具轻巧便携特性,视觉适用于移动平台/嵌入式终端;模型参数规模达 42 亿,型AI新远超 Phi-3-mini(3.8B),模型略逊于 Phi-3-small(7B),微软上下文长度为 128k token,发布训练时间跨度为 2024 年 2 月至 4 月。视觉
值得关注的型AI新是,Phi-3-vision 模型的模型核心优势在于其强大的“图文识别”功能,能够准确理解现实世界图像的内涵,迅速识别并提取图片中的文字信息。
微软强调,Phi-3-vision 尤其适用于办公场景,开发者针对图表和方块图(Block diagram)识别进行了专门优化,使其能够根据用户输入信息进行推理,并生成一系列决策建议,为企业提供战略参考,被誉为“媲美大型模型”的效果。
在模型训练环节,微软表示 Phi-3-vision 采用了“多元化图片与文字数据”进行训练,涵盖了一系列“精选的公共内容”,如“教科书级”教育素材、代码、图文标注数据、现实世界知识、图表图片、聊天记录等,以保证模型输入内容的丰富性。此外,微软承诺所用训练数据“可追溯”且不含任何个人信息,充分保障用户隐私。
在性能对比方面,微软提供了 Phi-3-vision 与字节跳动 Llama3-Llava-Next(8B)、微软研究院与威斯康星大学、哥伦比亚大学联合研发的 LlaVA-1.6(7B)以及阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品的对比图表,展示了 Phi-3-vision 在多项测试中的优秀表现。
鹤立鸡群日本队世预赛已取得九连胜,进38球丢0球
外国整形医生靠谱吗 映象网联合卫生监督局带你查底细
热刺64分钟连换三人,孙兴慜被换下,麦迪逊、维尔纳出战
现代环保节能采暖 选前锋壁挂炉
三星电子再次出售ASML股票 持股比例降至0.4%
白露时节昼夜温差大 夜行请披衣
一块板材通过一段奇幻之旅走上工业4.0的道路
CoWoS封装产能飙升:2024年底月产将破4.5万片,云端AI需求驱动扩产潮
中国品牌艺术涂料:找准方向 少走弯路
新品上线优惠多 盼盼防盗门“双十二”等你来抢!
细数中国品牌锁具行业的几个大事件
【投票】阿莫林承认可能要为保级而战,你认为曼联最终会排第几
谷歌正在将其搜索生成体验推广到120多个新国家
时光机丨弗格森83岁生日快乐
二房东跑路 女孩刚付7000元房租被下逐客令
斯基拉:马林准备外租离开那不勒斯,科莫领跑争夺战&黄潜也有意
蓝品优沐淋浴房 以品牌树经典
机器视觉在安防行业应用 离不开四项技术
思特威推出PC感知摄像头应用全局快门CMOS图像传感器 助力AI PC开启智视新时代
外国整形医生靠谱吗 映象网联合卫生监督局带你查底细
米体:尤文希望明年1月从埃弗顿租借贝托,担任弗拉霍维奇的替补
水性漆十大品牌的小编讲述水性漆购买误区
总结:2016年锁具行业大事记
第十三届全运会昨日闭幕 河南团共获得奖牌63枚