这是一个创建于 98 天前的主题,其中的信息可能已经有所发展或是发生改变。
请问现在国内外有哪些支持实时视频视觉的大模型 API ,大家有推荐的吗?(优先国内模型 海外也行)
就像之前 Openai 发布会那种,可以视频通话,实时对话那种的。
或者 Copilot Pro 那种,实时捕获电脑桌面,指导用户玩游戏的。
想用他们分析视频流,分析结果输出 json 等格式存储,不知思路是否可行。谢谢。
2 条回复 • 2025-03-31 13:25:51 +08:00
 |
|
1
hwdq0012 98 天前 1
视频也是拆成单帧送去推理的,ultraclity yolo 这种不算什么大模型吧,但是能把视频做成结构化数据,再用大模型加工
|