用 streamlit 和 phidata 测试了一下 Gemini 2.0 ,对图像的识别挺强的。 应该是将视频转换为图片来处理的,对中文的识别也挺准确,生成的结果也挺准确,逻辑性也很强。但是视频长度比较长的,可能超过了 API 的限制,无法生成结果。 视频 PKM 准备就用 Gemini 2.0 了 #22 <img width="60%" alt="gemini" src="https://github.com/user-attachments/assets/f3e91e09-9147-4e90-820b-a68e8f33e017">