这是一个用于测试和比较不同LLM(大语言模型)性能的项目。 (插个广告:目前个人项目和代码首发都在 今日头条:物联全栈123 专注DeepSeek等大模型的RAG知识库和智能体在工业领域的落地开发和分享。欢迎关注。)
本项目旨在对不同的LLM模型进行性能测试和比较,帮助开发者了解各个模型在实际应用场景中的表现。
- Python 3.11+
- uv (Python包管理工具)
- 安装uv:
brew install uv
- 创建虚拟环境:
uv venv
- 激活虚拟环境:
source .venv/bin/activate
- 安装依赖:
uv pip install -r requirements.txt
├── app.py # 演示文件
├── models.csv # 模型配置文件
├── pyproject.toml # 项目依赖配置
├── test_results/ # 测试结果目录
└── uv.lock # 依赖版本锁定文件
将models.csv.example 改为models.csv 并填入自己的apikey信息
python app.py
然后等待完成即可
- 确保已正确配置环境并激活虚拟环境
- 运行测试脚本进行性能测试
- 测试结果将保存在 test_results 目录中
测试结果将以结构化的形式保存在 test_results 目录中,包含各个模型的性能指标和比较数据。
欢迎提交Issue和Pull Request来帮助改进这个项目。
本项目采用 MIT 许可证。