跳转至

Configure & Debug

重新编写视觉模块记录

约 3412 个字 • 265 行代码

由于以前的视觉部分的代码看起来很💩(感觉代码文件的结构很混乱,不够易读),于是打算重新编写新的。

我先是分别询问了chatgpt和copilot关于如何在摄像头一直保持开启的状态下,切换使用不同的功能

实现人脸比对功能的记录

约 895 个字 • 116 行代码

由于比赛中,在完成任务之后,需要回到发出这个任务的志愿者前,所以需要识别出这个志愿者,因此需要使用人脸比对功能

于是询问Microsoft Copilot如何实现

实现检测人脸朝向相对相机偏移程度的记录

约 2642 个字 • 287 行代码

由于比赛需要机器人走到志愿者的正面后,再向志愿者询问,所以打算通过检测人脸朝向相对于相机的偏移程度(人脸正对相机认为不偏移),来判断机器人是否到达志愿者的正面

于是通过询问Microsoft Copilot,找到了一个比较好用的github的仓库

yinguobing/head-pose-estimation: Realtime human head pose estimation with ONNXRuntime and OpenCV. (github.com)

3D生成模型 3DTopia/LGM 复现过程记录

约 766 个字 • 76 行代码

xformers版本与torch版本不匹配

按照README.md中的指示安装环境时,按顺序 pip install 之后,尝试运行时,显示了torch 2.1.0版本与xformers的要求不匹配的警告,

查看xformers版本为 0.0.26 ,于是打算安装低版本的xformers,

pip install xformers==0.0.23 -i https://download.pytorch.org/whl/cu118

安装时,发现会安装 2.1.1 版本的torch,于是就添加上了 --no-deps 的选项(不安装依赖),

pip install xformers==0.0.23 --no-deps -i https://download.pytorch.org/whl/cu118

再次运行,就没有版本不匹配的报错了

安装xformers后,提示torchaudio torchvision的版本不兼容了 · Issue #24 · 3DTopia/LGM (github.com)

记录第一次使用远程服务器

约 442 个字 • 4 行代码

起因

由于大创项目需要跑一个文生3D模型,于是给开了一个学校服务器的账号,

使用vscode连接

提到需要使用ssh方式连接,并且推荐使用MobaXterm和vscode,于是先搜索了如何使用vscode连接远程服务器,

参考了这个文章

「效率」使用VScode连接远程服务器进行开发 - 知乎 (zhihu.com)

使用百度AI的api

约 479 个字 • 25 行代码

由于RoboCup的Receptionist项目,需要通过视觉图像识别出志愿者身上的4个特征

如衣服的颜色、头发的颜色、性别和年龄至少 4 个特征

一开始打算寻找已经训练好的神经网络模型来进行识别,但是搜索了几个并尝试运行,效果也不是很好

尝试本地部署大模型(Llama 3)

约 569 个字 • 8 行代码

突然想尝试本地部署大模型,然后最近刚好同学又提到了Llama 3,于是搜索如何在本地部署这个模型,然后搜索到这个教程(还挺新的)

Windows(Win10、Win11)本地部署开源大模型保姆级教程-CSDN博客

按照这个教程安装好了Ollama、Hyper-V、Docker Desktop,并下好了Llama 3 8B (默认就是8B),