实现麦克风录音并使用faster-whisper无文件读写地进行语音识别
约 1459 个字 • 203 行代码
前两天在搜索比较快速/轻量的语音识别模型时,发现了faster-whisper,测试了一下发现居然使用cpu也能跑,并且速度不慢准确率也不低。
由于我的应用场景中是需要使用麦克风先进行录音然后再进行识别的,faster-whisper官方仓库中给出的示例使用代码是读取文件进行识别的
继续阅读
本站目前共记录 62 篇文章
约 1459 个字 • 203 行代码
前两天在搜索比较快速/轻量的语音识别模型时,发现了faster-whisper,测试了一下发现居然使用cpu也能跑,并且速度不慢准确率也不低。
由于我的应用场景中是需要使用麦克风先进行录音然后再进行识别的,faster-whisper官方仓库中给出的示例使用代码是读取文件进行识别的
约 10946 个字 • 664 行代码
背单词的过程中,由于自测也是按照背的顺序,因此比较容易想到对应的词义,但是突然见到其中一个单词时,发现会想不起来。于是就想让deepseek写一个可以随机显示单词,并且根据“记不清”的次数调整出现概率的python程序
约 2811 个字 • 150 行代码
由于之前使用宝塔面板在服务器中部署了博客,但是把博客放在一级目录下(因为没域名😅,用多个一级目录就可以部署多个网页),而根目录中的 index.html
是宝塔面板默认生成的页面,如果要修改也想不到什么好的想法,就想着从根目录直接跳转到博客里算了。
于是去询问DeepSeek
约 385 个字 • 826 行代码
由于想要在编写的代码中声明类型(方便在使用自己编写的函数时,查看返回的类型),于是开始查看pyrealsense2包中的代码,然后发现只有一个 __init__.py
# py libs (pyd/so) should be copied to pyrealsense2 folder
from .pyrealsense2 import *
而 __init__.py
路径下是 pyrealsense2.cp310-win_amd64.pyd
文件,就意识到这是一个使用c++编写的库(而python只是将其进行了封装),所以无法直接从源代码中查看库中的类和函数。
约 3273 个字 • 167 行代码
由于之前Gitee停止了Pages服务,国内访问Github Pages页面比较慢,所以想将用MkDocs生成的blog网页部署到之前买的云服务器上(就能方便在国内进行访问)。但是blog又不时会进行更新,所以询问DeepSeek是否有比较方便的部署方法
约 131 个字 • 10 行代码
想反编译一个pyc文件,一开始在网上搜到一个github上的开源的工具decompyle3,安装好之后进行尝试,然后出现了下面的报错
约 645 个字 • 23 行代码
由于同学需要摄像头的焦距等参数来将深度帧的数据转换成3维坐标系中的坐标,所以开始在网上搜索相应的方法
一开始找到了这篇文章,
Azure Kinect 获取相机内参 - BuckyI - 博客园 (cnblogs.com)
但是安装了pykinect_azure包后,运行文章中的代码出现了报错,就放弃参考这篇文章了
约 14594 个字 • 2714 行代码
6号晚上开始和队友看题,看完A B C题,感觉B题偏向概率论,C题有点太开放了感觉不是很好写,而A题感觉就是一个运动学的题目,(刚好以前PhO的运动学知识还残存着...,并且队友也略懂物理)感觉会比较好写出来,于是就开始分析A题中的题目。
不过在一开始还是把A B题都ChatGPT分析了一下