Whisper是OpenAI的Whisper自动语音识别ASR模型的衍生项目。
Whisper可以在Windows上使用,支持高性能GPGPU处理,可以利用GPU加速处理。
本体是个启动器,需要结合一个语言识别模型文件(ggml-tiny、ggml-small、ggml-base、ggml-medium、ggml-large)使用,模型越大,效果越好,但相对的速度也更慢。
软件特点
- 基于DirectCompute的与供应商无关的GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”
- 纯C++实现,除了基本的操作系统组件外,没有运行时依赖关系
- 比OpenAI的实现快得多。
- 混合 F16 / F32 精度:Windows 需要自 D3D 版本 10.0 起支持缓冲区R16_FLOAT
- 内置性能探查器,用于测量单个计算着色器的执行时间
- 内存使用率低
- 用于音频处理的媒体基础,支持大多数音频和视频格式(Ogg Vorbis除外), 以及大多数在Windows上运行的音频捕获设备(除了一些专业设备,它们只实现ASIO API)。
- 用于音频捕获的语音活动检测。
- 易于使用的 COM 样式 API,nuget 上提供的惯用 C# 包装器
- 提供预构建的二进制文件
软件截图
更新日志
更新了文档和 GUI 中的模型源 URL
可靠性增强,麦克风捕获不太可能转换到“停滞”状态并丢弃音频
下载地址
需要不低于Win8.1的64位Windows
文件main.exe为命令行调用工具
https://github.com/Const-me/Whisper/
已高速(如有密码:3519)http://ct.ghpym.com/d/7369060-54955802-f48a55
评论列表(9条)
下载下来 试用一下 看看效果怎么
测试了1.8.2,有bug,转换结果当中丢失了很多音频内容,会重复显示一些文字,直到结束
大佬,Whisper中文优化模型有了么
导出的是繁体蛋疼
之前版本导出是繁体,不知道这个版本有没有简体
capture使用后没有内容
不好意思,是可以的,我搞错了
生成的时间轴不标准,导致播放器无法识别。
生成带时间轴的srt字幕,导入视频中并不会显示