Windows桌面版Whisper客户端

GitHubStore GitHubStore

项目简介

该项目是whisper.cpp 实现的Windows 移植。
它又是 OpenAI 的 Whisper 自动语音识别 (ASR) 模型的 C++ 端口。

快速入门指南

从该存储库的“Releases”部分下载 WhisperDesktop.zip，解压 ZIP，然后运行 WhisperDesktop.exe。

在第一个屏幕上，它会要求您下载模型。
我推荐 ggml-medium.bin （大小为 1.42GB），因为我主要使用该模型测试了该软件。

下一个屏幕允许转录音频文件。

还有另一个屏幕可以捕获和转录或翻译来自麦克风的实时音频。

特征

基于 DirectCompute 的与供应商无关的 GPGPU；该技术的另一个名称是“Direct3D 11 中的计算着色器”
纯 C++ 实现，除了必要的操作系统组件之外没有运行时依赖项
比 OpenAI 的实施快得多。
在我配备 GeForce 1080Ti GPU 的台式计算机上，中等型号，使用 PyTorch 和 CUDA 转录 3 分 24 秒的演讲需要 45 秒，但使用我的实现和 DirectCompute 只需要 19 秒。
Funfact：这是 9.63 GB 的运行时依赖项，而 Whisper.dll 为 431 KB
混合 F16 / F32 精度：自 D3D 版本 10.0 起，Windows 需要支持 R16_FLOAT 缓冲区
内置性能分析器，可测量各个计算着色器的执行时间
内存使用率低
用于音频处理的 Media Foundation，支持大多数音频和视频格式（Ogg Vorbis 除外）以及大多数在 Windows 上工作的音频捕获设备（除了一些仅实现 ASIO API 的专业设备）。
用于音频捕获的语音活动检测。
该实现基于 Mohammad Moattar 和 Mahdi Homayoonpoor 于 2009 年发表的文章“一种简单但高效的实时语音活动检测算法”。
易于使用的 COM 风格 API。nuget 上提供了惯用的 C# 包装器。
版本 1.10 引入了对 PowerShell 5.1 的脚本支持，这是 Windows 上预安装的较旧的“Windows PowerShell”版本。
可用预构建的二进制文件

唯一受支持的平台是 64 位 Windows。
应该适用于 Windows 8.1 或更高版本，但我只在 Windows 10 上进行了测试。
该库需要支持 Direct3D 11.0 的 GPU，到 2023 年，这意味着“任何硬件 GPU”。不支持 D3D 11.0 的最新 GPU 是 2011 年的 Intel Sandy Bridge。

在CPU方面，该库需要AVX1和F16C支持。

项目链接

https://github.com/Const-me/Whisper

关注「GitHubStore」公众号

扫一扫以下微信

1 加入技术交流群，备注「开发语言-城市-昵称」

2 若招聘需求，技术合作等「商务合作」，备注「合作」

继续滑动看下一个