爱科技、爱创意、爱折腾、爱极致,我们都是技术控
您需要 登录 才可以下载或查看,没有账号?立即注册
x
速记员这个职业大家都不陌生,他们能在各类场合高效迅速地将演讲内容转化为会议记录。如果把速记员变成软件,其核心功能就是语音识别 + 转写。这类需求使用场景广泛,在线视频 AI 字幕、线上会议 / 网课的速记、生肉番剧 / 电影 / 歌曲字幕的制作和转译、通话录音等等,都会用到。 速记的精髓在于速度,快最重要,但在很多场景中,无论是人力还是软件,都无法达到超快的转写速度和准确率,而满足专业用户高效转写需求的工具,往往需要付费获取。如某品牌的语音转写畅想包订阅费用是 79 元连续包月,599 元 / 年;另一款则需要注册企业用户,然后找客服咨询费用标准,据说标准版费用是每个用户 199 元 / 年,高级版费用则是每个用户 299 元 / 年。 对企业 / 专业用户来说,付费订阅软件一定最佳选择,它们的速度快、无需高性能硬件成本(GPU)、准确率高、支持人工精校,肯花钱甚至可获得一对一的专属客服支持,但如果只是偶尔使用性价比就不是很高了。 另外,这些订阅软件的 AI 服务,通常需要用户将原始的视频或音频文件上传到服务器和全程联网,且通过厂商的专业设备在云端运行,如果视频或音频文件中包含个人隐私 / 商业等内容,显然也不太合适。 关于 Whisper 那有没有一款完全免费开源,不需要联网,完全依赖本地硬件算力去跑语音识别和转写,准确率还不低的语音转写软件呢?或许喜欢关注 AI 领域的朋友早就有了答案,它就是来自的 OpenAI 团队所开发的 Whisper。从官网的介绍文章日期上不难看到,Whisper 早在 2022 年 9 月就已经推出,但时至今日它依旧是最好用的免费语音转写工具。 说它最好用原因有三点,一是它的语种支持广泛(99 种),二是转写速度超快,三是识别准确性很高,且只需要一张高性能显卡就能办到,这几点我都会在后面的体验中给大家详细分析。 先给大家简单科普下 Whisper,它是一个多模态语音识别模型,基于 Transformer 引擎所打造,通过了 68 万个小时的语音数据训练,支持 99 种语言(包括中文),在具备语音识别能力的同时,还支持语音活性检测(VAD),声纹识别,说话人日志 (Speaker Diarization,即在多人对话场景下检测不同人物的说话时间段),语音翻译(翻译为英文),语音对齐等能力,其英文识别准确率非常强悍。 而上面所提到的 Transformer 引擎,恰好 NVIDIA 在 RTX 40 系列显卡上引入了一个针对 AI 计算的新硬件特性,具体来说 RTX 40 系显卡增加了对 FP8 低精度浮点数的支持,基于 Transformer 引擎,相比 AI 训练常用的 FP16 半精度浮点数来说,动态范围相当,在相同加速平台上的峰值性能显著超越后者,但 FP8 更少的位数有利于减小空间占用和提升网络利用效率,允许模型拥有更多的参数量,从而算得更快。 有意思的是 OpenAI 迄今为止推出的大模型,包括大家耳熟的 GPT,Sora.,Dell 以及今天提到的 Whisper,都是基于 Transformer 模型所开发,这类模型的参数量巨大,并利用了 Transformer 模型所拥有的 Scability(可扩展性)特性,可以不断叠加模型的参数和神经网络层数,获得更精细和强大的 AI 能力。 此外,OpenAI 团队也注意到了 Transformer 模型的自注意力机制,使其能够理解序列中任意两个词元间的联系并无视距离,提高输出的质量和连贯性。自注意力还可扩展为多头注意力,允许模型将数据信息切割细化为矩阵(头),然后对每个矩阵(头)分别进行自注意力计算,最后合并输出。 在这两种机制下,Transformer 模型捕捉的信息类型更全面,学习能力和表达能力也更突出。正是由于 OpenAI 将 Transformer 模型作为产品发展平台的策略,以及 RTX 40 系显卡对 FP8 Transformer 引擎的支持,才使得 RTX 40 显卡成为普通消费者现阶段体验 Whisper 最合适的硬件。 这就不得不提到本次体验用到的两个重要硬件,第一个是 i9-14900K 处理器,作为最新一代消费级市场旗舰级定位的 CPU,其采用了 24 核心 32 线程的核心规格,最高睿频频率可达 6GHz,不仅自身性能强悍,也不会影响显卡性能的发挥。 主角则是这款影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡,它基于 AD103 核心所打造,包含 8448 个 CUDA 核心,显存位宽提升到了 256bit,并拥有 16GB GDDR6X 的大显存。 它所搭载的第四代 Tensor Cores 核心专为 AI 而生,新增的 FP8 引擎支持,使其具有高达 1.32 petaflops 的 Tensor 处理性能,可实现混合精度计算,动态调整算力,对于万亿级参数生成式 AI 模型的训练速度提升 4 倍,性能可达 FP16 的 6 倍,推理性能提升 30 倍,非常适合拿来体验 Whisper 的性能。 而在外观上,影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡亦是设计感拉满,纯白卡身装甲,自带亚克力“水晶”外壳,三风扇支持 RGB 光环特效,还附送专属定制显卡支架,颜值非常出色,拿来组白色海景房简直是绝配。 那既然是拿它来跑 AI,显卡驱动也得选 Studio 驱动,否则跑出来的速度很可能不太理想。目前 NVIDIA 官网提供的最新 Studio 驱动版本为 555.99。 部署 Whisper 首先 Whisper 是一个模型而非软件,它基于 Python 编程语言开发,直接下载 GitHub 上的原版部署的话就需要通过命令行工具来运行。好在现在已经有不少支持 Whisper 的 GUI 软件,其中简单易用的代表就是 Buzz 和 Whisper Desktop 了。 选择这两款 GUI 软件的原因也非常简单,第一是两款软件都免费,体积占用非常小,最新 v0.8.4 版本的 Buzz 安装包仅有 197MB,完全安装后的占用空间约 1.21GB,而 Whisper Desktop 甚至只需要 324kb 大小的单文件和一个配置文件就能运行。
|