数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 137|回复: 1

[科技] 英伟达Parakeet TDT 0.6B开源登顶!1秒转录60分钟音频秒杀全场

[复制链接]
发表于 2025-5-7 23:07:42 | 显示全部楼层 |阅读模式
昨晚(2025年5月6日)科技媒体marktechpost爆了个猛料:老黄家甩出个神一般的开源工具Parakeet TDT 0.6B,直接把自动语音识别卷出新高度。现在这宝贝已经在Hugging Face平台免费开仓放粮,油管博主们估计连夜开香槟庆祝了。

先感受下这碾压级的性能——处理60分钟音频只要1秒钟,速度吊打主流开源ASR模型50条街。更离谱的是字错率压到6.05%,登顶开源ASR排行榜的成绩单摆在面前,客服中心录音转写、会议记录整理这些苦差事怕是要集体失业。

这货肚子里塞了6亿参数的Transformer架构,还加载了英伟达祖传优化秘籍:量化技术配专属计算内核,GPU跑起来那叫一个丝滑。关键它不止傻快,还点亮了三大神技:唱歌转歌词功能让音乐平台直呼内行,自动补全标点符号拯救程序员头发,连时间戳和数字格式都能整得明明白白。

企业级用户更关心的实时率飙到3386,配合FP8量化技术在自家显卡上能跑到飞起。官方实测显示,医疗问诊录音转文字、法律文件速记这些高精度场景完全拿捏,后期编辑工作量直接砍半。

现在这套组合拳已经掀了开源ASR的桌子,从转录演唱会live到处理万字研讨会录音都能承包。不过要说缺点嘛,大概就是其他厂商工程师今晚又要集体加班了...

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
发表于 2025-5-8 09:32:21 | 显示全部楼层
开源工具Parakeet TDT 0.6B,直接把自动语音识别卷出新高度
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-20 23:42 , Processed in 0.171600 second(s), 9 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表