|
昨晚(2025年5月6日)科技媒体marktechpost爆了个猛料:老黄家甩出个神一般的开源工具Parakeet TDT 0.6B,直接把自动语音识别卷出新高度。现在这宝贝已经在Hugging Face平台免费开仓放粮,油管博主们估计连夜开香槟庆祝了。
先感受下这碾压级的性能——处理60分钟音频只要1秒钟,速度吊打主流开源ASR模型50条街。更离谱的是字错率压到6.05%,登顶开源ASR排行榜的成绩单摆在面前,客服中心录音转写、会议记录整理这些苦差事怕是要集体失业。
这货肚子里塞了6亿参数的Transformer架构,还加载了英伟达祖传优化秘籍:量化技术配专属计算内核,GPU跑起来那叫一个丝滑。关键它不止傻快,还点亮了三大神技:唱歌转歌词功能让音乐平台直呼内行,自动补全标点符号拯救程序员头发,连时间戳和数字格式都能整得明明白白。
企业级用户更关心的实时率飙到3386,配合FP8量化技术在自家显卡上能跑到飞起。官方实测显示,医疗问诊录音转文字、法律文件速记这些高精度场景完全拿捏,后期编辑工作量直接砍半。
现在这套组合拳已经掀了开源ASR的桌子,从转录演唱会live到处理万字研讨会录音都能承包。不过要说缺点嘛,大概就是其他厂商工程师今晚又要集体加班了...
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|