数码之家

 找回密码
 立即注册
搜索
查看: 142|回复: 0

[科技] OpenAI音频模型三连发:方言识别+真人语调,语音助手要升级了?

[复制链接]
发表于 2025-3-21 14:22:23 | 显示全部楼层 |阅读模式
让Siri和小爱同学捏把汗的技术来了!今天凌晨,OpenAI官宣三款音频处理模型,这次连东北话和广东话都能听得明明白白。

3月21日,OpenAI正式发布gpt-4o-transcribe、gpt-4o-mini-transcribe两款语音转文字模型,以及gpt-4o-mini-tts文字转语音工具。相比之前的Whisper系列,新模型在嘈杂环境下的识别准确率提升明显,现在就算用户带口音、说话忽快忽慢,AI也能稳定输出文字记录。

技术团队透露,新模型通过海量真实录音训练,特别强化了方言识别能力。在餐厅点餐、会议记录这些容易出错的场景,错误率比前代产品降低约40%。配套的语音生成工具虽然暂时只能用预设音色,但开发者可以调整语速和停顿,让合成的语音更接近真人节奏。

价格方面,语音转文字按分钟计费:标准版每分钟0.6美分,轻量版每分钟0.3美分。语音生成服务每分钟1.5美分,生成1000字内容大概花费1.2美元。所有功能已接入开发者API,配合实时语音接口,最快0.3秒就能完成语音对话。

OpenAI工程师表示,正在研发自定义音色功能,未来开发者上传5分钟录音样本,就能生成特定人声的语音助手。不过考虑到安全风险,这项功能暂时不会向公众开放。需要定制语音机器人的企业,现在可以通过官方渠道申请测试权限。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-12 01:45 , Processed in 0.202801 second(s), 10 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表