|
本帖最后由 Meise 于 2025-2-15 22:18 编辑
"我们训练AI模型时,最头疼的就是找不到地道日语对话数据。"东京大学人工智能实验室的研究员山田浩司边整理资料边向采访媒体吐槽。这个困扰日本科技界多年的难题,最近被四家本土企业组成的"复仇者联盟"盯上了——软银、 Macromill、Valright咨询和日本全效电话营销公司联手启动"GENIAC计划",要在2025年10月前建成全日本最大的生成式AI数据库。
这个被政府钦点的项目来头不小,背后站着经济产业省和新能源产业技术开发机构(NEDO)。核心目标简单粗暴:从3万名志愿者身上采集100万组问答对话,相当于让每个参与者完成33轮真实场景的角色扮演。想象一下,未来两年半里,数万人要化身便利店店员、电车乘务员甚至神社巫女,在调查员的引导下完成各种脑洞大开的对话任务。
项目组分工明确得像精密齿轮:软银负责搭建数字高速公路,Macromill调动二十年市调经验抓数据,Valright当起数据保安队长,全效电话营销公司则化身项目管家。就连国家队的产业技术综合研究所也来助攻,搬出今年1月刚启用的ABCI 3.0超级算力,活脱脱给这个数据库套上涡轮增压器。
"日本现在就像捧着金饭碗要饭。"项目负责人拿着数据报表直摇头,全日本生成式AI开发者都在用欧美数据集训练模型,本土方言和职场敬语根本学不会。这次要打造的"黄金题库"不仅包含日常对话,还要把数据采集方法、隐私防护方案打包成标准套餐,让后来者能直接"抄作业"。
别看计划书里写着"验证数据有效性"这种正经话,实际操作堪比大型剧本杀现场。志愿者不仅要模拟公司会议扯皮,还得扮演医生患者讨论治疗方案。所有对话都会被脱敏处理,最后变成AI模型的"营养套餐"。经济产业省去年十月选中这个梦之队时就看准了,这四家公司攒在一起的能耐,足够把日本AI数据荒漠改造成黑土地。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|