“中国经验”构建多语言大模型,帮助小语种国家融入世界

  • 2025-07-31 04:06:09
  • 127

中国青年报客户端讯(中青报·中青网记者王烨捷)7月28日,“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”在世界人工智能大会上举办。来自亚洲、欧洲近20个国家和地区约40位人工智能领域的产学研各界代表和行业资深AI专家参加活动。

当前,由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟,成为此次研讨会各国专家共同关注的核心议题。

塞尔维亚诺维萨德大学技术科学学院主任VladoDelić教授指出,塞尔维亚语在通用模型中token(大语言模型处理文本的最小单元)占比不足0.1%,远低于斯洛文尼亚语。“语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型。”他认为,为避免在医疗、法律等关键领域出现误译风险,必须构建符合本国语言特点和文化语境的国家级大模型。

以色列人类语言技术协会创始人兼董事AvnerAlgom认为“语言服务不能只为大语种设计,小语种也应拥有技术平权”;泰国皇家理工大学、坦亚武里皇家理工大学科学与科技学院院长NipatJongsawat强调“语言主权不是选择,而是国家的战略必要”;马来西亚拉曼理工大学企业孵化与创业中心副主任YuYongPoh提出“文化理解力比参数规模更重要”;柬埔寨金边皇家大学计算机科学系教授HengSovannarith指出:“如果语言被技术遗忘,这个群体也会被时代遗忘。

面对这一系列挑战,国际合作成为重要解决路径。

科大讯飞研究院院长刘聪介绍,去年10月24日科大讯飞的多语种语言模型星火X1还只能支持81种语言,到今年7月,该模型支持语言已达130多种,“我们希望构建全方位的多语言大模型和它的应用,给世界提供第二种选择”。

他介绍,星火大模型X1在阿语、德语、法语、韩语、日语等重点语种整体效果已超过GPT-4.1。此外,星火语音合成大模型支持55个语种语音合成,效果业内领先。

科大讯飞智算业务部副总经理张骁认为,中国智算产业发展迅猛但面临效率挑战,行业普遍存在算力迭代过快、实际可用算力不足、存量算力使用效率偏低等痛点。针对这些挑战,他提出需要在“算力+算法+数据”三要素基础上,引入“应用+生态”形成五要素集合的解决思路。张骁表示,通过构建人工智能公共服务平台,实现算力高效调度和开发者生态建设,能够让算力资源得到有效利用,推动智算产业健康发展。

匈牙利语言学研究中心总干事GáborPrószéky教授强调,数据质量优于数据体量,是构建可信大语言模型的关键。他指出,匈牙利语具有复杂的词缀组合及自由语序,这为大语言模型的token划分和长距离依赖建模带来独特挑战。据悉,他的团队开发PULI模型家族当前已经与中国AI同行合作,实现了从训练、语料建设到实际应用的完整闭环。