“中国经验”构建多语言大模型，帮助小语种国家融入世界

2025-07-31 04:06:09
127

中国青年报客户端讯（中青报·中青网记者王烨捷）7月28日，“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”在世界人工智能大会上举办。来自亚洲、欧洲近20个国家和地区约40位人工智能领域的产学研各界代表和行业资深AI专家参加活动。

当前，由于数字化语料稀缺，全球主流大模型对低资源语言的支持严重不足，小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟，成为此次研讨会各国专家共同关注的核心议题。

塞尔维亚诺维萨德大学技术科学学院主任VladoDelić教授指出，塞尔维亚语在通用模型中token（大语言模型处理文本的最小单元）占比不足0.1%，远低于斯洛文尼亚语。“语言模型不能只服务大语种，每种语言都应拥有体现其文化身份的大模型。”他认为，为避免在医疗、法律等关键领域出现误译风险，必须构建符合本国语言特点和文化语境的国家级大模型。

以色列人类语言技术协会创始人兼董事AvnerAlgom认为“语言服务不能只为大语种设计，小语种也应拥有技术平权”；泰国皇家理工大学、坦亚武里皇家理工大学科学与科技学院院长NipatJongsawat强调“语言主权不是选择，而是国家的战略必要”；马来西亚拉曼理工大学企业孵化与创业中心副主任YuYongPoh提出“文化理解力比参数规模更重要”；柬埔寨金边皇家大学计算机科学系教授HengSovannarith指出：“如果语言被技术遗忘，这个群体也会被时代遗忘。

面对这一系列挑战，国际合作成为重要解决路径。

科大讯飞研究院院长刘聪介绍，去年10月24日科大讯飞的多语种语言模型星火X1还只能支持81种语言，到今年7月，该模型支持语言已达130多种，“我们希望构建全方位的多语言大模型和它的应用，给世界提供第二种选择”。

他介绍，星火大模型X1在阿语、德语、法语、韩语、日语等重点语种整体效果已超过GPT-4.1。此外，星火语音合成大模型支持55个语种语音合成，效果业内领先。

科大讯飞智算业务部副总经理张骁认为，中国智算产业发展迅猛但面临效率挑战，行业普遍存在算力迭代过快、实际可用算力不足、存量算力使用效率偏低等痛点。针对这些挑战，他提出需要在“算力+算法+数据”三要素基础上，引入“应用+生态”形成五要素集合的解决思路。张骁表示，通过构建人工智能公共服务平台，实现算力高效调度和开发者生态建设，能够让算力资源得到有效利用，推动智算产业健康发展。

匈牙利语言学研究中心总干事GáborPrószéky教授强调，数据质量优于数据体量，是构建可信大语言模型的关键。他指出，匈牙利语具有复杂的词缀组合及自由语序，这为大语言模型的token划分和长距离依赖建模带来独特挑战。据悉，他的团队开发PULI模型家族当前已经与中国AI同行合作，实现了从训练、语料建设到实际应用的完整闭环。

鸿蒙至道圣皇女娲发布网,提供鸿蒙至道圣皇女娲发布信息,第一时间发布列表及资讯,鸿蒙圣剑女娲是鸿蒙至道圣皇女娲小说_鸿蒙圣剑女娲首选资讯平台。