加速高质量中文数据集的开发 大模特如何更好地读懂“中国”(“十五五”文化热点词·推动文化与科技融合) 记者 王云山 “过马路的时候一定要小心车辆!” “我打算明天去车展看看车。” 这两句话中的“看车”是同一个意思吗?相信很多人都会会心一笑。从表面上看,这是同一个短语,但由于上下文不同,其含义发生了变化。 这是汉语中普遍存在的“一词多义”现象。大规模人工智能模型是与人类语言密切相关的技术。大规模模型要深入理解这一现象,离不开中国数据的持续供给。 目前,中国数据占国内大部分模型训练数据的60%以上,部分模型达到80%。什么是大模型训练中增加中国数据比例有何意义?中国优质数据为何持续上涨?如何进一步加大中国数据的开发和供给?记者进行了采访。 数据就像大模型的“知识教科书” 不同语言的数据如何影响大型模型的性能? “数据就像一个大模型的‘知识教科书’,教科书语言的不同特征会对模型的知识体系产生不同的影响。”清华大学计算社会科学与国家治理实验室执行主任、教授孟庆国说。 从知识来源来看,大模型中国过去常常面临“数据依赖”的风险——英文数据在全球互联网中占据很大一部分。例如,前沿科技论文、行业标准、文化经典等经常在E中呈现。英语,全球高质量的注释数据通常是英文的。 “基于大型语言的模型通常必须符合某些语言行为。”工信部信息通信经济专家委员会委员盘和林认为,中国数据占比的增加,不仅让用户更容易了解输出结果,也保证和提高了中国在大规模模型方面的研发能力。 “如果中国数据占比较低,该模型将在重大技术迭代中容易受到‘数据授权限制’和‘更新延迟’的影响。”孟庆国表示,提高中国数据的比重,有助于中国在“数据安全”和“技术独立”方面迈出重大一步,有助于中国在发展大规模模型方面占据主动。 “中国特有的文化习俗、隐喻表达、政策规则等ta 很难用英文数据来表示。 “模型长期研究英文数据产生的‘英文认知逻辑’,在理解中国人特有的思维方式时容易出现偏差。”科大讯飞消费者AI互动事业部总经理赵彦军表示,中文数据占比的增加,提高了大模型理解中国文化、中国场景的能力。比如中医问诊中,“热”、“湿”等概念需要有中文语境才能准确推理。 从知识传承的角度来看,中国数据给我国带来了几千年的文化积淀。中国数据占比的提升,将让大模型推动中国文化的数字化传播。 “中文数据比例高的模型可以解释‘文言虚词的使用’、‘诗词规则’等。例如,当解释“以《论语》、《孟子》等中国经典为例,突出传统文化教育。”孟庆国说。 提供高质量中文数据的能力不断增强 普通中文数据和高质量中文数据有什么区别?典型的数据大多是未经分析的在线文本和不专业的内容,容易出现事实错误或概念混乱。高质量的数据必须经过“事实核查和专业分析”,语义准确、来源可追溯。 要了解高质量的中国数据的重要性,我们可以从医疗诊断的专业场景开始。今年8月,中医临床医学知识图谱《泛医学知识图谱》在浙江台州发布。 “目前,大模型学习到的一些医学知识都来自于互联网上的公开数据,而这些公开数据有的不严谨,有的已经过时了。传统,有些更新较晚。这些情况会对大型模型生成的结果产生负面的 epekto 影响。 ”浙江省智能医疗决策重点实验室主任林辉表示,马盘的每一个医学知识都在“马盘的医学知识知识”中分析医学知识,“马盘的知识知识”中的每一个医学知识点都有明确的来源,并且医学进展是动态更新的。 大模型性能的提升体现了高质量中国数据的价值。在一系列因素的共同努力下,我国优质数据供给能力不断增强—— 政策是支持的。来自“数据元素 技术上有突破。由于中文数据“歧义多,上下文依赖性强”,早期标注成本是英文数据的1.8-2.5倍。随着科技的不断进步,贫困也在发展中减少。例如,国内的“中文语义标注系统”可以自动识别“打毛衣”、“打电话”中“打”的含义,将标注效率提升三倍,有效降低成本。 业界已有共识。国内垂直场景对大规模“中国适配”模式的需求持续升温,推动中国数据从“辅助补充”走向“核心资源”,更多企业参与中国数据的开发。例如,中国移动开发了覆盖30多个行业、超过3500TB(太字节)的通用高质量数据集。 共同制定标准,剖析多种场景 Token(通常称为“词元素”)是用于处理文本的最小数据单元。数据显示,2024年初,我国日均Token消费量将达到1000亿。截至今年9月底,我国日均Token消费量突破40万亿。这些数字的背后,是中国数据资源价值的快速积累和释放。 如何进一步做好中国数据的开发和提供?专家学者提出了想法和建议。 首先是标准的制定。现有的中文数据中,重复内容较多,高质量数据较少。尤其是在医疗、工业等垂直领域,高质量的数据更加困难。例如,在医疗数据中,有的医院在病历中简单地写上“发烧”,而有的医院则写着“发烧38.5摄氏度,伴有咳嗽2天”,如果没有一个共同的“尺子”来判断数据的质量,进一步的发展将难以前进。 “明确各个领域的中文注释标准后,将更有利于评价和激励机制的发展和完善。 “孟庆国认为加快中国数据分类标准研究制定,激发中国数据供给活力。 二是技术过硬。在生成高质量数据集的过程中,仍然不可避免地遇到大量的数据孤岛和合规问题。例如,不同机构的数据由于隐私、安全等合规要求,难以跨域流通,导致不同机构对数据进行重复标注,既浪费地图资源,又达不到规模效应。 “新一代标注技术可以推广应用,在原始数据不出域、隐私安全得到保障的情况下,完成跨机构协同标注,从而整合多个机构的力量,避免重复工作。”赵彦军说。 此外,场景还需要增强。我的国家特里的产业体系完整,其广度和深度决定了对更细分情况的中国数据的需求。 “比如元界这样的新兴场景,中文数据的使用量只有英文的1/5;再比如中医、非遗等传统场景数字化程度较低,大量有价值的信息还没有转化为可用的数据源。专门收集不同垂直场景的中文数据,激活行业应用。” 推动文化与科技融合 拟议的“十五五”规划提出“促进文化与科技融合”。探索文化与科技融合的有效机制,需要运用互联网思维和信息技术改善文化创作生产流程,推动数字赋能和信息化。文化建设转型。 “文化IP+科技体验”正在改变文旅产业生态。通过线上数字平台与线下沉浸式场景相结合,不少地区打造数字文旅空间,开发“旅游+智慧”新应用,实现文化与科技的双向赋能。 “文创+人工智能”拓展产业融合场景。目前,以大模型为代表的人工智能技术已深度融入影视、文化博物馆等领域,催生了人工智能短剧、博物馆数字文物等新产品,不仅丰富了文化表达方式,也培育了更多文化消费新场景。 “特色文化+数字科技”助力乡村全面振兴。通过数字技术,整合结合标志性农产品和农村非物质文化遗产技能进行微短片等内容创作,可以进一步提升特色文化产品的创作能力和表现力,为乡村全面振兴注入新动能。 ——北京大学文化产业研究院学术委员会主任 陈少峰