人民网联合山东数字文化集团共建全国首个主流文化语料库

8月25日,人民网与大众报业集团、山东数字文化集团共建主流价值语料库(山东)、主流文化语料库(山东)合作签约暨项目推进会在济南举行。会议现场,人民网与山东数字文化集团正式签约,共建全国首个主流文化语料库,推动数字文化产业高质量发展。

随着人工智能加速迭代,高质量数据集作为人工智能模型训练与应用的基石,成为人工智能能力提升和“人工智能+”场景落地的关键支撑。2025年1月,国务院办公厅印发的《关于推动文化高质量发展的若干经济政策》提出,“建设文化领域人工智能高质量数据集,支持文化领域大模型建设”。

主流文化语料库由人民网和山东数字文化集团共建,依托人民日报、人民网、大众报业集团等党报党网长期建设发展形成的新闻、理论、评论、政策等权威媒体资源,结合山东省内文化单位、高校多年来积累的优质私域文化资源,系统性注入主流价值观,确保语料时刻与国家脉搏同频、与社会价值共振,打造成可供AI领域放心使用的“价值合规型”数据资源。经数据采集、清洗、预标注、标注、增强、校审等环节,通过“AI+人工”的方式,精心打磨而成。

据了解,该语料库具有标准统一、结构完整、权威准确、开放共享等特色,通过标准化的语料分类系统和专业的数据标注平台,可有效解决当下AI大模型普遍存在的敏感领域语料欠缺、重要文化领域语料不足、核心语料质量不高等问题。为解决通用大模型常因缺乏针对性语料而“水土不服”的问题,主流文化语料库可深入区域和垂直领域的具体场景,构建富含行业术语和场景化表达的精准语料资源,进一步增强AI的理解力,提升应用效能,加速AI技术与垂类领域的深度融合,驱动产业升级。

作为全国首个主流文化语料库,一期重点聚焦山东优秀文化,目前已上线问答语料5万对、基础语料2000万篇,正在打造孔子学术研究、孔子画像等多个高质量数据集。后续计划分期分批建设覆盖广泛、内容丰富主流文化数据集,推动文化大模型的性能跃迁与数字文化产业高质量发展。(顾玉雪)