中国网4月1日讯(记者 刘佳)20世纪中文信息处理技术解决了汉字进电脑、上网络的历史性问题,迎来从“铅与火”到“光与电”的革命。时至今日,人工智能技术快速发展,中国如何加强数字中文建设,从而推动中文信息处理技术创新发展?
在教育部3月31日举行的新闻发布会上,中国网记者就此提问北京大学王选计算机研究所所长汤帜。他认为,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集,同时形成“技术突破—场景落地—生态繁荣”的良性循环。
中国网记者现场提问。中国教育报记者 张劲松/摄
20世纪80年代,王选院士的团队发明激光照排技术,并结合汉字的编码标准,突破了中文数字化的空间限制,让承载中华文化的中文在全球互联网空间获得新生。当前,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。中文信息处理技术的发展从以往解决汉字输入输出的基础性问题,进阶到当先释放语言文字数据要素价值的全方位突破。
汤帜认为,加强数字中文建设需从三个维度重塑发展格局,推动中文信息处理技术发展进入新阶段:即从重要资源转化到数据要素价值;从广泛存在聚焦到关键领域应用;从基础支撑提高到赋能全局发展。
汤帜表示,新形势下,语言文字将实现从“静态符号”向“动态数字资产”,从“信息载体”向“生产要素”的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。
语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。新形势下,语言文字将实现从符号存储到智能建模的质变,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。
当前,人工智能技术发展迅速,语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革。汤帜强调,新形势下,语言文字将实现与信息技术的深度融合,要形成“技术突破—场景落地—生态繁荣”的良性循环,打造数字化引领品牌,有力服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步。
编审:张艳玲 王月博
出品人:王晓辉
总监制:薛立胜
监制:蔡晓娟
制片人:王月博
主编:刘佳
编辑:韩雅洁 孙晓彤 仝选
技术支持:王岳
页面设计:顾榕楠 张宇彤
推广:王涛 倪静静 常瑶 张运兴 刘倩
《向Youngπ》系列可视化产品将聚焦中外“Z世代”群体,以青年的视角认识中国道路,以青年的思想理解中国的立场,以青年的语言讲好中国故事,为促进人类进步事业提供新动力。
联系方式:86-10-88828193
86-10-88828221
电子邮件:caifang2024@126.com