对话全国政协委员、知乎创始人兼CEO周源：中国大模型面临中文语料资源短缺的挑战

admin 阅读：61954 2024年03月05日

“我个人感觉两次参会的变化还是挺大的，需要准备的工作也很多。”近日，全国政协委员、知乎创始人兼CEO周源在接受21世纪经济报道记者采访时说道。

2023年，周源首次以全国政协委员身份参加全国两会。他表示，“去年我是站在知乎平台的视角，看到了知识数据流动的问题，所以提交了一份关于打破流动壁垒的提案”。

在过去一年，周源进行了很多思考，也发现一些问题没有那么简单。“很多问题是有相关性的，比如提到数据红利时，会涉及知识产权保护的问题，也会涉及新技术所带来的行业改变问题。把这些问题放在一起思考，会发现行业和行业之间都有一定的相关性，所以今年我准备了多份提案，这个过程也是一个不断深入思考的过程。”

对话全国政协委员、知乎创始人兼CEO周源：中国大模型面临中文语料资源短缺的挑战
图片来源于网络，如有侵权，请联系删除

据21世纪经济报道记者了解，周源今年提交的提案内容，分别涉及新质生产力、民营经济、大模型、科普、知识产权保护等方向。

对话全国政协委员、知乎创始人兼CEO周源：中国大模型面临中文语料资源短缺的挑战
图片来源于网络，如有侵权，请联系删除

周源。资料图

发展新质生产力的关键在人才支撑

在周源看来，“新质生产力代表了生产力发展的新趋势和新变化，它指向提升经济发展的质量和效率。高质量发展的必要条件就是新质生产力，它是非常重要的内在要求和着力点。”

而在发展新质生产力的过程中，民营企业扮演了重要角色。周源认为，新质生产力有三个“新”。首先是新业态，“民营企业可以扮演新业态试验田的角色，很多民营企业比较灵活，愿意去抓一些看起来比较小的、新的现象和需求，并以小步快跑的形式进行尝试”。

其次，民营企业是新模式的创新者。“当有了新业态后，企业就要想怎么去构建商业模式。有些模式是可借鉴的，有些则是以前没有需要重新去思考和设计的。这个过程很残酷，可能会有企业的生生死死，但从整个行业发展角度，企业推动了新模式的创新。”周源说道。

最后，民营企业是新产业的主力军。周源表示，“一个产业最后之所以能成为产业，一定不单单因为有一个超大型的公司，而是分层次产生了很多‘小巨人’企业。从规模和数量的角度，在新的产业里，民营企业都扮演着主力军角色。”

至于如何发展新质生产力，周源提出，新质生产力的源头在科技创新，落脚点在产业升级，关键因素在人才支撑。所以加快形成新质生产力，不仅需要“高精尖缺”科技人才，还要有一大批高素质技术技能人才、大国工匠、能工巧匠等。

因此在提案当中，周源也建议“健全‘新职人’群体终身职业技能提升机制”。所谓“新职人”群体，是指接受过高等教育，具有科学文化素养和专业经验技能，从事先进制造业和第三产业，居住在城镇的从业人员，预计规模达到4亿人。

中文语料资源短缺问题亟待解决

在接受记者采访过程中，周源多次提到，随着人工智能技术的快速发展，尤其是以GPT为代表的大模型技术的崛起，人工智能已经成为经济社会发展的关键驱动力。

但在周源看来，尽管中国在大模型领域取得了一定成就，但仍面临着一些挑战，其中最显著的问题之一是高质量中文语料资源的短缺。

IDC Global DataSphere 2022数据显示，2021-2026年中国数据量规模将由18.51ZB增长至56.16ZB，年均复合增长率达到24.9%，高于全球平均水平。然而，尽管国内存量数据资源丰富，但由于数据挖掘不足、无法自由在市场上流通等现状，目前中文优质数据仍然稀缺，如ChatGPT训练数据中中文资料比重不足千分之一,而英文资料占比超过92.6%。

这也导致国内许多从事大模型开发的研究机构和企业在进行模型训练时，不得不依赖于外文标注数据集、开源数据集，或是爬取网络数据。

周源向21世纪经济报道记者表示，解决中文语料资源短缺的问题，实际上应该是先构建“水库”，然后再去合理使用的过程。但是现在，行业对构建“水库”的工作重视不够，反而都比较看重怎么去“打水”，所以未来几年，中文语料资源短缺都将是一个特别严重的问题。

因此在提案中，周源也建议“加快高质量中文数据集的开发与利用”。周源认为，首先要规范数据标注标准。“中文数据要素存在数据不完整、标注不一致、数据重复、数据更新等问题，建设标准化、规范化的数据标注方法，有助于加快数据要素的共享、流通与交易。”

其次是要加快探索数据要素交易模式。因缺乏合理的定价机制、明确的供需关系、成熟的商业模式，国产数据集市场影响力及普及度还存在较大差距。而由政府引导或相关行业组织牵头构建有利于数据交易模式创新与合规的新秩序，有助于推动数据交易行业有序发展和健康成长。

最后，周源建议要加大政府主导的公共数据资源开放共享。其指出，“当前，我国已开始全面部署和推行公共数据开放制度，但公共数据开放仍然存在数据开放利用不充分、不协同、不平衡、不可持续等问题，加快构建标准统一、布局合理、管理协同、安全可靠的公共大数据资源体系，有助于大模型训练数据质量提升。”