呼吁构建“中国古典知识库”|大数据|数据化

　　本报讯（记者张蕾）计算机科学的发展使得大数据时代不期而至。然而，对于人文学术尤其是古代人文学术而言，利用大数据提升研究方式的瓶颈随之出现，即可用于统计分析的关系型数据库建设还相当薄弱。为此，全国人大代表、全国人大外事委委员、清华大学教授何福胜在全国两会上呼吁构建“中国古典知识库”。

　　何福胜说，我国现有的基本电子古籍资源库，一是规模不够庞大，二是只能用于简单字词检索，还不是结构化、关联性、知识再生型数据库。“21世纪以来，国外已开始对书籍进行大规模数字化，我国自上世纪九十年代至今，也构建了较为丰富的古籍电子数字资源，但相对于20万种现存中国古籍来说，已得到数字化的还只是很小一部分。”

　　何福胜表示，随着计算机深度学习能力、文本挖掘等大数据相关技术和人工智能学科的快速提升与发展，学界在呼吁继续推进古籍数字化的同时，开始呼吁古籍由数字化向数据化即知识库的转变。

　　何福胜介绍，数字化和数据化的最大区别是，前者仅可提供简单的字词检索，后者则具结构化、关联性，可自动进行知识再生。辅之以相应的工具，借助此前中外一切中国古典学的研究成果，在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构，周密地设定主题词表，专业地提取各种实体，如年代、地域、人物、事件等，构建实体的相关属性及不同实体间的关系，通过这些实体及相互关系对文献进行深层组织和知识管理，这就是“中国古典知识库”。

　　 “到那时，许多基础性的学术工作都可让位给计算机来做，学者就可以去做计算机仍然不能做的工作了。”何福胜认为，“中国古典知识库”从基本实现的那一刻起，人们从事学术研究的条件将大大改善，研究的起点将大大提升，设定的目标亦将大大不同于往日。

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。