靠这个“谱”让机器会思考

科技日报 2018-01-22 08:22

原标题：靠这个“谱”让机器会思考

构建方式：从手工劳动到自动抽取

“2010年之后，维基百科开始尝试‘众包’的方式，每个人都能够贡献知识。”孙乐说，这让知识图谱的积累速度大大增加，后续百度百科、互动百科等也采取了类似的知识搜集方式，发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加，无数的知识从四面八方赶来，迅速集聚，只待“成塔”。

面对如此大量的数据，或者说“文本”，知识图谱的构建工作自然不能再手工劳动，“让机器自动抽取结构化的知识，自动生成‘三元组’。”孙乐说，学术界和产业界开发出了不同的构架、体系，能够自动或半自动地从文本中生成机器可识别的知识。

孙乐的演示课件中，有一张生动的图画，一大摞文件纸吃进去，电脑马上转化为“知识”，但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“百度知识图谱”的介绍中这样写道：对提交至知识图谱的数据转换为遵循Schema的实体对象，并进行统一的数据清洗、对齐、融合、关联等知识计算，完成图谱的构建。“但是大家发现，基于维基百科，结构化半结构化数据挖掘出来的知识图谱还是不够，因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说，例如谷歌的Knowledge Vault，以及美国国家标准与技术研究院主办的TAC-KBP评测，也都在推进从文本中抽取知识的技术。

【1】【2】【3】【4】【5】

搜索

时刻新闻

精彩推荐

强坛热帖