靠这个“谱”让机器会思考

科技日报 2018-01-22 08:22

原标题：靠这个“谱”让机器会思考

在权威的“知识库自动构建国际评测”中，从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中，中科院软件所—搜狗联合团队获得综合性能指标第3名，事件抽取单项指标第1名的好成绩。

“我国在这一领域可以和国际水平比肩。”孙乐介绍，中科院软件所提出了基于Co-Bootstrapping的实体获取算法，基于多源知识监督的关系抽取算法等，大幅度降低了文本知识抽取工具构建模型的成本，并提升了性能。

终极目标：将人类知识全部结构化

《圣经·旧约》记载，人类联合起来兴建希望能通往天堂的高塔——“巴别塔”，而今，创造AI的人类正在建造这样一座“巴别塔”，帮助人工智能企及人类智能。

自动的做法让知识量开始形成规模，达到了能够支持实际应用的量级。“但是这种转化，还远远未达到人类的知识水平。”孙乐说，何况人类的知识一直在增加、更新，一直在动态变化，理解也应该与时俱进地体现在机器“脑”中。

“因此知识图谱不会是一个静止的状态，而是要形成一个循环，这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning（学无止境）的概念。”孙乐说。

资料显示，目前谷歌知识图谱中记载了超过35亿事实；Freebase中记载了4000多万实体，上万个属性关系，24亿多个事实；百度百科记录词条数1000万个，百度搜索中应用了联想搜索功能。

“在医学领域、人物关系等特定领域，也有专门的知识图谱。”孙乐介绍，Kinships描述人物之间的亲属关系，104个实体，26种关系，10800个事实；UMLS在医学领域描述了医学概念之间的联系，135个实体，49种关系，6800个事实。

搜索

时刻新闻

精彩推荐