
当今,用 LLM 一键就能生成百万级范畴知识图谱了?!
来自中科大 MIRA 实验室究诘东说念主员建议一种通用的自动化知识图谱构建新框架SAC-KG,晋升终结 be like:
当使用 ChatGPT 手脚基础模子时,SAC-KG 达到了 89.32% 的准确率和 81.25% 的范畴特异性,联系于 SOTA 设施晋升了 20%。

一直以来,知识图谱构建技能永恒是究诘热门。
不外对构建范畴知识图谱来说,由于需要无数的大众知识和东说念主工侵扰,其实践应用受到严重截至。
对此,最近基于诳言语模子(LLM)的构确立施成为了一种新趋势。但仍存在一些问题,严重影响所构建范畴知识图谱的真正度。
针对上述痛点,究诘团队进一步建议了 SAC-KG,关连论文已发表在 CCF-A 类东说念主工智能顶级会议 ACL 2024 Main。并确立部署范畴知识图谱自动构建平台 SAC-KG,支柱输入大范畴范畴语料,一键生成高质料范畴知识图谱。

SAC-KG 是怎样使命的
由于诳言语模子出色的语义贯串才息争生成才调,基于 LLM 的设施成为了一种新趋势。通过愚弄 LLM 中存储的先验知识,从原始语料中提真金不怕火三元组。
然则,基于 LLM 的设施仍面对一些问题。输入中的陡立文噪声和输出中的知识幻觉会导致作假或不关连的三元组生成,从而严重影响所构建范畴知识图谱的真正度。
为了处置上述问题,该究诘建议了一种全新的自动化知识图谱构建通用框架 SAC-KG,愚弄诳言语模子手脚范畴知识图谱的自动化构建大众,在给定范畴语料的情况下,以自动化、精确性和可控性为主见提真金不怕火三元组。
该框架包含三个组件:生成器、考据器和剪枝器。

生成器
率先,生成器包括范畴语料检索器和通达知识图谱检索器,离别为指定的实体从范畴语料库和通达知识图谱中检索最关连信息。
其中,范畴语料检索器提供最关连的文本语料手脚 LLM 的输入,减少陡立文噪声的引入;通达知识图谱检索器提供与实体最关连的三元组手脚示例,匡助端正模子的输出神情。
LLM 的输入包括与实体关连的陡立文、三元组示例以及相应的教唆,输出为生成的以指定实体为头实体的三元组。
考据器
由于 LLM 存在知识幻觉,可能生成作假三元组,因此由考据器认真检测并过滤掉由 LLM 生成的作假三元组。
这一流程分为两个才略:作假检测和作假改造。
在作假检测阶段,考据器会实践三种查抄并进行标志:
数目查抄:淌若生成的三元组数目少于阈值(默许是 3 个),则标志为"数目不及"。
神情查抄:淌若三元组不合适预界说神情,则标志为"神情作假";淌若头实体不匹配预界说实体,则标志为"头实体作假";淌若头实体和尾实体接洽,则标志为"头尾矛盾"。
封锁查抄:考据器会检测三元组中的逻辑封锁。举例,确保一个东说念主的出身时刻早于物化时刻,且年纪不为负数。
在作假改造阶段,左证检测到的作假类型提供相应的教唆,并重新让 LLM 生成正确的输出。举例,淌若是"神情作假",会教唆模子"请严格按照神情条件重荣达成,把稳三元组的神情"。

剪枝器
知识图谱的助长流程不错看作一棵树的逐层增长,从浅到深徐徐获取范畴知识,意味着下一层三元组的头实体是上一层三元组的尾实体。
在经过考据器考据后,将得到的正确三元组整合到生成的新层图谱中,并继续生成下一层三元组。
然则,并不是统共三元组王人需要继续生成下一层。举例," ( 稻米 , 最好助长温度 ,20-25 摄⽒度 ) "是正确的三元组,但尾实体" 20-25 摄氏度"不需要手眼下一层的头实体进行进一步生成。
为了提高知识图谱的可控性,该究诘引入剪枝器,这是一个在开源知识图谱 DBpedia 上微调的 T5 二分类模子。输入为每个正确三元组的尾实体,输出为"助长"或"修剪",示意是否需要继续生成下一层图谱。
磨真金不怕火剪枝器时,从 DBpedia 汇集磨真金不怕火数据,将部分头实体手脚"助长"类的代表,尾实体则手脚"修剪"类的代表。通过这些实体文本和对应标签进行微调。
实验及终结主实验
在归并范畴的知识图谱自动构建中,究诘团队使用GPT-4进行自动和高效的评估。
如表 1 所示,SAC-KG 发达优异,迥殊了多个基线模子。
四个基线模子包括 OpenIE6、StanfordOIE、DeepEx 和 PIVE,其中前两者为基于规矩的三元组抽取设施,而 DeepEx 连合了 Bert 模子与规矩技能,PIVE 则径直使用 ChatGPT 构建知识图谱。
SAC-KG 在知识图谱构建上永恒优于这些设施,尤其在准确率和范畴特异性上发达杰出。

当使用 ChatGPT 手脚基础模子时,SAC-KG 达到了 89.32% 的准确率和 81.25% 的范畴特异性,显耀优于基于规矩的设施,联系于 SOTA 设施晋升了 20%。
消融实验
消融实验中,究诘团队每次迭代上钩算这些方针,以获取更紧密的终结。
他们将莫得通达知识图谱检索器的 SAC-KG 记作 SAC-KGw/oprompt,莫得范畴语料检索器的记作 SAC-KGw/otext,莫得考据器的记作 SAC-KGw/overifier,莫得修剪器的记作 SAC-KGw/opruner。

如表 2 所示,SAC-KG 中的任一组件缺失王人会导致通盘框架性能下跌。
至极是,修剪器和通达知识图谱检索器对 SAC-KG 的性能影响更为显耀。这两个组件离别端正生成场地和添加示例,标明在知识图谱构建流程中晋升可控性的关键性。

究诘团队进一步可视化了 SAC-KG 每个消融版块生成的前三层知识图谱。如图所示,齐备的 SAC-KG 版块发达出最好的合座终结,且每一层中的作假三元组数目莫得显耀互异。这一本旨标明,在范畴知识图谱的迭代生成流程中,作假传播并不昭彰。违犯,去除了文本处理模块(SAC-KGw/o text)和剪枝模块(SAC-KGw/o pruner)的版块披败露昭彰的作假传播,导致在第三层生成的作假三元组数目显耀加多。而去除了教唆模块(SAC-KGw/o prompt)和考据模块(SAC-KGw/o verifier)的版块仅能提真金不怕火较少的三元组,这意味着话语模子在穷乏示例和作假改造流程的情况下难以从范畴语料中回归知识。这些终结进一步说明了框架内每个组件对构建流程的关键孝敬。
OIEbenchmarks
SAC-KG 在传统的通达信息抽取任务中的有用性和凡俗适用性通过多个开源基准数据集的实验得到了考据。
实验终结披露,SAC-KG 在这些传统 OIE 基准数据集上,显耀优于现存的开拔点进设施。
至极是,在与基于规矩的设施(如 OpenIE6 和 StanfordOIE)和基于大范畴话语模子的设施(如 DeepEx 和 PIVE)的相比中,SAC-KG 永恒达到最好终结,诠释了其在传统 OIE 任务中的有用性和鲁棒性。

小结
针对大范畴范畴知识图谱构建资本高、精度低这一复杂的实践问题,本究诘建议了基于大模子的迭代式范畴 / 知识图谱通用构建框架。
该框架扫尾了多源范畴语料中的精确知识检索,并连合开源图谱扫尾了自恰当教唆机制,通过模拟树助长流程,凯旋构建了百万级的高质料范畴图谱。
论文发表在 CCF-A 类东说念主工智能顶级会议 Annual Meeting of the Associationfor Computational Linguistics(ACL 2024 Main)。
论文作家第一作家陈瀚铸是中国科学技能大学 2021 级硕博连读生,师从王杰磨真金不怕火,主要究诘场地为知识图谱与诳言语模子,数据合成等。曾获 KDDCup 公共高校团队第一等荣誉。
论文地址:
https://aclanthology.org/2024.acl-long.238.pdf
通达构建平台:
http://8.149.242.106:5000(可试用)
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 状貌主页连续,以及关连格式哦
咱们会(尽量)实时回话你

点这里� � 关怀我,紧记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~
