IEPile 大规模信息抽取语料库 

日期

2 个月前

大小

1.83 MB

机构

浙江大学

发布地址

github.com

IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。

研究团队通过精心整合 26 个英文和 7 个中文 IE 数据集,并采用提出的「基于 schema 的轮询指令构造方法」,包括构建难负样本字典和轮询式指令生成,确保了数据集的高质量。 IEPile 的构建显著提升了大型模型在信息抽取任务,尤其是零样本泛化能力上的表现,为信息抽取研究提供了宝贵的资源。

IEPile.torrent

做种 1

下载中 0

已完成 28

总下载 134

  • IEPile/
    • README.md
      1.47 KB
    • README.txt
      2.94 KB
      • data/
        • IEPile-main.zip
          1.83 MB