中文空间语义理解评测

2030NLP, updated 🕥 2022-08-10 02:38:51

中文空间语义理解评测


最新消息

  • 2022-07-01 论文发表:
  • 詹卫东、孙春晖、岳朋雪、唐乾桐、秦梓巍,2022,空间语义理解能力评测任务设计的新思路——SpaCE2021数据集的研制,《语言文字应用》2022年第2期(总第122期),pp.99-110。 🔗

  • 2021-12-04 CCL2021评测研讨会

  • 2021-07-23 比赛结果公布

各位参赛者:大家好!

经过激烈的角逐,本届中文空间语义理解评测的最终获奖名单已经产生,如表1所示。

表1:SpaCE2021获奖名单

| 获奖队伍 | 奖项 | | -------------------- | ------ | | bombflyman | 一等奖 | | UPSIDEDOWN | 二等奖 | | 稽查大队 | 二等奖 | | 三个火枪手 | 三等奖 | | 我们的名字刚好十个字 | 三等奖 | | NLP学习者 | 三等奖 |

各队伍的得分情况如表2所示。

表2:SpaCE2021获奖队伍得分情况

注:总分由两部分组成:(1)评测系统得分;(2)评奖答辩委员会评审得分。两个分数皆归一化至0~1区间,并加权求和。评测系统得分重为0.8,评审得分权重为0.2。

| 队伍 | 奖项 | 评测得分 | 答辩得分 | 最终得分 | 最终排名 | | -------------------- | ------ | ------------ | ------------ | -------- | -------- | | bombflyman | 一等奖 | 1.0000 | 0.8464 | 0.9693 | 1 | | UPSIDEDOWN | 二等奖 | 0.6218 | 0.5091 | 0.5993 | 2 | | 稽查大队 | 二等奖 | 0.4637 | 0.8030 | 0.5316 | 3 | | 三个火枪手 | 三等奖 | 0.2512 | 1.0000 | 0.4010 | 4 | | 我们的名字刚好十个字 | 三等奖 | 0.0000 | 0.7825 | 0.1565 | 5 | | NLP学习者 | 三等奖 | 0.1757 | 0.0000 | 0.1405 | 6 |

所有提交测试集结果的队伍成绩如表3所示。

表3:SpaCE2021测试集成绩

| 队伍 | 单位 | task1_Acc | task2_Acc | task3_F1 | z_mean | 排名 | | -------------------- | ---------------------------------------- | --------- | --------- | -------- | ------ | ---- | | bombflyman | 个人 | 0.734257 | 0.841189 | 0.647574 | 1.328 | 1 | | UPSIDEDOWN | 国网信通产业集团福建亿榕信息技术有限公司 | 0.720403 | 0.813012 | 0.622041 | 0.709 | 2 | | 稽查大队 | 国防科技大学 | 0.729219 | 0.752561 | 0.657812 | 0.451 | 3 | | 三个火枪手 | 天津大学 | 0.680101 | 0.768955 | 0.660972 | 0.103 | 4 | | NLP学习者 | 吉林大学/个人 | 0.692695 | 0.797643 | 0.584027 | -0.021 | 5 | | 我们的名字刚好十个字 | 华东理工大学 | 0.678841 | 0.804816 | 0.554873 | -0.308 | 6 | | 清博AI | 清博智能 | 0.630982 | 0.806352 | 0.616521 | -0.373 | 7 | | Nicole | 个人 | 0.692695 | 0.764857 | 0.557329 | -0.543 | 8 | | baseline | 北京大学 | 0.672544 | 0.728996 | 0.526651 | -1.346 | 9 |

  • 2021-07-10 决赛进入报告提交阶段【已截止】
  • 报告不影响比赛结果,但只有提交报告的队伍才会进入排行榜,参与最终奖项的评比。
  • 报告格式请按照学术论文写作的规范(可参考中文信息学报已发表的论文)。请注意:个人参赛者提交报告时也需注明自己所属单位。
  • 已提交报告的队伍可以再次提交进行更新,以最后一次提交为准。
  • 2021-07-01 决赛开启,最终测试集发布【已截止】

评测已进入决赛环节,现已将最终测试数据集(附带先前发布过的训练集、验证集)发送至各位邮箱,若未收到邮件,请与我们联系。

  • ~~请在 7月5日 23:59 前提交:① 最终测试结果、② 代码或代码仓库链接(附带简要使用说明;如有训练好的模型,请将模型或其链接一并提交)。~~

  • ~~请在 7月15日 23:59 前提交技术报告,内容涉及工具、方法、数据处理、参考文献等。~~

  • 2021-06-24 ~~校外临时报名通道开放~~【已截止】

  • 2021-06-24 决赛微信群开启

  • 2021-06-04 ~~北大校园网暂停校外访问~~

  • 2021-06-03 提交时可添加对方法或模型的描述

  • 2021-06-01 验证集答案发布! 🔗 点击下载 dev-with-answer

  • 2021-05-18 数据集修订

为了使本次竞赛数据集具有更好的理论效度,我们对已发布数据集中存在的一些小问题进行了修订。这些修订并不影响题目数量和答案正确性。数据的具体变化请看 此处

我们也对排行榜以及提交次数限制进行了重置,并更新了基线成绩,请大家及时下载 最新的数据集 进行训练和提交。

为了给大家提供更安全的竞赛环境,我们对竞赛网站进行了升级。从即日起,竞赛官网迁至北大校内服务器,并且采取注册账号登录后操作的方式进行报名和数据提交。网址是: http://ccl.pku.edu.cn:8084/SpaCE2021

  1. 已报名队伍的账号:用户名为队伍名称/注册邮箱,初始密码为space2021+报名所使用的手机号(不含加号)。请及时访问新网站修改密码。
  2. 竞赛的赛程有所调整,请以最新网站说明为准。
  3. 从即日起,每个队伍共可提交20次dev集的结果,新站启用之前提交的结果不计入次数。

一、任务简介

语言交际中存在大量的空间语义信息,理解这些信息是非常重要的。著名认知语言学家Jackendoff在其概念语义学理论中也指出空间结构是语言系统的四种基本结构之一(其余三个层面:语音、句法、概念语义)1

通常认为,对文本中空间信息的理解,不仅需要掌握句段中字词的语义,还需要具备一定的常识或世界知识,甚至是超出语言范畴的空间想象等认知能力。考察机器的空间认知能力是一项系统性的工作。作为初步尝试,北京大学与复旦大学的研究团队针对中文文本中空间语义的正误判断与归因,提出了本次评测任务。

如果机器具备了空间认知能力,那么它不仅要能够识别常规、正确的空间信息,还应该能够识别异常、错误的空间信息。如对于“在四面签一个名字”,人类能够意识到其中存在异常,因为“一个名字”通常不会签在“四面”;又如对于“走过火车下”,人类能够清楚地知道通常不会有人在火车的“下”方走路。可以看出,这些异常是多种多样的,具体包括:跟空间语义理解有关的词语搭配问题、上下文信息冲突问题、与常识冲突的问题等。为了方便进行不同的后续处理,机器在识别异常的同时,也需要能够对异常的原因加以解释。

基于上述观点,本次评测试图考察计算机的以下能力:(1)计算机能否正确区分正常与错误的空间语义表达;(2)计算机能否解释空间语义表达错误的原因;(3)计算机处理上述两个任务的综合能力。对应为如下三个任务:

子任务1,中文空间语义正误判断:要求参赛系统对给定的中文文本中是否存在空间关系异常加以判断。

子任务2,中文空间语义异常归因合理性判断:要求参赛系统判断给定的归因是否可以用来解释给定的中文文本中所存在的空间关系异常。这些异常被分为词语搭配问题、语义问题、语境问题、常识问题以及其他问题(详情请看后文介绍)。

子任务3,中文空间语义判断与归因联合任务:参赛系统首先需要判断给定的中文文本中是否存在空间关系异常,如果存在异常,则再判断所给定的归因是否可以用来解释这一异常。


二、数据介绍

数据以json格式发布(参见后附数据样例),各个字段说明如表1所示。

表1 数据字段说明

| 字段 | 类型 | 说明 | | --------- | ------ | ------------------------------------------------------------ | | qID | int | 试题编号。 | | context | string | 文本材料。 | | reason | string | 子任务2及子任务3中,对文本材料中空间关系异常的归因。 | | judge1 | bool | 子任务1中,对文本是否存在空间异常的判断。true表示句子成立,无异常;false表示句子不成立,有异常。 | | judge2 | bool | 子任务2及子任务3中,对归因是否能够解释材料的空间关系异常的判断。true表示归因成立;false表示归因不成立。 |

评测任务中的语料主要来源于CCL语料库,涵盖小说、散文、词典等文体。需注意实际使用的文本材料是在原始语料的基础上,替换了具有空间方位意义的词语之后,再进行人工标注和检验后得到的。最终得到7782段有效文本材料,合计86万字。各段材料字数的平均值为110.52,标准差为53.00。这些材料根据性质和任务需要被划分至评测的三个任务的不同数据集中,具体分布情况如表2所示2

表2 各子任务的数据集分布情况

| 子任务 | 训练集 | 验证集 | 测试集 | 总计 | 备注 | | --------------------------------- | ------ | ------ | ------ | ----- | ------------------------------------------------------------ | | 1、中文空间语义正误判断 | 4,237 | 806 | 794 | 5,837 | 三个数据集之间,所使用的原始语料没有交集,下同。 | | 2、中文空间语义异常归因合理性判断 | 5,989 | 2,088 | 1,952 | 10,029 | (1)任一数据集所使用的context与子任务1的验证集和测试集无交集。(2)训练集使用的context与子任务1的训练集有交集。 | | 3、中文空间语义判断与归因联合任务 | 0 | 1,203 | 1,167 | 2,370 | (1)不提供训练集。(2)验证集和测试集中使用的context与子任务1的相应数据集相同。 |

在子任务2及子任务3中,使用了多种归因类型。类型之间并不完全独立,每段材料可能对应多种归因类型。参赛系统不需要在归因类型之中做选择,而只需要判断所提供的类型是否适合用来解释材料中的错误。各类型的简介如表3所示。

表3 归因类型说明

| 类型 | 内部编号 | 描述 | 形式 | | -------- | -------- | ------------------------------------------------------------ | -------------------------------------- | | 搭配问题 | A | text1text2不能搭配,主要是因为语法、韵律、习惯等因素,通常不会这样说,而不是因为它们语义不兼容。 | “text1”和“text2”不宜搭配 | | 语义问题 | B | text1text2通常不一起使用,主要是因为它们语义通常不兼容,而不是因为语法、韵律、习惯等因素。 | “text1”和“text2”语义冲突 | | 语境问题 | C | text1text2之间存在冲突,主要是因为在当前语境中,具体信息存在冲突,而不是因为二者语义不兼容。 | “text1”与上下文“text2”存在信息冲突 | | 常识问题 | D | text1所描述的内容不符合常识,这个常识由commonsense描述。 | “text1”与常识不符[:commonsense] |


三、评价标准

对于子任务一子任务二,使用准确率(Acc,Accuracy)作为评价指标。

Acc = 命中正确答案的题数 / 题目总数

对于子任务3,使用F1值作为评价指标。公式如下,其中 PR 分别代表准确率(Precision)和召回率(Recall):

F1 = 2*P*R / (P+R)

PR 的计算公式如下,其中 TPTNFPFN 分别代表命中数量、正确拒绝数量、误报数量、漏报数量,下标表示judge所属的步骤。

P = (TP_2 + TN_2) / (TN_1 + FN_1)

R = (TP_2 + TN_2) / (TN_1 + FP_1)

注意上面公式中 TP_2TN_2 只计算judge1判断为false 的情况。

评分的计算脚本可参考: evaluate.py (注:此脚本仅供参考,发现任何问题请联系我们)。

最终排名:在所有参赛队伍的评测结果产生之后,计算每个任务下各个队伍的标准分数(Z-score),对三个任务的标准分数取平均,作为最终排名的依据。标准分数计算公式如下,其中 为平均数, s 为标准差:

Z = (X - X̄) / s

基线系统

我们提供一个基线系统供参赛队伍参考: SpaCE2021-Baseline


四、比赛日程

| 日期 | 事项 | | ------------------ | ------------------------------------------------------------ | | 2021年4月1日 | 开放报名,发布训练集以及无答案的验证集 | | 2021年4月5日 | 开放结果提交 | | 2021年6月1日 | 发布验证集答案 | | 2021年7月1日 | 发布无答案的测试集,开始提交最终模型及技术报告 | | 2021年7月5日 | 最终模型提交截止 | | 2021年7月15日 | 技术报告提交截止 | | 2021年7月23日 | 公布结果,比赛结束 | | 2021年8月13日-15日 | CCL 2021评测研讨会 |


五、报名方式

请在网站注册并报名: SpaCE2021

请注意:

  1. 报名时间:2021年4月1日至2021年6月30日 ~~6月1日~~ ;
  2. 一个团队只需由负责人或联系人填写一次报名表单即可;
  3. 报名即表示已经阅读并承诺遵守参赛协议( Agreement.md );
  4. 如有其他问题,请直接联系评测委员会:[email protected] (孙春晖);
  5. 主办方会在每个工作日检查新的报名队伍并通过邮件发送回执。

六、奖项设置

评测奖金由华为公司赞助,奖池共计40000元:

一等奖(1名),奖金15000元;

二等奖(2名),各奖8000元;

三等奖(3名),各奖3000元。

七、委员会

单位:北京大学,复旦大学

主席:詹卫东,穗志方(北京大学);邱锡鹏(复旦大学)

工作组:孙春晖,唐乾桐,秦梓巍,董青秀,李卓,张洁,邱晓枫,李楠 等(北京大学);李孝男(复旦大学)

联系人:孙春晖  联系方式:[email protected]


脚注

1 参看 Jackendoff(2002)著作《Foundations of language: Brain, meaning, grammar, evolution》第1.2、1.5节。

2 每段材料配合不同归因将会形成不同题目,因此题目数量大于材料数量。

nlp evaluation spatial cognitive cognition