跨语言词汇语义标注与映射:基于OntoNotes中文语义词典例句的研究

讲次 第 二 讲
主讲人 许洪志
开始时间 2024年05月30日(周四)12:30
结束时间 2024年05月30日(周四)13:30
地点 松江校区-松江校区五教楼语料库研究院136报告厅
腾讯会议:539-165-439
语言 汉语
内容提要

词网语义词典(WordNets)在自然语言语义处理上具有非常重要的价值,将不用语言的词网中的义项集(synsets)进行映射是跨语言词汇语义处理和计算的重要基础。本研究采用 OntoNotes 数据库的中文语义词典中释义的例句为对象,并尝试使用英语 WordNet 词典直接对中文词义进行标注。给定一个目标单词以及包含它的示例,标注者的主要任务是选择一个最能描述上下文中目标词词义的 WordNet 义项集。结果显示两个标注者之间的一致率为 38%。 研究还分析了标注不一致的案例,通过对同一个目标词所对应的两个不同义项集的语义关联(包括它们在 WordNet 概念层次结构中的位置)进行深入研究,揭示了词汇词义关联的有趣模式,并从侧面揭示了 WordNet 结构中相似概念的关联。OntoNotes是自然语言处理领域重要的带标注语言资源数据库。本研究标注的数据可以提供从 OntoNotes 中文语义词典中的词义与英文 WordNet 词典中义项集的映射,从而提升了 OntoNotes 语料库的价值。 与基于不用语言WordNet义项集的直接映射相比,本研究采用基于实例的标注方式,该方式具有不受词义定义的模糊性和不准确性影响的优点,提供了一种映射不同语言 WordNet的新方法。

人物简介

许洪志

许洪志,博士,助理研究员,上海外国语大学语言科学与多语智能应用重点实验室、语料库研究院专职科研人员,志远青年学者。主要研究方向为计算语言学、形式语义学和语用学理论及计算、跨语言形态学的分析与计算。

更多活动
选择日期当天没有活动!