使用神经网络在表格中查找谜底

时间:2021-03-10 09:04

本文摘要:泉源:TensorFlow本文约2481字,建议阅读6分钟。本先容如何通过自然语言举行查询,从表格中找到所需的内容,从而提升信息的可用性和实用性。 绝大多数的信息都以表格为形式举行存储,并包罗于网页、数据库或是文档中。从消费类商品的技术规格到金融和国家生长统计数据、体育赛事效果等等,都可能使用表格存储。现在,人们需要通过手动检察这类表格才气找到问题的谜底,或者需要通过某项服务来获得特定问题的谜底(如体育赛事效果)。

英亚体育

泉源:TensorFlow本文约2481字,建议阅读6分钟。本先容如何通过自然语言举行查询,从表格中找到所需的内容,从而提升信息的可用性和实用性。

绝大多数的信息都以表格为形式举行存储,并包罗于网页、数据库或是文档中。从消费类商品的技术规格到金融和国家生长统计数据、体育赛事效果等等,都可能使用表格存储。现在,人们需要通过手动检察这类表格才气找到问题的谜底,或者需要通过某项服务来获得特定问题的谜底(如体育赛事效果)。

如果可以通过自然语言举行查询,这些信息的可用性和实用性都将获得大幅提升。例如,下图展示了一个表格以及人们可能会询问的一些问题。这些问题的谜底能在表格的一个或多个单元格内找到(“哪位摔跤手卫冕次数最多?”),或者需要联合多个单元格盘算得出(“有几多世界冠军仅卫冕过一次?”)。

表格和带有预期谜底的问题:谜底可以从表格中直接找出 (#1, #4),或通过盘算得出 (#2, #3)最近许多对于此类问题的解决方法都应用了传统的语义分析,将自然语言问题转换为类似 SQL 的数据库查询,通过对数据库执行查询来获取谜底。例如,问题“有几多世界冠军仅卫冕过一次?”将映射到类似“select count(*) where column("No. of reigns") == 1;”的查询,然后执行该查询来生成谜底。这类方法通常需要大量的工程设计才气生成句法和语义上都有效的查询,而且针对性极强,很难扩展到任意问题(如体育赛事效果)。

英亚体育

收录在 ACL 2020 的论文《TAPAS:通过预训练举行弱监视表格剖析》(TAPAS:Weakly Supervised Table Parsing via Pre-training)”中,我们接纳了差别的方法,通过对 BERT 架构举行扩展,将问题与表格数据结构一起编码,从而生成一个可直接指向谜底的模型。与建立仅适用于单一表格样式的模型差别,这种方法生成的模型可广泛应用于来自种种领域的表格。在对数百万个维基百科表格举行预训练之后,我们发现,此方法在处置惩罚 3 类学术表格问题-谜底 (QA) 数据集时在准确率方面体现出优势。

另外,为促进在这一领域展开更多卓有成效的研究,我们已开源了用于训练和测试这些模型的代码,以及已用维基百科表格举行预训练的模型,相关代码请参阅我们的 GitHub 代码库。如那边理问题为了处置惩罚“排名前两位的摔跤手卫冕冠军的平均时间?”这个问题,我们的模型使用 BERT 模型通过对问题和表格内容合并举行逐行编码,并特殊嵌入向量举行扩展,以对表格结构举行编码。同时,使用基于 Transformer 的 BERT 模型,对关键信息添加的分外嵌入向量可用于对结构化输入举行编码。

我们依靠已习得的嵌入向量编码列索引、行索引,以及一个表现数字列中元素排序的特殊排名举行索引。下方图片显示了以上所有内容如何一并在输入端完成添加并返回给 Transformer 层。下方图表通过左侧表格说明问题的编码方式。

每个单元格的 token 都有一个特殊的嵌入向量,以指明其所在的行、列,以及列中的数字排名。BERT 层输入:每个输入 token 都表现为其单词、绝对位置、句段(无论是属于问题还是表格)、列和行以及数字排名(如果该列按其数字值排序,则为单元格所处的位置)的嵌入向量总和模型有两个输出:对于每个表格单元格,输出一个分数,指明该单元格将成为谜底一部门的概率;输出一个聚合运算,指明接纳哪种运算(如有)来生成最终谜底。

下表显示详细操作,对于问题“排名前两位的摔跤手卫冕冠军的平均时间?”,该模型应选择“合并天数”列的前两个单元格和具有较高概率的“求平均值”举行运算。模型示意图:BERT 层对问题和表格同时举行编码。模型输出每个聚合运算的概率和每个表格单元格的选择概率。

对于“排名前两位的摔跤手卫冕冠军的平均时间?”这个问题,“求平均值”运算以及编号为 3749 和 3103 的单元格应有很高的概率预训练使用类似于在文本训练的 BERT 方法,我们在从英文维基百科中提取的 620 万个表格文本上对模型举行了预训练。在预训练期间,模型学习恢复表格和文本中已被掩码替换的单词。我们发现,模型可以按相对较高的精度完成此操作(对于训练期间未曾见过的表格,正确还原了 71.4% 的掩码 token)。

仅从谜底中学习在微调期间,模型学习如何回覆表格中的问题。此学习可通过使用 强监视 或者 弱监视 训练完成。如果举行强监视学习训练,对于给定的表格和问题,则必须为模型提供单元格和可选择的聚合运算(如求和或计数),这是一个费时艰苦的历程。

英亚体育

最常见的情况是,使用 弱监视 举行训练,在训练中仅提供正确谜底(例如,对上述示例中的问题,正确谜底是 3426)。在这种训练中,模型将实验找到聚合运算以及可发生靠近正确谜底的单元格。通过盘算对所有可能的聚合决议的期望值,并将其与真实效果举行比力,即可完成此操作。

弱监视训练允许非专家提供训练模型所需的数据,而且比强监视训练花费的时间更少,因而资助很大。效果我们将模型应用于三个数据集——SQA、WikiTableQuestions (WTQ) 和 WikiSQL,并将其与剖析表花样数据的前三大最先进 (SOTA) 模型举行了性能比力。对比模型包罗用于 WikiSQL 的 Min et al (2019)、用于 WTQ 的 Wang et al. (2019),以及我们之前用于 SQA 的自建模型 (Mueller et al., 2019)。

对于所有数据集,我们陈诉了用于弱监视训练情况的测试集的谜底准确率。对于 SQA 和 WIkiSQL,我们使用了在维基百科上举行预训练的基础模型,而对于 WTQ,我们发现对 SQA 数据举行分外的预训练很有益处。

我们体现最好的模型比以前用于 SQA 的最先进 (SOTA) 模型横跨 12 分以上,比以前用于 WTQ 的最先进 (SOTA) 模型横跨 4 分以上,而且性能与 WikiSQL 上公布的最佳模型性能相当。弱监视情况下对三个学术性 TableQA 数据集的测试谜底准确率致谢此项研究由苏黎世 Google AI 语言小组的 Jonathan Herzig、Paweł Krzysztof Nowak、Thomas Müller、Francesco Piccinno 和 Julian Martin Eisenschlos 协作完成。我们在此谢谢 Yasemin Altun、Srini Narayanan、Slav Petrov、William Cohen、Massimo Nicosia、Syrine Krichene 和 Jordan Boyd-Graber 就本文提出的建设性评论与建议。如果您想详细相识 本文提及 的相关内容,请参阅以下文档。

这些文档深入探讨了这篇文章中提及的许多主题:最近许多https://www.aclweb.org/anthology/P15-1142/解决方法https://www.aclweb.org/anthology/N19-1273TAPAS:通过预训练举行弱监视表格剖析https://arxiv.org/abs/2004.02349GitHub 代码库https://github.com/google-research/tapasSQAhttps://www.microsoft.com/en-us/download/details.aspx?id=54253WTQhttps://nlp.stanford.edu/blog/wikitablequestions-a-complex-real-world-question-understanding-dataset/WikiSQLhttps://github.com/salesforce/WikiSQLMin et al (2019)https://www.aclweb.org/anthology/D19-1284Wang et al. (2019)https://www.aclweb.org/anthology/D19-1391Mueller et al., 2019https://www.aclweb.org/anthology/D19-1603—完—想要获得更多数据科学领域相关动态,诚邀关注清华-青岛数据科学研究院官方微信民众平台“ 数据派THU ”。


本文关键词:使用,神经网络,在,英亚体育,表格,中,查找,谜底,泉源

本文来源:英亚体育-www.munan1069.com