构建基于BERT的中文NL2SQL模型:一个简明的基准
作者:书友62423539 | 来源:互联网 | 2024-12-27 17:36
本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。
在之前的文章《当BERT遇见Keras:最简单的实现方式》中,我们介绍了基于BERT微调的三个NLP示例,体验了BERT的强大功能和Keras的便捷性。本文将在此基础上进一步介绍基于BERT的NL2SQL模型。
NL2SQL指的是“自然语言到SQL语句”的转换任务,近年来受到了广泛关注,是AI领域中具有实际应用价值的研究方向之一。笔者参与了今年公司举办的首届“中文NL2SQL挑战赛”,该比赛使用金融和通用领域的表格数据作为数据源,提供自然语言与SQL语句的匹配对,鼓励参赛者训练能够准确转换自然语言到SQL的模型。
此次比赛投入了大量资源进行宣传推广,奖金丰厚,但NL2SQL作为一个相对冷门的研究领域,热度有限。主办方为此发布了一个基于PyTorch的Baseline模型,以降低入门门槛。本着提供Keras版本Baseline的心态,我利用业余时间完成了这个项目,加载预训练的BERT模型,简化并提升了模型效果。
每个数据样本包含一个表格ID、一个问题及相应的SQL语句。例如:
```json
{
"table_id": "a1b2c3d4",
"question": "世茂茂悦府新盘容积率大于1,请问它的套均面积是多少?",
"sql": {
"sel": [7],
"agg": [0],
"cond_conn_op": 0,
"conds": [
[1, 2, "世茂茂悦府"],
[6, 0, "1"]
]
}
}
```
SQL语句格式化清晰,便于处理。生成的SQL应在对应的数据表上可执行并返回有效结果。具体来说,`sel`字段是一个多标签分类问题,`agg`字段则与之对应,类别固定。`cond_conn_op`是单标签分类问题,而`conds`涉及条件列、运算符和值的预测。
模型架构如图所示,主要包括四个分类器:序列标注器等。首先,我们将问题句子和所有表头拼接输入BERT模型编码,每个表头视为一个句子,用[CLS]***[SEP]括住。通过BERT编码后,利用向量进行后续分类。
第一个[CLS]向量用于预测连接符,后续的[CLS]向量用于预测各列是否被选择及聚合函数。对于条件预测,分两步进行:先预测条件值,再预测条件列。条件值预测是一个序列标注问题,条件列预测则通过计算相似度完成。
整个模型的实现难点在于mask处理,代码主要集中在数据读取、预处理和后处理部分。最终,模型在离线验证集上的全匹配率约为50%,官方评估指标为(全匹配率 + 执行匹配率) / 2,估计得分约为55%。
欢迎读者尝试本模型,并提出宝贵意见。完整代码见GitHub链接。
推荐阅读
-
本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ...
[详细]
蜡笔小新 2024-12-07 14:28:06
-
尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络(RNN)的门槛,但对于初学者来说,理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理(NLP)的RNN模型。 ...
[详细]
蜡笔小新 2024-12-26 11:29:15
-
-
本文探讨了如何在Python中处理长数据的完全显示问题,包括numpy数组、pandas DataFrame以及tensor类型的完整输出设置。 ...
[详细]
蜡笔小新 2024-12-02 11:17:26
-
来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ...
[详细]
蜡笔小新 2024-12-28 09:00:51
-
欢迎订阅我们的技术博客,获取更多关于C#、ASP.NET和SQL的最新资讯和资源。 ...
[详细]
蜡笔小新 2024-12-26 13:54:47
-
本文详细介绍如何在Windows 10操作系统上通过Visual Studio 2015编译Caffe2深度学习框架的过程。包括必要的软件安装、环境配置以及常见问题的解决方法。 ...
[详细]
蜡笔小新 2024-12-15 18:03:52
-
回顾与学习是进步的阶梯。再次审视卷积神经网络(CNNs),我对之前不甚明了的概念有了更深的理解。本文旨在分享这些新的见解,并探讨CNNs在图像识别和自然语言处理等领域中的实际应用。 ...
[详细]
蜡笔小新 2024-12-11 13:41:49
-
2018年4月15日,京东在北京举办了人工智能创新峰会,会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果,还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ...
[详细]
蜡笔小新 2024-12-06 22:57:11
-
探索AI领域的高质量论文与代码资源,包括但不限于计算机视觉和深度学习框架PyTorch的实用资料。 ...
[详细]
蜡笔小新 2024-12-06 17:25:02
-
如何用GPU服务器运行Python-目录前言一、服务器登录1.1下载安装putty1.2putty远程登录 1.3查看GPU、显卡常用命令1.4Linux常用命令二、 ...
[详细]
蜡笔小新 2024-12-06 11:54:09
-
本文探讨了在同一台机器上安装并管理多个CUDA版本的方法,以适应不同软件或项目的需求。特别是在使用旧版PyTorch等依赖特定CUDA版本的软件时,该方法尤为实用。 ...
[详细]
蜡笔小新 2024-12-04 12:20:57
-
本文综述了图神经网络(Graph Neural Networks, GNN)的发展,从传统的数据存储模型转向图和动态模型,探讨了模型中的显性和隐性结构,并详细介绍了GNN的关键组件及其应用。 ...
[详细]
蜡笔小新 2024-11-28 13:27:43
-
本文介绍了如何利用snownlp库对微博内容进行情感分析,包括安装、基本使用以及如何自定义训练模型以提高分析准确性。 ...
[详细]
蜡笔小新 2024-11-27 15:01:46
-
本文由技术爱好者痞子衡撰写,详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程,为开发者提供一个强大的开源解决方案。 ...
[详细]
蜡笔小新 2024-11-26 16:27:12
-
作者提供代码在https:github.comthunlpOpenNRE网址主要技术:文章主要是通过一对实体和对应的多个包含实体对的句子实例作为训练数据集ÿ ...
[详细]
蜡笔小新 2024-11-25 13:23:21
-
书友62423539
这个家伙很懒,什么也没留下!