谷歌AI发布CardBench评估框架:包含20个真实数据库

谷歌AI团队推出CardBench基准,助力关系数据库查询性能优化

近日,谷歌AI研究团队发布了一套名为CardBench的基准,旨在为学习型基数估计(cardinality estimation,简称CE)提供系统评估框架。CardBench基准是一个综合评估框架,包含了20个不同真实数据库中的数千次查询,相比以往的任何基准都有显著提升。

基数估计是优化关系数据库查询性能的关键因素,它涉及到预测数据库查询将返回的中间结果数量,这对查询优化器选择执行计划有着直接的影响。在涉及多个表和过滤器的复杂查询中,准确的基数估计尤为重要。然而,现有的一些数据驱动方法由于没有完整的基准,难以对不同的模型进行比较和评估其在不同数据集上的通用性。

CardBench基准能够在各种条件下对学习到的基数模型进行全面评估。该基准支持三种关键设置:基于实例的模型、零点模型和微调模型。其中,基于实例的模型是在单个数据集上进行训练;零点模型是在多个数据集上进行预训练,然后在一个未见数据集上进行测试;微调模型则先进行预训练,然后使用目标数据集的少量数据进行微调。

CardBench基准测试涵盖了9125个单表查询和8454个二进制连接查询,适用于其中一个较小数据集,以确保为模型评估提供强大且具有挑战性的环境。实验结果显示,即使是500次查询,对预训练模型进行微调也能显著提高其性能。

总之,CardBench基准在学习的基数估计领域取得了重大突破。通过提供全面、多样的基准,可以系统地评估和比较不同的CE模型,从而推动这一关键领域的进一步创新。CardBench基准为训练新模型成本过高的实际应用提供了可行性方案,特别是在训练数据有限的情况下。

发表回复