Kaggle能用ai吗(没打过看过想问问)?

首先你用AI只要你不说,没人知道。

所以:我的回答是可以,但是没必要

这要得分两个层面聊

我先给你分享几个ai打kaggle的研究,这个24年就有了:

AutoKaggle,2024年10月发布的。这个系统设计了五个专门的AI agent:Reader负责读题和理解数据,Planner做整体规划,Developer写代码,Reviewer审查代码质量,Summarizer总结经验教训。这五个agent配合起来,能完整走完一个Kaggle竞赛的全流程。

论文我不给你贴了,我直接给你贴github

https://github.com/multimodal-art-projection/AutoKaggle

他们在8个精心挑选的Kaggle竞赛上测试,平均完成率83.8%,平均排名能到42.8%。听起来好像不算特别牛?但要知道这是完全自动化的,人类一点不插手。

还有一个Agent K,2024年11月的工作。这个系统在81个不同的Kaggle任务上学习,最后拿到了1694的Elo-MMR分数。这个分数什么概念?超过了Kaggle Masters(全球前2%的那批人)的中位数水平。

这个我没找到代码,只有论文:

https://arxiv.org/abs/2411.03562

成绩单更夸张6金3银7铜的表现水平,其中有4金4银是在有奖金的正式竞赛里拿的。论文里说Agent K是第一个成功整合了Kolb和Vygotsky那套人类认知学习理论的AI系统,听起来挺玄学。

上面的不是重点,重点是:你为什么要打Kaggle?

大部分人打Kaggle不是为了拿奖金(那点钱也不够塞牙缝),而是为了学东西。数据清洗怎么做、特征工程怎么搞、模型调参的感觉、过拟合怎么处理——这些东西你得自己趟过一遍才能真正掌握。

让AI帮你打比赛,就像让别人帮你健身一样荒谬。肌肉长在别人身上,你还是那个弱鸡。

而且面试这关你根本过不去。面试官问你"这个特征为什么这么处理"、"当时遇到过拟合你怎么解决的"、"为什么选LightGBM而不是XGBoost",你能答得上来吗?答不上来立马露馅,简历上写的那些项目经验瞬间变成笑话。

Kaggle的真正价值

Kaggle竞赛封装了数据科学家日常工作的核心:理解业务问题、探索数据、构建特征、训练模型、优化性能。这整套思维方式和工作流程,是你在实际工作中天天要用的。

你在Kaggle上踩过的坑、试过的方法、积累的知识才是真正的财富。看到一个数据集你能大概判断出该用什么模型,看到一个排行榜的提升曲线你能猜到别人可能用了什么技巧——这种sense是AI教不会你的。

尤其是讨论区里那些大佬分享的经验、Notebooks里别人的代码思路、你自己试了一百种方案最后发现最简单的反而最有效——这些才是学习的过程。

最后我再给你屡一下上面2个研究的具体比赛你就知道了

AutoKaggle 测试的8个比赛:

基于论文附录B的详细信息,AutoKaggle选择了8个Kaggle比赛:

Classic Kaggle(2023年10月前开始的经典比赛):

  1. Titanic - 分类任务,中等难度,13,994支队伍
  2. Spaceship Titanic - 分类任务,简单难度,1,720支队伍
  3. House Prices - 回归任务,中等难度,4,383支队伍
  4. Ghouls, Goblins, and Ghosts (Monsters) - 分类任务,简单难度,763支队伍

Recent Kaggle(2024年及以后开始的比赛):

  1. Academic Success - 回归任务,中等难度,2,684支队伍
  2. Bank Churn - 回归任务,简单难度,3,632支队伍
  3. Obesity Risk - 分类任务,简单难度,3,587支队伍
  4. Steel Plate Defect - 回归任务,中等难度,2,199支队伍

说的难听一点都是最基础的任务,狗都不看,而且像Titanic 基本就是ML的hello world,分享的人很多,llm能拿高分肯定是训练集里面有代码。

然后就是Agent K

论文提到它在81个任务上进行了学习和测试,但论文中没有列出这81个比赛的完整清单

所以我估计有很多的是结束的任务,并且任务结束后大佬本都会分享自己的思路和代码,这其实是一种数据泄露,有名字也算正常,但是他的思路我是肯定的,多agent写作应该值得我们学习。

最后

我觉得AI辅助能提高效率,但想真正学会数据科学、在面试和实际工作中站得住脚,还得自己动手练。

  • 自动化重复性工作(数据清洗、编码转换)
  • 快速生成baseline代码
  • 做初步的数据分析和可视化
  • 提供一些调参建议

AI做这些应该都没问题,关键是你自己必须理解问题本质和业务背景、做关键的特征工程决策,这才是关键,

原始链接: https://www.zhihu.com/question/1962171400186998791/answer/1962538420766242035
侵权请联系站方: [email protected]

相关推荐

换一批