Kaggle能用ai吗(没打过看过想问问)?
首先你用AI只要你不说,没人知道。
所以:我的回答是可以,但是没必要
这要得分两个层面聊
我先给你分享几个ai打kaggle的研究,这个24年就有了:
AutoKaggle,2024年10月发布的。这个系统设计了五个专门的AI agent:Reader负责读题和理解数据,Planner做整体规划,Developer写代码,Reviewer审查代码质量,Summarizer总结经验教训。这五个agent配合起来,能完整走完一个Kaggle竞赛的全流程。
论文我不给你贴了,我直接给你贴github
https://github.com/multimodal-art-projection/AutoKaggle他们在8个精心挑选的Kaggle竞赛上测试,平均完成率83.8%,平均排名能到42.8%。听起来好像不算特别牛?但要知道这是完全自动化的,人类一点不插手。
还有一个Agent K,2024年11月的工作。这个系统在81个不同的Kaggle任务上学习,最后拿到了1694的Elo-MMR分数。这个分数什么概念?超过了Kaggle Masters(全球前2%的那批人)的中位数水平。
这个我没找到代码,只有论文:
https://arxiv.org/abs/2411.03562成绩单更夸张6金3银7铜的表现水平,其中有4金4银是在有奖金的正式竞赛里拿的。论文里说Agent K是第一个成功整合了Kolb和Vygotsky那套人类认知学习理论的AI系统,听起来挺玄学。
上面的不是重点,重点是:你为什么要打Kaggle?
大部分人打Kaggle不是为了拿奖金(那点钱也不够塞牙缝),而是为了学东西。数据清洗怎么做、特征工程怎么搞、模型调参的感觉、过拟合怎么处理——这些东西你得自己趟过一遍才能真正掌握。
让AI帮你打比赛,就像让别人帮你健身一样荒谬。肌肉长在别人身上,你还是那个弱鸡。
而且面试这关你根本过不去。面试官问你"这个特征为什么这么处理"、"当时遇到过拟合你怎么解决的"、"为什么选LightGBM而不是XGBoost",你能答得上来吗?答不上来立马露馅,简历上写的那些项目经验瞬间变成笑话。
Kaggle的真正价值
Kaggle竞赛封装了数据科学家日常工作的核心:理解业务问题、探索数据、构建特征、训练模型、优化性能。这整套思维方式和工作流程,是你在实际工作中天天要用的。
你在Kaggle上踩过的坑、试过的方法、积累的知识才是真正的财富。看到一个数据集你能大概判断出该用什么模型,看到一个排行榜的提升曲线你能猜到别人可能用了什么技巧——这种sense是AI教不会你的。
尤其是讨论区里那些大佬分享的经验、Notebooks里别人的代码思路、你自己试了一百种方案最后发现最简单的反而最有效——这些才是学习的过程。
最后我再给你屡一下上面2个研究的具体比赛你就知道了
AutoKaggle 测试的8个比赛:
基于论文附录B的详细信息,AutoKaggle选择了8个Kaggle比赛:
Classic Kaggle(2023年10月前开始的经典比赛):
- Titanic - 分类任务,中等难度,13,994支队伍
- Spaceship Titanic - 分类任务,简单难度,1,720支队伍
- House Prices - 回归任务,中等难度,4,383支队伍
- Ghouls, Goblins, and Ghosts (Monsters) - 分类任务,简单难度,763支队伍
Recent Kaggle(2024年及以后开始的比赛):
- Academic Success - 回归任务,中等难度,2,684支队伍
- Bank Churn - 回归任务,简单难度,3,632支队伍
- Obesity Risk - 分类任务,简单难度,3,587支队伍
- Steel Plate Defect - 回归任务,中等难度,2,199支队伍
说的难听一点都是最基础的任务,狗都不看,而且像Titanic 基本就是ML的hello world,分享的人很多,llm能拿高分肯定是训练集里面有代码。
然后就是Agent K
论文提到它在81个任务上进行了学习和测试,但论文中没有列出这81个比赛的完整清单。
所以我估计有很多的是结束的任务,并且任务结束后大佬本都会分享自己的思路和代码,这其实是一种数据泄露,有名字也算正常,但是他的思路我是肯定的,多agent写作应该值得我们学习。
最后
我觉得AI辅助能提高效率,但想真正学会数据科学、在面试和实际工作中站得住脚,还得自己动手练。
- 自动化重复性工作(数据清洗、编码转换)
- 快速生成baseline代码
- 做初步的数据分析和可视化
- 提供一些调参建议
AI做这些应该都没问题,关键是你自己必须理解问题本质和业务背景、做关键的特征工程决策,这才是关键,