今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思

大千世界 2022年06月25日 14:52 165 0

　　在挑战写语文作文后，AI 现在又盯上了高考英语。

　　结果好家伙，今年高考英语卷(全国甲卷)一上手，就拿了 134 分。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第1张图片-大千世界

　　而且不是偶然的超常发挥。

　　在 2018-2021 年的 10 套真题测试中，AI 的分数都在 125 分以上，最高纪录为 138.5 分，听力和阅读理解还拿过满分。

　　这就是由 CMU 学者提出的，高考英语测试 AI 系统 Qin。

　　它的参数量只有 GPT-3 的 16 分之一，平均成绩却比 GPT-3 高出 15 分。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第2张图片-大千世界

　　其背后的秘诀名叫重构预训练 (reStructured Pre-training)，是作者提出的一种新学习范式。

　　具体来看，就是把维基百科、YouTube 等平台的信息重新提取重构，再喂给 AI 进行训练，由此让 AI 具有更强的泛化能力。

　　两位学者用足足 100 多页的论文，深入解释了这一新范式。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第3张图片-大千世界

　　那么，这一范式到底讲了什么?

　　我们来深扒一下~

　　什么是重构预训练?

　　论文题目很简单，就叫 reStructured Pre-training(重构预训练，RST)。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第4张图片-大千世界

　　核心观点凝练来说就是一句话，要重视数据啊!

　　作者认为，这个世界上有价值的信息无处不在，而目前的 AI 系统并没有充分利用数据中的信息。

　　比如像维基百科，Github，里面包含了各种可以供模型学习的信号：实体，关系，文本摘要，文本主题等。这些信号之前由于技术瓶颈都没有被考虑。

　　所以，作者在本文中提出了一种方法，可以用神经网络统一地存储和访问包含各种类型信息的数据。

　　他们以信号为单位、结构化地表示数据，这很类似于数据科学里我们常常将数据构造成表或 JSON 格式，然后通过专门的语言(如 SQL)来检索所需的信息。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第5张图片-大千世界

　　具体来看，这里的信号，其实就是指数据中的有用信息。

　　比如在“莫扎特生于萨尔茨堡”这句话中，“莫扎特”、“萨尔茨堡”就是信号。

　　然后，就需要在各种平台上挖掘数据、提取信号，作者把这个过程比作了从矿山里寻宝。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第6张图片-大千世界

　　接下来，利用 prompt 方法，就能将这些来自不同地方的信号统一成一种形式。

　　最后，再将这些重组的数据集成并存储到语言模型中。

　　这样一来，该研究就能从 10 个数据源中，统一 26 种不同类型的信号，让模型获得很强的泛化能力。

　　结果表明，在多个数据集中，RST-T、RST-A 零样本学习的表现，都优于 GPT-3 的少样本学习性能。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第7张图片-大千世界

　　而为了更进一步测试新方法的表现，作者还想到了让 AI 做高考题的方法。

　　他们表示，现在很多工作方法走的都是汉化 GPT-3 的思路，在评估的应用场景上也是跟随 OpenAI、DeepMind。

　　比如 GLUE 测评基准、蛋白质折叠评分等。

　　基于对当下 AI 模型发展的观察，作者认为可以开辟出一条新的赛道试试，所以就想到了用高考给 AI 练练手。

　　他们找来了前后几年共 10 套试卷进行标注，请高中老师来进行打分。

　　像听力 / 识图理解这样的题目，还找来机器视觉、语音识别领域的学者帮忙。

　　最终，炼出了这套高考英语 AI 模型，也可以叫她为 Qin。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第8张图片-大千世界

　　从测试结果可以看到，Qin 绝对是学霸级别了，10 套卷子成绩都高于 T0pp 和 GPT-3。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第9张图片-大千世界

　　此外，作者还提出了高考 benchmark。

　　他们觉得当下很多评价基准的任务都很单一，大多没有实用价值，和人类情况对比也比较困难。

　　而高考题目既涵盖了各种各样的知识点，还直接有人类分数来做比对，可以说是一箭双雕了。

　　NLP 的第五范式?

　　如果从更深层次来看，作者认为，重构预训练或许会成为 NLP 的一种新范式，即把预训练 / 微调过程视为数据存储 / 访问过程。

　　此前，作者将 NLP 的发展总结成了 4 种范式：

　　P1. 非神经网络时代的完全监督学习 (Fully Supervised Learning, Non-Neural Network)

　　P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network)

　　P3. 预训练，精调范式 (Pre-train, Fine-tune)

　　P4. 预训练，提示，预测范式(Pre-train, Prompt, Predict)

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第10张图片-大千世界

　　但是基于当下对 NLP 发展的观察，他们认为或许之后可以以一种 data-centric 的方式来看待问题。

　　也就是，预训 / 精调、few-shot / zero-shot 等概念的差异化会更加模糊，核心只关注一个点 ——

　　有价值的信息有多少、能利用多少。

　　此外，他们还提出了一个 NLP 进化假说。

　　其中的核心思想是，技术发展方向总是顺着这样的 —— 做更少的事实现更好、更通用的系统。

　　作者认为，NLP 经历了特征工程、架构工程、目标工程、提示工程，当下正在朝着数据工程方向发展。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第11张图片-大千世界

　　复旦武大校友打造

　　本篇论文的一作为 Weizhe Yuan。

　　她本科毕业于武汉大学，后赴卡内基梅隆大学读研，学习数据科学专业。

　　研究方向集中在 NLP 任务的文本生成和评估。

　　去年，她被 AAAI 2022、NeurIPS 2021 分别接收了一篇论文，还获得了 ACL 2021 Best Demo Paper Award。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第12张图片-大千世界

　　论文的通讯作者为卡内基梅隆大学语言技术研究所(LTI)的博士后研究员刘鹏飞。

　　他于 2019 年在复旦大学计算机系获得博士学位，师从邱锡鹏教授、黄萱菁教授。

　　研究兴趣包括 NLP 模型可解释性、迁移学习、任务学习等。

　　博士期间，他包揽了各种计算机领域的奖学金，包括 IBM 博士奖学金、微软学者奖学金、腾讯人工智能奖学金、百度奖学金。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第13张图片-大千世界

　　One More Thing

　　值得一提的是，刘鹏飞在和我们介绍这项工作时，直言“最初我们就没打算拿去投稿”。

　　这是因为他们不想让会议论文的格式限制了构思论文的想象力。

　　我们决定把这篇论文当作一个故事来讲，并给“读者”一种看电影的体验。

　　这也是为什么我们在第三页，设置了一个“观影模式“的全景图。

　　就是为了带着大家去了解 NLP 发展的历史，以及我们所展望的未来是怎样的，让每一个研究者都能有一定的代入感，感受到自己去带领着预训练语言模型们 (PLMs) 通过矿山寻宝走向更好明天的一个过程。

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第14张图片-大千世界

　　论文结尾，还藏了一些惊喜彩蛋。

　　比如 PLMs 主题表情包：

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第15张图片-大千世界

　　还有结尾的插画：

　　

今年高考英语 AI 得分 134，复旦武大校友这项研究有点意思-第16张图片-大千世界

　　这么看，100 多页的论文读起来也不会累了~

　　论文地址：

　　https://arxiv.org/abs/2206.11147

标签：英语

本文地址： https://www.dqsj.net/keji/61195.html

文章来源： IT之家

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至23467321@qq.com举报，一经查实，本站将立刻删除;如已特别标注为本站原创文章的，转载时请以链接形式注明文章出处，谢谢！

上一篇拼多多推出电脑网页版，暂无“砍一刀”功能

下一篇B站“电视大会员”改名“超级大会员”

抱歉，评论功能暂时关闭!