查看原文
其他

「弱智吧」被中科院认证为最佳中文AI训练库!帖子秒杀百科/知乎/豆瓣/小红书?

wuhu小精灵 wuhu动画人空间 2024-04-27

wuhu专题

文|山茶茶


离大谱了,百度“弱智吧”竟然登上了正经AI论文,还被被中科院等高校评为高质量中文数据集。


没错,你没看错,这个弱智吧就是那个能问出:


生鱼片是死鱼片。

等红灯是在等绿灯。

救火是在灭火。

指南针主要是指北。

生蚝煮熟了叫什么?

用安全帽打人安全吗?

午餐肉可以晚上吃么?

万能胶能不能粘住不粘锅?

玉皇大帝住的是平流层还是对流层?

变形金刚买保险是买车险还是人险?

为什么学校只有保卫处,没有进攻处?


既然台上一分钟,台下十年功,那为什么不直接在台上练功?

......


等一系列炸裂问题的存在。



而这篇论文得到的结果竟然是,“弱智吧帖子合集”直接秒杀了豆瓣、知乎、小红书、维基百科,甚至是学者们精心收集挑选的数据集


用了弱智吧的数据集之后,预训练模型在问答、头脑风暴、分类、生成、总结、提取等10项成绩里,有8项排名第一,总分更是断层冠军。



而最离谱的是,从来不交流代码的弱智吧仅靠网友们的逻辑性问答就让AI代码能力也排在了第一,给吧友们都整不明白了。


这可真是,大智若智了啊......




弱智吧登上中科院论文



这篇论文来自于中科院深圳先进技术研究院、中科院自动化研究所、滑铁卢大学等众多高校、研究机构的联合团队,这阵容可以说很有含金量了。


论文被吧友们发现之后,作者之一甚至现身评论区,透露使用弱智吧数据属于是灵机一动,以前只是用来测试。


但到底是什么测试,为啥偏偏弱智吧跑分遥遥领先?咱们还得来看看这篇论文。


论文名叫《COIG-CQIA:Quality ia All You Need for Chinese Instruction Fin-turing》,大意是《搞微调,还得拼质量》。



我们都知道,大模型训练中,中文数据集多多少少有点问题:


要么是英文派生的,不能很好地契合中文语言习惯和文化背景;要么脱离实际,质量难以保证;再就是数据量小、覆盖领域不全面等等。


为了解决这些问题,研究团队推出了一个COIG-CQIA中文指令微调数据集,数据取自中文互联网上各种高质量数据源,包括维基百科、各类问答社区、高考/中考/研究生考试、现有NLP数据集等,而这里面就包括了弱智吧。


论文中对弱智吧的定义:弱智吧是百度贴吧的子论坛,是一个基于兴趣的社区论坛。其帖子经常包含双关语、多义词、因果颠倒和同音词,其中许多都设计有逻辑陷阱,甚至对人类也构成挑战。 


团队收集了500个点赞最多的帖子,并从标题出发排除出了非指导性(即声明性陈述或无法回答)的内容,再由人类或GPT-4来回答这些问题。经人工审核,最终留下了240组数据对。


然后把各类不同的数据源分别用在零一万物Yi系列模型上,来讨论它们对模型性能的影响。


其中,在Yi-34B模型上,纯弱智吧版本数据集表现一骑绝尘。


在开放式问答、头脑风暴、分类、生成、总结、封闭式问答、 提取、代码这8个项目下都拿到了最高分,另外2项改写和数学的成绩也都比较靠前。



甚至在后续安全性评估上,弱智吧版本也名列前茅。



而反观我们熟知的其它数据源平台,知乎均分第二,虽远不如弱智吧的76.9总分,但在数学上却略胜一筹。


豆瓣均分第四,在改写和总结两部分尤其拉胯;


小红书遥遥落后,直接拿下倒第二,各科里比较突出的是头脑风暴和数学。


对此,研究团队给出了简单的猜测:


有趣的是,弱智吧在所有子集中平均排名第二。我们推测这是因为它可以增强模型的逻辑推理能力,从而有利于大多数指令跟踪任务。


当然了,这次实验最大的意义还是在于COIG-CQIA数据集为自然语言处理(NLP)社区带来的启发,给中文大模型的开发提供了帮助。



弱智吧 AI届唯一真神



咱先不说研究团队怎么想到用弱智吧数据测试AI的,反正这波倒反天罡的操作可是给网友带来了不少乐子:



当然也有老哥理智分析:



简单的说,就是弱智吧无厘头的外表下,简洁准确的用词和各种臻入化境的中文逻辑陷阱,给已经具备基础功能的预训练模型增加了指令多样性,提升了最终性能。


一夜之间,弱智吧火到AI圈,不少网友开始用弱智吧段子来拷打自家AI小同志。


而题目嘛,当然是千奇百怪,就算是真人看见了都得被硬控一分钟。



你以为到这里就结束了么?并不!


借着这波热度,弱智吧还推出了AI玩法......



这下,我好像完全理解为什么弱智吧被称为“AI届的唯一真神了”......






END



添加wuhu小精灵5号微信(wuhudonghua5)发送“动画新势力”即可在不久后被邀请进群。




你一定还感兴趣:



中国台湾学生用AI在画展夺冠?惹怒主办方遭撤奖、被记过…


中国规模最大的插画艺术盛会来了!5月动画插画大咖齐聚!


为什么总传宫崎骏导演的《千与千寻》借鉴徐克版《小倩》?


这应该是全球做的最有特色的吉卜力沉浸式艺术展了!



喜欢的小伙伴们多多支持哟~


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存