AI/CV重磅干货,第一时间送达
GeorgeHotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西。
「GPT-4的参数量高达100万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的表。
不过很快,OpenAI的CEOSamAltman就出来辟谣,证实这是一条假消息,并表示,「关于GPT-4的谣言都很荒谬。我甚至不知道这从何而起。」
实际上,许多人相信并传播这样的谣言是因为近年来AI社区不断在增加AI模型的参数规模。谷歌在2021年1月发布的SwitchTransformer就把AI大模型参数量拉高到了6万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4将是一个万亿参数的巨量模型,100万亿参数也不是不可能。
虽然SamAltman的辟谣帮我们去掉了一个错误答案,但他背后的OpenAI团队一直对GPT-4的真实参数量守口如瓶,就连GPT-4的官方技术报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治・霍兹捅破了。
乔治・霍兹因17岁破解iPhone、21岁攻陷索尼PS3而闻名,目前是一家研发自动驾驶辅助系统的公司的老板。
最近,他接受了一家名为LatentSpace的AI技术播客的采访。在采访中,他谈到了GPT-称GPT-4其实是一个混合模型。具体来说,它采用了由8个专家模型组成的集成系统,每个专家模型都有2200亿个参数,并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch创建者SoumithChintala表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有GeorgeHotz在公开场合将其说了出来。
为什么OpenAI对此讳莫如深呢?GeorgeHotz认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花8倍的钱你也能得到这个模型」。
对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。
目前,GeorgeHotz关于GPT-4的「爆料」已经在推特上得到了广泛传播。
有人从中得到了灵感,声称要训练一个LLaMA集合来对抗GPT-
还有人说,如果真的像GeorgeHotz说的那样,GPT-4是一个由8个2200亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。
需要指出的是,由于GeorgeHotz并未提及消息来源,我们目前无法判断以上论断是否正确。
最新CVPR2023论文和代码下载
后台回复:CVPR202即可下载CVPR2023论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
文章为作者独立观点,不代表股票量化交易软件接口观点