谷歌大模型爆红后被质疑造假！承认演示视频剪辑过：为了简洁缩短了

2023-12-12 11:29 来源:澎湃新闻

当地时间12月6日，谷歌宣布推出“最大、最强、最通用”的新大型语言模型Gemini。Gemini将是首个直接在手机上运行的大模型，被应用于谷歌Pixel 8 Pro智能手机和聊天机器人Bard。Gemini被视为对于AI（人工智能）新锐巨头OpenAI旗下最新大模型GPT-4的直接回应，也象征着一度因聊天机器人ChatGPT而处于被动状态的谷歌终于正式冲回赛道。

科技巨头谷歌的新大模型Gemini一夜爆红，受到市场看好，但有分析指出，谷歌在Gemini的宣传资料中存在夸大宣传的嫌疑。

据谷歌介绍，Gemini在MMLU（大规模多任务语言理解）的得分率达到90.0%，是第一个在MMLU测试中超过人类专家的模型。Gemini将包括一套三种不同规模的模型，其中，Gemini Ultra被定位为GPT-4的竞争对手，Gemini Pro的性能优于GPT-3.5，Gemini Nano则用于特定任务和移动设备。

凭借强大的性能，Gemini一夜爆红，引来了华尔街的关注。12月7日，谷歌母公司Alphabet（Nasdaq：GOOG）的股价涨5.31%，收于136.93美元，迎来自今年8月29日以来表现最好的一天，总市值达到1.72万亿美元。

美国银行的分析师在6日指出，由于人们对于谷歌的AI能力感到担忧，Alphabet今年承受了一定的压力，而一款“具有良好品牌形象的、竞争力较强的模型”可能会吸引更多消费者使用谷歌搜索，并对云服务的销售产生积极影响：“数据显示谷歌拥有一流的、不可复制的AI能力，这可能对公司在2024年上半年的股票走势产生积极影响。”

摩根大通的分析师在6日的一份报告中写道，尽管市场在当天没有对Gemini给出明显的反应，能够看到谷歌在“这一主要技术转变”中的进展还是十分“鼓舞人心”。然而，摩根大通也指出，大模型在“搜索领域的货币化路径存在不确定性”，可能会在未来带来一些阻力。

在7日的报告中，摩根大通的分析师写道：“虽然现在还处于其发展早期，但Gemini的推出象征着在生成式AI获得广泛商业化并得到广泛传播的第二年中，谷歌做出了重大创新。”

目前看来，谷歌如何在整体业务、尤其是最重要的搜索业务中将Gemini进行商业化是备受华尔街关注的一点。目前，谷歌计划在本月晚些时间通过谷歌云将Gemini授权给客户，并将在未来几个月与谷歌服务中的其他产品集成，但还没有公布后续的商业化策略。

富国银行（Wells Fargo）的分析师表示，Gemini的推出应该足以平息关于“谷歌在AI领域究竟应该何去何从”的争论，不过，关键问题在于谷歌如何利用Gemini获得营利：“简而言之，我认为谷歌证明了他们仍然具有一些竞争力。”

而KeyBanc的分析师也表示，Gemini是谷歌今年众多AI公告的“顶峰”，但要让AI对谷歌的业绩增长和盈利能力产生积极影响需要时间：“Gemini仍在努力进入搜索等核心产品，因此我们建议耐心观察其影响。”

不同于华尔街的整体看好，在科技领域中有声音指出，Gemini或许存在“夸大宣传”的质疑。

在Gemini于6日推出后不久，就有网友指出了宣传资料中的一些不妥之处。例如，当谷歌称Gemini的MMLU的得分率高于GPT-4时，显示GPT-4的得分率是86.4%，但根据谷歌发布的60页技术报告，Gemini Ultra的MMLU测试结果下有“CoT@32”的小字注释，表示其使用了思维链提示技巧，尝试了32次并从中选择最好结果。而作为对比的GPT-4却是无提示词技巧给5个示例，在这个标准下，Gemini Ultra的测试结果其实是83.7%，低于GPT-4的86.4%。

如果是同样使用CoT@32的方法，虽然成绩仍低于Gemini Ultra，GPT-4的得分率达到了87.29%。

Gemini和GPT在各种条件下的MMLU测试分数比较。来源：谷歌

如果像谷歌DeepMind首席科学家杰夫·迪恩（Jeff Dean）回应的那样，这种写法只是为了显示两种不同方法间的比较，对于Gemini测试视频的质疑则显得更加难以反驳。

在推出Gemini后，谷歌发布了一个时长六分钟的演示视频，展现了测试员和Gemini的一些有趣互动，其中包括让Gemini识别图片并用多种语言描述、让Gemini利用一张地图设计智力问答、和Gemini玩杯子游戏和推理小游戏等等。在整个过程中，Gemini的反应速度都非常快，还会生成音频和图片来辅助回答，并用上一些口语化乃至幽默化的表达，可谓是让人大开眼界。

然而，很快就有网友从视频开篇的文字免责声明中发现了问题，认为其可能暗示了视频中展示的是精心挑选的好结果，不是实时录制，而经过剪辑的。随后，谷歌在一篇博客文章中解释了多模态交互过程，基本上也间接承认了只有使用静态图片和多段提示词拼凑，才能达成演示视频中的效果。

例如，在文章中，谷歌承认，不同于视频中对于猜拳手势的快速反应，只有在向Gemini同时展示这三个手势并提示其这是游戏时，Gemini才会得出猜拳游戏的结论。官网截图

有分析指出，这和谷歌在视频中所暗示的可以说是完全不同，因为从视频看来，Gemini可以实时观察周围的世界并做出反应，用户可以与Gemini进行流畅的语音对话。沃顿商学院教授伊桑·莫利克（Ethan Mollick）也在X平台上进行了演示，如果是使用静态图片和多段提示词，完全可以通过ChatGPT Plus来复制Gemini的表现。

伊桑·莫利克给ChatGPT Plus同时展示谷歌演示视频中的多张截图，ChatGPT Plus也能给出类似的答案。

在质疑发酵后，谷歌DeepMind产品副总裁伊莱·柯林斯（Eli Collins）对外媒回应称，视频中的画鸭子演示（画一个鸭子的简笔画，Gemini可以对每一步骤做出正确的解释）确实是研究级别的功能，至少目前还没有出现在谷歌的实际产品中。

谷歌DeepMind研究和深度学习负责人副总裁奥里奥尔·维尼亚尔斯（Oriol Vinyals）也在X（原推特）平台上发布长文，解释了团队是如何制作该视频的：“视频中的所有用户提示和输出都是真实的，只是为了简洁而进行了缩短。”维尼亚尔斯还表示：“该视频展示了使用Gemini构建的多模态用户体验是什么样子。我们这样做是为了激励开发人员。”

然而，维尼亚尔斯的回应引发了更多的争议。有网友评论道：“如果你想激励开发者，为什么不发布真实的内容呢？被缩短的用户提示就不算‘真实’。这样做既不真诚，又具有误导性。”

有谷歌员工对外媒透露，他们认为这段视频描绘了一幅“不切实际的画面”。有员工表示，对这种夸张的演示并不感到惊讶，因为员工们已经习惯了公司会对产品在某种程度上进行夸大营销：“我认为大多数使用过大语言模型技术的员工都知道，要对（演示中的）这一切持保留态度。”

有外媒认为，谷歌“庞大的官僚体系和各级产品经理使其直到现在都无法像OpenAI那样敏捷地推出产品”。对于正在应对AI转型影响的社会而言，这并不是坏事。但对于谷歌最近这种迅速推进的表现，应该保持一定的保留态度。

THE END

相关阅读

谷歌发布远超GPT-4大模型Gemini，AMD也发芯片要“暴打”英伟达

人工智能（AI）行业迎来疯狂的一夜，谷歌（Google）、AMD先后上新，终于要“打爆”OpenAI和英伟达了。12月7日谷歌CEO桑达尔·皮查伊 (Sundar Pichai) 宣布谷歌公司正式发布迄今为止功能最强大、最通用的多模态人工智能（AI）大模型：Gemin…

昨天 9:57
云天励飞亮相“双数峰会”，展示AI芯片与大模型创新应用

12月8-10日，第二届数字政府建设峰会暨数字湾区发展论坛在广州举行。云天励飞与中国电子集团联手，共同展示数字政府建设成果。大会上，云天励飞重点展示了大模型在数字政府领域的创新应用，以及云天励飞自主研发的大模型推理芯片。

前天 11:44
谷歌发布最新人工智能模型Gemini 智力测试优于“专家级”人类

据《新科学家》杂志网站报道，谷歌公司6日宣布推出一种名为Gemini的新人工智能模型，声称该模型在一系列智力测试中的表现优于OpenAI的GPT-4模型和“专家级”人类。Gemini已针对不同的应用创建了3个版本，分别是Nano、Pro和Ultra，它们的…

2023年12月8日 11:16

栏目精选

快讯

谷歌大模型爆红后被质疑造假！承认演示视频剪辑过：为了简洁缩短了

当地时间12月6日，谷歌宣布推出“最大、最强、最通用”的新大型语言模型Gemini。Gemini将是首个直接在手机上运行的大模型，被应用于谷歌Pixel 8 Pro智能手机和聊天机器人Bard。Gemini被视为对于AI（人工智能）新锐巨头OpenAI旗下最新大模…

刚刚
快讯

已成智能手机“标配”，我国北斗产业进入高质量发展新阶段

今年以来，我国北斗产业持续保持高速增长，应用规模不断扩大，应用深度持续增强。最新数据显示，北斗在国内导航地图领域实现主用地位，北斗定位服务每天被使用超过 3600 亿次。今年，北斗已成智能手机的“标配”，申请入网的 300 多款智…

4分钟前