共计 3597 个字符,预计需要花费 9 分钟才能阅读完成。
万众瞩目,谷歌的反击来了。
现在,谷歌搜索终于要加入 AI 对话功能了,排队通道已经开放。
当然这还只是第一步。
大的还在后面:
全新大语言模型 PaLM 2 正式亮相,谷歌声称它在部分任务超越 GPT-4.
Bard 能力大更新,不用再排队等候,并支持新语言。
谷歌版 AI 办公助手也一并推出,将在 Gmail 中抢先亮相。
谷歌云也上线多个基础大模型,为行业提供更进一步的生成式 AI 服务……
在最新一届 I / O 开发者大会上,谷歌的大放送真的太震撼。
有网友直呼:
AI 大战全面开启。
有人甚至表示:
现在我后悔为 ChatGPT 付费了。
一场发布会结束,谷歌股价上涨超 4%。
PaLM 2 部分任务超越 GPT-4
毫无疑问,PaLM 2 是今年 I / O 大会的重中之重,由皮查伊亲自做介绍。
目前的 Bard 以及谷歌超过 25 个 AI 产品和功能,现在都由 PaLM 2 作为底层技术支持。
作为谷歌目前最先进的大模型,PaLM 2 基于 Pathways 架构,是 PaLM 的升级版,通过 JAX 在 TPU v4 上构建。
据介绍,PaLM 2 接受了 100 多种语言的训练,这使得它在语言理解、生成和翻译上的能力更强,并且会更加擅长常识推理、数学逻辑分析。
谷歌表示,PaLM 2 的数据集中有海量论文和网页,其中包含非常多数学表达式。在这些数据的训练后,PaLM 2 能轻松解决数学问题,甚至是制作图表。
编程方面,PaLM 2 现在支持 20 种编程语言,如 Python、JavaScript 等常用语言,以及 Prolog、Fortran 和 Verilog 等。
这一次谷歌一并推出了四种不同 size 的 PaLM 2.
他们用不同的动物来体现规模大小。最小的是“壁虎”,最大的是“独角兽”。
其中“壁虎”版本是非常轻量级的,能在移动设备上快速运行,包括离线状态; 每秒可处理 20 个 token。
DeepMind 副总裁在 I / O 大会前的新闻发布会上表示:
我们发现模型并不总是越大越好,这也是为什么我们决定提供一系列不同规模的模型。
这意味着微调 PaLM 2 会更加方便,由此它也能支持更多产品和应用。
在 I / O 大会上,谷歌就宣布了现在已经有超过 25 个产品和应用正在使用 PaLM 2 的能力。
具体的表现形式,就是 Duet AI。
可以将它理解为微软 365 Copilot 的对标产品,是一个能够内嵌在各种办公软件中的 AI 助手。
谷歌在发布会现场已经展示了 Duet AI 在 Gmail、Google Docs、Google Sheets 中的能力。
包括根据提示补充邮件内容、生成 PPT、根据提示生成图片素材、一键生成表格等。
同样,这个 AI 助手也能提供编程帮助。基于谷歌云,它能实时推荐、纠错代码块,并且以对话方式解答编程问题,目前支持 Go、JavaScript、Python 和 SQL。
另外基于 PaLM 2. 谷歌还推出了一些专业领域大模型。
谷歌的健康团队打造了 Med-PaLM 2. 它能回答各种医学问题,据称是首个在美国医疗执照考试中达到专家水平的大语言模型。
目前谷歌正在尝试让它具备多模态能力,比如自己检查 X 光片后给出诊断。在今年夏天晚些时候,这个模型将对一小部分谷歌云用户开放。
另一个专业大模型是 Sec-PaLM 2.
这是一个面向网络安全维护的大模型,它能分析和解释潜在的恶意脚本,并检测脚本的危险性。
那么,在展示了 PaLM 2 一众卓越能力后,就该聊聊怎么开放使用了。
谷歌表示,现在可以通过 PaLM API 接口、Firebase 和 Colab 使用 PaLM 2.
Bard 全面开放,支持图片、集成自家地图等应用
对标 ChatGPT 的 Bard 终于取消排队试用,在全球 180+ 国家和地区进行全面开放了。
新增黑暗模式,备受程序员好评:(手动狗头)
除了扩大访问范围,Bard 也在英文之外,新增直接用日语和韩语对话的功能。中文看起来还得再等下一波——谷歌表示,很快就会新增到 40 种语言版本。
由于从今天起,Bard 将全面接入 PaLM 2. 所以它在编程和推理上面的能力也有了很大的提升,代码生成、调试和解释都更加专业(获得程序员认可的那种)。
当你让它用 python 写一段国际象棋中的“四步杀”(scholar’s mate)招式,里面参考了别的代码,它会给出相关链接,方便你查看。
你可以就它给出代码中某个不懂的函数进行进一步提问,问它能否再改善一下,或者是要求它将所有内容都合并的一个代码块中。
不过,最惊喜的当属应广大开发者要求,加入了一键导入功能。
现在,你可以将 Bard 生成的代码直接导出到 Colab。
除了代码,你用 Bard 生成的任何内容,比如电子邮件草稿、表格什么的也都可以直接拖到 Gmail、Docs 和 Sheets 中。
对了,Bard 现在的回答中也支持图片了。拿来问旅游攻略最方便不过:
除了它能用图片回答你,你也能直接丢给它图片,比如上传一张两只狗狗的照片,让它来帮你编点好玩的故事:
这个功能由 Google Lens(一款能让机器学会“看图说话”的 AI 应用)提供支持。
除了 Google Lens,Docs、Drive、Gmail、地图等多个谷歌自家的应用能力也整合到了 Bard 之中。
比如在 Bard 的回答中直接用谷歌地图查看几所大学的地理位置:
有种现在要用谷歌的各种产品,只用 Bard 一个入口就够了的感觉。
除了自家应用,Bard 这次还把 Adobe Firefly 给搬了上来,各种有版权的创意图像用对话就可以“信手拈来”:
搜索重构,加入 AI 对话
千呼万呼,谷歌搜索终于开启了 AI 对话的能力。
“一家带有一个不到 3 岁孩子和一只狗的家庭来说,去布莱斯峡谷还是拱门国家公园游玩更好?”
对于这个问题,搁以前,你可能需要自己把它拆成各种小问题去搜索引擎整理大量信息,最终才能找到答案。
现在谷歌让你尽量一步到位。
如图所示,谷歌搜索没有简单地搬运搜出来的答案,而是将孩子和狗这两个因素都考虑进去给出整理后的回答,比如它说:
布莱斯峡谷有两条狗能进入的环路,对婴儿车也十分友好; 拱门国家公园则大部分路段都不允许宠物进入; 两个地方都要求宠物拴上皮带等。
每句话都有具体的依据链接供查看:
除此之外,它还会显示了来自不同网站网友发布的攻略链接。
最重要的是,你可以对它的回答进行进一步对话式的提问,点击“ask for a follow up”按钮即可。
用新的谷歌搜索进行购物也非常有趣,它号称可以帮你迅速做出理性的购买决定。
比如当你想要一辆“适合 5 英里山地通勤的自行车”,它会先告诉你挑选之前需要考虑的重要因素,比如:
一看设计:电动自行车、公路自行车和混合动力自行车等适合通勤;
二看电机和电池,三看减震用的悬架,有山路的通勤需要应对裂纹和颠簸带来的冲击等。
然后再给你推荐合适的车,推荐时还会给出具体产品说明、最新评价、价格和图片等全面信息。
你也可以进行进一步提问,比如只要红色电动自行车,它会进一步优化回答。
这个功能由谷歌的购物比价产品 Shopping Graph 提供支持,它可以搜集并不断更新来自全世界的产品列表。
值得一提的是,谷歌直言更新后的 AI 搜索界面照样会植入广告,但放心:它只会在专用广告位中出现,不会混进你的搜索结果中。
最后,这个新功能目前还只能在谷歌 Search Labs 中申请试用,且仅限美国地区的用户体验。
三大基础模型上线谷歌云
今年 I / O 大会,谷歌云的内容也同样抢眼。
在更新了一大波 AI 能力后,谷歌为自家云端机器学习平台 Vertex AI,上新了三款大模型:
Codey:text-to-code,帮助程序员写代码 Imagen:text-to-image,生成高质量图像 Chirp:speech-to-text,方便沟通
这三种模型的能力其实在今天的发布会上都有展示过,比如生成代码、谷歌照片智能编辑等。
除此之外,在 Vertex AI 上现在还能使用文本和图像的嵌入式 API。它支持将文本和图像数据转换为多维数值向量、映射语义关系,从而允许开发者创建出更加有意思的应用。
另一个重大更新则在 RLHF 上,谷歌表示他们是首个将此功能作为托管服务放到端到端机器学习平台行的。好处是能让企业结合 RLHF 快速训练奖励模型,用于微调基础模型,这对于大模型在行业应用中的准确性提升非常关键。
除了模型方面,谷歌云在训练上还推出了下一代 A3 GPU 超算。通过将 A3 虚拟机和 Nvidia H100 结合,谷歌云能够提供更大的计算吞吐量和带宽,能够让企业更快开发机器学习模型。
除了这些,谷歌这次还带来售价 1799 美元 (合人民币约 1 万 2) 的首款折叠屏手机等新硬件产品,以及接入 AI 功能的 Android 14 系统(比如提供信息回复建议什么的),这里就不一一展示了。
总的来看,作为第 15 届 I / O 大会,谷歌这次着实给大家带来了非常多的干货。
值得一提的是,这次上台介绍的发言嘉宾,已不见 Jeff Dean 的身影,他前几日刚刚职级变动。
作为从前 Google AI 最代表性发言的高管,在 AI 2.0 浪潮里,将何在?
谷歌是否还能在大模型和 AI 搜索领域中奋起追上,也值得期待。
你对这次谷歌的反击,满意吗?