AI私人管家即将面世? 谷歌最新人工智能Gemini更多细节曝光 实际应用场景丰富
繁简切换

FX168财经网>美国股市>正文

AI私人管家即将面世? 谷歌最新人工智能Gemini更多细节曝光 实际应用场景丰富

文 / 小杰 来源:FX168

FX168财经报社(北美)讯 周五(12月8日),谷歌的一个团队提出了使用人工智能技术,通过移动手机数据(如照片和搜索记录)创建用户生活的“鸟瞰”视图的构想。

该构想被命名为“Project Ellmann”,以传记作家和文学评论家Richard David Ellmann的名字命名。该构想的目标是利用类似于Gemini的大型语言模型(LLM),摄取搜索结果,识别用户照片中的模式,创建聊天机器人,并“回答以前无法回答的问题”,“Project Ellmann的目标是成为“用户的生活故事的讲述者”。

目前尚不清楚谷歌是否计划在Google Photos或其他产品中实现这些功能。根据谷歌的一篇博客文章,Google Photos拥有超过10亿用户和4万亿的照片和视频。

Ellman 项目只是谷歌提议利用人工智能技术创建或改进其产品的众多方式之一。周三,谷歌推出了最新的“最强大”和最先进的人工智能模型 Gemini,在某些情况下它的性能优于 OpenAI 的 GPT-4。该公司计划通过 Google Cloud 向广泛的客户授权 Gemini,以便他们在自己的应用程序中使用。 Gemini 的突出特点之一是它是多模式的,这意味着它可以处理和理解文本之外的信息,包括图像、视频和音频。

Project Ellman是谷歌提出的使用人工智能技术创建或改进其产品的众多方式之一。谷歌于周三推出了其最新的“最强大”和先进的人工智能模型Gemini,该模型在某些情况下超过了OpenAI的GPT-4。公司计划通过Google Cloud将Gemini授权给广泛的客户,让他们在自己的应用程序中使用。Gemini的一个突出特点是它是多形态的,意味着它可以处理和理解文本之外的信息,包括图像、视频和音频。

Google Photos的产品经理在最近的内部峰会上与Gemini团队一起展示了Project Ellman。文件中写道,过去几个月,团队一直在确定大型语言模型是使这种“鸟瞰”生活故事成为现实的理想技术。

Ellmann可以利用传记、过去的瞬间和后续照片来拉取上下文,以比“只是带有标签和元数据的像素”更深入地描述用户的照片。演示文稿提出,它可以识别一系列时刻,如大学时代和作为父母的时光。

“大型语言模型之所以让这种鸟瞰方法如此强大,其中一个原因是它能够从各个不同高度获取未结构化的上下文,并使用它来改善它对内容的其他区域的理解。”

该团队还演示了“Ellmann Chat”,描述为:“想象一下打开ChatGPT,但它已经了解您生活的一切。你会问它什么?”

它展示了一个样本聊天,其中用户问:“我有宠物吗?”然后它回答说是的,用户有一只狗,穿着一件红雨衣,然后提供了狗的名字以及它最常与之见面的两个家庭成员的名字。

聊天的另一个例子是用户询问他们的兄弟姐妹上次访问的时间。另一个询问它列出与他们居住地相似的城镇,因为他们正在考虑搬家。Ellmann都提供了答案。

Ellmann还呈现了用户的饮食习惯摘要。展示文稿中写道:“该用户似乎喜欢意大利食物。有几张通心粉的照片,还有一张披萨的照片。”它还说,用户似乎喜欢尝试新食物,因为他们的一张照片上有一份它不认识的菜单。

根据演示文稿,该技术还可以根据用户的截图确定用户正在考虑购买的产品、他们的兴趣、工作和旅行计划。它还暗示将能够知道他们最喜欢的网站和应用程序,举例说明了Google Docs、Reddit和Instagram。

一位谷歌发言人表示:“谷歌照片一直在使用人工智能来帮助人们搜索他们的照片和视频,我们对LLM解锁更多有用体验的潜力感到兴奋。这是一个团队在早期阶段探索的构想。一如既往,我们将花费所需的时间,确保我们以负责任的方式进行,将用户的隐私保护作为首要任务。”

大型科技公司竞相创造人工智能驱动的“记忆”

Project Ellmann可能有助于谷歌在科技巨头之间的竞争中创造更加个性化的生活记忆。

多年来,谷歌照片和苹果照片一直提供“记忆”服务,并根据照片中的趋势生成相册。

在11月,谷歌宣布,在AI的帮助下,Google Photos现在可以将相似的照片分组,并将截图整理成易于查找的相册。

苹果在6月宣布,其最新软件更新将包括其照片应用程序能够识别照片中的人、狗和猫的功能。它已经可以对面孔进行分类,并允许用户通过姓名搜索它们。

苹果还宣布了即将推出的Journal App,该应用将使用设备上的AI根据最近的照片、位置、音乐和锻炼情况创建个性化建议,促使用户撰写描述他们记忆和经历的段落。

但是,苹果、谷歌和其他科技巨头仍在努力解决适当显示和识别图像的复杂性。

例如,由于2015年的报道发现苹果公司将黑人错误标记为大猩猩,苹果和谷歌仍然避免对大猩猩进行标签。苹果iOS和谷歌的Android平台是大多数世界智能手机的基础。今年,纽约时报的调查发现,其都关闭了对灵长类动物进行视觉搜索的能力,因为担心将人类标记为动物。

随着时间的推移,包括谷歌、Facebook 和苹果在内的公司已经增加了控制功能,以尽量减少不需要的记忆,但用户报告称,它们有时仍然会显示不需要的记忆,并要求用户手动进行切换。

分享
掌握最新全球资讯,下载FX168财经APP

相关文章

48小时/周排行

最热文章