分类
Posts

你好,AI Agent:再见,UI设计;安息吧,可访问性

摘要: 自主代理将通过自动化交互改变用户体验,使传统的UI设计过时,因为用户将不再访问网站,而是完全通过他们的代理进行交互。重点应转向为代理设计,而不是为人设计。可访问性将不再是网页设计的关注点,因为残障用户将只使用代理,代理会将内容和功能转化为满足其特定需求的形式。

曾经,人类需要手动浏览网络。未来,AI代理将代表我们行动,浏览、点击和决策。这一转变标志着传统UI设计和可访问性的终结,预示着代理将成为数字服务主要用户的未来。

2024年末和2025年初,出现了如DeepSeek R1和OpenAI深度研究(以及谷歌同名产品、xAI的“大智”功能)等AI推理模型。然而,2025年主要的新发展预计将是代理,包括OpenAI的“操作员”(Operator)、Claude的“电脑使用”(Computer Use)、微软的Copilot代理以及谷歌的Gemini助手。

AI代理定义: 一个代表用户执行任务或做出决策的自主系统,例如浏览网络或控制电脑,无需持续的人工输入,这使其区别于需要提示才能行动的聊天机器人。

因此,AI代理是一种计算机程序,能够感知信息、做出决策并自主行动以完成任务。它是一个由人工智能驱动的实体,具有一定程度的独立性,无论是手机上的虚拟助手(如Siri或Alexa)、电子游戏中智能行动的角色,还是代表你上网并采取行动的系统。高级代理将从经验中学习,并随时间改进其响应。

AI代理将代表用户采取行动,部分基于它们自行从众多来源汇总的信息。(Ideogram)

当前的AI代理展示了多种能力:OpenAI的“操作员”可以通过其内置浏览器与网页交互,处理基于网络的任务,如填写表格、订购杂货和预订旅行。Anthropic的“电脑使用”允许其AI直接控制计算机,而微软的Copilot代理专注于自动化任务,如邮件分诊和费用管理。

展望未来,AI代理预计将显著演进,承担跨行业的复杂任务,如客户服务、医疗保健和教育,甚至达到博士水平进行操作研究。这种“服务即软件”的代理将通过自动化高水平工作改变经济。然而,这些代理仍处于早期阶段,存在偶尔错误和安全担忧等限制,需要进一步发展才能广泛部署。

当前主要AI代理

现有的流行产品如“深度研究”(Deep Research)本身就可以视为简单的代理,即使它们未被如此定位。这些研究工具代表用户浏览网页和搜索数据库。它们不仅限于简单地满足查询(如传统搜索引擎如老式谷歌或答案引擎如Perplexity所做的),还会主动以超出初始请求的深度来调查用户的问题。它们尚未成为真正代理的主要原因是目前它们不会代表用户自主采取行动。

来自主要提供商的5种不同AI代理已经在竞相为用户管理任务。该表显示了概览,但可能很快会有更多加入竞争。(Leonardo)

一个很好的例子是,我要求“深度研究”制作一个主要当前代理的对比表,展示它们的主要特性。我没有指定要包含哪些工具或显示哪些代理属性。结果如下:

  • OpenAI “操作员”(研究预览版)
    • 目标导向的自主性: 面向单一任务;迭代步骤直到完成,但若卡住或出于安全考虑会暂停请求用户帮助。敏感操作需要人工确认。
    • 环境与行动: 集成内置网页浏览器(可点击、输入、滚动网页)。在网页环境中规划和行动。仅限于屏幕操作(除浏览器外无直接操作系统控制)。
    • 模态: 视觉+文本:解释网页图像/文本(通过GPT-4视觉)。生成文本(用于表单、聊天)。无原生语音或音频;未知能生成图像(除编辑现有模因模板外)。
    • 主要用途: 在线任务和“数字差事”:电子商务(购物、订餐)、表单填写、账户注册、旅行预订、网络研究汇总。作为网络助手自动化常规互联网工作流程。
  • 谷歌 Gemini代理(Google DeepMind)
    • 目标导向的自主性: 具有监督的高级自主性:可处理多步骤任务并提出建议,但设计为在用户监督下工作。关键操作可能请求许可。
    • 环境与行动: 深度集成谷歌生态系统:搜索、Gmail、Docs、地图等。可调用谷歌工具/API(例如使用地图检查交通,使用Gmail发送邮件)。还具有代码执行沙箱(用于编码代理)和通过Chrome进行网络导航的能力。
    • 模态: 多模态(文本、图像、音频,可能视频):原生图像理解和生成、文本生成、有限音频(助理中的文本转语音和语音转文本)。计划完全集成视觉(Google Lens)和语音(Assistant)。
    • 主要用途: 跨设备通用助手。例如:结合文本/图像结果回答问题、规划活动(从日历、地图提取信息)、控制智能家居或手机(通过Assistant)、生成内容(邮件、文档、插图)。专门的编码代理(自主编写和调试代码)和数据分析代理(分析数据、创建图表)。面向消费者便利和专业生产力。
  • Anthropic Claude 与“电脑使用”
    • 目标导向的自主性: PC任务上的扩展自主性:可自主执行长序列(数十个步骤)。仍标记为实验性——若遇到不支持场景或错误会将控制权交还给用户。可能需要用户启动并定义目标,然后观察/在代理出错时介入。
    • 环境与行动: 通过虚拟计算机接口工作:通过API控制无头浏览器或操作系统模拟器(移动光标、点击、输入)。可与网络应用交互,可能也与桌面应用交互(目前主要是网络)。尚未宣布深度操作系统集成;重点是基于网络软件的工作流。
    • 模态: 视觉+文本:可“看见”UI(将屏幕像素转为文本)和阅读文档。强大的文本生成和理解能力。Claude公共版本中无固有图像生成或音频功能。
    • 主要用途: 工作自动化和复杂的在线工作流:例如登录企业SaaS、获取数据、交叉发布到另一系统;客户支持任务(阅读邮件、打开数据库、更新记录);在线预约等个人杂务。得益于巨大的上下文窗口,也擅长大规模文本处理(编辑文档和总结多来源信息)。旨在增强知识工作者能力,处理多应用程序流程(重点在项目管理、软件QA等商业用例)。
  • Meta AI助手(由Llama 2/3驱动)
    • 目标导向的自主性: 对话式、按需自主性:响应用户请求,并可在对话中主动行事(例如它可能主动提议设置提醒),但不会在外部站点上执行无人值守的长序列任务。本质上是单次一任务,在持续用户交互下进行。
    • 环境与行动: 集成在Meta应用(Facebook, Instagram, WhatsApp, Messenger)中。可通过搜索集成检索实时信息。可通过Meta的生成图像模型生成图像。尚未集成以在其他外部应用中执行操作(尚无直接网络控制或物联网命令)。
    • 模态: 多模态(文本、图像):理解文本提示、聊天上下文,并具有一定图像理解能力(例如可发送照片获取描述)。可输出图像(快速GIF、逼真图片)和文本。发布时无语音接口(依赖打字),但可用于支持语音消息的通讯应用(未来可能支持语音)。
    • 主要用途: 消费者/通用助手:回答问题、提供建议(如聊天形式中更智能的搜索引擎)、帮助创意任务(撰写社交媒体标题、故事)和娱乐。例如,作为规划伙伴(“在伦敦3天该做什么?”)、学习助手(“用简单术语解释量子物理”)或创意伙伴(“为这张照片写个有趣的标题”)。还可按需生成自定义视觉内容(贴纸、风格化图像)。集成于社交/家庭用例,而非执行业务流程。
  • 微软 Copilot(Windows/Office)
    • 目标导向的自主性: 辅助性自主:在循环中工作:接受用户指令、执行一组操作、然后等待进一步输入。例如,它可能起草文档并等待用户编辑。它在应用程序内自动化多步骤任务,但并非完全自主(用户通常触发每个高级任务)。
    • 环境与行动: 嵌入软件工具:例如Office Copilot深度集成Word、Excel、PowerPoint、Outlook。可命令这些应用创建或修改内容(使用内部API)。Windows Copilot可更改操作系统设置或打开应用。还可访问第三方插件(例如用于外部服务的Bing插件)。默认情况下并非自由漫游的网络代理——在已知应用/服务范围内行动以保证可靠性。
    • 模态: 主要是文本:出色的自然语言理解和生成(由GPT-4驱动)。有限视觉(例如可在PowerPoint中根据图像生成描述或使用插件解析截图,但尚非核心功能)。可生成格式化输出(Excel表格、带设计的幻灯片)——生产力内容中的一种多模态形式。通过Windows中的Cortana/Assistant支持语音输入/输出(能力有限)。
    • 主要用途: 生产力和办公任务:起草邮件、总结文档、创建演示文稿、通过自然语言查询分析电子表格。在Teams中,可总结会议和行动项。在Windows中,充当系统助手(切换设置、通过搜索网络回答问题)。本质上是现代版的超级“Clippy”——专注于帮助用户更快完成工作,在Office应用间保持上下文。在Visual Studio内编码也很有用(作为GitHub Copilot,编写代码建议)。

AI代理存在于多个复杂程度级别。最高级别的自主性可能要到2030年才能实现,至少对于敏感用例是如此。(Napkin)

代理的历史

  • 基于规则的起源(1950年代-1980年代): “AI代理”的概念可追溯到早期的AI程序和理论。像Marvin Minsky这样的先驱者设想智能是由许多较小的代理涌现出来的(他的“心智社会”)。早期的代理主要是为特定任务设计的基于规则或专家系统。虽然它们能遵循预定义规则,但缺乏真正的理解或适应性。例如,1980年代的专家系统可以诊断疾病或配置产品,但只能在严格参数范围内进行。这些系统很脆弱,遇到规则之外的场景就会失败,并且无法从经验中学习。这限制了它们的现实影响力,随着第二次“AI寒冬”在1980年代末期因进展停滞而到来,热情逐渐消退。
  • 1990年代“智能代理”热潮: 在1990年代,研究人员和公司对“智能软件代理”感到兴奋,即能自主协助用户的程序(如安排会议或过滤邮件)。也探索了多代理系统(代理集合),希望它们能协作或谈判。一个著名的例子是初创公司General Magic,它设想个人数字助理为用户执行任务。然而,技术尚未成熟:设备性能不足,代理本身也未能交付成果,导致兴趣消退。这个时代一个众所周知的尝试是微软的Office助手“Clippy”(1997)——本质上是早期的UI代理。Clippy试图预测用户需求(例如提供写信帮助),但其智能非常有限。它经常误解用户意图,成了行业笑话而非有用助手。90年代代理的承诺基本破灭,因为当时AI过于原始:自然语言理解能力差,这些代理无法真正推理或学习,导致该领域在接下来的二十年里失去兴趣。
  • 2010年代虚拟助手: 在2010年代,主流的“AI代理”以语音激活助手和聊天机器人的形式出现。苹果的Siri(2011)、谷歌助手(2012年作为Google Now)、亚马逊的Alexa(2014)和微软的Cortana(2014)将数字个人助手的理念带给数百万用户。它们可以处理语音命令以完成简单任务,如设置提醒、播放音乐或回答基于事实的问题。虽然流行,但它们的影响仅限于便利性任务,因为其可用性太有限,无法让代理完成任何复杂的操作。我个人使用Alexa大约一年,但几乎只用于天气预报和设置计时器。这些系统并非真正的代理,而是语音控制的命令界面,不会代表用户自主行动。

为何早期迭代未能成功: 纵观这些历史努力,一个共同主题是代理过于局限,无法产生重大影响。早期系统无法真正理解上下文或处理不可预测性。它们缺乏对过去交互的记忆,也没有真正的推理能力。如果任务偏离了它们被明确编程的范围,它们要么放弃,要么产生胡言乱语。例如,语音助手无法进行多轮对话或执行复杂序列:任何错误都会使过程中断,需要人类介入。本质上,早期的“代理”不是自主的问题解决者,而是狭窄技能的集合。它们也往往是孤立的(聊天机器人无法控制你的日历,除非专门集成)。这意味着它们只能以微小方式增强人类工作流程,无法自动化真正开放式的任务。所使用的、ChatGPT之前的原始AI根本不够强大,无法实现全能数字助手的宏伟愿景,因此这些早期代理仍然只是新奇事物或小众工具,而非变革性平台。

AI代理经历了多次虚假的起步,但终于要成为现实了。(Napkin)

为何是现在?

历史的局限性终于被克服了。并非是说2025年的代理能做到20世纪自主计算机代理梦想中的一切。但当前的AI确实能理解上下文;它能读取你的电脑屏幕;它拥有多模态能力,使其能在以前分离的应用程序间行动。(即使本文开头我那个简单的对比表,也是从35个不同来源汇编而成,每个来源都有其呈现信息的独特方式,“深度研究”花了38分钟提取信息,然后编译成统一格式。)

和AI领域一贯的情况一样,问题不在于工具当前的能力,而在于其进步速度以及这对未来几年其能力意味着什么。例如,一位用户发布了一个(带截图的)尝试让OpenAI的“操作员”代理报销费用的过程分解,虽然它很好地完成了某些步骤,但无法完成整个任务。他的结论是,当前的代理对于窄任务或完美性不重要的任务来说没问题。

这个小案例研究不应让我们得出AI代理永远无法完成中型任务(如报销)或大型任务,或它们无法执行需要精确性的任务(如任何财务任务)的结论。两年后,我们将拥有下一代AI,能力更强;五年内,几乎所有问题都将得到解决。也许需要十年AI代理才能常规地为大多数人报税,但完成报销在五年内完全可期。

例如,人们已经建立了“深度研究”代理,每天早晨扫描新闻,并根据特定用户的兴趣(无论多么小众)创建优化的每日摘要通讯。这些用户不再访问新闻网站。(不过未来,我能想象少数新闻机构足够优秀,用户会支付小额订阅费,允许他们的代理访问其新闻源。几乎可以肯定,这些订阅费必须远低于当前访问整个新闻网站的价格。)

当今的代理在相当结构化的数字领域表现最佳:网页浏览、表单填写、代码编写等。它们在物理世界中的能力较弱(尽管实验室中存在一些与机器人集成的代理)。如果任务涉及以不可预测的方式与现实环境交互(例如家庭机器人或复杂谈判),当前的AI会因缺乏现实世界基础或长期规划稳定性而难以胜任。像谷歌的RT-2这样的实验性机器人代理,其中AI控制的机器人利用视觉和语言知识拾取物体,尚未达到消费级水平。

目前现实的用例集中在数字领域:组织信息、自动化在线流程、分析数据和生成内容。在数字领域,AI代理确实能显著提速(例如,起草一份冗长报告人类需要数小时,但AI代理可以在几分钟内组装出一份像样的草稿)。但在复杂决策方面,它们目前并不比人类更可靠,最好作为不知疲倦的助手在监督下处理繁琐工作。

我预计到2027年,许多专业人士将在工作中拥有半自主的AI助手(起草邮件、安排日程、研究),高级用户将开始将部分个人杂务委托给AI(也许你的AI可以重新安排约会或整理照片)。真正变革性的代理——一个你毫无保留信任的助手——可能会随着技术和我们对它的信心逐渐成熟而出现。真正的个人助理可能必须等到预计2030年超级智能的到来。

AI代理代表用户不知疲倦地工作。目前,代理擅长检索和分析大量不同的数据源。相比之下,我们可能还要等几年,代理才能常规地代表用户采取行动。(Leonardo)

当前代理如何工作:OpenAI “操作员”案例研究

OpenAI的“操作员”于2025年初作为研究预览版推出。它是ChatGPT的一个版本,可以操作网页浏览器为用户执行任务。不同于仅仅给出答案,“操作员”可以自动在网站上点击、滚动和输入。OpenAI将其描述为用于“重复性浏览器任务,如填写表格、订购杂货,甚至创建模因”的代理。

在演示中,“操作员”被要求获取一份意面食谱并在线订购食材,它成功浏览了AllRecipes网站,然后转到Instacart完成了整个订单。另一个例子中,它通过旅游网站规划了一次旅行。在底层,“操作员”运行在一个名为“电脑使用代理”(Computer-Using Agent, CUA)的新模型上,这是GPT-4的一个变体。该模型结合了GPT-4的高级语言推理能力、视觉能力(通过查看网页截图来理解所见内容)以及操纵图形用户界面元素的训练。

“操作员”在“感知 → 推理 → 行动”的迭代循环中工作。它“看到”当前网页(通过GPT-4视觉,像解读图像一样解读屏幕),在内部规划下一步行动,然后执行点击或按键操作。它持续这个循环直到任务完成。例如,如果要求预订餐厅,它可以导航到OpenTable,搜索餐厅,选择日期,填写详细信息等,一步一步进行。

自主AI代理的3个步骤。注意:代理行动后(例如点击网站上的按钮),它会通过感知系统(例如网站)的新状态重新开始这个过程。(Imagen)

重要的是,OpenAI内置了安全防护栏:“操作员”在出现某些敏感步骤时会暂停并将控制权交还给用户。它拒绝执行高风险任务(如金融交易),如果需要登录或密码,它会要求用户介入并手动输入凭证。这意味着“操作员”并非完全自由漫游——它受到限制以避免代价高昂的错误或滥用。

(显然,为了让AI代理在代表用户执行任务时真正有用,它们将需要完全访问用户的密码,也许需要限制代理代表用户花费的金额。)

“操作员”旨在自动化繁琐的在线杂务。OpenAI特别提到了假期规划、填写表格、餐厅预订和在线购物等任务。在企业环境中,它可以处理基于网络的重复性工作流(例如跨网络门户的数据录入)。本质上,它充当个人网络助手或“通用UI”的原型,使用与人类相同的网站。

目前“操作员”仅对美国的ChatGPT Pro(200美元/月)账户用户开放——这表明它仍处于早期阶段,正在有限范围内进行测试。

与早期代理相比,“操作员”的优势在于执行多步骤网络任务的可靠性。它利用GPT-4的智能进行深度推理和指令理解,并结合了实际的GUI操作。这比Siri/Alexa的单轮命令复杂得多。一位观察者指出,“操作员”“在坚持完成任务方面展示了我们从未在……前沿模型提供商身上看到的可靠性”。

其“看见”界面的能力也很关键;与纯文本机器人不同,它不会在网页上迷失方向,因为它能读取屏幕上的按钮和文本。然而,OpenAI有意限制了“操作员”的自主性(它很谨慎,需要确认),正如测试者所发现的,这意味着它尚不是一个万事皆可放手不管的礼宾服务。OpenAI目前将“操作员”定位为“研究预览”,暗示它是通往未来更强大自主代理的垫脚石,他们将继续改进模型的深度推理并扩展其行动空间。

代理取代UI设计

当前最好的代理(例如OpenAI“操作员”)可以接管你的电脑,读取屏幕上的信息,理解它,规划必要的下一步,并执行行动以实现这一步,例如在文本输入框中输入信息,点击按钮和菜单。这听起来很像描述一个人使用用户界面完成任务,事实确实如此。

未来,与你的UI交互的将不再是人类,而是代表其人类的AI代理。在极限情况下,人类用户将从网络和许多软件应用中消失。

一个可能的场景是,“用户”只与其代理交互,然后代理执行与所需服务进行任何特定交互的任务,以完成代理被命令执行的任务。

本文开头的对比表就是一个例子:我没有访问任何代理提供商的网站或发布代理评论的网站。“深度研究”为我完成了所有这些访问,然后从它访问的所有网页中提取了它认为相关的信息。(准确地说,我确实点击了几个“深度研究”的引用来核对几件事,但主要是我从未见过它访问的35个网站。)

一旦向代理的转型完成,网站可能永远不会再见到人类用户。这意味着传统意义上的UI设计变得无关紧要。外观和感觉?哈,没人会在意你的网站是好看还是难看,或者使用起来感觉如何,因为没有人(人类)会使用它。

用户体验的其他方面将保留。例如,你仍然需要设计支持用户任务所需的功能,尽管一旦暴露给AI,工作流可能需要重新考虑,而不是必须易于人类理解。

内容设计(又名写作)也是如此。没有人会阅读网页。相反,AI代理会提取它想呈现给用户的信息,并按照它知道用户喜欢的风格重写。这包括将信息改写为适合用户智商和教育水平的可读性级别。

(本文的写作阅读水平为18年级,相当于硕士程度,因为我的大多数订阅者大致处于这个水平——无论他们是否有学位,他们都有相应的智商,否则他们不会在这里。但AI代理可以将阐述简化到高中辍学者也能轻松理解的程度。)

在终极场景中,数字服务(无论是通过网页还是软件应用提供)唯一的设计考虑点是优化以适应AI代理。没有人会与设计交互,因此传统的“用户界面”将消失。

如何通过代理这个中介来投射品牌?摄影和其他插图在布局消失后仍将重要。写作风格的一些残余也可能保留在代理的改写和摘要中。但主要重点是提供代理认为对其人类重要的信息。

网络即将结束一个为期30年的时期,在这个时期,SEO(搜索引擎优化)是网站可见度和访问量的主要驱动力。在许多方面,为GoogleBot和其他爬虫写作比为人类写作更重要。因此,为AI代理优化网站内容并非全新事业,尽管具体指南无疑会不同。你希望在代理中排名靠前——这是企业生存的新要务。

过渡期:网站访问者中混合着人类和代理

一些人质疑,如果所有用户行为都通过代理发生,无论是进行研究、娱乐还是交易,我们为什么还要有网站?为什么不通过API将所有信息暴露给AI服务就完事了?

保留网站至少10年的一个原因是将会有一个过渡期,早期采用者将使用代理,而落后者将继续手动浏览网站。在此期间,你必须同时满足人类和代理的需求。

过渡期已经开始!“深度研究”和类似代理已经占据了网站访问量的部分比例。2025年2月一项针对3000个网站的研究发现,63%的网站收到过AI代理的访问,其中98%的AI流量仅来自3家代理提供商:ChatGPT、Perplexity和Gemini。(不是说其他代理提供商以后不能变得重要,但现在,如果你想为代理优化网站,请先考虑这三家。)

2025年2月,平均网站只有0.2%的流量来自AI代理,但这个估计可能偏低,因为并非所有访问代理都准确披露其性质。有趣的是,在这项研究中,小品牌收到的AI流量占总流量的比例高于大品牌。这个发现很合理,因为人类通常会将浏览限制在几个顶级来源,无论是已知品牌(主要是大品牌)还是在SERP(搜索引擎结果页面,同样是大品牌的领地)上排名靠前的品牌。相比之下,AI代理在解决问题的探索中通常会走得更远。

我欢迎AI代理能在多大程度上复兴网络作为大量声音(包括我自己不起眼的UX Tigers网站)家园的原始理想,而不是被少数大品牌和科技巨头主导。

很可能将是一个缓慢的过渡,AI代理逐渐占据网站价值的更大份额。人类访问者会完全消失吗?这有待观察,但我很容易看到这种情况最终发生。

在过渡期,网站将接收来自人类用户和代表其他客户的AI代理的混合访问。几年内,这种混合将逐渐转向更多的代理访问者。(Leonardo)

我相信当前这代AI代理将启动这一转型的原因之一是,即使当前网站纯粹是为人类访问者设计的,它们也能发挥作用。当前的AI可以看到网页、阅读文本并解释图像。它们可能使用不同编码的信息效果最佳,但它们现在就能正常工作。

AI代理能够与面向人类的设计协同工作,这与之前构建“语义网”和互联网内容的机器可读版本的努力形成鲜明对比。之前存在一个重大的“先有鸡还是先有蛋”问题:公司被要求投入大量资源构建这些新内容资源,而几乎没有客户使用它们进行业务。(反之,用户也从未采用过在几乎没有内容提供商提供新格式信息时就无用的软件。)

安息吧,可访问性,代理将更好地帮助残障用户

自1999年发布第一份网页可访问性指南以来(同年我出版的《Designing Web Usability》一书中也有一章讨论可访问性),人们一直希望更好地编码网页内容和功能能帮助残障用户更好地使用网站。这个希望破灭了。残障用户的可用性仍然不可接受,主要是因为编码机制是一种能力不足的任务支持方法。

一年前,我认为生成式用户界面(Generative UI)是解决这个问题的方案。我们不再为没有和有功能限制的用户编码相同的网页,而是使用AI为每类用户生成独立的用户界面。例如,盲人用户将获得一个完全为听觉设计的用户体验。这将提供比可访问性方法(先为视力正常用户设计二维图形用户界面,然后确保其可以线性化和朗读出来)更好的可用性。(这种方法从未奏效。)

我仍然相信生成式用户界面可以极大地提高残障用户的可用性。除了生成一流的听觉UI的例子,它还可以为需要8年级阅读水平文本的低文化水平用户重写所有内容版本。

然而,这种利用生成式UI更好地服务残障用户的做法,现在可能只是一个等待更好AI代理的临时解决方案。我们将在2027年,或最迟2030年获得这些代理。为了帮助残障用户,我认为2027年是更可能的目标年份,原因有二。首先,残障用户有强烈动机获得比当前痛苦更好的用户体验,因此他们会是早期采用者,并且愿意一开始使用半自主代理,即使它们比非残障用户愿意提供的需要更多人工辅助。其次,残障用户早期使用代理的大部分是非关键任务,如阅读新闻和社交媒体或下电商订单,这些可以在付款前确认并在需要时重做。(相比之下,可能要到2030年我们才会让代理在互联网上自由行动,并允许它们自主使用我们的信用卡。)

假设残障用户主要从2027年开始转向使用代理上网,那么在此之前没有足够的时间来开发高能力的生成式用户界面并将其嵌入足够多的网站以产生影响。

因此,我不再相信生成式用户界面是解决可访问性差的方案。相反,AI代理才是答案。

可访问性已接近消亡。一旦大多数残障用户拥抱AI代理满足其互联网需求,网站就可以专注于服务代理,知道这将为所有用户优化用户体验,无论其是否有任何残疾。(Leonardo)

代理可以代表用户浏览网络,并按照设计的方式看到网页,即使其用户是盲人。代理也可以按设计意图点击和滑动任何GUI元素,即使其用户有运动技能障碍。代理可以阅读和理解任何可读性水平的内容,即使其用户文化水平低——甚至是文盲。代理可以做所有这些,然后以优化适应用户能力、需求和偏好的方式与其用户沟通。

残障用户也会有动力花时间教导他们的代理了解他们的偏好和独特需求,减少了代理需要自行推断这些的需求,而对于那些不太愿意花时间设置AI代理的大多数用户来说,代理很可能必须自行推断。

代理可用性与设计指南

由于通用AI代理仅问世几个月(并且更有能力的通用代理还只是预览版),我找不到任何关于人们使用代理完成真实任务的真正可用性研究。

有一些关于部分自动化特定任务的有限代理的研究,例如部分自动驾驶汽车,要求人类驾驶员随时准备接管。主要发现是,对半代理系统的信任建立缓慢,当它犯错时信任会急剧下降。此外,用户很容易误解代理的真实能力,部分原因是过于热切的营销声明可能误导他们。(一个很好的例子,说明系统的推广方式通过设定用户期望成为整体用户体验的一部分。)

信任建立缓慢,特别是对于关键业务应用,如果代理严重出错,用户的工作(或公司)可能面临风险。开始时,用户可能会密切监控代理,随着代理证明自己而逐渐放松。(Ideogram)

这些发现使我得出一个通用指南:对于重要任务引入代理,最好缓慢推进。总的来说,我对于加速AI应用非常积极,但那是AI与人类协作的情况。对于代表用户工作的自主代理,我们应确保AI已发展到代理能在极大部分时间内正确执行任务的阶段,因为当其失败时会对用户体验产生负面影响。

关于AI代理的通用指南是像对待驴拉车一样:慢点走,只放驴能拉动的东西在车里。(Midjourney)

以下AI代理用户体验的初步设计指南部分基于久经考验的10条可用性启发式原则。由于它们体现了人机交互的最基本原则,因此也适用于AI代理。

  1. 预先设定清晰期望: 确保用户在使用前了解AI代理能做什么、不能做什么。清晰传达代理的能力、范围和限制。通过坦诚其局限性,设计者可以防止用户形成不切实际的心智模型。这包括使用直白的品牌和名称,避免夸张术语以免过度拔高期望。
  2. 使代理行为符合用户上下文和规范: AI交互应及时、情境化且礼貌。代理必须选择正确的时机进行干预或通知(例如,不在用户开会时打断非紧急更新)。代理也应遵循社会期望:对于对话式AI,使用符合用户文化背景的语气和语言。(启发式原则2:系统与现实世界的匹配。)
  3. 提供透明度和可解释性: 每当AI代理做出重要决策或推荐时,提供解释或至少使推理可追溯。用户应能得到“它为什么那样做?”的答案。这可以通过按需解释UI或简单语言说明来实现,帮助用户校准信任并双重检查关键输出。(启发式原则1:系统状态可见性。)
  4. 支持用户控制和轻松退出: 始终为用户提供纠正AI或在需要时退出其协助的方法。这包括轻松调用和关闭代理(例如显眼的“取消”或“关闭”按钮)以及高效的错误纠正机制。如果AI在自动化任务,让用户审查并确认关键操作(确认对话框)或在事后撤销操作。(启发式原则3:用户控制和自由。)
  5. 优雅处理错误和不确定性: 预见到AI有时会出错或不确定,并设计UX来优雅应对。这涉及错误预防(如果失败代价高,则避免执行低置信度的操作)、错误消息和恢复选项。重要的是,不要让用户陷入困境——如果代理无法处理请求,始终建议下一步。(启发式原则9:帮助用户识别、诊断和从错误中恢复。)
  6. 启用反馈和学习循环: 将用户视为改进AI代理的合作伙伴。提供用户反馈渠道,例如对推荐的赞/踩、交互后的简短调查,或报告“这个答案错了”的方式。(此类反馈可输入强化学习以改进代理的未来版本。)以透明的方式随时间学习用户行为。个性化可以增强UX(例如任务助手学习用户偏好),但这应在用户知情和控制下发生。例如,一个日程安排代理可以告诉用户“我会记住您对晨间会议的偏好”。

我知道我听起来像张破唱片,但即使是破唱片一天也有两次是对的:你必须对任何AI代理设计进行可用性测试。由于这些都是新的用户体验,我们不能指望仅凭上述通用可用性指南就能做对。(Leonardo)