分类
Posts

可用性缩放定律:用户测试的终结?

摘要: AI 缩放定律指出,更多的训练数据会创造出更聪明的 AI。类似地,让 AI 在大量用户研究数据上进行训练,可能会提升其预测可用性问题和从一开始就创造更好设计的能力。这可能改变预测式可用性(predictive usability)和观察式可用性(observational usability)之间的平衡,导致未来对实证研究的需求减少。

我预测未来,在大量可用性数据上训练的 AI,将极大地增强我们预测用户界面质量的能力,在许多常见的设计场景中,其能力可能超越传统的实证方法。这条“可用性缩放定律”表明,随着我们通过 AI 系统地积累和应用更多可用性知识,其对 UI 设计的预测能力将呈指数级增长,从而带来高度优化的用户体验新时代。然而,实证观察(empirical observation)很可能仍将保留其至关重要的角色,尽管其重要性会降低。

尽管本文标题如此,但我并不预测用户测试会消亡。只是它的重要性将下降,并部分地被 AI 驱动的可用性预测所取代。请继续阅读以了解原因。

如果您是常读我文章的人,就会知道我通常对自己的论断相当有把握。本文的不同之处在于,老实说,我并不知道我所预测的可用性缩放定律是否会真正形成。然而,推测仍然有用,所以我们直接切入正题。

潜在的可用性缩放定律与已有充分记录的 AI 缩放定律是类似的,后者指出“当你投入更多金子,AI 就变得更聪明、更有胆子”,套用我关于 AI 缩放的一首歌里的歌词。或者,更平实地讲,随着我们增加更多的算力、训练数据和推理时间,AI 变得越来越聪明,而且这种增长似乎看不到尽头。在训练这些复杂模型方面,数量本身就能产生一种独特的质量。类似地,当我们向 AI 系统添加更多的可用性知识——不仅仅是少数几条启发式法则,而是来自无数用户交互的全面数据——它可能在预测哪些用户界面将是最优方面变得好得多,甚至可能设计出具有高度内在可用性的界面。

在可用性领域,我们在预测和观察哪种设计效果最佳之间存在一种张力。所有众多的实证用户研究方法,从少数用户的定性用户测试,到网站流量的大规模统计分析,都基于观察。我们设计一个用户界面,无论是粗略的原型还是精美的成品,然后将其呈现在一群用户面前,观察会发生什么:他们在哪里点击,在哪里遇到困难,抱怨什么,以及(希望如此)他们能轻松完成什么。这些方法情境丰富,但可能耗时且昂贵。

相反,可用性预测方法则涵盖从启发式评估(heuristic evaluation)到广泛的用户体验设计指南和模式库。借助预测方法,我们复用从过去的实证用户研究中获得的知识,分析一个拟议的设计在多大程度上符合那些积累下来的可用性见解。其目标是在用户遇到问题之前就预见问题。

过去,可用性预测方法相对较弱,尽管仍有价值。例如,我自己的 10 条可用性启发式法则帮助人类 UX 专家发现设计中的可用性问题,但它们远非完美。我一直建议将启发式评估与用户测试搭配使用,在通过多轮迭代设计完善用户界面时交替使用这两种方法。当 AI 系统执行启发式评估时也是如此:它们目前同样不够完美,应辅以一轮用户测试,以发现更微妙或特定情境的问题。

用户界面设计和人类行为在众多维度上都是多维度的,以至于要将良好交互设计所需的所有知识浓缩到 10 条原则的列表中从来都不现实——尽管我确实基于因子分析制定了当前的列表,以尽可能为如此少量的见解提供最大的解释力。复杂性是巨大的;想想所有的变量:用户目标、先前经验、认知负荷、文化背景、设备特性,以及任务和信息领域的巨大多样性。

用户行为——以及由此而来为人类设计的用户界面——是一个多方面的谜题。

迄今为止的可用性缩放

可用性缩放的第一步是将成文的推荐集从一份有限(但可管理)的 10 条启发式法则列表扩展到数千条更详细、更具体的用户体验设计指南和设计模式库。例如,Baymard Institute 发布了超过 700 条专门针对电子商务网站的文档化 UX 指南,每一条都是大量研究的精华。设计模式库则更大,据称 Mobbin 记录了超过 25 万条用户流程中的 10,000 多个 UX 模式。

累积起来,在所有可用性指南和 UX 设计模式库的发布者中,我们可能拥有接近 100,000 条关于可用性的知识条目。如果我们以 AI 缩放定律为榜样,将可用性知识增加 10,000 倍(相对于 10 条启发式法则),应该已经将我们在缩放曲线上推进了两代,因为每一代 AI 缩放都需要 100 倍的算力和训练数据。

如果我们把 10 条启发式法则类比为 GPT-1,那么当前累积的可用性指南和设计模式库应相当于 GPT-3。虽然这个 AI 模型远不如今天的模型,但它展现了早期的潜力,并证明了 AI 缩放确实在创造越来越强大的智能。这是一个明确的信号,表明该方法是有效的。

这正是 AI 缩放和可用性缩放类比的破裂点。我确实认为自我早期工作以来,世界的可用性知识已经增长了 10,000 倍。但与 GPT-3(OpenAI 在 2022 年底升级到 GPT 3.5 小版本时以 ChatGPT 发布)相反,并没有一个集全球可用性知识于一体的“可用性-3”AI 产品。我们的可用性知识分散在许多指南出版物、设计库、公司内部维基和研究论文中。更糟的是,大多数真正详细、情境丰富的可用性知识只存在于经验丰富的 UX 设计师和用户研究人员的头脑中,他们(希望如此)记得过去项目中的所做、所为、有效与无效以及原因。这些经验很少被记录并以广泛复用所需的严谨性和结构发布出来。

我们已经拥有了一座名副其实的 UX 知识大山,但它是分散的,并未完全应用于设计项目。没有 UX 专业人士能读完该领域出版的所有书籍,更不用说消费所有其他数据源了。AI 则没有这种限制。

有经验的 UX 人员头脑中蕴藏的隐性可用性知识(tacit usability knowledge)可能至少是已发布知识的 100 倍。想想所有从未在特定公司之外公开的 A/B 测试结果,或者基于观察少数用户而调整的微妙交互细节,这些经验教训成为该设计师根深蒂固的直觉,却没有被形式化。当然,在不同项目工作过的人的经验存在大量重叠,这就是为什么我仅估计隐性知识是已发布知识的 100 倍,而不是 10,000 倍——如果我们能让全球的 UX 专家花未来半年时间,写下他们能记住的所有过去项目的一切,进行一场巨大的数据转储,那才可能达到 10,000 倍。这样的工作将是巨大的,但也说明了未编码经验的规模。

当我们考虑到人类记忆的易错性,以及当员工换工作或项目终止时知识不幸丢失的趋势,那么在该领域 60 年历史中曾经产生的可用性知识总量,可能相当于已发布知识量的 100 万倍。可悲的是,其中大部分已被遗忘,注定当前的 UX 项目在做用户研究时几乎要重新发现一切:去发现本应已知的见解(因为它们在过去的某个时刻被另一家公司,甚至他们自己公司的某个 UX 专家所知)。

可用性缩放的未来世代

现在,谈谈我对可用性缩放定律辉煌未来的预测:如果,由持续不断的实证用户研究产生的所有可用性知识没有被遗忘,而是全部被积累、结构化并用作 AI 的训练数据,会怎样?想象每一次可用性研究、每一个 A/B 测试结果、每一次实地研究观察都贡献给一个不断增长、不断学习的系统。

如果我们采用我关于可用性知识比当前记录多 100 万倍(1Mx)的估计,相对于当前状态,如果我们能将所有这些知识输入 AI,那将相当于额外 3 代的可用性预测能力提升(粗略地说,每一代需要数据量提升 100 倍)。这一飞跃可能从根本上改变我们处理用户界面设计的方式。

本文并非讨论当前 AI 微弱的可用性预测能力,而是着眼于 10 年后,再经过 3 代缩放后我们可能得到的东西。

从现在起的 10 年内,AI 系统分析用户界面设计(无论是提议中的还是已发布的)的准确性超过我们目前从用户测试、网站分析以及所有其他实证用户研究方法组合中获得的准确性,这是可行的。

  • 2025年(当前状态): 可用性观察仍优于可用性预测。预测方法,包括早期的 AI 驱动工具,帮助我们节省一些研究资源并准备好用于测试的更好原型,但仅依赖可用性预测的设计项目无法实现卓越的用户体验。我们仍然需要用户测试和其他实证方法来揭示真正的问题。我去年的分析在目前仍然适用。虽然用于 UX 设计的 AI 工具正在兴起,但对于深入的实证洞察来说,它们是辅助而非替代品。
  • 2035年: 对于广泛的常见设计任务,可用性预测将优于可用性观察。用户研究将只在真正开创新天地的罕见项目中进行,例如,通过实施新的交互范式或技术(想想直接脑机接口或全感官沉浸)。大多数网站、标准移动应用和企业软件的日常设计项目,依靠 AI 对设计想法的分析,将比在每一个迭代周期花费大量资源进行传统的、广泛的用户研究,获得更好的用户体验。AI 预测将更快、更便宜,并且对于许多主流应用而言,比用户测试更准确,因为它们将基于一个难以想象的庞大的人机交互历史数据集。

在未来十年,可用性决策的基础可能会从主要基于实证观察转变为主要由 AI 驱动的预测来完成。这并不意味着 UX 设计师过时了;这意味着他们的角色转变为利用这些强大的新工具,专注于更具战略性的挑战和人类能动性(human agency)。

显然,历史不会在 2035 年停止。可用性预测可以进一步扩展。继续进行一定量用户研究的一个原因将是生成更多的训练数据,以驾驭可用性缩放定律,实现更多代的改进。这种持续的数据更新对于保持 AI 的知识与不断演变的用户期望和技术环境同步至关重要,从而使得 AI 能够设计出我们今天甚至无法想象的、具有卓越可用性水平的用户界面——而我们今天,即使在广泛使用的产品中,也常常受困于平庸的用户体验。

生成可用性训练数据

可用性缩放定律目前停留在较低水平,受限于个体人类阅读、记忆和综合可用性指南及其他知识的能力。这些限制由时间(如果你还要做实际的设计或研究工作,那么能用于阅读和学习的时间是有限的)和记忆(谁能记住十年前读过的东西,或五年前观察过的用户研究的精确细节及关键情境?)所决定。

集体而言,我们知道的很多,但个体而言,我们知道的很少。而产品是由个体制造的,或者最多是由任何给定设计团队中的一小群 UX 专业人员制造的。而不是由全球 300 万 UX 专业人士汇集他们的知识制造的。

然而,众所周知,AI 系统在数十亿参数的基础上运行良好。AI 可以吸收全球所有的 UX 知识,无论是显性的(已发布的指南)还是隐性的(从原始研究数据中推导出的),并将其应用于任何你想改进的单个对话框的设计中。

未来的 AI 可用性预测系统将从各种方法和来源产生的可用性数据的虚拟“消防水带”中饮水(drink from a firehose)。相比之下,人类 UX 专业人员则是通过象征性地啜饮私人茶杯中的茶来构建他们的知识。

鉴于几乎所有这些潜在的训练数据都以隐性知识或专有的、非结构化的研究记录形式存在,我们如何将这些可用性经验教训输入 AI?

我的假设是,这将与 AI 学习驾驶汽车的方式相同,Waymo、特斯拉、比亚迪、小鹏等汽车制造商正是这样做的:自动驾驶汽车来自 AI 在数百万小时记录汽车在各种环境中行驶的视频上进行的训练。

类似地,我们可以通过让 AI 观看老式可用性测试会话和其他用户研究的录像来构建其可用性知识库。关键问题在于需要多少小时的研究录像?对于人类 UX 专业人员来说,答案似乎是几百小时。任何有相当天赋、认真观察和分析过 200-300 场可用性测试会议的人,都会对用户行为和可用性原则非常精通。他们培养了一种对问题的“嗅觉”。

我预计 AI 将需要比人类多得多的原始数据来学习,如果我们类比一下:AI 通过阅读整个互联网进行训练,而人类则通过在幼儿园到研究生院期间阅读几千本精心挑选的书籍获得教育。AI 常常通过海量数据来弥补其缺乏先天理解的不足。

通过处理带注释的录像,而不仅仅是原始屏幕和音频,可以加速 AI 训练并使其更有效。这些注释需要丰富且结构化:

  • 识别用户交互的特定 UI 元素。
  • 为用户犹豫、错误或表达困惑/沮丧的时间点打上时间戳。
  • 记录任务成功完成和失败的情况。
  • 将观察到的行为与所违反或遵守的特定可用性启发式法则或原则联系起来。
  • 捕捉与特定交互相关的用户引述或出声思考(think-aloud)的话语。
  • 定义任务场景和用户目标。

在未来几年,观看用户研究视频并细致地为观察到的用户行为以及被测设计中推断出的可用性问题添加注释,很可能会成为许多 UX 专业人员的一份体面工作。这种数据丰富化过程对于构建高质量的训练集至关重要。

用于预测 AI 的第一批可用性训练数据很可能需要大量的人工注释以实现更好的强化学习。之后,AI 或许能够直接从原始数据中学习。

谁将生成所需的 AI 训练数据? 这是一个关键的瓶颈。目前,托管和促进远程用户测试的公司(如 UserTesting),或管理研究数据的平台(如 Dovetail),由于很可能需要至少 10,000 小时丰富注释的用户研究录像才能启动一个真正强大的系统,它们处于主导这一未来的有利地位。

我相信 100,000 小时是一个更有可能的估计值,用于产生变革性结果的训练集。这不是任何单个 UX 团队能够生成或负担得起注释的数据集,这就是为什么集中式服务,或拥有庞大内部研究运营的大型科技公司,有能力站出来,通过更好的未来可用性预测来帮助全球用户。当然,数据所有权、隐私和竞争优势的问题将显得非常突出。

开发一个用于可用性预测的优秀 AI 系统的预算很容易攀升至数亿美元。这项投资的回报率(ROI)仍然会很高,因为该 AI 可以替代超过一百万名 UX 专业人员,从而每年节省数十亿美元。(鉴于我对 UX 设计增长的预测,到 2045 年,AI 很可能会替代 1000 万人类 UX 员工,产生接近 1 万亿美元的节省。)

AI 可用性预测将替代数百万人类 UX 工作者。这些节省下来的资金将数倍地覆盖昂贵的 AI 训练预算。

这种替代不会在 UX 领域造成失业,因为被 AI 可用性预测模型增强的 UX 员工将变得比当前的 UX 员工高效得多。他们也将创造出更好的产品。当某样东西同时变得更好且更便宜时,就会有更多被购买。

将平衡转向让 AI 完成大部分 UX 工作不会造成失业,因为将会有更多的 UX 项目被完成。

未来还会有用户研究吗?

尽管我不确定,但我相信可用性预测在未来会变得更加强大,因为 AI 在更多可用性数据上进行了训练。它会变得如此强大,以至于可用性观察会消失吗?除了为新技术和设计模式更新训练数据所需的少量努力之外?

我认为,即使在 10 年内,用户研究的需求也不太可能降到零。可用性预测会很强大,可能非常强大。但即使是最博学的 AI,也可能无法预测在高度特定领域的用例中,或者在几乎没有先前数据的全新界面类型或用户群体中的所有用户需求和痛点。

简单的 UI 设计问题将首先由 AI 可用性预测系统处理,将更复杂和领域相关的设计问题留给未来几十年。

更可能的是,仍然有必要在实际客户地点进行可用性观察(情境调查、实地研究),以观察人们在其真实环境中如何执行工作,复杂的社会技术系统如何交互,以及如何处理关键的、通常未明说的需求和总是会出现的不可避免的例外情况。AI 也许能以惊人的准确性预测标准电子商务结账流程的可用性,但设计一个用于新型科学仪器的控制系统,或用于高度专业化职业的协作工具,可能仍然需要直接由人类主导的调查研究。

将要发生的不是完全替代,而是可用性预测和观察之间比率的重新平衡。目前,基于人类的预测方法(如启发式评估和 UX 设计指南)可以将一个设计项目推向高质量 UX 的大约三分之一路程。观察方法(如实地研究和用户测试)则需要将设计质量提升剩下的三分之二。

由 AI 生成的可用性预测与人类研究人员进行的可用性观察之间的平衡将在未来几年发生翻转。

  • 到 2035 年: 最低限度,这个比率将翻转,对于许多应用而言,三分之二(或可能 80%)的 UX 设计质量将源自 AI 预测,只有剩下的三分之一(或 20%)需要通过聚焦的观察方法来填补。这些观察性研究将变得更加有针对性,旨在回答 AI 无法回答的具体问题,或探索真正未知的领域。
  • 到 2045 年: 展望更远的未来,也许从现在起 20 年后,我认为比率翻转将更加剧烈。到那时,由积累了日益丰富的可用性训练数据构建的超智能 AI,将产生足够深刻的可用性预测,足以应对许多成熟领域中可能 90% 的 UX 设计质量。这只留下大约 10% 需要通过观察方法来添加。
  • 无论我们展望多远,至少在当今新 UX 员工的 40 年职业规划视野内,我怀疑可用性观察的比例不会降到 10% 以下。理解新兴行为、新技术和独特情境将始终是需要的。此外,“良好可用性”本身的定义也在演变,AI 将需要新鲜的观察数据来跟上这些不断变化的期望。

我们预期的未来 AI 可用性预测系统将始终需要更多的训练数据,以变得更好,并与不断变化的技术和用户行为模式保持同步。

当我们想到未来随着技术更加普及,将会有多得多的软件(以及其他技术,包括 AI 界面本身)设计项目时,即使它们占整体 UX 工作的比例变小,待执行的实证可用性观察研究的绝对数量可能也不会比当前数量少太多(低于一半)。UX 工作的性质将转变:减少对常见交互的常规测试,增加对未知领域的战略性探索,以及更多地与 AI 设计伙伴协作。

随着我们扩大 AI 可用性预测对 UX 设计的贡献,我们得到的将不仅仅是更多相同的东西。数量级的扩展将导致工作流程和整个 UX 过程的剧烈变化

这条潜在的可用性缩放定律为未来指明了一条道路,在那个未来,高可用性不是奢侈品而是基本期望,建立在对人机交互的系统性、AI 驱动的理解之上。是的,这是一个推测性的愿景,但对于我们如何设计数字世界具有深远的意义。

AI 将完成所有 UX 的苦差活。人类 UX 员工仍将需要负责战略和能动性,并充当组织中与其他人类沟通的桥梁。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注