上海交通大学等机构的研究团队揭开了这场人机博弈的底牌
上海交通大学等机构的研究团队揭开了这场人机博弈的底牌
  • 2026-04-25 18:42:38
    来源:抱关击柝网

    上海交通大学等机构的研究团队揭开了这场人机博弈的底牌

    字体:

    这项由上海交通大学与卡内基梅隆大学联合开展的研究,于2026年2月发布在预印本平台arXiv,论文编号为arXiv:2604.09574v1,研究方向归属于人工智能领域。感兴趣的读者可通过该编号查找完整论文。

    手机屏幕上,一只看不见的"手"正在悄悄滑动、点击、翻页。它不是真正的手指,而是一个由人工智能驱动的程序——我们称之为GUI智能体(Graphical User Interface Agent)。这类智能体能够"看懂"手机屏幕上的内容,然后模拟人类操作来完成各种任务:帮你在购物平台下单、在社交媒体刷新鲜事、在旅行APP预订机票……听起来极为方便,但背后却引发了一场激烈的"猫鼠游戏"。

    微信、淘宝、抖音这类超级平台,每天的收入很大程度上依赖于真实用户的注意力——你看广告,平台赚钱;你被推荐内容吸引,平台积累数据。而AI智能体的目标恰恰相反:它追求效率,直接跳过广告,忽略推荐内容,以最短路径完成任务。这就像一家餐厅辛辛苦苦摆好了菜单,结果来了一个顾客不看菜单直接冲进厨房取餐。平台当然不愿意这样。

    于是,平台开始部署防御手段:检测到异常行为,就封号、限流、弹出验证码,甚至直接拒绝服务。2025年底,字节跳动旗下的豆包手机助手就遭遇了这样的冲突——当它尝试帮用户操控微信发消息时,微信的风控系统立刻将其识别为可疑脚本,触发了封号机制,大量真实用户受到波及,连正常登录都受到影响。这场事故成为了研究团队关注这一议题的直接导火索。

    然而,学术界此前对这个问题的关注方向有些偏差。大多数研究要么专注于如何让智能体完成任务更准确,要么研究如何让智能体抵御平台的恶意干扰。研究团队认为,这两个方向都忽略了一个更根本的问题:在智能体被"攻击"之前,平台首先需要把它识别出来。换句话说,"识别"才是"对抗"的前提。而智能体若想在这个生态中生存,就必须学会如何让自己看起来像一个真人。

    这就是研究团队提出的核心概念——"屏幕上的图灵测试"(Turing Test on Screen)。

    一、一场关于"手指动作"的身份核查

    阿兰·图灵在1950年提出了著名的图灵测试:如果一台机器能通过文字对话让人分不清它和真人,那它就可以被认为具备了类人智能。研究团队将这个经典思想搬到了手机屏幕上:如果一个AI智能体的操作动作,能让检测系统分不清它和真人,那它就通过了"屏幕上的图灵测试"。

    检测的核心依据是触控行为的生物特征。每个人用手指操作手机的方式都有独特的痕迹:滑动时手指会自然偏移、按压有一定的持续时间、操作之间存在人类思考和反应所需的间隔时间……这些细节合在一起,就像是一个人的行为"指纹"。而AI智能体操控手机时产生的信号,往往整齐得不像话——轨迹笔直如尺,点击瞬间完成,每次操作后紧跟着漫长的"思考等待",这些特征在真人操作中几乎不会出现。

    研究团队将这场博弈建模为一个数学上的"最小-最大博弈":检测器(代表平台)尽力提高识别AI的准确率,而智能体(代表用户一方)则尽力降低被识别的概率,同时还要保证任务完成质量。这两方的目标正好相反,形成了一种持续演进的对抗关系,就像捉迷藏游戏中,躲藏者越来越擅长隐蔽,寻找者也越来越擅长发现。

    为了研究这个问题,研究团队做了一件很扎实的事:他们收集了大量真实的手机操作数据。

    二、数据的故事:人类手指和机器之手的天壤之别

    研究团队构建了一个涵盖21款主流APP的数据集,这些应用被分为五大类:社交媒体(微博、知乎、小红书、头条)、购物(京东、淘宝、饿了么等)、视频(爱奇艺、B站、QQ音乐)、出行(携程、高德、去哪儿等)以及办公学习(腾讯文档、腾讯会议、有道词典等)。

    数据来源分为两大阵营。一方是真实用户:研究者招募了年轻男性、年轻女性、中年人和老年人四类群体,因为不同年龄段的人操作手机时确实有生理上的差异——老年人的手指可能更慢、颤抖更多,年轻人的操作则更快、更流畅。另一方是当前最先进的AI智能体:UI-TARS、MobileAgent-E(GPT-4o版本)、MobileAgent-E(Claude-3.5-Sonnet版本)、AgentCPM以及AutoGLM,都是2024-2025年间学术界和工业界的代表性产品。

    所有实验都在同一台小米Max 2手机上进行,运行MIUI 11.0.2.0系统,以保证数据可比性。研究团队从每次操作中提取了两类原始信号:一类是触控事件,记录手指的坐标位置、移动轨迹、时间戳等;另一类是传感器事件,包括加速度计、陀螺仪、磁力计、重力感应等8种硬件传感器的读数。

    从这些原始信号中,研究者进一步提炼出24个统计特征,分属几个大类。运动学特征涵盖速度(包括整体平均速度、20%分位速度、50%分位速度、80%分位速度,以及轨迹末尾三个点的中位速度)和加速度(同样按分位数细分);几何特征包括轨迹的路径长度、起终点直线位移、路径效率比(终点距离除以总路径长度,完美直线时等于1)、最大偏离量、均值合力长度、方向角等;时间特征则包括单次操作持续时间和操作之间的间隔时间;此外还包括触控起点和终点的坐标位置。

    研究者用信息增益这个概念来衡量每个特征对区分人类和AI有多大帮助。结果显示,几何类特征最有区分力,尤其是"最大偏离量"(衡量轨迹弯曲程度的指标,信息增益约0.67)和"路径效率比"(信息增益约0.66)。换句话说,轨迹是否笔直,是判断"你是人还是机器"最强有力的依据。

    三、AI的三大暴露点:为什么机器的操作一眼就被看穿

    研究团队做了初步的定性分析,发现AI智能体在三个方面与人类存在显著差异,就像间谍试图混入人群时,却忘记了人类走路时会微微晃动身体。

    第一个暴露点是轨迹的直线性。人类手指在滑动屏幕时,由于肌肉控制、手腕角度、皮肤弹性等生理因素,轨迹总是带有细微的弧度和抖动——就像用手画的直线,再努力也不可能完全笔直。而AI智能体的滑动操作,往往是从起点到终点的一条几何意义上的完美直线,毫无"人味"。论文中附有对比图,人类的滑动轨迹呈现出自然的弯曲,而AI的轨迹就像是用直尺画出来的。

    第二个暴露点是操作间隔时间的分布。人类完成一个操作后,到下一个操作之间有多长时间?通常是随机的、不规律的,整体呈现出峰值在零附近的长尾分布——有时几乎立刻点下一个,有时停顿几秒思考一下。而AI智能体完成每个动作后,需要调用大型多模态模型来"看图"、"思考"再"决策",这个推理过程需要相当长的时间。UI-TARS的平均等待时间集中在5到10秒,MobileAgent-E则需要50到80秒,这些规律性的长时间停顿是极其明显的破绽。

    第三个暴露点是点击的持续时间。人类的手指在触摸屏幕时,由于皮肤的弹性,接触时间通常在0.05秒到0.10秒之间,呈现出自然的高斯分布(也就是钟形曲线分布)。而AI智能体模拟点击时,是通过程序直接注入触控事件,接触时间几乎为零,在统计图上表现为一个尖锐的零值峰——就像机器人以光速完成了一次"点击"。

    这三个暴露点合在一起,让原始的AI智能体几乎无法通过任何检测。研究团队测试了机器学习分类器(SVM支持向量机和XGBoost梯度提升树)在识别AI操作时的准确率,结果高达99.5%和98%以上,几乎是完美的识别率。这意味着,当前的智能体面对稍微专业一点的检测手段,就像穿着宇航服试图混进日常人群一样,一眼就露了馅。

    四、为它们设计"伪装衣":四种拟人化改造方案

    研究团队将这个问题称为"智能体拟人化"(Agent Humanization),并设计了四种改造策略,试图让AI的操作更像人类,就像特工学习伪装自己的行为举止来通过敌方检查一样。

    这四种策略构成了一套由外到内的改造体系,统一采用"外部封装器"的方式:在AI智能体做出每个动作之后,由一个额外的模块对这个动作进行加工,再实际执行。这样的好处是对原始智能体完全无侵入,任何模型都可以直接套用。

    第一种策略针对滑动轨迹的直线问题,称为B样条噪声注入。B样条是数学中一种常用的曲线生成方法,通过在直线路径周围随机散布控制点,然后用B样条函数连接这些点,就能生成弯曲自然的曲线。打个比方,原本AI想从屏幕左边滑到右边,走的是一条笔直的高速公路;加了这个方法之后,它会走一条略有起伏的乡间小道。这种方法计算快速,可以实时处理,缺点是生成的曲线随机性是纯数学意义上的,不一定和真实人类的手指运动规律完全一致。

    第二种策略是数据驱动的历史轨迹匹配,称为旋转与匹配。这个方法更聪明:直接从真实人类数据中找一条相似的滑动轨迹,然后通过数学变换(旋转、缩放)把它对准当前需要完成的动作方向和距离,原封不动地"借用"这段真实的人类轨迹来执行任务。如此一来,速度波动、微抖动、末端减速等人类手指独有的细节都被完整保留了。代价是需要维护一个真实轨迹数据库,并且在执行时需要花一点时间检索匹配。

    第三种策略针对操作间隔时间问题,称为假动作注入。在AI等待模型推理的漫长时间里,程序会自动插入一些无意义的微操作,比如在上一次点击的位置附近画一个很小的圆圈(半径约50像素),模拟人类在思考时无意识地摩挲屏幕的习惯。通过泊松过程(一种描述随机时间间隔事件的数学模型)以平均每秒0.9次的频率插入这类微操作,可以有效打破AI等待时的"沉默",使时间间隔分布向人类的模式靠拢。

    第四种策略针对点击持续时间问题,称为延长按压。做法非常直接:从真实人类的点击持续时间数据中拟合出一个高斯分布,每次AI执行点击时,就从这个分布中随机采样一个时长,让点击"停留"那么长时间再结束,模拟手指实际接触屏幕的物理过程。

    在理论层面,研究团队为后三种方法(B样条、历史匹配、假动作)提供了数学证明,核心结论是:随机化处理能严格降低人类行为分布与AI行为分布之间的詹森-香农散度(一个衡量两个概率分布差异程度的指标),而历史匹配方法在数据量趋于无穷大时,AI的行为分布会完全收敛到真实人类的分布,从而让任何检测器都退化为随机猜测。

    五、实验的账单:到底改造了多少,又付出了什么代价

    研究团队在五大类APP上对所有策略组合进行了系统测试,分为两种模式:在线模式(智能体实时执行任务,同时评估任务成功率)和离线模式(对已录制的操作数据事后改造,单独评估检测逃避效果)。

    从检测逃避效果来看,历史轨迹匹配方法始终优于B样条方法。以社交媒体类为例,离线历史匹配将"综合检测分数"(越低越难被发现)从原始的0.9969降低到0.7190,XGBoost检测器的准确率从100%降至94.5%;而B样条方法只能将检测分数降到0.8507,XGBoost准确率仍有98.17%。这一差距印证了"用真实人类数据伪装"比"用数学模拟人类数据伪装"效果更好的直觉。

    假动作策略在对付时间间隔检测方面非常有效——在所有测试的APP类别中,时间间隔规则检测器的准确率都被压低到约52%,接近随机猜测的50%。但这个方案在实际任务执行中付出了沉重代价。在出行规划类任务中,加入假动作后任务成功率从75%骤降到15%。原因在于,盲目插入的微操作可能触发界面上的某些元素,导致意外跳转页面,而智能体对这些意外状态毫无感知,结果原定的操作计划全部打乱。这是一个深刻的教训:在一个维度上的伪装,可能会在另一个维度上制造新的破绽。

    延长按压策略效果相当好,以购物类APP为例,仅靠这一个改造,就将点击持续时间相关的检测准确率从98.4%降低到了61.33%,操作方式简单却立竿见影。

    从单个特征的改造难度来看,研究团队发现了两类"难易两极"的特征。最容易改造的是路径弯曲度相关的特征,比如最大偏离量(maxDev)和路径效率比,通过历史匹配后,这两个特征的检测准确率从约99%降至55%至64%,接近随机猜测,改造成功。最难改造的是两类特征。一是落点精度:人类点击时会有几个像素的自然偏差,而AI点击时总是精准命中UI元素的中心坐标。如果人为给AI的落点加噪声,随时可能点偏,导致任务失败,这形成了伪装效果和任务成功率之间难以调和的矛盾。二是操作间隔:如前所述,假动作虽然能伪装时间分布,但代价是可能破坏任务逻辑,从理论上解决但实践中副作用严重。

    在特征数量与检测准确率的关系上,研究团队还做了一个有意思的实验:随机选取不同数量的特征输入分类器,观察检测准确率的变化。结果显示,检测准确率随特征数量的增加呈对数曲线上升,在5到10个特征时就已接近饱和——换句话说,检测器并不需要用到全部24个特征,只需要少数几个关键指标就能达到很高的准确率。而经过历史匹配改造的智能体,即使面对24个特征的完整集合,检测准确率也始终维持在比原始AI低10%到15%的水平,说明改造确实在整体上削弱了检测器的能力,但尚未达到让检测器完全失效的程度。

    六、这场游戏的未来:从手指动作到内心意图

    研究团队没有止步于眼前的发现,他们对这场"猫鼠游戏"的未来走向做了深入展望,这也是整篇论文中最值得关注的前瞻部分。

    从智能体改造的角度,目前的"外部封装"方案面临一个根本性的矛盾:改造效果越好,往往需要越多的处理时间,而处理时间本身就是一个暴露点。研究团队认为,未来的解决方向应当是"端到端拟人化"——不是在模型做完决策之后再去修饰动作,而是在模型训练阶段就将人类的运动模式内化为模型本身的输出习惯,就像一个学了多年书法的人,写出来的字天然就带着流畅的笔势,而不是写完后再用橡皮慢慢修整。

    另一个重要方向是个性化拟人化。目前的改造策略是让AI看起来像一个"平均意义上的人类",但未来的检测技术可能会进化到验证"这个操作是否像某个特定用户的历史习惯"。到那时,AI就必须学会模仿特定用户的专属行为模式,包括这个人习惯用右手还是左手、惯用的滑动力度、思考时的停顿节奏等。

    还有一个方向是跨模态拟人化。现有研究主要集中在触控动作,但真实人类与手机的交互远不止滑动和点击:打字时会有错误和纠正,阅读长文时滚动速度会因内容密度而变化,有时会长时间盯着某处"走神"然后突然继续……这些多模态的行为细节都是未来检测和改造需要关注的战场。

    从检测方向来看,研究团队判断,随着拟人化技术的提升,基于"手指动作"(执行层)的检测会逐渐失效,检测的前沿将转向"意图模式"(意图层)。AI的行为根本上是高效、目标导向的;而人类的行为则充满了"无效"的成分——好奇心驱动的漫无目的浏览、注意力分散导致的回头重看、犹豫和改变决定……这些"低效"恰恰是人类的标志。未来的检测器,可能会分析更长时间尺度上的行为序列,寻找这种属于人类的"不完美效率"。用研究团队的话来说,"图灵测试在屏幕上的终极形态,将从区分谁的手在动,演变为区分谁的大脑在思考"。

    研究团队还专门讨论了这项研究的伦理维度。有人可能担心,提供这套"伪装方法"会不会帮助恶意行为者(比如刷量农场、虚假流量制造者)绕过平台的防御?研究团队的回应是:恶意行为者本来就有私有的逃避技术,只是不公开,这反而让防御方处于信息劣势;而公开发表这项研究、提供标准化的检测基准,能让平台防御方更系统地了解自己面临的威胁,从而构建更精准的防御。更重要的是,研究的根本出发点是保护用户权益——正如豆包助手事件所展示的,平台的"一刀切"防御会误伤大量使用AI助手提升效率的普通用户,而更精细的行为识别技术,有助于区分"真正的恶意自动化"和"用户授权的合理辅助"。

    说到底,这项研究揭示的是一个更宏观的趋势:当AI助手越来越深入地渗透到我们日常的数字生活中,它与数字平台之间的关系必然从当前的剑拔弩张走向某种形式的博弈均衡。今天,AI操控手机的动作还粗糙得像个机器人;但随着拟人化技术的成熟,也许有一天,没有人能看穿屏幕背后操控的究竟是手指还是算法。

    归根结底,这不仅是一个技术问题,更是一个关于"谁来定义正常使用"的社会问题。平台想要捍卫自己的商业利益,用户想要获得更强大的AI助手,而这中间的张力,将是未来几年数字生态中最值得关注的议题之一。有兴趣深入了解这项研究的读者,可通过arXiv论文编号2604.09574查找完整论文。

    Q&A

    Q1:GUI智能体为什么会被平台检测到?

    A:GUI智能体在操控手机时会暴露三个明显破绽:滑动轨迹过于笔直(人类手指天然带有弧度和抖动)、操作间隔时间过长且规律(因为AI需要时间"看图思考",而人类操作间隔短且随机)、点击持续时间几乎为零(程序注入的触控事件是瞬间完成的,而真人手指接触屏幕有物理上的停留时长)。这三个特征加在一起,让机器学习检测器能以接近99%的准确率识别出AI操作。

    Q2:拟人化改造后的智能体任务成功率会下降多少?

    A:这取决于具体的改造策略。仅改造滑动轨迹(历史匹配)或仅延长按压时间,对任务成功率影响较小,部分任务甚至因操作更稳定而略有提升。但加入假动作注入(用于伪装操作时间间隔)时,任务成功率可能大幅下滑——最极端的案例是出行规划类任务,成功率从75%骤降至15%,因为盲目插入的微操作可能触发意外页面跳转,导致整个任务逻辑被打乱。

    Q3:屏幕上的图灵测试和原版图灵测试有什么区别?

    A:原版图灵测试(1950年提出)评估机器能否通过文字对话让人误以为自己是人类,考察的是语言智能。屏幕上的图灵测试则将评估对象转移到手机触控操作上,考察的是行为真实性——即AI智能体的滑动、点击等物理操作模式,能否骗过专门分析触控数据的检测系统。前者考验"说话像不像人",后者考验"动作像不像人"。

    【纠错】【责任编辑:6466464】