面向移动GUI智能体的联邦训练评测基准 FedMABench

算法工具
论文详情

FedMABench是首个面向移动GUI智能体的联邦训练评测基准,旨在为隐私受限场景下的智能体学习提供统一的数据体系、训练框架与评价指标。它系统地刻画真实用户在移动设备上的操作分布,通过构建多维度异质性数据集和标准化的联邦训练流程,为研究社区提供一个可复现、公平且全面的实验环境。

任务:打开99acres应用程序,搜索古尔冈市DLF一期的2居室住宅公寓,价格最高可达8亿卢比
子步骤:点击"添加"以添加位置
正确示例
错误示例
✓ FedAvg模型 正确回答
Actions:\nCLICK <point>[[587, 827]]</point>
✗ Local模型 错误回答
Actions:\nCLICK <point>[[396, 1043]]</point>
任务:我想查看更多关于建议列表顶部产品的详细信息
子指示:向下滚动以查看详情
正确示例
错误示例
✓ SCAFFOLD模型 正确回答
Actions:\nSCROLL [DOWN]
✗ FedAvg模型 错误回答
Actions:\nCOMPLETE
任务:我想降低音频质量以节省一些空间
子指令:点击采样率选项
正确示例
错误示例
✓ FedAvg算法微调后 正确回答
Actions:\nCLICK <point>[[1000, 1000]]</point>
✗ GPT-4o 错误回答
Actions:\nCLICK <point>[[539, 596]]</point>
任务:我想在把生日祝福的语音发送给托马斯之前,先听听自己的声音
子指令:点击红色按钮停止录音
正确示例
错误示例
✓ FedAvg算法微调后 正确回答
Actions:\nCLICK <point>[[627, 2218]]</point>
✗ GPT-4o 错误回答
Actions:\nCLICK <point>[[766, 2278]]</point>
任务:显示我设备的版本号
子指令:向上滚动,直到找到"关于手机"选项卡
正确示例
错误示例
✓ Category IID 正确
Actions:\nSCROLL [DOWN]
✗ Category Skew 错误
Actions:\nSCROLL [UP]
任务:我之前已经使用过运动品牌的运动鞋,现在我想换一种。寻找可以按品牌购物的生活方式类商品
子说明:点击"生活方式"选项
正确示例
错误示例
✓ Category IID 正确
Actions:\nCLICK <point>[[424, 1869]]</point>
✗ Category Non-Uniform 错误
Actions:\nCLICK <point>[[824, 869]]</point>