| Category | Count |
|---|---|
| Prompt (total) | 8216 |
| ↳ text | 5966 |
| ↳ image | 2250 |
| ↳ cached | 1920 |
| Completion (total) | 365 |
| ↳ reasoning | 164 |
| Total | 8581 |
model: kimi-k2.5 finish: tool_calls
以下有几个部分:
ROLE_AND_TASK:你的角色定义以及任务描述
TOOLS:你可以调用的工具列表,以及每个工具的参数说明
OUTPUT:输出相关规则和约束
TIPS:重要建议
SITUATION:操作历史和任务相关状态
<ROLE_AND_TASK>
你是一个计算机操作代理,正在操作 Ubuntu Linux 桌面。你可以通过截图查看屏幕,并使用鼠标和键盘动作来控制它。
你的任务是:借助工具,来操作一台电脑来达成任务: My friend is a "plugin guru" and he recommended some good plug-ins to me. Please go to the Chrome plug-in store and install all the listed plug-ins.。
电脑的操作系统: Ubuntu Linux
工作流程:
1. 理解当前的情况(SITUATION),SITUATION 中会包括策略树状态、任务失败条件列表、关键视觉证据、上次返回的操作、屏幕截图(上次操作前 & 上次操作后)、历史操作简述。
2. 思考如何尽快达成任务,规划接下来的动作。可以是1次动作,也可以是一组BATCH动作。BATCH动作原则见下。
3. 输出tool_calls:包含你规划的需要执行的电脑操作以及维护 SITUAION 的工具调用。
4. 重复上面步骤,直到任务达成。
关于策略树:
- 策略树是一个分层的任务管理结构。
- 它可以帮助你组织和跟踪任务所需的步骤。也可以帮助你在某个细分尝试方向失败时,回退到高级的节点来尝试其他方法。通过维护策略树,你可以系统地分解复杂任务,并且在较困难的子任务中大胆尝试,确保每一步都得到适当的关注和执行。
- 策略树必须以层次结构组织,实例:
`1`: 顶层任务。重要目标或里程碑,从用户给出的任务开始拆解。
`1.1`, `1.2`, ...: 任务 `1` 的子任务。
`1.1.1`, `1.1.2`, ...: 任务 `1.1` 的子任务或尝试路径方案。它们不是实际动作,而是对父任务的子目标贡献。
关于失败条件列表:
- 失败条件列表是一个 checklist
- 它用于辨认当前任务是否还有达成的可能。当所有失败条件都被确认为真后,任务将返回不可能达成。
关于关键视觉证据:
- 关键视觉证据是一些屏幕状态的描述,这些状态可以通过截图来验证。
- 任务完成后,验证模块会检查这些视觉证据是否都满足,以判断任务是否成功完成。
</ROLE_AND_TASK>
<TOOLS>
你拥有以下工具:computer、update_strategy_tree。
每次调用必须包含computer工具的调用来执行电脑操作,update_strategy_tree工具的调用则根据需要选择性使用来维护策略树状态。
## computer
操作电脑的动作库,调用它以在桌面上执行操作。
坐标值定义:
在最新一张屏幕截图中的坐标轴比例,使用 [0, 1] 范围内的归一化值。其中 (0, 0) = 屏幕左上角,(1, 1) = 屏幕右下角。
操作和参数说明:
1. 移动鼠标
{
"action": "mouse_move",
"to_coordinate": [float, float], # 移动到的坐标值。
}
2. 移动鼠标并点击鼠标按键
{
"action": str, # 鼠标按键操作,one of left_click | right_click | middle_click | double_click | triple_click
"at_coordinate": [float, float], # 移动到的坐标值。
"with_key": str or None, # 点击时按住的键盘按键(比如"ctrl"、"shift"),如没有则填None。
}
3. 按住鼠标左键并拖动
{
"action": "left_click_drag",
"from_coordinate": [float, float], # 起始到的坐标值,
"to_coordinate": [float, float], # 移动到的坐标值。
"with_key": str or None, # 点击时按住的键盘按键(比如"ctrl"、"shift"),如没有则填None。
}
4. 输入文字
{
"action": "type",
"text": str, # 要输入的文字
"submit": bool, # 输入后是否按 Enter 键提交
}
5. 键盘按键(单个或组合键)
{
"action": "key",
"text": list[str], # 要按的键盘按键组合(如"enter"、"tab"、"ctrl"),
"with_duration": float or None, # 按键持续时间(秒),如点击则填 null。
}
6. 移动鼠标并滚动鼠标滚轮
{
"action": "scroll",
"at_coordinate": [float, float], # 滚动位置的坐标值
"scroll_direction": str, # 滚动方向,one of "up" | "down" | "left" | "right"
"scroll_amount": int, # 滚动量,1-30,模拟人类滚轮滚动的幅度。较大的值表示更大幅度的滚动。
}
7. 等待
{
"action": "wait",
"duration": float, # 等待秒数。根据操作后界面变化的复杂程度调整等待时间。
}
BATCH动作原则:
BATCH动作指一组连续且相对固定的电脑操作,主要用来减少不必要的对话过程。
- 例如:顺序输入(type→Tab→type)、键盘快捷键(Ctrl+C 然后 Ctrl+V)、输入一段字符后 Enter(在搜索输入框中常用)。
- DO NOT BATCH:涉及界面状态变化等待的操作(如打开菜单/对话框后等待动画)→ 依赖新坐标的操作。例如:点击打开一个菜单后,等待菜单完全展开再点击菜单项,因为菜单项的坐标在菜单完全展开前可能不稳定;滚动页面后再点击某个元素,因为滚动会改变元素的坐标。
**只在比较确定的操作中可以使用多个动作组合。当你不确定时,使用单个动作是更保险的做法**
## update_strategy_tree
维护策略树的相关工具
1. 创建新任务节点
{
"action": "create",
"parent_id": str or None, # 父任务ID,根任务则填None。此操作会在这个父节点下顺序创建子节点。
"description": str, # 任务描述
}
2. 更改节点状态
{
"action": "change_status",
"id": str, # 任务ID,使用点号分隔的层次编号(如 1.2.1),程序会自动解析层级关系。
"new_status": str, # 新状态,one of None | "success" | "fail"
"fail_reason": str or None, # 失败原因,仅在 new_status=fail 时需要提供
}
</TOOLS>
<OUTPUT>
你需要调用工具来规划接下来需要执行的电脑操作,以及维护SITUATION(如果需要)。
另外你需要输出从最新的屏幕截图中观察到的重要信息、你对当前情况的分析、为什么这么做的思考过程(thoughts)。
```
#### 重要信息
...
#### 情况分析与思考过程
...
```
</OUTPUT>
<TIPS>
- 尽量以最少的操作数完成任务。每个动作都应该有明确的目的,并直接推动任务向前发展。
- 优先操作成功率,其次是操作的效率。
- 尽可能使用键盘快捷键(例如 ctrl+l 聚焦浏览器地址栏),以增加操作的成功率。
- 如果一段时间的多个动作后还未产生预期结果,参考策略树中其父节点的目标并尝试替代路径。
- 始终记得完成时保存文件(例如 ctrl+s),除非任务明确说不需要。
- 永远不要假设操作成功。寻找预期变化的具体视觉证据。
- 如果截图与上一张相同,说明上一次操作没有产生任何效果。不要假设它成功——诊断为什么失败并尝试不同的方法。
</TIPS>
<SITUATION>
SITUATION中有4个部分:策略树状态、上次返回的操作、屏幕截图(上次操作前 & 上次操作后)、历史操作简述
## 1. 策略树状态
1: Navigate to Chrome Web Store
1.1: Open new tab or navigate to chrome.google.com/webstore
1.2: Verify Chrome Web Store loads successfully
2: Identify and locate the list of recommended plugins
2.1: Search for or locate the specific plugin list from friend's recommendations
2.2: Document each plugin name/ID to install
3: Install each recommended plugin
3.1: Search for first plugin in Chrome Web Store
3.2: Click Add to Chrome and confirm installation
3.3: Repeat installation process for remaining plugins
4: Verify all plugins installed successfully
4.1: Open Chrome extensions page (chrome://extensions/)
4.2: Confirm all recommended plugins appear in the list
## 2. 任务失败条件检查
- Chrome Web Store is blocked or inaccessible due to network restrictions
- Enterprise policy prevents installing extensions
- User account lacks permissions to install extensions
- The list of recommended plugins cannot be found or is empty
- Chrome Web Store is permanently unreachable
## 3. 关键视觉证据
- Chrome Web Store page is loaded with URL 'chrome.google.com/webstore' visible in address bar
- Chrome Extensions management page (chrome://extensions/) displays the newly installed extensions with 'Enabled' toggle switches
- Extension icons for the installed plugins appear in the Chrome toolbar to the right of the address bar
- Each installed extension shows 'Added to Chrome' or 'Remove from Chrome' button in the Web Store instead of 'Add to Chrome'
## 4. 上一次返回的决策
### 4.1. 上一次的观察和思考
```
#### 重要信息
Text Editor 已打开并显示了 requirement.txt 文件的内容。但是,这个文件包含的是 Python 包(python3-xlib, PyAutoGUI, Pillow, pynput, requests),而不是 Chrome 浏览器插件列表。这不是我要找的朋友推荐的 Chrome 插件列表。
#### 情况分析与思考过程
requirement.txt 文件内容是 Python 依赖包,不是 Chrome 扩展插件。我需要:
1. 关闭这个文本编辑器
2. 在文件管理器中继续寻找其他可能包含 Chrome 插件列表的文件
3. 可能需要在 Desktop 或其他文件夹中查找
让我先关闭这个文本编辑器窗口,然后继续在文件系统中寻找正确的插件列表文件。
```
### 4.2. 上一次返回的操作
{"function": {"name": "computer", "arguments": {"actions": [{"action": "left_click", "at_coordinate": [0.519, 0.093]}]}}}
## 5. 屏幕截图
## 5.1 最新屏幕状态(上一次操作后,未压缩)
inline base64 image ~148KB
## 5.2 上一次屏幕状态(上一次操作前,已压缩)
inline base64 image ~43KB
## 6. 上一次操作的前50步操作简述 ### 步骤 1: - 描述: ``` #### 重要信息 当前屏幕显示 Google Chrome 浏览器已打开,但当前页面是 Chrome 设置页面的"About Chrome"部分(chrome://settings/help)。浏览器版本为 120.0.6099.216。左侧边栏显示了设置菜单选项,包括 Extensions(扩展程序)选项。 #### 情况分析与思考过程 任务要求安装朋友推荐的一系列 Chrome 插件。根据策略树,我需要: 1. 首先导航到 Chrome Web Store(chrome.google.com/webstore) 2. 找到推荐的插件列表 3. 安装每个插件 4. 验证安装 当前 Chrome 已打开,但在设置页面。我需要导航到 Chrome Web Store。最快捷的方法是点击地址栏并输入 Chrome Web Store 的 URL。 我将执行以下操作: - 点击地址栏(当前显示 chrome://settings/help) - 输入 Chrome Web Store URL - 按 Enter 导航 ``` - 操作: 1. 左键单击坐标 (0.5, 0.081) 2. 输入文本: chrome.google.com/webstore 3. 按下键盘按键: enter ### 步骤 2: - 描述: ``` #### 重要信息 当前屏幕上出现了一个"Back Up"备份对话框,这不是预期的Chrome Web Store页面。这个对话框显示"Folders to Back Up"和"Folders to Ignore"选项,有Cancel和Forward按钮。Chrome浏览器窗口在对话框后面,仍然显示About Chrome设置页面。 #### 情况分析与思考过程 之前的操作意图是点击地址栏并输入Chrome Web Store的URL,但似乎点击位置有误,可能点击到了桌面上的备份应用程序图标,导致打开了备份对话框。 为了继续任务,我需要: 1. 首先关闭这个备份对话框(点击Cancel按钮) 2. 然后重新尝试导航到Chrome Web Store 3. 找到朋友推荐的插件列表 4. 安装所有推荐的插件 当前最紧迫的是关闭这个干扰对话框,让我能够继续操作Chrome浏览器。 ``` - 操作: 1. 左键单击坐标 (0.152, 0.093) ### 步骤 3: - 描述: ``` #### 重要信息 备份对话框仍然显示在屏幕上,之前的点击操作没有成功关闭它。对话框显示"Backups"应用程序,有"Overview"和"Restore"标签页,以及"Create My First Backup"和"Restore From a Previous Backup"按钮。Chrome浏览器在对话框后面,仍然显示About Chrome设置页面。 #### 情况分析与思考过程 我需要关闭这个备份对话框才能继续操作Chrome浏览器。我看到对话框右上角有一个关闭按钮(X)。点击这个关闭按钮应该能关闭这个备份应用程序。 关闭对话框后,我需要: 1. 点击Chrome地址栏 2. 输入Chrome Web Store的URL(chrome.google.com/webstore) 3. 导航到Web Store 4. 找到朋友推荐的插件列表 5. 安装所有推荐的插件 让我先关闭这个对话框。 ``` - 操作: 1. 左键单击坐标 (0.444, 0.079) ### 步骤 4: - 描述: ``` #### 重要信息 备份对话框已成功关闭。现在 Chrome 浏览器显示的是"About Chrome"设置页面(chrome://settings/help)。地址栏清晰可见,显示当前URL为 chrome://settings/help。我需要导航到 Chrome Web Store 来安装朋友推荐的插件。 #### 情况分析与思考过程 现在我需要继续执行任务: 1. 点击地址栏 2. 输入 Chrome Web Store 的 URL(chrome.google.com/webstore) 3. 按 Enter 导航到 Web Store 4. 找到朋友推荐的插件列表 5. 安装所有推荐的插件 我将首先点击地址栏,然后输入 Chrome Web Store 的 URL。这是最直接的导航方式。 ``` - 操作: 1. 左键单击坐标 (0.5, 0.081) 2. 输入文本: chrome.google.com/webstore 3. 按下键盘按键: enter ### 步骤 5: - 描述: - 操作: 1. 左键单击坐标 (0.019, 0.562) ### 步骤 6: - 描述: ``` #### 重要信息 当前屏幕显示的是 Ubuntu 文件管理器(Files),显示了 Home 目录的内容。之前的操作错误地点击了文件管理器图标,导致从 Chrome 浏览器切换到了文件管理器。在之前的截图中,Chrome 已经成功导航到了 Chrome Web Store 页面(chromewebstore.google.com)。 我需要返回 Chrome 浏览器继续任务,寻找朋友推荐的插件列表并进行安装。 #### 情况分析与思考过程 根据历史操作记录,Chrome 之前已经成功打开并导航到了 Chrome Web Store。我不小心点击到了文件管理器图标导致切换了窗口。 现在我需要: 1. 点击 Chrome 图标返回浏览器(Chrome Web Store 页面应该还在) 2. 寻找朋友推荐的插件列表(可能在某个文件中,或者需要在任务描述中查找) 3. 安装所有列出的插件 4. 验证安装 首先,我需要点击 Chrome 图标回到浏览器。Chrome 图标位于左侧边栏的顶部。 ``` - 操作: 1. 左键单击坐标 (0.018, 0.058) ### 步骤 7: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 已成功加载(chromewebstore.google.com)。页面显示 "The future of writing" 横幅、分类(Shopping, Entertainment, Tools, Art & Design, Accessibility)以及 "Recommended for you" 部分。地址栏显示正确的 URL。 但我还没有看到朋友推荐的插件列表。根据任务描述,朋友推荐了一些插件,但我需要找到这个具体的列表。它可能在: 1. 页面下方(需要滚动查看) 2. 某个文件中 3. 任务描述的某个地方 我需要先滚动页面查看是否有更多信息,或者寻找包含推荐插件列表的文件。 #### 情况分析与思考过程 我现在在 Chrome Web Store 主页,但还没有看到具体的推荐插件列表。让我先滚动页面查看 "Recommended for you" 部分以及其他可能包含插件列表的内容。如果页面上没有明确的列表,我可能需要检查桌面上是否有包含推荐列表的文件。 首先,我向下滚动页面查看更多信息。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 8: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面已成功加载。页面显示 "Recommended for you" 部分,包含 Ultimate Car Driving Game、Endless Car Chase Game、Helix Fruit Jump Arcade、Dark Reader、Boxel Rebound 等插件。下方还有 "Top charts" 区域,分为 Trending、Popular 和 New and notable 三个类别。 但我仍然没有找到朋友推荐的具体插件列表。任务描述中提到朋友推荐了一些插件,但没有明确列出是哪些。我需要继续寻找这个列表,它可能: 1. 在页面更下方(需要继续滚动) 2. 在桌面上的某个文件中 3. 在浏览器的其他标签页中 #### 情况分析与思考过程 我需要继续向下滚动页面查看是否有更多内容,特别是是否有明确的推荐插件列表。如果页面上没有,我可能需要检查桌面或文件系统中是否有包含推荐列表的文档。 让我继续向下滚动查看更多内容。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 9: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面已成功加载。页面显示多个部分: - Trending 区域:AdBlocker for YouTube、Claude Usage Tracker、LumiList - Popular 区域:Volume Master、AdBlock、Free VPN for Chrome - New and notable 区域:AdBlocker Ultra Plus、Volume Booster、VeiloVPN - Editors' Picks for you 区域(绿色横幅) - Extend your browser 部分在底部 但我仍然没有找到朋友推荐的具体插件列表。任务描述中提到朋友推荐了一些插件,但没有明确列出是哪些。这个列表可能在: 1. 桌面上的某个文件中 2. 浏览器的其他标签页中 3. 页面更下方(需要继续滚动) #### 情况分析与思考过程 我需要继续向下滚动页面查看是否有更多内容,特别是是否有明确的推荐插件列表。如果页面上没有,我可能需要检查桌面或文件系统中是否有包含推荐列表的文档。 让我继续向下滚动查看更多内容。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 10: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面,展示了 "Extend your browser" 部分,包含 AI Sidebar、Adobe Photoshop、BrowserGPT: ChatGPT、Sidebar: ChatGPT、Fleeting Notes 等扩展。下方还有 "Eclipse your screen" 区域。但我仍然没有找到朋友推荐的具体插件列表。 #### 情况分析与思考过程 我已经在 Chrome Web Store 页面向下滚动多次,看到了多个推荐区域(Trending、Popular、New and notable、Extend your browser 等),但这些都是商店的通用推荐,不是朋友特定的推荐列表。 根据任务描述,朋友推荐了一些插件,但这个列表至今未出现。可能的情况: 1. 列表在页面的更下方(需要继续滚动) 2. 列表在某个文件中(需要在文件系统中查找) 3. 列表可能在浏览器的其他标签页中 让我继续向下滚动查看更多内容,如果仍然没有找到,我将需要检查文件系统或其他地方。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 11: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面,展示了 "Chrome monthly spotlight" 部分,包含 Web Highlights、Moonlight、Reboost、YouTube Notes to Notion 等扩展。下方还有 "Works with Gmail" 区域。但我仍然没有找到朋友推荐的具体插件列表。 我已经在 Chrome Web Store 页面向下滚动多次,看到了多个推荐区域(Trending、Popular、New and notable、Extend your browser、Chrome monthly spotlight 等),但这些都是商店的通用推荐,不是朋友特定的推荐列表。 #### 情况分析与思考过程 根据任务描述,朋友推荐了一些插件,但这个列表至今未出现。可能的情况: 1. 列表可能在桌面上的某个文件中(文本文件、文档等) 2. 列表可能在浏览器的其他标签页中 3. 列表可能在下载文件夹中 由于 Chrome Web Store 页面上只有通用推荐,没有特定的朋友推荐列表,我需要检查文件系统。让我打开文件管理器查看桌面或主目录中是否有包含插件列表的文件。 我将点击文件管理器图标(左侧边栏中的文件夹图标)来查找可能的插件列表文件。 ``` - 操作: 1. 左键单击坐标 (0.018, 0.562) ### 步骤 12: - 描述: ``` #### 重要信息 文件管理器已成功打开,显示 Home 目录的内容。我可以看到多个文件夹和文件,其中包括一个名为 "requirement.txt" 的文本文件,这可能是包含朋友推荐插件列表的文件。 #### 情况分析与思考过程 我现在在文件管理器中,看到了 Home 目录的内容。其中有一个 "requirement.txt" 文件,这很可能就是包含朋友推荐插件列表的文件。我需要打开这个文件来查看具体的插件名称,然后回到 Chrome Web Store 进行安装。 让我双击打开 "requirement.txt" 文件来查看内容。 ``` - 操作: 1. 左键双击坐标 (0.512, 0.104) </SITUATION>
| Category | Count |
|---|---|
| Prompt (total) | 8216 |
| ↳ text | 5966 |
| ↳ image | 2250 |
| ↳ cached | 1920 |
| Completion (total) | 365 |
| ↳ reasoning | 164 |
| Total | 8581 |
model: kimi-k2.5 finish: tool_calls
以下有几个部分:
ROLE_AND_TASK:你的角色定义以及任务描述
TOOLS:你可以调用的工具列表,以及每个工具的参数说明
OUTPUT:输出相关规则和约束
TIPS:重要建议
SITUATION:操作历史和任务相关状态
<ROLE_AND_TASK>
你是一个计算机操作代理,正在操作 Ubuntu Linux 桌面。你可以通过截图查看屏幕,并使用鼠标和键盘动作来控制它。
你的任务是:借助工具,来操作一台电脑来达成任务: My friend is a "plugin guru" and he recommended some good plug-ins to me. Please go to the Chrome plug-in store and install all the listed plug-ins.。
电脑的操作系统: Ubuntu Linux
工作流程:
1. 理解当前的情况(SITUATION),SITUATION 中会包括策略树状态、任务失败条件列表、关键视觉证据、上次返回的操作、屏幕截图(上次操作前 & 上次操作后)、历史操作简述。
2. 思考如何尽快达成任务,规划接下来的动作。可以是1次动作,也可以是一组BATCH动作。BATCH动作原则见下。
3. 输出tool_calls:包含你规划的需要执行的电脑操作以及维护 SITUAION 的工具调用。
4. 重复上面步骤,直到任务达成。
关于策略树:
- 策略树是一个分层的任务管理结构。
- 它可以帮助你组织和跟踪任务所需的步骤。也可以帮助你在某个细分尝试方向失败时,回退到高级的节点来尝试其他方法。通过维护策略树,你可以系统地分解复杂任务,并且在较困难的子任务中大胆尝试,确保每一步都得到适当的关注和执行。
- 策略树必须以层次结构组织,实例:
`1`: 顶层任务。重要目标或里程碑,从用户给出的任务开始拆解。
`1.1`, `1.2`, ...: 任务 `1` 的子任务。
`1.1.1`, `1.1.2`, ...: 任务 `1.1` 的子任务或尝试路径方案。它们不是实际动作,而是对父任务的子目标贡献。
关于失败条件列表:
- 失败条件列表是一个 checklist
- 它用于辨认当前任务是否还有达成的可能。当所有失败条件都被确认为真后,任务将返回不可能达成。
关于关键视觉证据:
- 关键视觉证据是一些屏幕状态的描述,这些状态可以通过截图来验证。
- 任务完成后,验证模块会检查这些视觉证据是否都满足,以判断任务是否成功完成。
</ROLE_AND_TASK>
<TOOLS>
你拥有以下工具:computer、update_strategy_tree。
每次调用必须包含computer工具的调用来执行电脑操作,update_strategy_tree工具的调用则根据需要选择性使用来维护策略树状态。
## computer
操作电脑的动作库,调用它以在桌面上执行操作。
坐标值定义:
在最新一张屏幕截图中的坐标轴比例,使用 [0, 1] 范围内的归一化值。其中 (0, 0) = 屏幕左上角,(1, 1) = 屏幕右下角。
操作和参数说明:
1. 移动鼠标
{
"action": "mouse_move",
"to_coordinate": [float, float], # 移动到的坐标值。
}
2. 移动鼠标并点击鼠标按键
{
"action": str, # 鼠标按键操作,one of left_click | right_click | middle_click | double_click | triple_click
"at_coordinate": [float, float], # 移动到的坐标值。
"with_key": str or None, # 点击时按住的键盘按键(比如"ctrl"、"shift"),如没有则填None。
}
3. 按住鼠标左键并拖动
{
"action": "left_click_drag",
"from_coordinate": [float, float], # 起始到的坐标值,
"to_coordinate": [float, float], # 移动到的坐标值。
"with_key": str or None, # 点击时按住的键盘按键(比如"ctrl"、"shift"),如没有则填None。
}
4. 输入文字
{
"action": "type",
"text": str, # 要输入的文字
"submit": bool, # 输入后是否按 Enter 键提交
}
5. 键盘按键(单个或组合键)
{
"action": "key",
"text": list[str], # 要按的键盘按键组合(如"enter"、"tab"、"ctrl"),
"with_duration": float or None, # 按键持续时间(秒),如点击则填 null。
}
6. 移动鼠标并滚动鼠标滚轮
{
"action": "scroll",
"at_coordinate": [float, float], # 滚动位置的坐标值
"scroll_direction": str, # 滚动方向,one of "up" | "down" | "left" | "right"
"scroll_amount": int, # 滚动量,1-30,模拟人类滚轮滚动的幅度。较大的值表示更大幅度的滚动。
}
7. 等待
{
"action": "wait",
"duration": float, # 等待秒数。根据操作后界面变化的复杂程度调整等待时间。
}
BATCH动作原则:
BATCH动作指一组连续且相对固定的电脑操作,主要用来减少不必要的对话过程。
- 例如:顺序输入(type→Tab→type)、键盘快捷键(Ctrl+C 然后 Ctrl+V)、输入一段字符后 Enter(在搜索输入框中常用)。
- DO NOT BATCH:涉及界面状态变化等待的操作(如打开菜单/对话框后等待动画)→ 依赖新坐标的操作。例如:点击打开一个菜单后,等待菜单完全展开再点击菜单项,因为菜单项的坐标在菜单完全展开前可能不稳定;滚动页面后再点击某个元素,因为滚动会改变元素的坐标。
**只在比较确定的操作中可以使用多个动作组合。当你不确定时,使用单个动作是更保险的做法**
## update_strategy_tree
维护策略树的相关工具
1. 创建新任务节点
{
"action": "create",
"parent_id": str or None, # 父任务ID,根任务则填None。此操作会在这个父节点下顺序创建子节点。
"description": str, # 任务描述
}
2. 更改节点状态
{
"action": "change_status",
"id": str, # 任务ID,使用点号分隔的层次编号(如 1.2.1),程序会自动解析层级关系。
"new_status": str, # 新状态,one of None | "success" | "fail"
"fail_reason": str or None, # 失败原因,仅在 new_status=fail 时需要提供
}
</TOOLS>
<OUTPUT>
你需要调用工具来规划接下来需要执行的电脑操作,以及维护SITUATION(如果需要)。
另外你需要输出从最新的屏幕截图中观察到的重要信息、你对当前情况的分析、为什么这么做的思考过程(thoughts)。
```
#### 重要信息
...
#### 情况分析与思考过程
...
```
</OUTPUT>
<TIPS>
- 尽量以最少的操作数完成任务。每个动作都应该有明确的目的,并直接推动任务向前发展。
- 优先操作成功率,其次是操作的效率。
- 尽可能使用键盘快捷键(例如 ctrl+l 聚焦浏览器地址栏),以增加操作的成功率。
- 如果一段时间的多个动作后还未产生预期结果,参考策略树中其父节点的目标并尝试替代路径。
- 始终记得完成时保存文件(例如 ctrl+s),除非任务明确说不需要。
- 永远不要假设操作成功。寻找预期变化的具体视觉证据。
- 如果截图与上一张相同,说明上一次操作没有产生任何效果。不要假设它成功——诊断为什么失败并尝试不同的方法。
</TIPS>
<SITUATION>
SITUATION中有4个部分:策略树状态、上次返回的操作、屏幕截图(上次操作前 & 上次操作后)、历史操作简述
## 1. 策略树状态
1: Navigate to Chrome Web Store
1.1: Open new tab or navigate to chrome.google.com/webstore
1.2: Verify Chrome Web Store loads successfully
2: Identify and locate the list of recommended plugins
2.1: Search for or locate the specific plugin list from friend's recommendations
2.2: Document each plugin name/ID to install
3: Install each recommended plugin
3.1: Search for first plugin in Chrome Web Store
3.2: Click Add to Chrome and confirm installation
3.3: Repeat installation process for remaining plugins
4: Verify all plugins installed successfully
4.1: Open Chrome extensions page (chrome://extensions/)
4.2: Confirm all recommended plugins appear in the list
## 2. 任务失败条件检查
- Chrome Web Store is blocked or inaccessible due to network restrictions
- Enterprise policy prevents installing extensions
- User account lacks permissions to install extensions
- The list of recommended plugins cannot be found or is empty
- Chrome Web Store is permanently unreachable
## 3. 关键视觉证据
- Chrome Web Store page is loaded with URL 'chrome.google.com/webstore' visible in address bar
- Chrome Extensions management page (chrome://extensions/) displays the newly installed extensions with 'Enabled' toggle switches
- Extension icons for the installed plugins appear in the Chrome toolbar to the right of the address bar
- Each installed extension shows 'Added to Chrome' or 'Remove from Chrome' button in the Web Store instead of 'Add to Chrome'
## 4. 上一次返回的决策
### 4.1. 上一次的观察和思考
```
#### 重要信息
Text Editor 已打开并显示了 requirement.txt 文件的内容。但是,这个文件包含的是 Python 包(python3-xlib, PyAutoGUI, Pillow, pynput, requests),而不是 Chrome 浏览器插件列表。这不是我要找的朋友推荐的 Chrome 插件列表。
#### 情况分析与思考过程
requirement.txt 文件内容是 Python 依赖包,不是 Chrome 扩展插件。我需要:
1. 关闭这个文本编辑器
2. 在文件管理器中继续寻找其他可能包含 Chrome 插件列表的文件
3. 可能需要在 Desktop 或其他文件夹中查找
让我先关闭这个文本编辑器窗口,然后继续在文件系统中寻找正确的插件列表文件。
```
### 4.2. 上一次返回的操作
{"function": {"name": "computer", "arguments": {"actions": [{"action": "left_click", "at_coordinate": [0.519, 0.093]}]}}}
## 5. 屏幕截图
## 5.1 最新屏幕状态(上一次操作后,未压缩)
inline base64 image ~148KB
## 5.2 上一次屏幕状态(上一次操作前,已压缩)
inline base64 image ~43KB
## 6. 上一次操作的前50步操作简述 ### 步骤 1: - 描述: ``` #### 重要信息 当前屏幕显示 Google Chrome 浏览器已打开,但当前页面是 Chrome 设置页面的"About Chrome"部分(chrome://settings/help)。浏览器版本为 120.0.6099.216。左侧边栏显示了设置菜单选项,包括 Extensions(扩展程序)选项。 #### 情况分析与思考过程 任务要求安装朋友推荐的一系列 Chrome 插件。根据策略树,我需要: 1. 首先导航到 Chrome Web Store(chrome.google.com/webstore) 2. 找到推荐的插件列表 3. 安装每个插件 4. 验证安装 当前 Chrome 已打开,但在设置页面。我需要导航到 Chrome Web Store。最快捷的方法是点击地址栏并输入 Chrome Web Store 的 URL。 我将执行以下操作: - 点击地址栏(当前显示 chrome://settings/help) - 输入 Chrome Web Store URL - 按 Enter 导航 ``` - 操作: 1. 左键单击坐标 (0.5, 0.081) 2. 输入文本: chrome.google.com/webstore 3. 按下键盘按键: enter ### 步骤 2: - 描述: ``` #### 重要信息 当前屏幕上出现了一个"Back Up"备份对话框,这不是预期的Chrome Web Store页面。这个对话框显示"Folders to Back Up"和"Folders to Ignore"选项,有Cancel和Forward按钮。Chrome浏览器窗口在对话框后面,仍然显示About Chrome设置页面。 #### 情况分析与思考过程 之前的操作意图是点击地址栏并输入Chrome Web Store的URL,但似乎点击位置有误,可能点击到了桌面上的备份应用程序图标,导致打开了备份对话框。 为了继续任务,我需要: 1. 首先关闭这个备份对话框(点击Cancel按钮) 2. 然后重新尝试导航到Chrome Web Store 3. 找到朋友推荐的插件列表 4. 安装所有推荐的插件 当前最紧迫的是关闭这个干扰对话框,让我能够继续操作Chrome浏览器。 ``` - 操作: 1. 左键单击坐标 (0.152, 0.093) ### 步骤 3: - 描述: ``` #### 重要信息 备份对话框仍然显示在屏幕上,之前的点击操作没有成功关闭它。对话框显示"Backups"应用程序,有"Overview"和"Restore"标签页,以及"Create My First Backup"和"Restore From a Previous Backup"按钮。Chrome浏览器在对话框后面,仍然显示About Chrome设置页面。 #### 情况分析与思考过程 我需要关闭这个备份对话框才能继续操作Chrome浏览器。我看到对话框右上角有一个关闭按钮(X)。点击这个关闭按钮应该能关闭这个备份应用程序。 关闭对话框后,我需要: 1. 点击Chrome地址栏 2. 输入Chrome Web Store的URL(chrome.google.com/webstore) 3. 导航到Web Store 4. 找到朋友推荐的插件列表 5. 安装所有推荐的插件 让我先关闭这个对话框。 ``` - 操作: 1. 左键单击坐标 (0.444, 0.079) ### 步骤 4: - 描述: ``` #### 重要信息 备份对话框已成功关闭。现在 Chrome 浏览器显示的是"About Chrome"设置页面(chrome://settings/help)。地址栏清晰可见,显示当前URL为 chrome://settings/help。我需要导航到 Chrome Web Store 来安装朋友推荐的插件。 #### 情况分析与思考过程 现在我需要继续执行任务: 1. 点击地址栏 2. 输入 Chrome Web Store 的 URL(chrome.google.com/webstore) 3. 按 Enter 导航到 Web Store 4. 找到朋友推荐的插件列表 5. 安装所有推荐的插件 我将首先点击地址栏,然后输入 Chrome Web Store 的 URL。这是最直接的导航方式。 ``` - 操作: 1. 左键单击坐标 (0.5, 0.081) 2. 输入文本: chrome.google.com/webstore 3. 按下键盘按键: enter ### 步骤 5: - 描述: - 操作: 1. 左键单击坐标 (0.019, 0.562) ### 步骤 6: - 描述: ``` #### 重要信息 当前屏幕显示的是 Ubuntu 文件管理器(Files),显示了 Home 目录的内容。之前的操作错误地点击了文件管理器图标,导致从 Chrome 浏览器切换到了文件管理器。在之前的截图中,Chrome 已经成功导航到了 Chrome Web Store 页面(chromewebstore.google.com)。 我需要返回 Chrome 浏览器继续任务,寻找朋友推荐的插件列表并进行安装。 #### 情况分析与思考过程 根据历史操作记录,Chrome 之前已经成功打开并导航到了 Chrome Web Store。我不小心点击到了文件管理器图标导致切换了窗口。 现在我需要: 1. 点击 Chrome 图标返回浏览器(Chrome Web Store 页面应该还在) 2. 寻找朋友推荐的插件列表(可能在某个文件中,或者需要在任务描述中查找) 3. 安装所有列出的插件 4. 验证安装 首先,我需要点击 Chrome 图标回到浏览器。Chrome 图标位于左侧边栏的顶部。 ``` - 操作: 1. 左键单击坐标 (0.018, 0.058) ### 步骤 7: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 已成功加载(chromewebstore.google.com)。页面显示 "The future of writing" 横幅、分类(Shopping, Entertainment, Tools, Art & Design, Accessibility)以及 "Recommended for you" 部分。地址栏显示正确的 URL。 但我还没有看到朋友推荐的插件列表。根据任务描述,朋友推荐了一些插件,但我需要找到这个具体的列表。它可能在: 1. 页面下方(需要滚动查看) 2. 某个文件中 3. 任务描述的某个地方 我需要先滚动页面查看是否有更多信息,或者寻找包含推荐插件列表的文件。 #### 情况分析与思考过程 我现在在 Chrome Web Store 主页,但还没有看到具体的推荐插件列表。让我先滚动页面查看 "Recommended for you" 部分以及其他可能包含插件列表的内容。如果页面上没有明确的列表,我可能需要检查桌面上是否有包含推荐列表的文件。 首先,我向下滚动页面查看更多信息。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 8: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面已成功加载。页面显示 "Recommended for you" 部分,包含 Ultimate Car Driving Game、Endless Car Chase Game、Helix Fruit Jump Arcade、Dark Reader、Boxel Rebound 等插件。下方还有 "Top charts" 区域,分为 Trending、Popular 和 New and notable 三个类别。 但我仍然没有找到朋友推荐的具体插件列表。任务描述中提到朋友推荐了一些插件,但没有明确列出是哪些。我需要继续寻找这个列表,它可能: 1. 在页面更下方(需要继续滚动) 2. 在桌面上的某个文件中 3. 在浏览器的其他标签页中 #### 情况分析与思考过程 我需要继续向下滚动页面查看是否有更多内容,特别是是否有明确的推荐插件列表。如果页面上没有,我可能需要检查桌面或文件系统中是否有包含推荐列表的文档。 让我继续向下滚动查看更多内容。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 9: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面已成功加载。页面显示多个部分: - Trending 区域:AdBlocker for YouTube、Claude Usage Tracker、LumiList - Popular 区域:Volume Master、AdBlock、Free VPN for Chrome - New and notable 区域:AdBlocker Ultra Plus、Volume Booster、VeiloVPN - Editors' Picks for you 区域(绿色横幅) - Extend your browser 部分在底部 但我仍然没有找到朋友推荐的具体插件列表。任务描述中提到朋友推荐了一些插件,但没有明确列出是哪些。这个列表可能在: 1. 桌面上的某个文件中 2. 浏览器的其他标签页中 3. 页面更下方(需要继续滚动) #### 情况分析与思考过程 我需要继续向下滚动页面查看是否有更多内容,特别是是否有明确的推荐插件列表。如果页面上没有,我可能需要检查桌面或文件系统中是否有包含推荐列表的文档。 让我继续向下滚动查看更多内容。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 10: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面,展示了 "Extend your browser" 部分,包含 AI Sidebar、Adobe Photoshop、BrowserGPT: ChatGPT、Sidebar: ChatGPT、Fleeting Notes 等扩展。下方还有 "Eclipse your screen" 区域。但我仍然没有找到朋友推荐的具体插件列表。 #### 情况分析与思考过程 我已经在 Chrome Web Store 页面向下滚动多次,看到了多个推荐区域(Trending、Popular、New and notable、Extend your browser 等),但这些都是商店的通用推荐,不是朋友特定的推荐列表。 根据任务描述,朋友推荐了一些插件,但这个列表至今未出现。可能的情况: 1. 列表在页面的更下方(需要继续滚动) 2. 列表在某个文件中(需要在文件系统中查找) 3. 列表可能在浏览器的其他标签页中 让我继续向下滚动查看更多内容,如果仍然没有找到,我将需要检查文件系统或其他地方。 ``` - 操作: 1. 鼠标滚轮在坐标 (0.5, 0.556) 向下滚动,滚动量 5 ### 步骤 11: - 描述: ``` #### 重要信息 当前屏幕显示 Chrome Web Store 页面,展示了 "Chrome monthly spotlight" 部分,包含 Web Highlights、Moonlight、Reboost、YouTube Notes to Notion 等扩展。下方还有 "Works with Gmail" 区域。但我仍然没有找到朋友推荐的具体插件列表。 我已经在 Chrome Web Store 页面向下滚动多次,看到了多个推荐区域(Trending、Popular、New and notable、Extend your browser、Chrome monthly spotlight 等),但这些都是商店的通用推荐,不是朋友特定的推荐列表。 #### 情况分析与思考过程 根据任务描述,朋友推荐了一些插件,但这个列表至今未出现。可能的情况: 1. 列表可能在桌面上的某个文件中(文本文件、文档等) 2. 列表可能在浏览器的其他标签页中 3. 列表可能在下载文件夹中 由于 Chrome Web Store 页面上只有通用推荐,没有特定的朋友推荐列表,我需要检查文件系统。让我打开文件管理器查看桌面或主目录中是否有包含插件列表的文件。 我将点击文件管理器图标(左侧边栏中的文件夹图标)来查找可能的插件列表文件。 ``` - 操作: 1. 左键单击坐标 (0.018, 0.562) ### 步骤 12: - 描述: ``` #### 重要信息 文件管理器已成功打开,显示 Home 目录的内容。我可以看到多个文件夹和文件,其中包括一个名为 "requirement.txt" 的文本文件,这可能是包含朋友推荐插件列表的文件。 #### 情况分析与思考过程 我现在在文件管理器中,看到了 Home 目录的内容。其中有一个 "requirement.txt" 文件,这很可能就是包含朋友推荐插件列表的文件。我需要打开这个文件来查看具体的插件名称,然后回到 Chrome Web Store 进行安装。 让我双击打开 "requirement.txt" 文件来查看内容。 ``` - 操作: 1. 左键双击坐标 (0.512, 0.104) </SITUATION>