桌面代理是拥有自己计算机的AI。与纯浏览器代理或传统RPA工具不同,Bytebot配备了完整的虚拟桌面,可以:
- 使用任何应用程序(浏览器、电子邮件客户端、办公工具、IDE)
- 使用自己的文件系统下载和组织文件
- 使用密码管理器登录网站和应用程序
- 阅读和处理文档、PDF 和电子表格
- 完成跨不同程序的复杂多步骤工作流程
可以将其视为一个拥有自己计算机的虚拟员工,他可以像人类一样查看屏幕、移动鼠标、在键盘上打字并完成任务。
当 AI 可以访问完整的桌面环境时,它可以解锁仅使用浏览器代理或 API 集成无法实现的功能:
给 Bytebot 一个任务,例如“从我们的供应商门户下载所有发票并将它们组织到一个文件夹中”,它将:
- 打开浏览器
- 导航至每个门户
- 处理身份验证(包括通过密码管理器进行 2FA)
- 将文件下载到本地文件系统
- 将它们整理到文件夹中
将文件直接上传到 Bytebot 的桌面,它可以:
- 将整个 PDF 读入上下文
- 从复杂文档中提取数据
- 跨多个文件的交叉引用信息
- 根据分析创建新文档
- 处理 API 无法访问的格式
Bytebot 不仅限于 Web 界面。它可以:
- 使用文本编辑器、VS Code 或电子邮件客户端等桌面应用程序
- 运行脚本和命令行工具
- 根据需要安装新软件
- 为特定工作流程配置应用程序
只需单击并添加您的 AI 提供商 API 密钥。
选项 2:Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992
Bytebot 由四个集成组件组成:
- 虚拟桌面:预装应用程序的完整 Ubuntu Linux 环境
- AI代理:了解您的任务并控制桌面以完成它们
- 任务界面:您可以在其中创建任务并观察 Bytebot 的工作的 Web UI
- API:用于编程任务创建和桌面控制的 REST 端点
- 自然语言任务:只需描述你需要做什么
- 文件上传:将文件拖放到任务上以供 Bytebot 处理
- 实时桌面视图:实时观看 Bytebot 的工作
- 接管模式:当你需要帮助或配置某些东西时接管
- 密码管理器支持:安装 1Password、Bitwarden 等进行自动身份验证
- 持久环境:安装程序,它们可用于将来的任务
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)
# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
使用上述部署方法之一来运行 Bytebot。
使用 UI 中的“桌面”选项卡可以执行以下操作:
- 安装您需要的附加程序
- 设置密码管理器进行身份验证
- 根据您的偏好配置应用程序
- 登录您希望 Bytebot 访问的网站
使用自然语言创建任务并观看 Bytebot 使用配置的桌面完成它们。
- 发票处理和数据提取
- 多系统数据同步
- 从多个来源生成报告
- 跨平台合规性检查
- 自动化 UI 测试
- 跨浏览器兼容性检查
- 带屏幕截图的文档生成
- 代码部署验证
- 跨网站竞争分析
- 从多个来源收集数据
- 文档分析与总结
- 市场调研汇编