Bytebot:开源AI桌面代理 拥有自己的计算机来为您完成任务的人工智能


image.png

什么是桌面代理?

桌面代理是拥有自己计算机的AI。与纯浏览器代理或传统RPA工具不同,Bytebot配备了完整的虚拟桌面,可以:

  • 使用任何应用程序(浏览器、电子邮件客户端、办公工具、IDE)
  • 使用自己的文件系统下载和组织文件
  • 使用密码管理器登录网站和应用程序
  • 阅读和处理文档、PDF 和电子表格
  • 完成跨不同程序的复杂多步骤工作流程

可以将其视为一个拥有自己计算机的虚拟员工,他可以像人类一样查看屏幕、移动鼠标​​、在键盘上打字并完成任务。

为什么要给人工智能配备自己的计算机?

当 AI 可以访问完整的桌面环境时,它可以解锁仅使用浏览器代理或 API 集成无法实现的功能:

完全任务自主

给 Bytebot 一个任务,例如“从我们的供应商门户下载所有发票并将它们组织到一个文件夹中”,它将:

  • 打开浏览器
  • 导航至每个门户
  • 处理身份验证(包括通过密码管理器进行 2FA)
  • 将文件下载到本地文件系统
  • 将它们整理到文件夹中

流程文件

将文件直接上传到 Bytebot 的桌面,它可以:

  • 将整个 PDF 读入上下文
  • 从复杂文档中提取数据
  • 跨多个文件的交叉引用信息
  • 根据分析创建新文档
  • 处理 API 无法访问的格式

使用真实应用程序

Bytebot 不仅限于 Web 界面。它可以:

  • 使用文本编辑器、VS Code 或电子邮件客户端等桌面应用程序
  • 运行脚本和命令行工具
  • 根据需要安装新软件
  • 为特定工作流程配置应用程序

快速入门

2分钟内部署

选项 1:铁路(最简单) 在铁路上部署

只需单击并添加您的 AI 提供商 API 密钥。

选项 2:Docker Compose

git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot

# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env

docker-compose -f docker/docker-compose.yml up -d

# Open http://localhost:9992
 

完整部署指南 →

工作原理

Bytebot 由四个集成组件组成:

  1. 虚拟桌面:预装应用程序的完整 Ubuntu Linux 环境
  2. AI代理:了解您的任务并控制桌面以完成它们
  3. 任务界面:您可以在其中创建任务并观察 Bytebot 的工作的 Web UI
  4. API:用于编程任务创建和桌面控制的 REST 端点

主要特点

  • 自然语言任务:只需描述你需要做什么
  • 文件上传:将文件拖放到任务上以供 Bytebot 处理
  • 实时桌面视图:实时观看 Bytebot 的工作
  • 接管模式:当你需要帮助或配置某些东西时接管
  • 密码管理器支持:安装 1Password、Bitwarden 等进行自动身份验证
  • 持久环境:安装程序,它们可用于将来的任务

示例任务

基本示例

"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
 

文档处理

"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
 

多应用程序工作流程

"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
 

程序控制

通过 API 创建任务

import requests

# Simple task
response = requests.post('http://localhost:9991/tasks', json={
    'description': 'Download the latest sales report and create a summary'
})

# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
    data={'description': 'Review these contracts for important dates'},
    files=files
)
 

直接桌面控制

# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "screenshot"}'

# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "click_mouse", "coordinate": [500, 300]}'
 

完整的 API 文档 →

设置桌面代理

1.部署Bytebot

使用上述部署方法之一来运行 Bytebot。

2.配置桌面

使用 UI 中的“桌面”选项卡可以执行以下操作:

  • 安装您需要的附加程序
  • 设置密码管理器进行身份验证
  • 根据您的偏好配置应用程序
  • 登录您希望 Bytebot 访问的网站

3.开始分配任务

使用自然语言创建任务并观看 Bytebot 使用配置的桌面完成它们。

用例

业务流程自动化

  • 发票处理和数据提取
  • 多系统数据同步
  • 从多个来源生成报告
  • 跨平台合规性检查

开发与测试

  • 自动化 UI 测试
  • 跨浏览器兼容性检查
  • 带屏幕截图的文档生成
  • 代码部署验证

研究与分析

  • 跨网站竞争分析
  • 从多个来源收集数据
  • 文档分析与总结
  • 市场调研汇编

收藏

扫描二维码,在手机上阅读
文章目录


    2025年09月05日 热搜榜单,一览天下事

    IndexTTS 介绍及配图说明开源地址

    评 论