跳转到主要内容

概述

Browserbase MCP服务器提供全面的浏览器自动化与会话管理工具。这些工具支持执行页面导航、截图捕捉、Cookie操作以及同时管理多个浏览器会话等操作。

核心浏览器自动化工具

以下是使用自然语言命令进行现代网页自动化的主要工具。
在浏览器中导航至任意URL
url
string
必填
需要导航的目标URL
使用自然语言在网页上执行操作
action
string
必填
需要执行的操作(例如:“点击登录按钮”、“填写表单字段”)
从当前页面提取所有文本内容(自动过滤CSS和JavaScript)
instruction
string
从当前页面提取的文本内容
观察并定位网页上的可操作元素
instruction
string
必填
具体的观察指令(例如:“找到登录按钮”、“定位搜索表单”)
捕获当前页面的PNG截图
无需输入参数
image
string
Base-64编码的PNG数据

单会话管理

传统方式仅维持一个活跃浏览器会话。适用于基础自动化任务,自动管理活跃会话。
创建或复用Browserbase云浏览器会话,并完全初始化Stagehand
sessionId
string
可选会话ID用于复用。如未提供则创建新会话
关闭当前Browserbase会话,断开浏览器连接并清理Stagehand实例
无需输入参数

多会话管理

高级方案支持并行多个浏览器会话,适用于复杂自动化工作流。每个会话保持独立状态、cookies和浏览器上下文。

会话生命周期管理

创建具备完整网页自动化能力的新建独立 Stagehand 浏览器会话
name
string
用于追踪的可读性名称(例如 ‘login-flow’、‘data-scraping’)
列出所有当前活跃的 Stagehand 浏览器会话及其详细元数据
无需输入参数
关闭并清理指定的 Stagehand 浏览器会话
sessionId
string
必填
要关闭的精确会话ID(不可撤销)

会话专属自动化工具

所有核心浏览器自动化工具均提供会话专属版本:
在指定浏览器会话中导航至URL
sessionId
string
必填
要使用的会话ID
url
string
必填
要导航至的URL
使用自然语言在特定浏览器会话中执行操作
sessionId
string
必填
要使用的会话ID
action
string
必填
要执行的操作
从特定浏览器会话中提取结构化信息
sessionId
string
必填
要使用的会话ID
instruction
string
必填
需要从页面提取的内容
观察并查找特定浏览器会话中的可操作元素
sessionId
string
必填
要使用的会话ID
instruction
string
必填
观察目标(例如”查找登录按钮”)
returnAction
boolean
是否返回待执行操作

多会话使用场景

并行数据采集

在不同网站上同时运行多个抓取会话

A/B测试

通过不同配置的浏览器会话比较用户流程

跨站点操作

在多个网站或应用间执行协同操作

备份会话

保持备用会话就绪,以防主会话出现问题

相关资源

截图资源

服务器提供基于URI访问的截图资源示例:
screenshot://screenshot-name-of-the-screenshot

延伸阅读

Model Context Protocol (MCP) 文档

了解MCP协议的更多信息

Stagehand 文档

探索Stagehand的AI驱动浏览器自动化

技术支持

获取我们的技术支持团队帮助