AI

“自动操作”计算机出现

OthersideAI开发人员Josh Bickett在半夜喂女儿吃饭时产生了一个开创性的新型“自操作计算机框架”的想法。

2023年12月28日
self-operating-computer
分享

与新生儿共度深夜可能会带来意想不到的突破。OthersideAI 开发人员 Josh Bickett 就是这样的情况,他在半夜喂女儿吃饭时产生了一个开创性的新型“自操作计算机框架”的想法。

“我真的很享受和女儿在一起的时光,她现在已经四个星期大了,我在做父亲和所有这些方面学到了很多新的教训。但我也有一点时间,这个想法是因为我看到了GPT-4 视觉的不同演示而产生的。我们现在正在研究的事情实际上可以通过 GPT-4 愿景实现。”

Bickett 用一只手臂抱着女儿,在电脑上勾勒出基本框架。“我刚刚找到了一个初步的实现……它不太擅长以正确的方式单击鼠标。但我们正在做的是定义问题:我们需要弄清楚如何操作计算机。”

当 OthersideAI 联合创始人兼首席执行官 Matt Shumer 看到这个新框架时,他认识到了它的巨大潜力。“这是实现相当于实现自动驾驶汽车(但只适用于计算机)的路线上的一个里程碑。我们现在有了传感器。我们有激光雷达系统。接下来,我们将构建智能。”

人工智能决定在你的电脑上点击哪里和点击什么

正如 Bickett 所描述的,该框架“让 AI 能够控制鼠标点击的位置以及所有键盘的触发。它就像 autoGPT 之类的代理,只不过它不是基于文本的。它是基于视觉的,所以它会截取计算机的屏幕截图,然后决定鼠标点击和键盘,就像人一样。”

Shumer 详细阐述了该框架如何代表了之前仅依赖 API 的方法的重大进步。

“人们在计算机上做的很多事情,对吧,你不能真正用 API 来做,这就是很多其他人在想要构建代理时解决这个问题的方式。他们将其构建在该服务的公开可用 API 之上,但这并不能扩展到所有情况。” 正如 Shumer 所言,“如果你真的想解决一些自主的问题,并且实际上可以帮助我们完成更多工作。你必须让它像人一样工作,因为世界是为人而建的。”

该框架将屏幕截图作为输入并输出鼠标点击和键盘命令,就像人类一样。但正如 Bickett 和 Shumer 都承认的那样,真正的潜力不在于轻量级框架本身,而在于可以插入其中的先进计算机视觉和推理模型。“这个框架就像即插即用一样,你只需插入一个更好的模型,它就会变得更好,”Bickett 说。

人工智能代理将如何改变我们所知的计算

对于未来的影响,Shumer 描绘了一个大胆的愿景:“一旦这个东西足够可靠,它将成为你的计算机,它将成为你与数字世界的接口。” 

有了自操作计算机框架,先进的人工智能模型就可以学会仅通过对话命令来接管所有计算机交互。

正如 Shumer 预测的那样,可能会出现不同类型的专用计算机代理模型来处理不同的任务。

有些人可能注重简单任务的速度,而另一些人则擅长复杂的推理。模型也可能因企业与消费者用例而异。但根据 Shumer 的说法,总体目标是开发代理,使“人们可以说,这是我讨厌做的事情。现在,我不必再这样做了。我们想让它变得非常简单,让那些从一开始就几乎不会使用电脑的人也能做到。”这样的世界成为可能。

自操作计算机框架介绍

这是一个使多模式模型能够操作计算机的框架。模型使用与人类操作员相同的输入和输出,查看屏幕并决定一系列鼠标和键盘操作以达到目标。

self-operating-computer2

主要特征

  • 兼容性:专为各种多模式模型而设计。
  • 集成:目前集成 GPT-4v 作为默认模型,并扩展了对 Gemini Pro Vision 的支持。
  • 未来计划:支持其他模型。

当前的挑战

注意: GPT-4V 在估计 XY 鼠标点击位置时的错误率目前相当高。该框架旨在跟踪多模式模型随时间的进展,渴望在计算机操作中实现人类水平的性能。

持续发展

HyperwriteAI,正在开发一种多模态模型 Agent-1-Vision,具有更准确的点击位置预测。

Agent-1-Vision 模型的 API

很快将提供对 Agent-1-Vision 模型的 API 访问。

如果您有兴趣访问此 API,请在此处注册。

我们认识到,使用热键可以更有效地执行某些操作系统功能,例如使用热键command+L进入浏览器地址栏,而不是通过在正确的 XY 位置模拟鼠标单击。我们计划随着时间的推移进行这些改进。然而,值得注意的是,许多操作需要准确选择屏幕上的视觉元素,从而需要精确的 XY 鼠标单击位置。该项目的主要重点是提高确定这些点击位置的准确性。我们相信,这对于在当前技术环境下实现完全自主运行的计算机至关重要。

快速入门说明

以下是在您的计算机上本地设置自操作计算机框架的说明。

选项 1:传统安装方式

将存储库克隆到计算机上:

git clone https://github.com/OthersideAI/self-operating-computer.git

cd 进入目录

cd self-operating-computer

创建Python虚拟环境了解有关 Python 虚拟环境的更多信息

python3 -m venv venv

激活虚拟环境

source venv/bin/activate

安装项目依赖和命令行界面,可以直接从 PyPI 安装项目:

pip install self-operating-computer

然后将.example.env文件重命名为.env以便您可以在其中保存 OpenAI 密钥。

mv .example.env .env

将 Open AI 密钥添加到新.env文件中。如果您没有,您可以在此处获取 OpenAI 密钥:

OPENAI_API_KEY='your-key-here'

运行

operate

最后一步,终端应用程序将在 Mac 的“系统偏好设置”的“安全和隐私”页面中请求“屏幕录制”和“辅助功能”的许可。

self-operating-computer4

self-operating-computer3

选项 2:使用 .sh 脚本安装

将存储库克隆到计算机上:

git clone https://github.com/OthersideAI/self-operating-computer.git

cd 进入目录

cd self-operating-computer

运行安装脚本

./run.sh

使用operate模式

多模式模型 -m

还有一种模型现在与自操作计算机框架兼容。请按照以下说明尝试使用 Google 的 gemini-pro-vision

将您的 Google AI Studio API 密钥添加到您的 .env 文件中。如果您没有密钥,您可以在设置 Google AI Studio 帐户后在此处获取密钥。您可能还需要桌面应用程序的授权凭据。我花了一些时间才让它工作起来,如果有人知道更简单的方法,请提 PR:

GOOGLE_API_KEY='your-key-here'

用 Gemini 模型开始operate

operate -m gemini-pro-vision

语音模式--voice

该框架支持目标的语音输入。按照以下说明尝试语音。

安装额外的requirements-audio.txt

pip install -r requirements-audio.txt

安装设备要求,对于 mac 用户:

brew install portaudio

对于 Linux 用户:

sudo apt install portaudio19-dev python3-pyaudio

以语音模式运行

operate --voice

来自:

更多文章

收集的一些ChatGPT的系统提示,以及提示注入的技巧。

2023年12月27日 · ChatGPT
ollama
Ollama支持在本地启动和运行Llama2等大语言模型。
2023年12月26日 · LLM
示例如何使用Three.js和localStorage在多个窗口中“同步”3D场景。
2023年12月25日 · 3D
lobe-chat-1
LobeChat是开源的高性能聊天机器人框架,支持一键免费部署私人ChatGPT/LLM网页应用程序。
2023年12月22日 · GPT 聊天机器人