Zum Hauptinhalt springen

Browser Use Architektur und Runtime

1. Die Form des Arbeitsbereichs​

Das Repo deutet auf ein Framework mit diesen Hauptaufgabenbereichen hin:

BereichWarum er wichtig ist
browser_use/Kern-Automatisierungs- und Browser-Agent-Logik
Beispiele und DokuReferenz-Workflows und Nutzungsmuster
Cloud-DokuModell fĂĽr Remote-Browser und Betrieb

Die Architektur ist auf eine Frage spezialisiert:

wie machen wir Websites fĂĽr Agenten nutzbar

2. Das mentale Runtime-Modell​

Zur Laufzeit macht Browser Use in der Regel Folgendes:

  1. eine Browser-Sitzung starten,
  2. die aktuelle Seite inspizieren,
  3. den Seitenzustand in strukturierten Kontext umwandeln,
  4. die nächste Aktion entscheiden,
  5. wiederholen, bis die Aufgabe abgeschlossen ist.

Das klingt einfach, ist aber die zentrale technische Herausforderung von Browser-Agenten.

3. Warum Seitenverständnis wichtig ist​

Browser Use ist mehr als ein Klick-Runner. Sein Wert ergibt sich daraus, dem Agenten zu helfen zu verstehen:

  • was auf der Seite ist,
  • welche Aktionen möglich sind,
  • welche Zustandsänderungen wichtig sind,
  • wann die Aufgabe tatsächlich vorangekommen ist.

Das unterscheidet es von fragiler Automatisierung im Recorder-Stil.

4. Lokale vs. Cloud-Runtime​

Die Cloud-UnterstĂĽtzung fĂĽgt der gleichen grundlegenden Browser-Agent-Idee eine Betriebsschicht hinzu:

  • verwaltete Remote-Browser,
  • gemeinsame Transparenz,
  • reproduzierbarere AusfĂĽhrung.

Die Architektur versteht man also am besten als einen Browser-Agent-Kern mit lokalen und gehosteten Runtime-Oberflächen.

5. Was du im Code zuerst lesen solltest​

Beginne mit:

  1. der Quickstart-Doku,
  2. dem Haupt-Paket browser_use/,
  3. den Beispielen,
  4. der Cloud-Doku, sobald sich die lokale Runtime intuitiv anfĂĽhlt.