bao/nexus

Fork 0

Files

T

reviewer 58675f0c69

CI - Build & Test / Backend (.NET) (push) Successful in 26s

Details

CI - Build & Test / Frontend (Vue/TS) (push) Successful in 16s

Details

CI - Build & Test / Security Check (push) Successful in 3s

Details

ops: enhanced deploy verification with web-recovery + incident docs

2026-06-14 11:31:46 +02:00

9.0 KiB

Raw Blame History

Deployment

Letzte Aktualisierung: 2026-06-13 Status: ✅ CD v3 (Auto + Manual) Live-URL: https://nexus.noveria.net

CD-Philosophie (v3)

CI läuft automatisch bei jedem Push → darf nie brechen
CD auto + manuell: Automaticher Deploy nach CI-Success auf main (patch default), manueller Deploy mit voller Kontrolle via workflow_dispatch
Loop-Schutz: Version-Bump-Commits enthalten [skip ci] — kein Re-Trigger der CI, kein Infinite-Loop
Main-Deploys duerfen VERSION bumpen und einen Git-Tag setzen
Nicht-Main-Deploys (anderer git_ref) deployen read-only und mutieren Git nicht
Rollback als eigener Workflow, manuell triggerbar
Database-Backup als eigener Workflow, manuell triggerbar (optionaler Nightly-Schedule)

Workflows

Deploy (`.gitea/workflows/deploy.yaml`)

Trigger:

Automatisch: Nach erfolgreicher CI (workflow_run auf CI - Build & Test) → Default-Parameter: patch bump, all services, main ref
Manuell: Via Gitea Actions → workflow_dispatch

Loop-Schutz:

Version-Bump-Commits enthalten [skip ci] → Gitea startet keine neue CI
Auto-Deploy prüft zusätzlich github.event.workflow_run.head_commit.message auf [skip ci]
Beide Mechanismen zusammen verhindern Endlosschleife: CI → Deploy → Bump → CI …

Inputs (nur bei workflow_dispatch):

Input	Typ	Default	Beschreibung
`version_bump`	choice (patch/minor/major)	patch	Version-Bump-Typ
`service`	string	(all)	Einzelner Service oder alle
`no_cache`	boolean	false	Docker-Build-Cache deaktivieren
`git_ref`	string	main	Branch/Tag/Commit zum Deployen

Ablauf:

Job-Level-Guard: Auto-Deploys fuer [skip ci]-Commits werden gar nicht gestartet
Checkout des gewählten Git-Refs
Wenn git_ref = main: Version-Bump + Git-Tag + Push
Wenn git_ref != main: VERSION nur lesen, kein Push, kein Tag
Safe Secret Handling: .env wird aus Secret-Umgebungsvariablen in /tmp/nexus-deploy-env geschrieben (mode 600), NICHT im Workspace
Code-Sync zum Host-Deploy-Pfad
docker compose build && up -d --wait --force-recreate
.env-Tempfile wird mit shred gelöscht
Health-Check (exponentieller Backoff, 6 Versuche)
Smoke-Test (/dashboard, /health, /api/v1/operations/snapshot erwartet 401)
Bei Fehler: Reviewer-Handoff-Meldung mit Job-URL

Backup (`.gitea/workflows/backup.yaml`)

Trigger: Manuell via Gitea Actions → workflow_dispatch (optional: Nightly-Schedule via Cron)

Inputs:

Input	Typ	Default	Beschreibung
`keep_on_host`	boolean	false	Backup auch auf Host-Pfad kopieren
`host_backup_path`	string	`/opt/openclaw/backups`	Host-Zielpfad

Ablauf:

Backup-ID generieren (Timestamp-basiert)
docker exec nexus-postgres-1 pg_dumpall -U nexus → gzip
Upload als Gitea-Artifact (90 Tage Retention, bereits komprimiert)
Optional: Kopie auf Host-Pfad via Docker-Volume-Mount
Integritäts-Check: gzip-Test + SQL-Header-Validierung
Backup-Summary mit Restore-Befehl

Restore (manuell auf dem Host):

# Aus Gitea-Artifact herunterladen oder von Host-Pfad:
zcat nexus-backup-YYYY-MM-DDTHHMMSSZ.sql.gz | docker exec -i nexus-postgres-1 psql -U nexus -d postgres
# Danach Stack neu starten:
cd /opt/openclaw/data/openclaw/workspace/nexus
docker compose up -d --wait

Nightly-Schedule aktivieren: In backup.yaml die Zeilen auskommentieren:

schedule:
  - cron: '0 3 * * *'  # Jede Nacht um 03:00 UTC

Rollback (`.gitea/workflows/rollback.yaml`)

Trigger: Manuell via Gitea Actions → workflow_dispatch

Inputs:

Input	Typ	Beschreibung
`target_tag`	string	Git-Tag zum Zurückrollen (z.B. `v0.2.49`)
`confirm`	string	Muss exakt `ROLLBACK` sein (Safety-Gate)

Ablauf:

Safety-Gate: Bestätigungstext muss ROLLBACK sein
Checkout des Target-Tags
Tag-Validierung (existiert? welcher Commit?)
Safe Secret Handling (gleiches Tempfile-Pattern)
Code-Sync des alten Stands zum Host
docker compose build --no-cache && up -d --wait --force-recreate
Health-Check + Smoke-Test (/dashboard, /health, /api/v1/operations/snapshot erwartet 401)
Bei Fehler: Reviewer-Handoff mit manueller Rollback-Anleitung

DB-Migration bei Rollback: Die API führt MigrateAsync beim Start aus. Wenn die Migrationen des Rollback-Tags ein Prefix der aktuellen DB sind (Normalfall), läuft EF Core sie als No-Op. Wenn ein Rollback-Tag vor einer destruktiven Migration liegt, ist manuelles DB-Intervention nötig — ein Edge Case, der DevOps signalisiert wird.

Secrets und Konfiguration

Secrets in Gitea

Folgende Secrets sind in Gitea (Repo → Settings → Actions → Secrets) konfiguriert:

Secret	Verwendung
`ENV_POSTGRES_PASSWORD`	PostgreSQL-Passwort
`ENV_JWT_KEY`	JWT-Signing-Key (min. 32 Bytes)
`ENV_OWNER_PASSWORD`	Owner-Account-Passwort
`ENV_OPENCLAW_TOKEN`	OpenClaw Gateway Token

Safe Secret Handling (v3)

Vorher (unsicher): Secrets wurden via ${{ secrets.X }} direkt in eine Datei im Workspace interpoliert, die dann zum Host synct wurde. Das .env lag potenziell lesbar im Workspace und auf dem Host-Dateisystem.

Jetzt (sicher):

Secrets werden als Step-Environment aus Gitea Secrets bezogen und erst dann in /tmp/nexus-deploy-env (mode 600) geschrieben
Die Temp-Datei wird via docker run -v als read-only ins Compose-Environment gemountet
Nach Deploy/Rollback wird die Datei mit shred -u gelöscht
Das .env erscheint nie im Workspace oder auf dem Host-Deploy-Pfad

Build-Anleitung (lokal oder in CI)

Die folgenden Befehle sind auf dem Build-System auszuführen. Vor dem Build müssen die Secrets in .env gesetzt sein.

# 1. Backend veröffentlichen
cd backend
dotnet publish -c Release -o dist

# 2. Frontend bauen (pnpm preferred)
cd ../frontend
pnpm install
pnpm build
# └─ Output: frontend/dist/ (statisch auslieferbar)

# 3. Docker-Stack starten (wenn compose verwendet wird)
cd ..
docker compose up -d --build

Die Container holen sich ihre Umgebungsvariablen aus der .env im Projektstamm.
Stelle sicher, dass .env existiert und alle ***-Platzhalter ersetzt sind.

Deployment-Plan

.env-Datei auf dem VPS anlegen (alle Secrets generieren/setzen)
Backup vor produktiven Infrastrukturarbeiten
Docker-Stack auf dem VPS deployen
Datenbankmigration läuft automatisch beim Start (via MigrateAsync)
Nginx Proxy Manager und nexus.noveria.net verbinden
HTTPS, Header, Cookies und externe Erreichbarkeit validieren

Abgeschlossene Deployment-Arbeit

Produktions-.env mit starken, getrennten Secrets angelegt (2026-06-08)
Datenbankmigration und kompletter Stack per Docker-Compose deployt
Nexus auf dem VPS deployt (Docker Compose)
Nginx mit Let's Encrypt SSL fuer nexus.noveria.net konfiguriert
HTTPS, Security-Header (HSTS, X-Content-Type-Options, X-Frame-Options), Cookies validiert
Externe Erreichbarkeit bestaetigt (2026-06-09)
CI/CD entkoppelt — Deploy darf automatisch (v3) oder manuell (2026-06-13)
Automatischer Deploy nach CI-Success auf main mit Loop-Schutz via [skip ci] (2026-06-13)
Safe Secret Handling: Tempfile in /tmp statt Workspace-Datei (2026-06-13)
Rollback-Workflow implementiert mit Safety-Gate (2026-06-13)
Main-Deploys koennen Version-Bump + Git-Tag automatisch setzen; Non-Main-Deploys bleiben read-only (2026-06-13)
Reviewer-Handoff bei Deploy/Rollback-Fehlern (2026-06-13)
Database-Backup-Workflow mit pg_dumpall + Gitea-Artifact (2026-06-13)

Verifizierung (2026-06-09)

https://nexus.noveria.net → 200 OK, SPA geladen
/health → Healthy
/dashboard, /login → SPA-Routing korrekt
/api/v1/operations/snapshot → 401 Unauthorized (Auth-Schutz aktiv)
Let's Encrypt TLS-Zertifikat aktiv
Nginx-Proxy → 127.0.0.1:18880

Incident-Hinweis (2026-06-14)

Verifizierter Ausfallpfad: api konnte wegen DB-Passwort-Mismatch nicht healthy werden; dadurch blieb web per depends_on: service_healthy im Status Created.
Nach einem isolierten API-Fix startet web nicht automatisch nach. Sicherer Minimalpfad:
1. docker compose ps
2. curl http://127.0.0.1:18880/health
3. Falls health=200, aber /dashboard noch nicht 200 und web auf Created steht: docker compose up -d web
4. Danach extern /dashboard, /health und /api/v1/operations/snapshot erneut prüfen
Der manuelle Helper ops/deploy.sh verifiziert deshalb jetzt nicht mehr nur /health, sondern auch /dashboard und den Auth-Schutz der Operations-API.

Offene Arbeit

Docker-Socket-Risiko im CD-Workflow final adressieren (kommt spaeter)
Docker-Logs und Container-Health-Monitoring einrichten
Restore-Drill fuer Backup/Recovery einmal realistisch durchspielen und dokumentieren
Direkt-Pushes auf main waehrend eines Main-Deploys organisatorisch vermeiden oder spaeter technisch haerter absichern

9.0 KiB Raw Blame History

Deployment

CD-Philosophie (v3)

Workflows

Deploy (.gitea/workflows/deploy.yaml)

Backup (.gitea/workflows/backup.yaml)

Rollback (.gitea/workflows/rollback.yaml)

Secrets und Konfiguration

Secrets in Gitea

Safe Secret Handling (v3)

Build-Anleitung (lokal oder in CI)

Deployment-Plan

Abgeschlossene Deployment-Arbeit

Verifizierung (2026-06-09)

Incident-Hinweis (2026-06-14)

Offene Arbeit

9.0 KiB

Raw Blame History

Deploy (`.gitea/workflows/deploy.yaml`)

Backup (`.gitea/workflows/backup.yaml`)

Rollback (`.gitea/workflows/rollback.yaml`)