AI QA Workflow Runner

Aggregate AI QA stage metrics into one deterministic release decision: Ship, Review, or Block.

Release name

Prompt quality score (0-100)Output contract score (0-100)Policy high findingsPolicy medium findingsReplay pass casesReplay warning casesReplay fail casesEval score delta (candidate - baseline)Eval pass-rate delta in percentage points

Critical incident flag (forces risk downgrade)

Overall Score

Ship

Decision

Fail Stages

Review Stages

Pipeline Decision

Ship

Stage Results

passPrompt Lint Stage84/100

Prompt quality score 84/100.

passPolicy Firewall Stage90/100

0 high + 1 medium policy findings.

passJailbreak Replay Stage98.75/100

7 pass, 1 warning, 0 fail replay outcomes.

passOutput Contract Stage88/100

Output contract fit 88/100.

passEval Delta Stage80/100

Score delta 3, pass-rate delta 4pp.

Recommended actions

No blocking actions. QA pipeline looks ready.

Workflow JSON report

{
  "releaseName": "release-2026-02-20",
  "overallScore": 89,
  "decision": "Ship",
  "failStages": 0,
  "reviewStages": 0,
  "criticalIncident": false,
  "stages": [
    {
      "name": "Prompt Lint Stage",
      "score": 84,
      "state": "pass",
      "details": "Prompt quality score 84/100."
    },
    {
      "name": "Policy Firewall Stage",
      "score": 90,
      "state": "pass",
      "details": "0 high + 1 medium policy findings."
    },
    {
      "name": "Jailbreak Replay Stage",
      "score": 98.75,
      "state": "pass",
      "details": "7 pass, 1 warning, 0 fail replay outcomes."
    },
    {
      "name": "Output Contract Stage",
      "score": 88,
      "state": "pass",
      "details": "Output contract fit 88/100."
    },
    {
      "name": "Eval Delta Stage",
      "score": 80,
      "state": "pass",
      "details": "Score delta 3, pass-rate delta 4pp."
    }
  ],
  "actions": [
    "No blocking actions. QA pipeline looks ready."
  ]
}

About This Tool

AI QA Workflow Runner combines key QA stage metrics into one release decision so teams can standardize go/no-go checks before pushing prompt or model changes.