Der perfekte Prozess für A/B-Testing: So verkauft dein Online-Shop besser - LEAP/
, Milena Sandri

Der perfekte Prozess für A/B-Testing: So verkauft dein Online-Shop besser

Dein Erfolg im E-Commerce hängt auch von effizienten A/B-Tests deiner Website ab. Dabei hilft dir der A/B-Testing-Cycle von LEAP/. Plus FAQs.

von Milena Sandri
Lesezeit: 11 Minuten

Das erfährst du in diesem Beitrag:

  • Warum sind A/B-Tests unverzichtbar für Online-Shops?
  • Wie läuft der A/B-Testing-Cycle von LEAP/ ab?
  • Welche typischen Fragen stellen sich BetreiberInnen noch?

Jedes Unternehmen, das Produkte oder Dienstleistungen über eine Internetseite verkauft, sollte A/B-Testing betreiben. Denn A/B-Testing kann ein starker Treiber für die Conversion Rate verschiedener Seitenziele sein und viele Learnings über deine Zielgruppe und das Verhalten der UserInnen auf deiner Seite bieten. Richtig durchgeführt ist A/B-Testing zwar komplex und zeitintensiv, führt aber zu positiveren Ergebnissen, als planlos und überstürzt die Nadel im Heuhaufen zu suchen.

Damit deine Tests fehlerfrei laufen, erläutern wir dir gerne unser Vorgehen bei LEAP/ und beantworten im Anschluss daran einige typische Fragen. So nutzen wir einen bewährten A/B-Testing-Cycle, der sich nach sechs durchgeführten Schritten wiederholt:

  1. Analyse
  2. Hypothese
  3. Variation
  4. A/B-Test-Setup
  5. Test-Durchführung
  6. Auswertung & Implementierung

1. Analyse

Da es beim Testen eher um kleine Änderungen und die stetige Schritt-für-Schritt-Verbesserung der Conversion Rate geht, sollte deine Website vorher von Überflüssigem und groben Fehlern befreit werden.

Bevor du nun testest, musst du analysieren. Wenn du nicht weißt, auf welcher Seite die UserInnen am häufigsten abspringen und wo sich die User und Userinnen generell viel aufhalten, kann nicht getestet werden.

Es gibt zwei Phasen innerhalb der Analyse: die quantitative Analyse und die qualitative Analyse.

Quantitative Analyse: Bei der quantitativen Analyse werden insbesondere die Zahlen deines Analytics-Tools unter die Lupe genommen. Hierbei geht es darum, jene Seiten ausfindig zu machen, die zum Beispiel viel Traffic, aber eine hohe Bounce Rate oder eine geringe Conversion Rate aufweisen.

Aufschlussreich ist außerdem das Einsetzen von Segmenten nach Devices, Geschlecht, Alter, neue UserInnen, WiederkehrerInnen etc. Neben Analytics empfehlen wir die Verwendung von Trackingtools wie Mouseflow, damit du auszuwerten kannst, wie sich die Nutzer und Nutzerinnen auf deiner Seite verhalten. Wo wird beispielsweise besonders viel geklickt, obwohl der Klick nicht unbedingt gewollt oder von Vorteil ist?

Qualitative Analyse: In der qualitativen Analyse werden auf der Seite selbst per Draufsicht mögliche Probleme unter Verwendung psychologischer Heuristiken, Best Practices und Quick Wins identifiziert, um daraus Hypothesen zu formulieren.

Interessant kann auch die Analyse der Wettbewerber sein, wenn etwa bestimmte Elemente auf der Seite anders gehandhabt werden. Weitere, aber aufwendige Methoden für die Hypothesengenerierung sind außerdem Usability Labs und User-Befragungen.

Empfehlung: Testing Roadmap erstellen

Nachdem klar ist, an welchen Stellen getestet wird und wie viele Tests es ungefähr sein werden, empfehlen wir eine Testing Roadmap zu erstellen. Bei LEAP/ nutzen wir ein System aus Backlog-Tests, die bei Bedarf in die Roadmap gezogen werden. Wir committen uns auf maximal fünf Tests hintereinander.

A/B-Testing ist kein statischer, sondern ein dynamischer und iterativer Prozess und fordert Flexibilität, um zum Beispiel Follow-up-Tests durchzuführen oder auf unternehmensbedingte Gegebenheiten reagieren zu können. Um die Entscheidung zu vereinfachen, welche Tests zuerst durchgeführt werden, priorisieren wir die Testideen nach folgenden Eigenschaften:

  • Konversionspfad: Wo ist der Test positioniert? (Je weiter hinten im Funnel, desto mehr Impact-Wahrscheinlichkeit auf die Sale CR.)
  • Kontrast: Wie hoch ist der Kontrast im Vergleich zum Original?
  • Impact: Was für einen Impact kann der Test auf das Userverhalten haben?
  • Learning: Wie groß ist das Learning, welches wir aus dem Test ziehen können?
  • Zielgruppe: Wie groß ist die erwartete Zielgruppe?
  • Konfidenz: Wie sicher sind wir, dass dieser Test positiv ausfallen wird?
  • Aufwand: Wie hoch ist der Aufwand im Design und Development?

2. Hypothese

Die gefundenen Probleme – sowohl quantitativ als auch qualitativ – werden kombiniert und in Hypothesen formuliert. Die Formulierung sollte mit Zuhilfenahme einer Heuristik stattfinden, die die Hypothese unterstützend belegt. Das sieht dann wie folgt aus:

  • WENN etwas Bestimmtes auf der Seite geändert wird,
  • DANN führt das zu einem Uplift für ein primäres Ziel,
  • WEIL eine Heuristik das Verhalten des Nutzers bzw. der Nutzerin beeinflusst.

Wir empfehlen außerdem, das Design- und Programmierungsteam miteinzubeziehen, weil hier erstens weitere gute Ideen schlummern und zweitens auch schon in einem frühen Stadium auf mögliche Schwierigkeiten im Design oder der Programmierung hingewiesen werden kann. Das Programmierteam muss zudem entscheiden, wie die Tests technisch ablaufen sollen.

3. Variation

Je nachdem, wie viel Traffic auf der Testingseite vorhanden ist und ob das Testing-Setup es zulässt, empfehlen wir, mit mehreren Varianten zu testen, da die Wahrscheinlichkeit erhöht wird, zu einem positiven Ergebnis zu gelangen.

Wenn du beispielsweise überprüfen möchtest, ob ein Teaserbild mit oder ohne Testimonial besser performt, dann böte sich eine zweite Challengervariante mit zum Beispiel einer dritten Teaseridee an (multivariates Testing).

Natürlich kommt es darauf an, ob genügend Traffic vorhanden ist und ob mehrere Ideen überhaupt sinnvoll sind. Online gibt es verschiedene A/B-Testing-Laufzeit-Rechner, mit denen du ausrechnen kannst, wie lang der Test in verschiedenen Set-ups laufen würde.

Folgende Kennzahlen werden dazu benötigt:

  1. Die aktuelle Conversion Rate des Primärziels wie etwa den Klick auf das Teaserbild
  2. Die tägliche Useranzahl auf der entsprechenden Seite
  3. Die erwartete Verbesserungsrate deiner Challengervariante (zum Beispiel die Steigerung der Klicks auf das Teaserbild um 10 Prozent). Je kleiner die erwartete Verbesserungsrate ist, desto länger wird die Laufzeit des Tests.
  4. Das Konfidenzniveau: Die vorliegende Veränderung ist im besten Fall signifikant und damit auf die Grundgesamtheit, also alle User und Userinnen, übertragbar. Wir empfehlen hier mit einem Konfidenzniveau von 95 Prozent zu arbeiten, um so nur 5 Prozent Risiko eines Fehlers erster und zweiter Art zuzulassen. Ein Fehler erster Art liegt vor, wenn die Challengervariante als der Gewinner identifiziert wird, obwohl die Originalvariante der Gewinner ist. Ein Fehler zweiter Art liegt vor, wenn die Originalvariante beibehalten wird, obwohl die Challengervariante besser performt. Weitere häufige Fehler findest du hier.

Sobald die Varianten konzipiert sind und berechnet wurde, ob der Test möglich ist oder gegebenenfalls verändert werden muss, werden die Varianten vom Design erstellt und durch Qualitätskontrollen und Feedbackschleifen feingeschliffen.

4. A/B-Test-Setup

Beim Test-Setup wird der Test ins Development gegeben und programmiert. Außerdem gilt es, die genauen Targeting- und Conversionziele im Testingtool festzulegen. Neben dem Primärziel werden Sekundärziele definiert, die ebenfalls getestet werden sollen. Wir empfehlen jeden Weg und wichtigen Klick, den der Nutzer oder die Nutzerin während des Tests gehen oder tätigen könnte, mit aufzunehmen. Nimm dir hier ausreichend Zeit und überlege insbesondere, welche Interaktion wichtig ist.

Wenn du zum Beispiel die Suche im Test ausklappen möchtest, dann muss hier jede Interaktion ins Targeting: Nutzung der Suche gesamt, Klick auf Lupe, Klick auf Eingabe, Klick auf Liste mit Suchergebnissen (falls vorhanden). In diesem Beispiel ist nicht nur interessant, wie die UserInnen generell auf die ausgeklappte Suche reagieren und ob es sich positiv auf den Sale oder Add to Cart auswirkt, sondern auch wie die User und Userinnen agieren, nachdem sie die Suche genutzt haben. Für diese Betrachtung kann im Testingtool ein Action Tracking eingestellt werden. Das Action Tracking ist allerdings nur möglich, wenn die Nutzung der Suche vorher als Ziel definiert wurde. Daher überlege dir vorher genau, was wichtig ist und welches Action Tracking du gegebenenfalls für die Auswertung benötigst.

Hier ist eine Liste mit Zielen, die wir immer ins Targeting aufnehmen, wenn der Test vor dem Check-out stattfindet:

  • Add to Cart
  • Aufruf Warenkorb
  • Aufruf Anmeldung
  • Aufruf Adressseite
  • Aufruf Zahlungsartenseite
  • Aufruf Bestellübersicht
  • Sale/Transaktion
  • Durchschnittlicher Warenkorbwert
  • Gesamtumsatz
  • Bounce Rate bei Testansicht
  • Revisits
  • Relevante Klickziele

Wenn der Test programmiert und alle Ziele ins Targeting aufgenommen wurden, sollte vor der Liveschaltung eine ausführliche Prüfung der Funktionalität auf den gängigen Browsern und Geräten erfolgen. So lassen sich mögliche Fehler vorher identifizieren und beheben.

5. Test-Durchführung

Endlich ist es soweit – der Test ist live! Doch damit ist die Arbeit nicht getan. Vielmehr solltest du den Test jeden Tag im Testingtool monitoren, um Verläufe zu beobachten und Fehler während des Tests direkt beheben zu können. Außerdem können Varianten umgeleitet oder der Test abgestellt werden, wenn eine negative Performance auftritt.

6. Auswertung & Implementierung

Wann der Test abgestellt werden kann, entscheidet einer dieser drei Gründe:

  • Die Ergebnisse sind positiv und signifikant
  • Die Ergebnisse sind negativ und signifikant
  • Die Ergebnisse werden auch nach einer langen Laufzeit nicht signifikant

Im Fall 1 und 2 können die Ergebnisse ausgewertet und gegebenenfalls Follow-up-Tests aus den Learnings generiert werden. Hierbei ist es wichtig, nicht nur die Gesamtergebnisse zu evaluieren, sondern zusätzlich zu segmentieren, da sie aufschlussreiche Erkenntnisse über die Zielgruppe, die Nutzung und das Verhalten enthalten können. Eine Segmentierung kann beispielsweise Klickziele, bestimmte Seitenaufrufe, Devices, Browser etc. beinhalten.

Fall 3 tritt tatsächlich am häufigsten auf, und irgendwann musst du die Entscheidung treffen, den Test trotz niedrigen Signifikanzniveaus abzuschalten. Auch wenn nicht alle Ziele die gewünschte Signifikanz aufweisen gibt es meist trotzdem Ergebnisse, die ausgewertet werden können – etwa durch eine Segmentierung.

Wie geht man mit unterschiedlichen Ergebnissen nach einer Segmentierung vor?

Du hast segmentiert und stehst nun vor dem Dilemma, dass zum Beispiel eine Veränderung im Chrome-Browser positiv und im Safari-Browser negativ performt. Alles in allem sind solche Fälle normal und geben dir wichtige Learnings über die Zielgruppe und die Performance der einzelnen Segmente.

Die Segmentierung hat jedoch nur einen begrenzten Einfluss auf die Entscheidung, ob Challengervarianten umgesetzt werden oder das Original beibehalten wird. Beeinflusst die Veränderung das Primärziel, den Sale oder Umsatz negativ, muss pro „großem Ganzen“ agiert werden, auch wenn signifikante Uplifts an anderer Stelle vorhanden sind.

Dennoch lassen sich die positiven und signifikanten Ergebnisse nutzen, indem du anhand der Learnings personalisierst. Das Thema der Personalisierung wird hier behandelt: „Personalisiere deine Website – Tipps und Tricks aus der Psychologie“.

Ist es ungewöhnlich, dass nicht jeder Test erfolgreich ist?

Nein, ist es nicht. Viele Seiten im Internet sind fortgeschritten optimiert und die meisten „Low Hanging Fruits“ bereits gepflückt, was zur Folge hat, dass insgesamt weniger positive Tests gemacht werden. Eine anfängliche Idee kann zum Beispiel durch einen Misserfolg zu einem positiven Ergebnis führen, weil aus den Learnings Follow-up-Tests konzipiert werden.

Entsprechend heißt es im Handbuch „A/B-Testing 1×1 – Wie Sie Ihr Unternehmen mit A/B-Testing ganz nach vorne bringen“ von AB Tasty: „A/B-Testing ist ein fortlaufender Optimierungsprozess. Am Ende eines jeden Tests stehen Erkenntnisse, aus denen neue Testhypothesen hervorgehen. Diese helfen wiederum dabei, die Roadmap auszubauen. Zudem werden die Bemühungen nur langfristig Früchte tragen: Die ersten Tests werden mit Sicherheit nicht die erhofften Ergebnisse liefern, denn eine fundierte Analyse nimmt Zeit in Anspruch.“

Wie funktioniert die Statistik bei einem A/B-Test?

Es werden Werte einer Stichprobe gesammelt, woraus sich bei Vorhandensein ausreichend vieler Daten eine Gaußsche Glockenkurve oder auch Normalverteilung bilden lässt (s. Beispiel 1). Hier essen beispielsweise 25 Befragte fünf Tafeln Schokolade im Jahr.

Wenn wir mehrere Varianten haben (z. B. Vollmilch, Zartbitter und Haselnuss), werden entsprechend viele Kurven gebildet.

Die blaue Kurve hat die geringste Standardabweichung, d. h. die Daten streuen weniger stark um den Mittelwert.

  • Die blaue und die grüne Kurve haben denselben Mittelwert
  • Das Ergebnis der blauen Kurve hat eine höhere Signifikanz als das der roten Kurve
  • Die rote und die grüne Kurve haben dieselbe Standardabweichung

Bei einem t-Test werden die Mittelwerte miteinander verglichen, um einen Mittelwertunterschied herauszufinden (s. Beispiel 3). Dieser Unterschied muss hinsichtlich seiner Signifikanz überprüft werden. Die Signifikanz ist die Wahrscheinlichkeit, dass ein gefundener Unterschied nicht auf rein zufällige Schwankungen zurückzuführen ist und wird mit dem Chi-Quadrat-Test berechnet.

Was sind die Gründe für nicht signifikante Tests?

A/B-Tests können insbesondere aus drei Gründen nicht signifikant sein:

  • Die Veränderungen in der Challengervariante waren zu kontrastarm: Große Mittelwertunterschiede sind eher signifikant als kleine Unterschiede.
  • Es gab nicht genug Traffic in dem Test: Bei einer größeren Stichprobe kann es eher zu einem signifikanten Ergebnis kommen, weil mehr Daten dafür sorgen, dass die Kurve schmaler wird. Dann streuen die Daten streuen weniger.
  • Der Test lief nicht lang genug: Gerade bei kleinen Mittelwertunterschieden muss der Test länger laufen, damit die Stichprobe groß genug ist, um zu einem signifikanten Ergebnis zu führen.

Warum macht man nicht einfach eine Vielzahl an Tests gleichzeitig?

Es wäre natürlich sehr praktisch, wenn wir vier Tests gleichzeitig auf der Seite laufen lassen. Dieses Vorgehen spart Zeit und führt zudem zu schnelleren Ergebnissen. Wir raten allerdings dringend davon ab, mehrere Tests gleichzeitig durchzuführen!

Hier sind die Gründe:

  • Es kann zu fehlerhaften Anzeigen auf der Seite selbst kommen, wenn an mehreren Stellen Tests laufen
  • Wenn zum Beispiel auf der Produktseite und im Check-out getestet wird, werden UserInnen vom Test auf der Produktseite geprimt, ehe sie den Check-out aufrufen. Die unterschiedlich beeinflussten NutzerInnen werden zwar gleichmäßig und randomisiert in den zweiten Test im Checkout-Bereich geleitet, aber sie sind immer noch geprimt vom Test auf der Produktseite, und es ist nicht klar, welcher Test zu dem vorliegenden Ergebnis führt.

Mehrere Tests gleichzeitig laufen zu lassen, ist jedoch dann möglich bzw. sinnvoll, wenn beispielsweise eine Aufteilung nach Devices vorgenommen wird (Desktop und Mobile).

Fazit

Mit diesem A/B-Testing-Wissen bist du nun in der Lage, A/B-Tests auf deiner Seite durchzuführen. Genauso wie wir es hier bei LEAP/ machen. Wenn du unserer Anleitung folgst, wird sich deine Conversion Rate sowie die User Experience auf deiner Seite nach und nach verbessern. Nimm vor allem den ersten Schritt der Analyse sehr ernst! Denn die Tests sind immer nur so gut, wie die Analyse detailliert ist.

Viel Erfolg beim Testen!

Das ist ein Artikel von

Milena Sandri

Nach meinem Bachelorstudium des Kommunikationsdesigns und meinem Masterstudium der Medienpsychologie arbeitete ich zunächst für ein halbes Jahr als Offline-Marketing-Managerin und bin nun bei der Berliner Agentur LEAP/ für die Conversion-Optimierung zuständig.