Effektiver durch KI: Predictive Coding in Internal Investigations

Ein Unternehmen leistet zur Erlangung eines lukrativen Auftrags im Ausland auf Grundlage eines fingierten Beratungsvertrags eine verdeckte Korruptionszahlung an lokale Vermittler – ein Beispiel für die Verletzung von Compliance-Vorgaben. In Fällen wie diesen beauftragt die Unternehmensleitung häufig eine Anwaltskanzlei mit einer internen, diskreten Sachverhaltsaufklärung. Eine solche Internal Investigation verschafft der Unternehmensleitung ein exaktes Bild über das Ausmaß des Compliance-Verstoßes, über Reaktionsmöglichkeiten sowie einen Zeitvorteil gegenüber eventuellen hoheitlichen Ermittlungen, z.B. durch die Staatsanwaltschaft.

Welche Funktion übernimmt Predictive Coding in einer Internal Investigation

In einer Internal Investigation sind regelmäßig enorme Datenmengen aus mehrjährigen Zeiträumen auszuwerten. Traditionell arbeiteten sich dabei Anwaltsteams wochenlang manuell durch zehntausende Emails, Textdateien, Smartphone-Content oder sonstige Dokumente aus unterschiedlichen Quellen und Servern, um die einzelnen Dateien herauszufiltern, die weitere Indizien zu dem potenziellen Compliance-Verstoß beinhalten. Wegen der Kostenintensivität dieser Vorgänge liegt es nahe, die manuelle Sichtung zu automatisieren und damit die traditionellen Arbeitsprozesse einer Internal Investigation zu revolutionieren. Hier kommt Predictive Coding, auch bekannt als Technology/Computer Assisted Review, ins Spiel. Dabei handelt es sich um ein Verfahren aus dem Bereich künstlicher Intelligenz, das sich die Grundsätze des maschinellen Lernens zu eigen macht, um auf Grundlage der Prüfung einer kleinen Dokumentenauswahl durch einen menschlichen Dokumenten-Reviewer eine sehr große Datenmenge automatisiert prüfen zu lassen.

Wie funktioniert Predictive Coding

Der Einsatz dieser Software setzt ihr anfängliches Training voraus. Ein menschlicher Benutzer überprüft dabei einen kleinen Beispielsatz von Dokumenten, der zufällig aus einem größeren Datensatz ausgewählt wurde und identifiziert daraus die Dokumente, die entweder relevant, nicht relevant oder besonders geschützt sind. Die Predictive Coding-Software „lernt“ somit aus dieser Überprüfung durch den Benutzer und erstellt eine Reihe von Regeln für die automatische Kategorisierung von Dokumenten, um die Methode des menschlichen Benutzers zu reproduzieren. Dabei fließen viele verschiedene Suchparameter ein, wie z.B. Wortübereinstimmungen, Adressaten, Dateityp oder Dateiberechtigungen. Die Software wendet dieses erlernte Modell dann auf den größeren Datensatz an, um auch dort jedes Dokument entsprechend zu kategorisieren.

Im Anschluss überprüft der Benutzer einen ersten maschinell kategorisierten Dokumentensatz und korrigiert ihn bei Bedarf. Die Software wird wiederum aus den Korrekturen des Benutzers lernen, die entsprechenden Änderungen in sein Kategorisierungsmodell implementieren und den Algorithmus erneut auf den größeren Datensatz anwenden. Dieser Vorgang kann wiederholt werden, bis der Benutzer sicher ist, dass die Software die Dokumente im größeren Datensatz korrekt kategorisiert.

Wo wird Predictive Coding noch eingesetzt

Der Einsatzbereich des Predictive Coding erstreckt sich neben Internal Investigations insbesondere auch auf Discovery/Disclosure-Prozesse in angloamerikanischen Gerichtsverfahren, wo regelmäßig große Datenmengen auszuwerten sind. So hat Taylor Wessing in der richtungsweisenden Entscheidung Pyrrho Investments v MWB Property & Ors [2016] EWHC 256 erstmals die Zulässigkeit der Verwendung von Predictive Coding in Verfahren vor englischen Gerichten erstritten. Das Gericht hat dabei ausdrücklich die beachtliche Zeit- und Kostenersparnis gegenüber einem traditionellen, manuellen Dokumenten-Review betont.

Was sind Chancen und Risiken des Predictive Coding

Der Zeit- und Kostenaufwand einer Internal Investigation kann durch Predictive Coding gegenüber einer traditionellen Durchführung erheblich reduziert werden. Ferner bietet der Einsatz von künstlicher Intelligenz großes Potenzial für konsistentere Ergebnisse und damit eine bessere Qualität der Investigation. Es reduziert den Spielraum für divergierende Bewertungen zwischen verschiedenen menschlichen Reviewern. Im Gegensatz zu menschlichen Reviewern ermüdet die Software nicht, wodurch sich das Risiko von Fehlern oder Bewertungsdivergenzen reduziert.

Auf der anderen Seite hängt die Qualität der mit Predictive Coding erzielbaren Ergebnisse allerdings auch von der Mitwirkung des menschlichen Benutzers ab. Es geht dabei insbesondere um dessen Verständnis von den hinter der Internal Investigation stehenden Sach- und Rechtsfragen zum Zeitpunkt, in dem er die Software anhand des Beispielsatzes von Dokumenten trainiert. Soweit der dafür verantwortliche Rechtsanwalt ein lediglich lückenhaftes Hintergrundwissen besitzt, hat dieses zur Folge, dass die gesamte Software unzureichend trainiert wird und dadurch die Qualität des gesamten Kategorisierungsmodells signifikant abnimmt. Wie bei anderen Ausprägungen künstlicher Intelligenz auch, wird Predictive Coding selten einen ganzen Datensatz auf Anhieb perfekt kategorisieren. Soweit jedoch ein sorgfältiges Training der Software und gewissenhafte Überprüfungen der Ergebnisse gewährleistet sind, wird das Verfahren traditionelle Arbeitsprozesse einer Internal Investigation zunehmend ablösen. Bislang sind Predictive Coding-Angebote noch hochpreisig, sodass sie sich derzeit nur bei sehr umfangreichen Untersuchungen lohnen. Dies wird sich jedoch mit weiterer Verbreitung ändern, was gerade durch die gerichtliche Anerkennung in Europa gefördert wird.