LipNet - Lippenlesen mit Google und Oxford University

Aus einer Partnerschaft von Google und der Oxford Universität konnten revolutionäre Ergebnisse im Lippenlesen erreicht werden. Die AI erreicht bei Test-Datensätzen eine höhere Erfolgsrate als professionelle menschliche Lippenleser.

Google DeepMind

Mit DeepMinds's AlphaGo AI sorgte Google im Oktober 2015 und März 2016 bereits für Schlagzeilen. Die AlphaGo AI konnte dabei zuerst den europäischen Champion Fan Hui mit 5-0 und später den weltbesten Spieler Lee Sedol mit 4-1 in einem Spiel Go schlagen. [1]

DeepMind Technologies Limited ist Teil der Alphabet Inc Holding, zu der auch Google gehört. Nach Go versucht sich das Team von DeepMind, in einer Partnerschaft mit Blizzard Entertainment, nun auch in dem Spiel Starcraft. Hier können hoffentlich vergleichbare Spiel-Siege erzielt werden. [2]

Beispiel

LipNet

Gemeinsam mit der Universität von Oxford hat DeepMind nun das Projekt LipNet erstellt. Trainiert wurde die künstliche Intelligenz mit über 100.000 gesprochenen Sätzen aus visuellen Inhalten des BBC.

Lippenlesen ist keine leichte Angelegenheit, wie das YouTube Video der Forschungsgruppe gut veranschaulicht. Besonders Homophone wie 'b' und 'p' machen sowohl Mensch, als auch Maschine, die Erkennung schwer.
LipNet ist somit ein großer Schritt in Richtung der Unterstützung von hörgeschädigten Menschen. Die Technologie kann aber auch eingesetzt werden um bei lauten Umgebungsgeräuschen die Qualität einer Spracherkennung, durch die Bildinformation, zu verbessern. LipNet verdankt diesen Durchbruch neuronalen Netzwerken und der die Verfügbarkeit von einer großen Menge an Datensätzen für das Training.

Aus den visuellen Inhalten von unterschiedlichen BBC Sendung wurden zuerst die Gesichter indentifiziert. Die Kombination aus Bild-, Audio-Signal und gesendetem Untertitel wurde als Lerngrundlade des neuronale Netzwerk verwendet.
In die Erkennungswahrscheinlichkeit eines Wortes fließt also der visuelle Output, Audio Output und Worthäufigkeit bzw. Schreibweise (Wörterbuch) ein. [3]

Erkennung von Video und Audio erfolgt durch neuronale Netze. Für die visuelle Erkennung wird nur der auschlaggebende Teil des Gesichts herangezogen. Wie folgende Grafik, aus der Publikation, gut darstellt.

 

[4]

 

Die Forschungsgruppe selbst unterstreicht, dass mit LipNet, das Lippenlesen noch nicht gelöst ist.[5] Die Einsatzmöglichkeiten sind aber umfangreich und vielversprechend. Weitere Projekte von DeepMind können mit Spannung erwartet werden.

BSc. Florian Bachinger
Erstellt: 2016-11-24
von: BSc.  Florian Bachinger
Stichworte: 

AI Lippenlesen Google DeepMind Oxford