Machine Learning - Supervised

Machine Learning, der unsichtbare Motor einer schier unüberschaubaren Vielfalt von Anwendungen und Anwendungsgebieten wie beispielsweise

  • IoT
  • Automobielindustrie
  • Mark- und Kundensegmentierung
  • Human Ressources
  • Predictive Maintenace
  • Spracherkennung
  • Geo-Routing

Der Bereich erfährt gegenwärtig  einen rasanten Höhenflug. Diesem Umstand ist eine Vielzahl an Gründen geschuldet. So sind einerseits die notwendigen Kernkomponenten wie

  • Daten
  • Rechenpower
  • Effiziente Algorithmen

mehr denn je zuvor, und vor allem für Jeden, ohne größere Einschränkung verfügbar, und andererseits das Interesse an den sich daraus ergebenden Möglichleiten eine treibende Kraft. Dies spiegelt auch im Magic Quadrant for Advanced Analytics Platforms wieder.

 

Machine Learning kurz und knapp ist:

  • die Identifikation von Mustern in bestehenden Datensätzen,
  • um daraus ein Modellen, zur Erkennung dieser  Muster in neuen Daten, abzuleiten
  • mit dem Ziel
    • Vorhersagen für künftige Ereignisse zu treffen
    • Wahrscheinlichkeiten zu berechnen
    • Geschäftsprozesse zu optimieren
    • Daten zu Komprimieren

Im Wesentlichen  lassen sich drei Typen des Machine Learning als relevant bezeichnen und können folgendermaßen, bezogen auf deren Anwendungsgebiet, kategorisiert werden:

 

Supervised Learning Unsupervised Learning Reinforcement Learning
  • Klassifikation
  • Regression
  • Segmentierung
  • Datenreduktion/Komprimierung
  • ...
  • Robotics
  • Games
  • ...

 

Im folgende wird dir klassische Vorgehensweise bei  Supervised Learning näher beleuchtet.

Supervised Learning basiert auf der Herangehensweise anhand vorhandener, bereits bewerteter(man spricht hierbei von Label oder Target Value), Daten ein sogenanntes Modell zu trainieren, um damit Vorhersagen für neue, oder unbekannte Daten machen zu können. Oder anders formuliert „Aus Erfahrung lernen.“

Supervised Learning kann grundsätzlich in zwei typische Lernprobleme eingeteilt werden.

  • Klassifizierung
    • Einteilung der gegebenen Daten in vorgegebene Kategorien
      • Binäre (Wahr, Falsch – 0, 1 – Ja, Nein)
      • Diskrete (Rot, Blau, Gelb…)
  • Ein Beispiel hierfür wäre Spam Erkennung auf neu eingehende E-Mails aufgrund historischer, bereits  Markierter Daten(E-Mails).
  • Regression
    • Vorhersage stetiger Ergebnisse. Über die Ermittlung der Beziehung von gegebenen Regressor-Variablen und einer Zielvariablen zueinander wird versuchte ein Ergebnis Vorherzusagen.
    • Beispielsweise die Vorhersage des zu erwartenden Preises eines Hauses einer bestimmten Größe anhand vorhandener Daten(bezogen auf Preis und Größe).  

 

 Klassischer Workflow

  • Aufbereitung der Daten
    • Datenbereinigung
    • Auffüllen fehlender Werte mit Ersatzwerten
    • Ermitteln der Felder(Features) die in Zusammenhang mit dem Output (Labels) stehen
    • Auftrennen der gewonnenen Daten in Trainings- und Test Datensets
    • Das Modell trainieren/entwickeln
      • Anwenden in Frage kommender Algorithmen
      • Das Modell Testen
        • Vorhersagen fehlender Labels für vorgehaltene Testdaten

 

 

Ing. Robert Stenitzer
Erstellt: 2016-11-30
von: Ing.  Robert Stenitzer
Stichworte: 

Machine Learning, Predictive Analytics