Als Kinder lernen wir vieles von unseren Eltern, aber manche Informationen gewinnen wir aus unseren eigenen Erfahrungen – indem wir unbewusst Muster in unserer Umgebung erkennen und sie auf neue Situationen anwenden. In der Welt der künstlichen Intelligenz funktioniert die Methode des unsupervised learning genau so. Überwachtes Lernen haben wir bereits angesprochen .
In diesem Beitrag erklären wir unsupervised learning – die andere Art des maschinellen Lernens – seine Typen, Algorithmen, Anwendungsfälle und möglichen Fallstricke.
Was ist Unsupervised learning?
Unüberwachtes maschinelles Lernen ist der Prozess, bei dem aus historischen Daten verborgene Muster abgeleitet werden. Bei einem solchen Ansatz versucht ein maschinelles Lernmodell, Ähnlichkeiten, Unterschiede, Muster und Strukturen in den Daten selbst zu finden. Es ist kein vorheriges menschliches Eingreifen erforderlich.
Kommen wir zurück zu unserem Beispiel des erfahrungsbasierten Lernens eines Kindes.
Stellen Sie sich ein Kleinkind vor. Das Kind weiß, wie die Familienkatze aussieht (sofern es eine hat), hat aber keine Ahnung, dass es auf der Welt noch viele andere Katzen gibt, die alle unterschiedlich sind. Die Sache ist die, dass das Kind, wenn es eine andere Katze sieht, diese dennoch anhand einer Reihe von Merkmalen wie zwei Ohren, vier Beinen, einem Schwanz, Fell, Schnurrhaaren usw. als Katze erkennen kann. Beim
maschinellen Lernen wird diese Art der Vorhersage als unsupervised learning bezeichnet. Aber wenn Eltern dem Kind sagen , dass das neue Tier eine Katze ist – Trommelwirbel –, gilt das als überwachtes Lernen.
unsupervised learning findet unzählige Anwendungen im wirklichen Leben, darunter:
- Datenexploration,
- Kundensegmentierung,
- Empfehlungssysteme,
- Zielgerichtete Marketingkampagnen und
- Datenaufbereitung und Visualisierung usw.
Wir werden Anwendungsfälle später ausführlicher behandeln. Lassen Sie uns zunächst die Grundlagen des unsupervised learning verstehen, indem wir es mit seinem Cousin vergleichen – dem überwachten Lernen.
Überwachtes Lernen vs. unsupervised learning
Der Hauptunterschied besteht darin, dass ein Modell beim überwachten Lernen lernt, Ergebnisse auf der Grundlage des gekennzeichneten Datensatzes vorherzusagen. Dies bedeutet, dass dieser bereits die Beispiele für richtige Antworten enthält, die von menschlichen Betreuern sorgfältig ausgearbeitet wurden. Beim unsupervised learning hingegen schwimmt ein Modell in einem Ozean unüberwachter Eingabedaten und versucht, diese ohne menschliche Aufsicht zu verstehen.
Weitere Unterschiede zwischen den Arten des unüberwachten und des überwachten Lernens finden Sie in der folgenden Tabelle.
Nachdem wir nun die beiden Ansätze direkt verglichen haben, wenden wir uns den Vorteilen zu, die unsupervised learning mit sich bringt.
Warum unüberwachtes maschinelles Lernen implementieren?
Während sich überwachtes Lernen in verschiedenen Bereichen (z. B. Stimmungsanalyse ) als effektiv erwiesen hat , hat unsupervised learning die Nase vorn, wenn es um die Erkundung von Rohdaten geht.
- unsupervised learning ist hilfreich für Data Science-Teams , die nicht wissen, wonach sie in den Daten suchen. Es kann verwendet werden, um nach unbekannten Ähnlichkeiten und Unterschieden in Daten zu suchen und entsprechende Gruppen zu erstellen. Beispielsweise die Kategorisierung von Benutzern anhand ihrer Social-Media-Aktivitäten.
- Bei der angegebenen Methode ist keine Beschriftung der Trainingsdaten erforderlich. Dadurch wird Zeit für manuelle Klassifizierungsaufgaben gespart.
- An nicht gekennzeichnete Daten kann man viel einfacher und schneller gelangen.
- Mit einem solchen Ansatz lassen sich unbekannte Muster und damit nützliche Erkenntnisse in Daten aufdecken, die andernfalls nicht gewonnen werden könnten.
- Es verringert die Wahrscheinlichkeit menschlicher Fehler und Voreingenommenheit, die bei manuellen Etikettierungsprozessen auftreten können .
unsupervised learning kann durch verschiedene Techniken wie Clustering, Assoziationsregeln und Dimensionsreduktion erreicht werden. Sehen wir uns die Funktionsweise und Anwendungsfälle der einzelnen Techniken genauer an.
Clustering-Algorithmen: zur Anomalieerkennung und Marktsegmentierung
Von allen unüberwachten Lerntechniken ist Clustering sicherlich die am häufigsten verwendete. Diese Methode gruppiert ähnliche Datenstücke in Cluster, die nicht im Voraus definiert wurden. Ein ML-Modell findet selbst Muster, Ähnlichkeiten und/oder Unterschiede innerhalb einer nicht kategorisierten Datenstruktur. Wenn in den Daten natürliche Gruppen oder Klassen vorhanden sind, kann ein Modell diese entdecken.
Um den Clustering-Ansatz zu erklären, hier eine einfache Analogie. In einem Kindergarten bittet eine Lehrerin die Kinder, Blöcke unterschiedlicher Formen und Farben anzuordnen. Angenommen, jedes Kind erhält ein Set mit rechteckigen, dreieckigen und runden Blöcken in Gelb, Blau und Rosa.
Der Lehrer hat keine Kriterien vorgegeben, nach denen die Anordnung erfolgen soll, sodass die Kinder unterschiedliche Gruppierungen vornahmen. Manche Kinder haben alle Blöcke nach Farbe in drei Gruppen eingeteilt – gelb, blau und rosa. Andere haben dieselben Blöcke nach ihrer Form kategorisiert – rechteckig, dreieckig und rund. Es gibt keine richtige oder falsche Art, eine Gruppierung vorzunehmen, da im Voraus keine Aufgabe festgelegt wurde. Das ist das Schöne an der Gruppierung: Sie hilft, verschiedene Geschäftseinblicke zu erschließen, von denen Sie gar nicht wussten, dass sie vorhanden sind.
Clustering-Beispiele und Anwendungsfälle
Dank der Flexibilität sowie der Vielfalt der verfügbaren Typen und Algorithmen hat Clustering verschiedene praktische Anwendungen. Einige davon werden wir im Folgenden behandeln.
Anomalieerkennung. Mit Clustering ist es möglich, alle Arten von Ausreißern in Daten zu erkennen. Beispielsweise können Unternehmen im Transport- und Logistikbereich Anomalieerkennung verwenden, um logistische Hindernisse zu identifizieren oder defekte mechanische Teile aufzudecken ( vorausschauende Wartung ). Finanzorganisationen können die Technik nutzen, um betrügerische Transaktionen zu erkennen und umgehend zu reagieren, was letztendlich viel Geld sparen kann. Sehen Sie sich unser Video an, um mehr über die Erkennung von Anomalien und Betrug zu erfahren.
Kunden- und Marktsegmentierung. Clustering-Algorithmen können dabei helfen, Menschen mit ähnlichen Merkmalen zu gruppieren und Kundenpersönlichkeiten für effizientere Marketing- und Targeting-Kampagnen zu erstellen.
Klinische Krebsstudien. Maschinelles Lernen und Clustering-Methoden werden verwendet, um Daten zur Genexpression von Krebs (Gewebe) zu untersuchen und Krebs in frühen Stadien vorherzusagen.
Clustering-Typen
Es gibt eine Reihe von Clustering-Typen, die genutzt werden können. Sehen wir uns die wichtigsten an.
Exklusives Clustering oder „hartes“ Clustering ist die Art der Gruppierung, bei der ein Datenelement nur zu einem Cluster gehören kann.
Überlappendes Clustering oder „weiches“ Clustering ermöglicht es, dass Datenelemente mit unterschiedlichem Zugehörigkeitsgrad Mitglied mehrerer Cluster sein können. Darüber hinaus kann probabilistisches Clustering verwendet werden, um Probleme des „weichen“ Clusterings oder der Dichteschätzung zu lösen und die Wahrscheinlichkeit zu berechnen, dass Datenpunkte zu bestimmten Clustern gehören.
Hierarchisches Clustering zielt, wie der Name nahelegt, darauf ab, eine Hierarchie geclusterter Datenelemente zu erstellen. Um Cluster zu erhalten, werden Datenelemente auf Basis der Hierarchie entweder zerlegt oder zusammengeführt.
Natürlich beruht jede Clustering-Art auf anderen Algorithmen und Ansätzen, um effektiv durchgeführt zu werden.
K-Mittel
K-Means ist ein Algorithmus für exklusives Clustering, auch bekannt als Partitionierung oder Segmentierung. Er ordnet die Datenpunkte einer vordefinierten Anzahl von Clustern zu, die als K bezeichnet werden. Im Grunde ist K im K-Means-Algorithmus die Eingabe, da Sie dem Algorithmus die Anzahl der Cluster mitteilen, die Sie in Ihren Daten identifizieren möchten. Jedes Datenelement wird dann dem nächstgelegenen Clusterzentrum, den sogenannten Schwerpunkten (schwarze Punkte im Bild), zugewiesen. Letztere fungieren als Datenakkumulationsbereiche.
Der Clustervorgang kann mehrmals wiederholt werden, bis die Cluster gut definiert sind.
Fuzzy-K-Means
Fuzzy K-Means ist eine Erweiterung des K-Means-Algorithmus, der zur Durchführung überlappender Cluster verwendet wird. Im Gegensatz zum K-Means-Algorithmus impliziert Fuzzy K-Means, dass Datenpunkte zu mehr als einem Cluster gehören können, wobei sie zu jedem Cluster eine gewisse Nähe aufweisen.
Die Nähe wird durch die Distanz von einem Datenpunkt zum Schwerpunkt des Clusters gemessen. Daher kann es manchmal zu einer Überlappung zwischen verschiedenen Clustern kommen.
Gaußsche Mischmodelle (GMMs)
Gaussian Mixture Models (GMMs) sind Algorithmen, die bei der probabilistischen Clusterbildung verwendet werden. Da der Mittelwert oder die Varianz unbekannt sind, gehen die Modelle davon aus, dass es eine bestimmte Anzahl von Gauss-Verteilungen gibt, von denen jede einen separaten Cluster darstellt. Der Algorithmus wird grundsätzlich verwendet, um zu entscheiden, zu welchem Cluster ein bestimmter Datenpunkt gehört.
Hierarchisches Clustering
Der hierarchische Clusteransatz kann damit beginnen, dass jeder Datenpunkt einem separaten Cluster zugewiesen wird. Zwei Cluster, die einander am nächsten sind, werden dann zu einem einzigen Cluster zusammengeführt. Die Zusammenführung wird iterativ fortgesetzt, bis an der Spitze nur noch ein Cluster übrig ist. Ein solcher Ansatz wird als Bottom-up- oder Agglomerativ- Ansatz bezeichnet .
Wenn Sie zunächst alle Datenelemente demselben Cluster zuordnen und dann Aufteilungen durchführen, bis jedes Datenelement als separater Cluster festgelegt ist, wird dieser Ansatz als Top-down- oder divisives hierarchisches Clustering bezeichnet.
Assoziationsregeln: für personalisierte Empfehlungsmaschinen
Eine Assoziationsregel ist eine regelbasierte Methode des unsupervised learning, die darauf abzielt, Beziehungen und Assoziationen zwischen verschiedenen Variablen in großen Datensätzen zu erkennen. Die Regeln geben an, wie oft ein bestimmtes Datenelement in Datensätzen vorkommt und wie stark und schwach die Verbindungen zwischen verschiedenen Objekten sind.
Ein Café stellt beispielsweise fest, dass am Samstagabend 100 Kunden da sind und 50 von 100 einen Cappuccino kaufen. Von 50 Kunden, die einen Cappuccino kaufen, kaufen 25 auch einen Muffin. Die Assoziationsregel lautet hier: Wenn Kunden einen Cappuccino kaufen, kaufen sie auch Muffins, mit einem Unterstützungswert von 25/100=25 % und einem Konfidenzwert von 25/50=50 %. Der Unterstützungswert gibt die Beliebtheit eines bestimmten Elementsatzes im gesamten Datensatz an. Der Konfidenzwert gibt die Wahrscheinlichkeit an, dass Artikel Y gekauft wird, wenn Artikel X gekauft wird.
Beispiele und Anwendungsfälle für Assoziationsregeln
Diese Technik wird häufig verwendet, um das Kaufverhalten von Kunden zu analysieren. Sie ermöglicht es Unternehmen, die Beziehungen zwischen verschiedenen Produkten zu verstehen und effektivere Geschäftsstrategien zu entwickeln.
Empfehlungssysteme. Die Methode der Assoziationsregeln wird häufig verwendet, um Einkaufskörbe zu analysieren und kategorieübergreifende Einkaufskorrelationen zu erkennen. Ein gutes Beispiel sind die Empfehlungen „Häufig zusammen gekauft“ von Amazon. Das Unternehmen möchte effektivere Upselling- und Cross-Selling-Strategien entwickeln und Produktvorschläge basierend auf der Häufigkeit bestimmter Artikel in einem Einkaufswagen unterbreiten.
Wenn Sie sich beispielsweise entscheiden, Dove-Duschgels auf Amazon zu kaufen, wird Ihnen wahrscheinlich angeboten, Zahnpasta und ein Set Zahnbürsten in Ihren Einkaufswagen zu legen, da der Algorithmus berechnet hat, dass diese Produkte häufig zusammen von anderen Kunden gekauft werden.
Zielgerichtetes Marketing. Unabhängig von der Branche kann die Methode der Assoziationsregeln verwendet werden, um Regeln zu extrahieren, die beim Aufbau effektiverer Strategien für zielgerichtetes Marketing helfen. Beispielsweise kann ein Reisebüro demografische Informationen über Kunden sowie historische Daten über frühere Kampagnen verwenden, um zu entscheiden, welche Kundengruppen es mit seiner neuen Marketingkampagne ansprechen sollte.
Werfen wir einen Blick auf dieses von kanadischen Reise- und Tourismusforschern veröffentlichte Papier . Dank der Verwendung von Assoziationsregeln gelang es ihnen, Reiseaktivitätskombinationen herauszufiltern, an denen bestimmte Gruppen von Touristen je nach Nationalität wahrscheinlich teilnehmen. Sie entdeckten, dass japanische Touristen eher historische Stätten oder Vergnügungsparks besuchen, während US-Reisende lieber ein Festival oder eine Messe und eine kulturelle Aufführung besuchen würden.
Unter den verschiedenen Algorithmen, die zur Erstellung von Assoziationsregeln angewendet werden, sind Apriori- und häufiges Musterwachstum (FP) die am häufigsten verwendeten.
Apriori- und FP-Growth-Algorithmen
Der Apriori-Algorithmus verwendet häufige Itemsets, um Assoziationsregeln zu erstellen. Häufige Itemsets sind die Items mit einem höheren Unterstützungswert. Der Algorithmus generiert die Itemsets und findet Assoziationen, indem er den gesamten Datensatz mehrfach durchsucht. Angenommen, Sie haben vier Transaktionen:
- Transaktion 1={Apfel, Pfirsich, Trauben, Banane};
- Transaktion 2={Apfel, Kartoffel, Tomate, Banane};
- Transaktion 3={Apfel, Gurke, Zwiebel}; und
- Transaktion 4={Orangen, Trauben}.
Wie wir aus den Transaktionen ersehen können, sind die häufigen Itemsets {apple}, {grapes} und {banana} gemäß dem berechneten Unterstützungswert jedes Itemsets. Itemsets können mehrere Items enthalten. Beispielsweise beträgt der Unterstützungswert für {apple, banana} zwei von vier oder 50 %.
Genau wie a priori generiert der Algorithmus für häufiges Musterwachstum auch die häufigen Itemsets und ermittelt Assoziationsregeln, aber er durchläuft den gesamten Datensatz nicht mehrmals. Die Benutzer selbst definieren die Mindestunterstützung für ein bestimmtes Itemset.
Dimensionsreduktion: für eine effektive Datenaufbereitung
Dimensionsreduktion ist eine andere Art des unsupervised learning, bei der eine Reihe von Methoden verwendet werden, um die Anzahl der Merkmale – oder Dimensionen – in einem Datensatz zu reduzieren. Lassen Sie es uns erklären.
Wenn Sie Ihren Datensatz für maschinelles Lernen vorbereiten , kann es verlockend sein, so viele Daten wie möglich einzuschließen. Verstehen Sie uns nicht falsch, dieser Ansatz funktioniert gut, da in den meisten Fällen mehr Daten genauere Ergebnisse bedeuten.
Stellen Sie sich vor, die Daten befinden sich im N-dimensionalen Raum, wobei jedes Feature eine separate Dimension darstellt. Viele Daten bedeuten, dass es Hunderte von Dimensionen geben kann. Denken Sie an Excel-Tabellen, in denen Spalten als Features und Zeilen als Datenpunkte dienen. Manchmal wird die Anzahl der Dimensionen zu hoch, was zu Leistungseinbußen bei ML-Algorithmen und einer Beeinträchtigung der Datenvisualisierung führt. Daher ist es sinnvoll, die Anzahl der Features – oder Dimensionen – zu reduzieren und nur relevante Daten einzubeziehen. Das ist Dimensionsreduzierung. Damit wird die Anzahl der Dateneingaben überschaubar, ohne dass die Integrität des Datensatzes verloren geht google hotels.
Anwendungsfälle der Dimensionsreduzierung
Die Technik der Dimensionsreduzierung kann während der Datenaufbereitung für überwachtes maschinelles Lernen angewendet werden. Damit ist es möglich, redundante und unbrauchbare Daten zu entfernen und nur die Elemente übrig zu lassen, die für ein Projekt am relevantesten sind.
Angenommen, Sie arbeiten in einem Hotel und müssen die Kundennachfrage nach verschiedenen Arten von Hotelzimmern vorhersagen. Es gibt einen großen Datensatz mit demografischen Daten der Kunden und Informationen darüber, wie oft jeder Kunde im letzten Jahr ein bestimmtes Hotelzimmer gebucht hat. Er sieht folgendermaßen aus:
Die Sache ist, dass einige dieser Informationen für Ihre Vorhersage nutzlos sein können, während sich einige Daten stark überschneiden und nicht einzeln betrachtet werden müssen. Wenn Sie genauer hinschauen, werden Sie feststellen, dass alle Kunden aus den USA kommen, was bedeutet, dass dieses Merkmal keine Varianz aufweist und entfernt werden kann. Da das Frühstück vom Zimmerservice in allen Zimmertypen angeboten wird, hat das Merkmal auch keinen großen Einfluss auf Ihre Vorhersage. Merkmale wie „Alter“ und „Geburtsdatum“ können zusammengeführt werden, da es sich im Grunde um Duplikate handelt. Auf diese Weise führen Sie eine Dimensionsreduzierung durch und machen Ihren Datensatz kleiner und nützlicher.
Algorithmus zur Hauptkomponentenanalyse
Die Hauptkomponentenanalyse ist ein Algorithmus, der zur Dimensionsreduzierung eingesetzt wird. Sie wird verwendet, um die Anzahl der Merkmale in großen Datensätzen zu reduzieren, was zu einer größeren Vereinfachung der Daten führt, ohne dass ihre Genauigkeit verloren geht. Die Datensatzkomprimierung erfolgt durch den Prozess der Merkmalsextraktion . Dabei werden die Merkmale innerhalb des ursprünglichen Satzes zu einem neuen, kleineren Satz kombiniert. Solche neuen Merkmale werden als Hauptkomponenten bezeichnet .
Natürlich gibt es auch andere Algorithmen, die Sie in Ihren unüberwachten Lernprojekten anwenden können. Die oben genannten sind nur die gebräuchlichsten, weshalb sie ausführlicher behandelt werden.
Fallstricke beim unsupervised learning, die Sie kennen sollten
Wie wir aus diesem Beitrag ersehen können, ist unsupervised learning in vielerlei Hinsicht attraktiv: angefangen bei der Möglichkeit, nützliche Erkenntnisse aus Daten zu gewinnen, bis hin zur Eliminierung teurer Datenbeschriftungsprozesse. Dieser Ansatz zum Trainieren von Modellen des maschinellen Lernens birgt jedoch auch Fallstricke, derer Sie sich bewusst sein sollten. Hier sind einige davon.
- Die von unüberwachten Lernmodellen gelieferten Ergebnisse sind möglicherweise weniger genau, da die Eingabedaten keine Beschriftungen als Antwortschlüssel enthalten.
- Die Methode erfordert eine Ergebnisvalidierung durch Menschen, interne oder externe Experten, die sich auf dem Forschungsgebiet auskennen.
- Der Trainingsprozess ist relativ zeitaufwändig, da die Algorithmen alle vorhandenen Möglichkeiten analysieren und berechnen müssen.
- Beim unsupervised learning geht es häufig um große Datensätze, was den Rechenaufwand erhöhen kann.
Trotz dieser Fallstricke ist unüberwachtes maschinelles Lernen ein robustes Werkzeug in den Händen von Datenwissenschaftlern, Dateningenieuren und Ingenieuren für maschinelles Lernen, da es in der Lage ist, jedes Unternehmen jeder Branche auf ein völlig neues Niveau zu heben.