Semi-Supervised Learning, erklärt anhand von Beispielen

Manchmal kommt es vor, dass man einen anderen Ansatz ausprobiert, wenn dieser nicht funktioniert. Wenn dieser Ansatz auch nicht funktioniert, ist es vielleicht eine gute Idee, die besten Aspekte beider Ansätze zu kombinieren. Zumindest ist das bei technischen Aufgaben oft der Fall. Und maschinelles Lernen ist da keine Ausnahme. Sie haben wahrscheinlich schon von den beiden wichtigsten ML-Techniken gehört – überwachtes und unüberwachtes Lernen. Die Verbindung dieser beiden Technologien brachte den goldenen Mittelweg hervor, der als halbüberwachtes Lernen bekannt ist.

Contents

Was ist Semi-Supervised Learning? Semi-Supervised Learning vs. überwachtes Lernen vs. unüberwachtes Lernen Halbüberwachte Lerntechniken: Selbsttraining, Co-Training, graphenbasierte Beschriftung Selbsttraining Gemeinsames Training SSL mit graphenbasierter Label-Propagierung Herausforderungen beim Einsatz von halbüberwachtem Lernen Qualität ungelabelter Daten Sensitivität gegenüber Verteilungsverschiebungen Modellkomplexität Eingeschränkte Anwendbarkeit Beispiele für Semi-Supervised Learning Spracherkennung Klassifizierung von Webinhalten Klassifizierung von Textdokumenten Best Practices für die Anwendung von halbüberwachtem Lernen Datenqualität sicherstellen Wählen Sie ein geeignetes Modell und bewerten Sie es Nutzen Sie Transferlernen Kontrollieren Sie die Modellkomplexität Entwerfen Sie interpretierbare Modelle Monitor Leistung Wann sollte Semi-Supervised Learning eingesetzt werden und wann nicht?

In diesem Artikel werden wir uns eingehender mit dem Begriff befassen, erklären, wie dieser ML-Prozess funktioniert und welche Probleme im Zusammenhang mit den anderen beiden ML-Typen er löst. Wenn wir schon dabei sind , werden wir auch einige halbüberwachte Beispiele aus der Praxis durchgehen.

Was ist Semi-Supervised Learning? Semi-Supervised Learning vs. überwachtes Lernen vs. unüberwachtes Lernen

Kurz gesagt ist Semi-Supervised Learning (SSL) eine Technik des maschinellen Lernens, die einen kleinen Teil gekennzeichneter Daten und viele ungekennzeichnete Daten verwendet, um ein Vorhersagemodell zu trainieren.

Um das SSL-Konzept besser zu verstehen, sollten wir es durch das Prisma seiner beiden wichtigsten Gegenstücke betrachten.

Überwachtes Lernen ist das Trainieren eines maschinellen Lernmodells mithilfe des beschrifteten Datensatzes. Organische Beschriftungen sind oft in den Daten vorhanden, aber der Prozess kann einen menschlichen Experten einbeziehen, der den Rohdaten Tags hinzufügt, um einem Modell die Zielattribute (Antworten) anzuzeigen. Einfach ausgedrückt ist eine Beschriftung im Grunde eine Beschreibung, die einem Modell zeigt, was es vorhersagen soll.

Überwachtes Lernen hat einige Einschränkungen. Dieser Prozess ist

langsam (menschliche Experten müssen die Trainingsbeispiele einzeln manuell kennzeichnen) und
kostspielig (ein Modell muss anhand großer Mengen handbeschrifteter Daten trainiert werden, um genaue Vorhersagen zu liefern).

Beim unüberwachten Lernen hingegen versucht ein Modell, selbst und ohne menschliche Aufsicht verborgene Muster, Unterschiede und Ähnlichkeiten in nicht gekennzeichneten Daten zu erkennen. Daher der Name. Bei dieser Methode werden Datenpunkte auf Grundlage von Ähnlichkeiten in Cluster gruppiert.

Obwohl unüberwachtes Lernen eine kostengünstigere Methode zur Durchführung von Trainingsaufgaben ist, ist es kein Allheilmittel. Normalerweise ist das Szenario

hat einen begrenzten Anwendungsbereich (meist für Clustering-Zwecke) und
liefert weniger genaue Ergebnisse .

Semi-Supervised Learning verbindet überwachtes Lernen und unüberwachte Lerntechniken, um ihre wichtigsten Herausforderungen zu lösen. Dabei trainieren Sie ein erstes Modell anhand einiger gekennzeichneter Proben und wenden es dann iterativ auf die größere Anzahl unüberwachter Daten an.

Im Gegensatz zum unüberwachten Lernen funktioniert SSL für eine Vielzahl von Problemen, von der Klassifizierung und Regression bis hin zu Clustering und Assoziation.
Im Gegensatz zum überwachten Lernen verwendet diese Methode kleine Mengen gekennzeichneter Daten und auch große Mengen ungekennzeichneter Daten, was den Aufwand für die manuelle Annotation reduziert und die Datenaufbereitungszeit verkürzt .

Apropos überwachtes Lernen: Wir haben ein informatives 14-minütiges Video, in dem erklärt wird, wie Daten dafür vorbereitet werden. Schauen Sie es sich unbedingt an.

Da es reichlich unmarkierte Daten gibt, die leicht zu beschaffen und kostengünstig sind, kann das halbüberwachte Lernen auf vielfältige Weise eingesetzt werden, ohne dass die Genauigkeit der Ergebnisse darunter leidet.

Sehen wir uns ein reales Szenario an, beispielsweise die Betrugserkennung . Angenommen, ein Unternehmen mit 10 Millionen Benutzern analysiert fünf Prozent aller Transaktionen, um sie als betrügerisch oder nicht betrügerisch einzustufen, während der Rest der Daten nicht mit den Tags „Betrug“ und „kein Betrug“ gekennzeichnet ist. In diesem Fall ermöglicht Semi-Supervised Learning die Verarbeitung aller Informationen, ohne dass eine Armee von Kommentatoren eingestellt oder die Genauigkeit beeinträchtigt werden muss. Im Folgenden erklären wir, wie genau dieser Zauber funktioniert.

Halbüberwachte Lerntechniken: Selbsttraining, Co-Training, graphenbasierte Beschriftung

Stellen Sie sich vor, Sie haben eine große Menge unbeschrifteter Daten gesammelt, mit denen Sie ein Modell trainieren möchten. Die manuelle Beschriftung all dieser Informationen wird Sie wahrscheinlich ein Vermögen kosten, und außerdem wird es Monate dauern, die Anmerkungen fertigzustellen. In diesem Fall kommt die halbüberwachte Methode des maschinellen Lernens zur Rettung.

Das Funktionsprinzip ist ganz einfach. Anstatt den gesamten Datensatz mit Tags zu versehen, gehen Sie nur einen kleinen Teil der Daten durch, beschriften ihn manuell und trainieren damit ein Modell, das dann auf den Ozean der unmarkierten Daten angewendet wird.

Selbsttraining

Eines der einfachsten Beispiele für Semi-Supervised Learning ist im Allgemeinen das Selbsttraining.

Selbsttraining ist das Verfahren, bei dem Sie jede überwachte Methode zur Klassifizierung oder Regression so ändern können, dass sie halbüberwacht funktioniert und sowohl gekennzeichnete als auch nicht gekennzeichnete Daten nutzt. Der Standard-Arbeitsablauf ist wie folgt.

Sie wählen eine kleine Menge gekennzeichneter Daten aus, z. B. Bilder, die Katzen und Hunde mit ihren jeweiligen Markierungen zeigen, und verwenden diesen Datensatz, um mit Hilfe gewöhnlicher überwachter Methoden ein Basismodell zu trainieren.
Anschließend wenden Sie den als Pseudo-Labeling bekannten Prozess an . Dabei verwenden Sie das teilweise trainierte Modell, um Vorhersagen für den Rest der Datenbank zu treffen, der noch nicht gelabelt ist. Die danach generierten Labels werden als Pseudo-Label bezeichnet , da sie auf der Grundlage der ursprünglich gelabelten Daten erstellt werden, die Einschränkungen aufweisen (z. B. kann es eine ungleichmäßige Darstellung der Klassen im Set geben, was zu einer Verzerrung führt – mehr Hunde als Katzen).
Von diesem Punkt aus nehmen Sie die zuverlässigsten Vorhersagen, die mit Ihrem Modell gemacht wurden (Sie möchten beispielsweise eine Sicherheit von über 80 Prozent, dass ein bestimmtes Bild eine Katze und keinen Hund zeigt). Wenn eines der Pseudolabels dieses Konfidenzniveau überschreitet, fügen Sie es dem beschrifteten Datensatz hinzu und erstellen einen neuen, kombinierten Input, um ein verbessertes Modell zu trainieren.
Der Prozess kann mehrere Iterationen durchlaufen (10 ist oft eine Standardanzahl), wobei jedes Mal mehr und mehr Pseudo-Labels hinzugefügt werden. Vorausgesetzt, die Daten sind für den Prozess geeignet, wird die Leistung des Modells mit jeder Iteration weiter steigen.

Obwohl es erfolgreiche Beispiele für den Einsatz von Selbsttraining gibt, muss betont werden, dass die Leistung von einem Datensatz zum anderen stark variieren kann. Und es gibt zahlreiche Fälle, in denen Selbsttraining die Leistung im Vergleich zum überwachten Weg verringern kann.

Gemeinsames Training

Co-Training ist eine Weiterentwicklung des Selbsttrainings und eine weitere halbüberwachte Lerntechnik, die zum Einsatz kommt, wenn nur ein kleiner Teil der gekennzeichneten Daten verfügbar ist. Im Gegensatz zum typischen Verfahren trainiert Co-Training zwei einzelne Klassifikatoren auf der Grundlage von zwei Datenansichten .

Die Ansichten sind im Grunde genommen verschiedene Merkmalssätze, die zusätzliche Informationen zu jeder Instanz liefern, d. h. sie sind in Bezug auf die Klasse unabhängig. Außerdem ist jede Ansicht ausreichend – die Klasse der Beispieldaten kann allein anhand jedes Merkmalssatzes genau vorhergesagt werden.

In der ursprünglichen Forschungsarbeit zum Thema Co-Training wird behauptet, dass der Ansatz beispielsweise erfolgreich für die Klassifizierung von Webinhalten eingesetzt werden kann. Die Beschreibung jeder Webseite kann in zwei Ansichten unterteilt werden: eine mit den auf dieser Seite vorkommenden Wörtern und die andere mit den Ankerwörtern im Link, der dorthin führt.

So funktioniert Co-Training einfach erklärt.

Zunächst trainieren Sie mithilfe einer kleinen Menge gekennzeichneter Daten für jede Ansicht einen separaten Klassifikator (Modell).
Dann wird der größere Pool nicht gekennzeichneter Daten hinzugefügt, um Pseudokennzeichnungen zu erhalten.
Klassifikatoren trainieren sich gegenseitig mit Pseudolabels mit dem höchsten Konfidenzniveau. Wenn der erste Klassifikator das echte Label für eine Datenprobe zuverlässig vorhersagt, während der andere einen Vorhersagefehler macht, dann aktualisieren die Daten mit den vom ersten Klassifikator zugewiesenen zuverlässigen Pseudolabels den zweiten Klassifikator und umgekehrt.
Im letzten Schritt werden die Vorhersagen der beiden aktualisierten Klassifikatoren kombiniert, um ein Klassifizierungsergebnis zu erhalten.

Wie beim Selbsttraining durchläuft das Co-Training viele Iterationen, um aus den riesigen Mengen unmarkierter Daten einen zusätzlichen Trainingsdatensatz mit Markierungen zu erstellen.

SSL mit graphenbasierter Label-Propagierung

Eine beliebte Methode zum Ausführen von SSL besteht darin, beschriftete und unbeschriftete Daten in Form von Diagrammen darzustellen und dann einen Algorithmus zur Beschriftungsausbreitung anzuwenden . Dadurch werden vom Menschen erstellte Anmerkungen im gesamten Datennetzwerk verbreitet.

Wenn Sie sich das Diagramm ansehen, sehen Sie ein Netzwerk von Datenpunkten, von denen die meisten unbeschriftet sind und vier Beschriftungen tragen (zwei rote und zwei grüne Punkte repräsentieren verschiedene Klassen). Die Aufgabe besteht darin, diese farbigen Beschriftungen im gesamten Netzwerk zu verteilen. Eine Möglichkeit hierfür besteht darin, beispielsweise Punkt 4 auszuwählen und alle verschiedenen Pfade zu zählen, die von Punkt 4 durch das Netzwerk zu jedem farbigen Knoten führen. Wenn Sie das tun, werden Sie feststellen, dass fünf Wege zu roten Punkten führen und nur vier Wege zu grünen. Daraus können wir schließen, dass Punkt 4 zur roten Kategorie gehört. Und dann wiederholen Sie diesen Vorgang für jeden Punkt im Diagramm.

Der praktische Nutzen dieser Methode zeigt sich in Personalisierungs- und Empfehlungssystemen . Mit Label Propagation können Sie Kundeninteressen auf Grundlage von Informationen über andere Kunden vorhersagen. Hier können wir die Variation der Kontinuitätsannahme anwenden – wenn beispielsweise zwei Personen in sozialen Medien verbunden sind, ist es sehr wahrscheinlich, dass sie ähnliche Interessen haben.

Herausforderungen beim Einsatz von halbüberwachtem Lernen

Wie bereits erwähnt, besteht einer der wesentlichen Vorteile der Anwendung von halbüberwachtem Lernen darin, dass es eine hohe Modellleistung bietet, ohne dass die Datenaufbereitung zu teuer ist. Das bedeutet natürlich nicht, dass SSL keine Einschränkungen hat. Lassen Sie uns diese näher besprechen.

Qualität ungelabelter Daten

Die Wirksamkeit des halbüberwachten Lernens hängt stark von der Qualität und Repräsentativität der unmarkierten Daten ab. Wenn die unmarkierten Daten verrauscht sind oder nicht repräsentativ für die tatsächliche Datenverteilung sind, kann dies die Modellleistung beeinträchtigen oder sogar zu falschen Schlussfolgerungen führen.

Wenn Sie beispielsweise einen Datensatz mit Produktbewertungen für die Stimmungsanalyse verwenden, können die unbeschrifteten Daten Bewertungen enthalten, die schlecht geschrieben sind, Sarkasmus enthalten oder eine neutrale Stimmung ausdrücken. Wenn das Modell aus diesen verrauschten unbeschrifteten Beispielen lernt, kann es ähnliche Bewertungen in Zukunft falsch klassifizieren, was zu einer geringeren Genauigkeit und Zuverlässigkeit der Vorhersagen der Stimmungsanalyse führt.

Sensitivität gegenüber Verteilungsverschiebungen

Halbüberwachte Lernmodelle reagieren möglicherweise empfindlicher auf Verteilungsverschiebungen zwischen den gekennzeichneten und den nicht gekennzeichneten Daten. Wenn die Verteilung der nicht gekennzeichneten Daten erheblich von der der gekennzeichneten Daten abweicht, kann die Leistung des Modells darunter leiden.

Angenommen, ein Modell wird anhand von beschrifteten Bildern von Katzen und Hunden aus einem Datensatz mit qualitativ hochwertigen Fotos trainiert. Die für das Training verwendeten unbeschrifteten Daten enthalten jedoch Bilder von Katzen und Hunden, die von Überwachungskameras mit niedriger Auflösung und schlechten Lichtverhältnissen aufgenommen wurden. Wenn sich die Verteilung der Bilder in den unbeschrifteten Daten erheblich von den beschrifteten Daten unterscheidet, kann das Modell möglicherweise Schwierigkeiten haben, von den beschrifteten auf die unbeschrifteten Bilder zu verallgemeinern, was zu einer geringeren Leistung bei realen Bildern mit ähnlichen Merkmalen führt.

Modellkomplexität

Einige Techniken des halbüberwachten Lernens, etwa solche auf Grundlage generativer Modelle oder kontroversem Training, können die Modellarchitektur und den Trainingsprozess zusätzlich komplex machen.

Stellen Sie sich einen halbüberwachten Lernansatz vor, der Selbsttraining mit einem Sprachmodell kombiniert , das anhand eines großen Korpus von Textdaten vorab trainiert wurde. Die Modellarchitektur kann durch die Einbindung mehrerer Komponenten zunehmend komplexer werden. Mit zunehmender Modellkomplexität kann es schwieriger werden, das Modell zu interpretieren, zu debuggen und zu optimieren, was zu potenziellen Leistungsproblemen und einem erhöhten Bedarf an Rechenressourcen für Training und Inferenz führen kann.

Eingeschränkte Anwendbarkeit

Semi-Supervised Learning ist möglicherweise nicht für alle Aufgabentypen oder Datensätze geeignet. Es ist in der Regel am effektivsten, wenn eine beträchtliche Menge an nicht gekennzeichneten Daten verfügbar ist und die zugrunde liegende Datenverteilung relativ gleichmäßig und gut definiert ist. Aus diesem Grund sollten Sie Semi-Supervised Learning in den Bereichen wählen, in denen die Vorteile die Komplexität überwiegen.

Beispiele für Semi-Supervised Learning

Da die Datenmenge ständig sprunghaft wächst, ist es unmöglich, sie rechtzeitig zu kennzeichnen. Denken Sie an einen aktiven TikTok-Benutzer, der durchschnittlich bis zu 20 Videos pro Tag hochlädt . Und es gibt 1 Milliarde aktive Benutzer. In einem solchen Szenario kann Semi-Supervised Learning mit einer breiten Palette von Anwendungsfällen aufwarten, von der Bild- und Spracherkennung bis hin zur Klassifizierung von Webinhalten und Textdokumenten.

Spracherkennung

Das Beschriften von Audiodaten ist eine sehr ressourcen- und zeitintensive Aufgabe. Daher kann Semi-Supervised Learning eingesetzt werden, um die Herausforderungen zu bewältigen und eine bessere Leistung zu erzielen. Facebook (jetzt Meta) hat Semi-Supervised Learning (nämlich die Methode des Selbsttrainings) erfolgreich auf seine Spracherkennungsmodelle angewendet und diese verbessert. Sie begannen mit dem Basismodell, das mit 100 Stunden von Menschen annotierter Audiodaten trainiert wurde. Dann wurden 500 Stunden unbeschrifteter Sprachdaten hinzugefügt und das Selbsttraining wurde eingesetzt, um die Leistung der Modelle zu steigern. Was die Ergebnisse betrifft, so sank die Wortfehlerrate (WER) um 33,9 Prozent, was eine deutliche Verbesserung darstellt.

Klassifizierung von Webinhalten

Da es Milliarden von Websites mit Inhalten aller Art gibt, wäre für die Klassifizierung ein riesiges Team von Mitarbeitern erforderlich, um die Informationen auf Webseiten durch Hinzufügen entsprechender Beschriftungen zu organisieren. Die Varianten des halbüberwachten Lernens werden verwendet, um Webinhalte zu kommentieren und entsprechend zu klassifizieren, um die Benutzererfahrung zu verbessern. Viele Suchmaschinen, darunter auch Google , wenden SSL auf ihre Ranking-Komponente an, um die menschliche Sprache und die Relevanz möglicher Suchergebnisse für Abfragen besser zu verstehen. Mit SSL findet Google Search Inhalte, die für eine bestimmte Benutzerabfrage am relevantesten sind.

Klassifizierung von Textdokumenten

Ein weiteres Beispiel für den erfolgreichen Einsatz von halbüberwachtem Lernen ist die Entwicklung eines Klassifikators für Textdokumente . Hier ist die Methode effektiv, da es für menschliche Annotatoren sehr schwierig ist, mehrere wortreiche Texte zu lesen, um ihnen eine grundlegende Bezeichnung wie einen Typ oder ein Genre zuzuweisen.

Beispielsweise kann ein Klassifikator auf der Grundlage von Deep-Learning -Neuralnetzen wie LSTM-Netzen (Long Short-Term Memory) aufgebaut werden, die in der Lage sind, langfristige Abhängigkeiten in Daten zu finden und vergangene Informationen im Laufe der Zeit neu zu trainieren. Normalerweise erfordert das Training eines Neuralnetzes viele Daten mit und ohne Beschriftungen. Ein halbüberwachtes Lernframework funktioniert genauso gut, da Sie ein Basis-LSTM-Modell anhand einiger Textbeispiele mit handbeschrifteten relevantesten Wörtern trainieren und es dann auf eine größere Anzahl unbeschrifteter Beispiele anwenden können unsupervised learning.

Der von Forschern der Yonsei University in Seoul, Südkorea, entwickelte Textklassifizierer SALnet demonstriert die Wirksamkeit der SSL-Methode für Aufgaben wie die Stimmungsanalyse .

Best Practices für die Anwendung von halbüberwachtem Lernen

Angesichts der Herausforderungen, die bei der Verwendung von SSL auftreten können, finden Sie hier einige bewährte Methoden und Strategien, mit denen Sie die Effektivität und Effizienz von Ansätzen des halbüberwachten Lernens maximieren können.

Datenqualität sicherstellen

Stellen Sie sicher, dass die Schritte zur Datenvorverarbeitung einheitlich auf beschriftete und unbeschriftete Datensätze angewendet werden, um Datenqualität und -konsistenz zu gewährleisten. Sie können robuste Datenbereinigungs- und Filtertechniken implementieren, um verrauschte oder fehlerhafte Datenpunkte zu identifizieren und zu verarbeiten, die sich negativ auf die Modellleistung auswirken können. Erweitern Sie den beschrifteten Datensatz mit synthetischen Daten , die durch Techniken wie Rotation, Translation und Rauscheinfügung generiert werden, um die Vielfalt zu erhöhen und die Generalisierung zu verbessern.

Wählen Sie ein geeignetes Modell und bewerten Sie es

Wählen Sie halbüberwachte Lernalgorithmen und -techniken aus, die für die Aufgabe, die Datensatzgröße und die verfügbaren Rechenressourcen gut geeignet sind. Verwenden Sie geeignete ML-Bewertungsmetriken , um die Modellleistung sowohl für gekennzeichnete als auch für nicht gekennzeichnete Daten zu bewerten, und vergleichen Sie sie mit überwachten und nicht überwachten Basisansätzen. Verwenden Sie außerdem Kreuzvalidierungstechniken, um die Robustheit und Generalisierung des Modells über verschiedene Teilmengen der Daten hinweg zu bewerten, einschließlich gekennzeichneter, nicht gekennzeichneter und Validierungsmengen.

Nutzen Sie Transferlernen

Nutzen Sie vorab trainierte Modelle oder Darstellungen, die aus großen, ungekennzeichneten Daten gelernt wurden (z. B. durch selbstüberwachtes Lernen), als Initialisierungs- oder Merkmalsextraktoren für halbüberwachte Lernaufgaben und erzielen Sie so eine bessere Leistung.

Kontrollieren Sie die Modellkomplexität

Sie können Regularisierungsmethoden (Entropieminimierung, Konsistenzregularisierung) einsetzen, um die Modellglätte und -konsistenz über beschriftete und unbeschriftete Daten hinweg zu fördern, Überanpassung zu verhindern und die Generalisierung zu verbessern. Gleichzeitig können Sie die Modellkomplexität ausgleichen, indem Sie die umfangreichen Informationen aus großen unbeschrifteten Datensätzen effektiv nutzen, indem Sie Techniken wie Modellensemblierung oder hierarchische Architekturen verwenden.

Entwerfen Sie interpretierbare Modelle

Modelle mit interpretierbaren Architekturen und Mechanismen können Ihnen helfen, die Entscheidungen und Vorhersagen des Modells zu verstehen, sodass die Beteiligten den Modellergebnissen vertrauen und sie validieren können. Es gibt Erklärbarkeitstechniken wie Merkmalswichtigkeit und Aufmerksamkeitsmechanismen, die Einblicke in das Modellverhalten bieten und relevante Muster hervorheben, die sowohl aus gekennzeichneten als auch aus nicht gekennzeichneten Daten gelernt wurden.

Monitor Leistung

Wie bereits erwähnt, werden SSL-Modelle iterativ entwickelt, sodass sie auf der Grundlage von Leistungsfeedback, neuen gekennzeichneten Daten oder Änderungen in der Datenverteilung verfeinert und aktualisiert werden können. Eine gängige Praxis besteht darin, Überwachungs- und Verfolgungsmechanismen zu implementieren, um die Modellleistung im Laufe der Zeit zu bewerten und Abweichungen oder Verschiebungen in der Datenverteilung zu erkennen, die möglicherweise eine erneute Schulung oder Anpassung des Modells erforderlich machen.

Wann sollte Semi-Supervised Learning eingesetzt werden und wann nicht?

Mit einer minimalen Menge an gekennzeichneten Daten und einer großen Menge an nicht gekennzeichneten Daten zeigt Semi-Supervised Learning vielversprechende Ergebnisse bei Klassifizierungsaufgaben und lässt gleichzeitig die Türen für andere ML-Aufgaben offen. Grundsätzlich kann der Ansatz mit einigen erforderlichen Modifikationen praktisch jeden überwachten Algorithmus nutzen. Darüber hinaus eignet sich SSL auch gut für Clustering- und Anomalieerkennungszwecke, wenn die Daten zum Profil passen. Obwohl es sich um ein relativ neues Feld handelt, hat sich Semi-Supervised Learning bereits in vielen Bereichen als wirksam erwiesen.

Das heißt aber nicht, dass Semi-Supervised Learning auf alle Aufgaben anwendbar ist. Wenn der Teil der gekennzeichneten Daten nicht repräsentativ für die gesamte Verteilung ist, kann der Ansatz zu kurz greifen. Nehmen wir an, Sie müssen Bilder von farbigen Objekten klassifizieren, die aus verschiedenen Blickwinkeln unterschiedlich aussehen. Wenn Sie nicht über eine große Menge gekennzeichneter Daten verfügen, werden die Ergebnisse nicht sehr genau sein. Wenn es sich jedoch um große Mengen gekennzeichneter Daten handelt, ist Semi-Supervised Learning nicht der richtige Weg. Ob es Ihnen gefällt oder nicht, viele Anwendungen im wirklichen Leben benötigen nach wie vor große Mengen gekennzeichneter Daten, sodass überwachtes Lernen in naher Zukunft nicht verschwinden wird.