Eine einfachere Methode zur Verbesserung des Computersehens |  MIT-Nachrichten

Eine einfachere Methode zur Verbesserung des Computersehens | MIT-Nachrichten

Bevor ein maschinelles Lernmodell eine Aufgabe ausführen kann, z. B. das Erkennen von Krebs in medizinischen Bildern, muss das Modell trainiert werden. Das Coaching von Bildklassifizierungsmodellen beinhaltet normalerweise das Betrachten von Millionen von Beispielbildern, die in einem riesigen Datensatz gesammelt wurden.

Die Verwendung echter Bilddaten kann jedoch praktische und ethische Bedenken aufwerfen: Bilder können gegen Urheberrechtsgesetze verstoßen, die Privatsphäre von Personen verletzen oder gegen eine bestimmte Rasse oder ethnische Gruppe voreingenommen sein. Um diese Fallstricke zu vermeiden, können Forscher Bilderzeugungssoftware verwenden, um synthetische Daten zum Trainieren des Modells zu generieren. Diese Techniken sind jedoch begrenzt, da häufig Spezialkenntnisse erforderlich sind, um eine Bilderzeugungssoftware manuell zu entwerfen, die effektive Trainingsdaten erzeugen kann.

Forscher vom MIT, vom MIT-IBM Watson AI Lab und anderswo haben einen anderen Ansatz gewählt. Anstatt benutzerdefinierte Bilderstellungsprogramme für eine bestimmte Trainingsaufgabe zu entwerfen, sammelten sie einen Datensatz von 21.000 öffentlich zugänglichen Programmen aus dem Web. Dann nutzten sie diesen großen Satz grundlegender Bilderzeugungssoftware, um ein Laptop-Imaginative and prescient-Modell zu trainieren.

Diese Programme erzeugen verschiedene Bilder, die einfache Farben und Texturen anzeigen. Die Forscher koordinierten oder änderten die Programme nicht, die jeweils nur aus wenigen Codezeilen bestanden.

Die Modelle, die sie mit diesem großen Softwaredatensatz trainierten, klassifizierten die Bilder genauer als andere synthetisch trainierte Modelle. Und obwohl ihre Modelle den mit realen Daten trainierten Modellen hinterherhinkten, zeigten die Forscher, dass eine Erhöhung der Anzahl von Bildprogrammen im Datensatz auch die Modellleistung erhöhte, was einen Weg zu höherer Genauigkeit aufzeigte.

“Es stellt sich heraus, dass die Verwendung von viel ungesättigter Software program tatsächlich besser ist als die Verwendung einer kleinen Gruppe von Software program, mit der die Leute herumhantieren müssen. Daten sind wichtig, aber wir haben gezeigt, dass man ohne echte Daten sehr weit kommen kann”, sagte Manil Parad, ein Doktorand in Elektrotechnik und Informatik (EECS) am Laptop Science and Synthetic Intelligence Laboratory (CSAIL) und Hauptautor des Papier, das diese Technik beschreibt.

Zu den Co-Autoren gehören Tongzhou Wang, ein EECS-Doktorand am CSAIL; Rogerio Ferris, Leitender Wissenschaftler und Direktor, MIT-IBM Watson AI Lab; Antonio Torralba, Professor für Elektrotechnik und Informatik bei Delta Electronics und CSAIL-Mitglied; Leitender Autor Philip Isola, außerordentlicher Professor für EECS und CSAIL; Zusammen mit anderen bei JPMorgan Chase und Xyla, Inc. Die Forschungsergebnisse werden auf der Konferenz „Neural Data Processing Methods“ vorgestellt.

Vortraining überdenken

Modelle für maschinelles Lernen werden normalerweise vorgetestet, was bedeutet, dass sie zuerst mit einem einzigen Datensatz trainiert werden, um ihnen dabei zu helfen, Parameter zu erstellen, die zur Bewältigung einer anderen Aufgabe verwendet werden können. Ein Röntgenklassifizierungsmodell könnte mit einem riesigen Datensatz synthetisch erzeugter Bilder vorgetestet werden, bevor es mit einem viel kleineren Datensatz mit echten Röntgenstrahlen für seine eigentliche Aufgabe trainiert wird.

Diese Forscher zuvor gezeigt Sie konnten ein paar Bildgenerierungssoftware verwenden, um synthetische Daten zu generieren, um das Modell vorab zu trainieren, aber die Software program musste sorgfältig entworfen werden, damit die synthetischen Bilder bestimmten Eigenschaften der realen Bilder entsprachen. Diese Methode erschwerte die Skalierung.

In der neuen Arbeit verwendeten sie stattdessen einen riesigen Datensatz entsättigter Bilderzeugungssoftware.

Sie begannen mit dem Sammeln einer Sammlung von 21.000 Bilderzeugungsprogrammen aus dem Web. Alle Programme sind in einer einfachen Programmiersprache geschrieben und bestehen aus wenigen Codeschnipseln, sodass sie schnell Bilder erzeugen.

„Diese Programme werden von Entwicklern auf der ganzen Welt entwickelt, um Bilder zu produzieren, die bestimmte Eigenschaften haben, an denen wir interessiert sind. Sie produzieren Bilder, die wie abstrakte Kunst aussehen“, erklärt Pradad.

Diese einfachen Programme können so schnell ausgeführt werden, dass die Forscher die Bilder nicht vorproduzieren müssen, um das Modell zu trainieren. Die Forscher fanden heraus, dass sie gleichzeitig Bilder erstellen und das Modell trainieren konnten, was den Prozess vereinfachte.

Sie nutzten ihren großen Datensatz an Bilderzeugungssoftware, um Laptop-Imaginative and prescient-Modelle sowohl für überwachte als auch für nicht überwachte Bildklassifizierungsaufgaben vorzutrainieren. Beim überwachten Lernen werden die Bilddaten beschriftet, während beim unüberwachten Lernen das Modell lernt, Bilder ohne Beschriftung zu kategorisieren.

Verbesserung der Genauigkeit

Als sie ihre früheren Modelle mit den neuesten Laptop-Imaginative and prescient-Modellen verglichen, die zuvor mit synthetischen Daten getestet wurden, waren ihre Modelle genauer, was bedeutet, dass sie die Bilder häufiger in die richtigen Kategorien einordneten. Die Genauigkeit struggle zwar immer noch geringer als bei den mit echten Daten trainierten Modellen, aber ihre Technik verringerte die Leistungslücke zwischen den mit echten Daten trainierten Modellen und denen, die mit synthetischen Daten trainiert wurden, um 38 Prozent.

„Wichtig ist, dass wir zeigen, dass die Leistung im Verhältnis zur Anzahl der Programme, die Sie kompilieren, logarithmisch skaliert. Wir sättigen die Leistung nicht, wenn wir additionally mehr Programme kompilieren, wird das Modell eine bessere Leistung erbringen. Es gibt additionally eine Möglichkeit, unseren Ansatz zu erweitern, “, sagt Mannel.

Die Forscher verwendeten auch jedes einzelne Bilderzeugungsprogramm für das Vortraining, um Faktoren aufzudecken, die zur Genauigkeit des Modells beitragen. Sie fanden heraus, dass das Modell besser abschnitt, wenn ein Programm einen vielfältigeren Satz von Bildern produzierte. Sie fanden auch heraus, dass Farbbilder mit Szenen, die das gesamte Board ausfüllten, die Modellleistung tendenziell am meisten verbesserten.

Nachdem sie nun den Erfolg dieses Pre-Coaching-Ansatzes demonstriert haben, wollen die Forscher ihre Methode auf andere Arten von Daten ausdehnen, wie zum Beispiel Multimedia-Daten, die Textual content und Bilder enthalten. Sie wollen auch weiterhin Möglichkeiten zur Verbesserung der Bildklassifizierungsleistung erforschen.

“Es gibt noch eine Lücke, die mit auf realen Daten trainierten Modellen geschlossen werden muss. Das gibt unserer Forschung eine Richtung, von der wir hoffen, dass andere ihr folgen werden.”

#Eine #einfachere #Methode #zur #Verbesserung #des #Computersehens #MITNachrichten

Leave a Comment

Your email address will not be published. Required fields are marked *