DACH - Jahrestagung 2004 Salzburg

ZfP in Forschung, Entwicklung und Anwendung

Start > Beiträge > Vorträge > Rohrprüfung 2: Print

Der Einsatz von künstlicher Intelligenz zum Auswerten von Messdaten intelligenter Molche aus Rohrleitungen

Konrad Reber, Herbert, Willems, Alfred Otto Barbian NDT Systems & Services AG, Stutensee
Marius Zoellner, Marco Ziegenmeyer Forschungszentrum Informatik, Gruppe IDS, Karlsruhe
Kontakt: Dr.-Ing. Konrad Reber

Abstract

Mit der zunehmenden Automatisierung von zfP-Messungen und der damit verbundenen Notwendigkeit, große Mengen an Daten schnell nach Anzeigen durchsuchen zu müssen, steigt der Bedarf an computergestütztem Expertenwissen. Seit einiger Zeit werden daher Methoden künstlicher Intelligenz angewandt, die ein Expertenwissen von erfahrenen Mitarbeitern abbilden sollen. Dabei werden Beispiele gesammelt, die vorher manuell beurteilt worden sind und dann eintrainiert werden. Bei NDT Systems & Services AG besteht der Bedarf, Inspektionsdaten von Pipelines, die mit intelligenten Molchen aufgenommen wurden, möglichst schnell auszuwerten. Hier ist das Problem dadurch verschärft, dass die Daten auf einen Schlag zur Verfügung stehen, aber bereits nach kurzer Zeit eine Sichtung der gesamten Daten auf größere Leitungsdefekte stattfinden muss.
In der Regel wird das Problem dadurch gelöst, dass zunächst die Daten auf Defekt-kandidaten durchsucht werden. In einem zweiten Schritt werden die Defekt-kandidaten mit Hilfe künstlicher Intelligenz in relevante Fehleranzeigen und irrelevante Signale unterschieden. Die Leistung des Systems muss also darin bestehen, irrelevante Anzeigen sicher zu unterdrücken. Dabei ist das Zusammenspiel von Defektsuche und Klassifizierung zu beachten.
Für die Klassifizierungsaufgabe sind in der Vergangenheit häufig neuronale Netze eingesetzt worden. In diesem Beitrag werden Ergebnisse vorgestellt, die zeigen, wie der Einsatz von sog. Support Vektor Maschinen (SVM) eine Erleichterung bei der Handhabung und späteren Nutzung haben. Es wird eine Vergleich von SVM mit neuronalen Netzen vorgestellt. Das Thema des Neutrainierens, d.h. der Erweiterung des Expertenwissens wird diskutiert, insbesondere in Hinblick auf die Auswahl der Lernbeispiele und deren Archivierung. Wie kann der Umfang der Lernbeispiele reduziert werden, ohne dass das Wissen wieder abnimmt? Wie kann aufgezeigt werden, dass mit Nachlernen das Wissen auch wirklich steigt und in welcher Weise tut es das?

1. Einleitung

Für die Zuverlässigkeit von zerstörungsfreien Prüfungen sollten die beiden Bereiche Datenaufzeichnung und Dateninterpretation unterschieden werden. Während Verbesserungen auf der Seite der Datenaufzeichnung in erster Linie in technologischen Forschritten der Hardware beruhen, sind die Verbesserungen im Bereich Dateninterpretation wesentlich auch durch den Einfluss menschlicher Faktoren gekennzeichnet.
Obwohl dieser menschliche Faktor wohl kaum im Zukunft vernachlässigt werden kann, so soll er doch durch den Einsatz von sog. künstlicher Intelligenz auf eine Basis höherer Reproduzierbarkeit gestellt werden. Die Entscheidungsfindung in der Interpretation wird nachvollziehbar und auch vorhersehbar.
Der Einsatz von künstlicher Intelligenz wird oft mit gemischten Gefühlen betrachtet. Die Gefahr, dass menschliche Arbeit überflüssig oder zumindest weniger wichtig wird, führt oft zu mangelnder Akzeptanz. Die Bezeichnung "künstliche Intelligenz" trägt sicherlich auch einen Teil dazu bei. Wird sie pragmatischer betrachtet, so handelt es sich in Wirklichkeit um ein fortschrittliches Hilfsmittel und eine Standardisierung von Entscheidungsabläufen, bei denen eine regelbasierte Entscheidung nicht möglich ist.
Künstliche Intelligenz wurde schon vor einiger Zeit in den Bereich der zerstörungsfreien Prüfung eingeführt. Besonders im Bereich automatisierter Prozesse in der Produktion kann der Grad der Automatisierung weiter erhöht werden. In diesem Beitrag soll ein Gebiet beschrieben werden, wo die anfallende Datenmenge derartig groß ist, dass nur die Automatisierung der Prozesse zu einer vernünftigen Datenauswertezeit führen kann.
Die Inspektion von Rohrleitungen wird heute in der Regel mit sog. intelligenten Molchen durchgeführt. Das sind Prüfroboter, die mit dem Medium durch die Leitung befördert werden und dabei verschiedene Arten von Prüfungen vornehmen. Wir werden uns hier auf die Ultraschallinspektion zur Korrosionsprüfung konzentrieren. Die intelligenten Molche sammeln Messdaten über mehrere Tage selbstständig an und speichern sie an Bord auf Massenspeichern ab [Es gibt auch kabelgeführte Molche, die ihre Messdaten durch ein Kabel an eine Messstation außerhalb der Rohrleitung senden. Hier werden wir uns auf freibewegliche Molche beschränken]. Mit dem Empfang des Geräts steht auf einmal eine große Datenmenge zur Auswertung bereit. Dennoch ist eine schnelle und dabei zuverlässige Bewertung der Ergebnisse gefordert. Da die Betreiber von Rohrleitungen einen schnellen Überblick über den Zustand der Leitung haben wollen, ist es üblich geworden, einen vorläufigen Bericht zu erstellen, der die gefährlichsten Fehler aufführt. Der volle Bericht wird dann einige Wochen später geliefert. Es besteht aber ein Widerspruch darin, die gefährlichsten Fehler sofort zu identifizieren, ohne dabei alle aufgezeichneten Signale ausgewertet zu haben. Ein gefährlicher Fehler wird nicht notwendigerweise durch eine hohe Signalamplitude auffallen. Solange ein Signal nicht ausgewertet ist, kann man also auch nicht sagen, dass es nicht zu der Menge der gefährlichen Fehler gehört. Daher muss auch für den vorläufigen Bericht schon der größte Teil der Auswertung durchgeführt werden.
Der Bedarf für eine Hilfe zur schnellen Analyse der großen Menge an Daten, wird daher nicht durch die Möglichkeit eines vorläufigen Berichts vermindert. Eher wird diese Hilfe bereits in einem frühen Stadium benötigt.
Die ersten Lösungen in diesem Zusammenhang, die künstliche Intelligenz verwendet, findet man in [1]. In diesem Fall werden neuronale Netze benutzt. In einem letzten Schritt werden die gefundenen Signale klassifiziert. Es ist typisch für die Ultraschallinspektion, dass die Klassifikation der letzte Schritt in der Auswertung ist. Die eigentliche Fehlergröße (z.B. bei einer Korrosion die Restwanddicke) ist bei der Ultraschallprüfung im Gegensatz zur Streuflussprüfung kein Gegenstand von Interpretationen. Bei der Ultraschallprüfung ist aber wesentlich, eine Korrosion von anderen Fehlertypen zu unterscheiden.

2. Der Vorteil der automatischen Signalklassifizierung

Die Automatisierung der Auswertung kann in verschiedene Schritte unterteilt werden. Sobald die gesamte Datenmenge vorhanden ist, besteht die erste Aufgabe darin, ein Rohrbuch, also eine Liste aller Rundnähte zu erstellen. Der zweite Schritt besteht aus einer Suche nach Defektkandidaten. Bereiche, in denen die gemessene Wandstärke von der nominalen abweicht, werden markiert, indem ein Rechteck (Box) erzeugt wird, das die Lage im Rohr beschreibt. Dieser auch Boxing genannte Prozess wird bei praktisch allen Betreibern von intelligenten Molchen durchgeführt. In der Sprache der Mustererkennung wird hier von Segmentierung gesprochen. Uninteressante Bereiche werden von interessanten (area of interest) abgetrennt.
Der zweite Schritt in der Automatisierung liegt in der Klassifikation. In diesem Schritt werden die Anzeigen in den Boxen in verschiedene Klassen eingeteilt. Offensichtlich hängt die Güte dieser Stufe wesentlich auch vom Erfolg des ersten Schrittes (Boxing) ab. Es gibt also ein wichtiges Zusammenspiel der beiden Prozesse. Die Klassifizierung ist darauf angewiesen, dass die erzeugten Boxen auch zu einer Klassifikation geeignet sind. Das Boxing wiederum achtet weniger auf eine Unterdrückung von irrelevanten Signalen, weil dies dann im zweiten Schritt ausgeführt wird. Ist die Unterdrückung irrelevanter Signale im Boxing bereits sehr erfolgreich, so spart der Schritt der Klassifikation wenig Zeit und kann evtl. weggelassen werden.
Ist die Dichte der Signale sehr hoch (z.B., weil sehr viel Korrosion vorliegt), so kann die Automatik auch nicht mehr viel an Beschleunigung beitragen, weil alle relevanten Signale ohnehin manuell überprüft werden.
Bei beiden Schritten der Auswertung treten Fehler auf. Für die folgenden Überlegungen sollen die Fehler im Klassifikationsschritt weiter beleuchtet werden. Ein Fehler erster Art besteht darin, dass ein in Wirklichkeit relevanter Fehler fälschlicherweise als irrelevant angesehen und daher verworfen wird. Der Fehler fehlt am Ende im Bericht. Ein Fehler zweiter Art besteht darin, dass ein in Wirklichkeit irrelevantes Signal für einen Defekt gehalten wird. Erst bei einer Überprüfung ergibt sich dann, dass kein Fehler vorliegt und die Ausgrabung unnötig war. Offensichtlich kann man kaum beide Fehler zusammen minimieren. Fehler erste Art sind aber auf jeden Fall zu vermeiden, während Fehler zweiter Art lediglich die Effizienz der Prüfung unterminieren.

3. Die Vorteile der Support Vector Machines

Support Vector Machines gehören zu einer relativ neuen Familie von Kernel-Methoden, die die Einfachheit und Effizienz von linearen Alogrithmen, wie dem Perceptron-Algorithmus mit der Flexibilität von nichtlinearen Systemen, wie neuronalen Netzen und der Strenge einer statistischen Betrachtung, kombinieren. Indem der Lernschritt zu einem konvexen Optimierungsproblem reduziert wird, was in polynomialer Zeit immer möglich ist, kann das Problem der lokalen Minima, wie es für neuronale Netze, decision trees und andere nichtlineare Ansätze typisch ist, umgangen werden. Daher ist das Einlernen von Support Vector Machines deterministisch und das Neulernen schneller und einfacher. Außerdem sind sie aufgrund ihrer Herkunft aus den Prinzipien der statistischen Lerntheorie erstaunlich unempfindlich gegen Übertrainieren, insbesondere unter Umständen, wo andere Methoden durch den "Fluch der hohen Dimension" beeinträchtigt werden.[Bei einer zu schätzenden Zielfunktion und einer Genauigkeitsschwelle steigt die Menge der Daten, die für die Schätzung nötig ist, exponentiall mit der Dimension der Daten.]
Der Grundgedanke der Kernel-Methode besteht darin, zuerst die Daten in einem geeigneten Vektorraum einzubetten, um dann in der resultierenden Menge durch einfache lineare Methoden relevante Muster zu erkennen. Wenn die einbettende Abbildung nicht linear ist, kann man nichtlineare Zusammenhänge auch mit linearen Algorithmen erkennen. Diese Abbildung alleine löst das Problem nicht, aber sie kann zusammen mit den beiden folgenden Beobachtungen sehr effektive genutzt werden.

  • Der Support-Vector Algorithmus braucht nur die Information über die relativen Positionen der Datenvektoren im einbettenden Raum, das durch ihr Linearprodukt gegeben ist.
  • Die Projektion der Linearprodukte aus den Datenvektoren in den höher-dimensionalen Einbettungsraum kann direkt aus den Eingangsdaten durch die sog. Kernel-funktion berechnet werden.

Support-Vector-Klassifikation bietet eine effiziente Möglichkeit, gute separierende Hyperbenen in einem hochdimensionalen Vektorraum zu finden, wobei gut für eine optimale Generalisierungsgrenze und effizient für die Möglichkeit steht, auch Datenmengen von hunderttausenden Vektoren handhaben zu können. Aufgrund der klaren Vorgaben der Generalisierungstheorie zur Kontrolle der Mächtigkeit kann ein Übertrainieren durch Kontrolle der Grenzen in der Hyperebenen verhindert werden. Der eigentliche Wert der resultierenden Entscheidungsfunktionen wird Aktivierung genannt. Sie ist ein Maß für den Abstand des projizierten Datenvektors von der trennenden Hyperebene. Daher kann er als Güte für das Klassifikationsresultat angesehen werden. Ein geringer Wert steht für eine unsichere Klassifikation, ein größere Wert gibt eine höhere Sicherheit an.

4. Die Implementierung und Qualitätstests

In der eigentlichen Implementierung wurden Klassen für Metallverlust, Lamination, Beule, Installation und Einschlüsse eingeführt. Zur Vervollständigung gibt es auch eine Klasse für Anzeigen, die nicht eindeutig zugeordnet werden können (ambiguous). Schließlich gibt es noch eine Klasse, die Anzeigen umfasst, die nicht von einem Fehler herrühren, sondern bedeutungslose Signale darstellen und daher irrelevant sind.
Der Vorgang, nach dem ein Defektkandidat in die Klasse "nicht entscheidbar" (ambiguous) einsortiert wird, ist für das Konzept wichtig. Für alle Implementierungen von künstlicher Intelligenz, genauso wie im richtigen Leben, gibt es Entscheidungen, die nicht eindeutig gefällt werden können. Im Fall der Ultraschallprüfung von Rohrleitungen gibt es häufig Zweifelsfälle, in denen z. B. nicht eindeutig gesagt werden kann, ob es sich bei einer Anzeige um einen Einschluss oder eine Lamination handelt. Laminationen, die kurz oder unterbrochen sind können genauso gut als Einschlüsse angesehen werden. Genauso sind Metallverluste, die sehr flach sind, wahrscheinlich keine Korrosion, sondern natürliche Schwankungen der Wanddicke und daher irrelevant. Es muss eine Grenze gezogen werden, die willkürlich ist.
Bei SVMs wird diese Doppeldeutigkeit in verschiedener Art und Weise deutlich. Ist der Lernvorgang noch nicht vollständig abgeschlossen, dann gibt es Vektoren, die für keine der Klassen eine Aktivierung erzeugen. In diesem Fall, wie auch in dem Fall, dass alle Aktivierungen unterhalb einer festgelegten Schwelle sind, wird dem Merkmalsvektor die Klasse "ambiguous" zugeordnet. In dieser Zuordnung wird die Unvollständigkeit des Lernens widergespiegelt, die natürlich auch nach einiger Lernzeit noch auftreten kann. Wenn das Lernen weit vorangeschritten ist, dann kann es zu Aktivierungen von mehreren Klassen kommen. In einem solchen Fall könnte man an Regeln denken, die dann vorgeben, welche Klasse endgültig einzutragen ist. Es schien aber klarer zu sein, diese Fälle ebenso als nicht entscheidbar zu klassifizieren. Diese Anzeigen werden ja ohnehin später noch mal von Hand klassifiziert werden. "Ambiguous" als Lernbeispiele gibt es nicht.

Qualitätsüberprüfung

Um die Güte der Klassifikation mit fortschreitendem Trainieren überprüfen zu können, müssen die Güteparameter zunächst festgelegt werden. Die beiden oben erwähnten Fehler erster und zweiter Art können natürlich dazu herangezogen werden. Mit der vorhandenen Umsetzung kommen aber noch andere Werte in Frage. Um die Klassifizierungsresultate mit den korrekten Ergebnissen einer unabhängigen Validierung vergleichen zu können, wird die sog. Konfusionsmatrix herangezogen. In dieser Matrix werden die Zahl der Defektkandidaten, die einer Klasse zugeteilt worden sind, mit der Zahl der wirklich in diese Klasse gehörenden verglichen. Als Validierungssatz wird eine Menge von Boxen aus einer bestimmten Inspektion gewählt, die von Hand klassifiziert worden ist. Diese Klassifikation wird als korrekt angenommen. Die unten gezeigte Tabelle ist die dazugehörige Konfusionsmatrix, die sich nach Klassifikation mit einem SVM ergab. Zum Beispiel erkennt man, dass das SVM 32 Anzeigen als Lamination klassifiziert hat. Davon sind 8 wirklich Laminationen, während 24 als irrelevant angesehen werden und verworfen werden müssen. Alle Fehler 2. Art sind durch einen blauen Rahmen hervorgehoben. Zusammen sind es 1007 Fehler aus einer Menge von 15777 Anzeigen insgesamt. Fehler 1. Art werden durch einen roten Rahmen gekennzeichnet. Es gibt insgesamt sieben.


Andere Merkmale zur Güte sind die Anzahl der Boxen, die noch mal geprüft werden müssen, die Anzahl der Anzeigen, die korrekt, bzw. inkorrekt klassifiziert wurden. Die Anzahl der Fehler, die noch mal überprüft werden müssen, wird durch die Zahl der Einträge gegeben, die nicht als irrelevant klassifiziert worden sind. Die Zahl der Anzeigen, die korrekt klassifiziert wurden, wird durch die Spur gegeben. Für diese Anzeigen entspricht das Klassifikationsergebnis der Vorgabe.
Fünf SVM wurden trainiert mit jeweils erweitertem Lerndatensätzen. Der Vorgängerdatensatz ist also eine Untermenge des vorhergehenden Datensatzes. Die Lerndaten wurde aus sechs verschiedenen Datensätzen genommen. Sie wurden ausgewählt, um die Variationen innerhalb der Menge möglichst groß zu machen. Der erste Datensatz besteht aus 1635 Beispielen, der letzte besteht aus 8273 Beispielen. Mit fortschreitendem Training werden mehrere Aspekte überprüft.

Konsistenz mit vorhergehenden Trainingssätzen

Die Anzeigen, die zunächst korrekt klassifiziert worden sind, sollten mit fortschreitendem Lernen dann nicht falsch klassifiziert werden. Es wurde ein Satz von Anzeigen (204 Stück) ausgewählt, die auf dem kleinsten Trainingssatz korrekt klassifiziert worden sind. Da bereits ähnliche Anzeigen in diesem Satz gefunden werden können, gibt es ausreichend viele solcher Anzeigen. Die Korrektheit der Klassifizierung wird nun mit allen anderen Trainingssätzen überprüft. Der Güte wird mit den genannten Parametern beschrieben. Die Ergebnisse sind in Abbildung 1 dargestellt.
Das Verhalten wurde insoweit erwartet, dass die Zahl der korrekt klassifizierten Anzeigen leicht wieder abnimmt. Ein weiterer Anstieg ist ja aufgrund der Auswahl nicht möglich. Mit nur etwas weiterem Lernen nimmt die Güte etwas ab, bleibt dann aber konstant. Es ist wichtig, dass ein weiteres Lernen die Ergebnisse auf einmal eintrainierten Beispielen nicht immer weiter verschlechtert. Ansonsten würde sich ein weiteres Lernen nicht in jedem Fall positiv auswirken und die neuen Lernbeispiele müssten erst auf ihre Wirkung überprüft werden. Die hier gemessen Verschlechterung ist klein.


Abb 1: Änderung der Leistungsparameter mit fortschreitendem Lernen für einer Datensatz, der mit dem ersten Lerndatensatz korrekt klassifiziert wurde.

Fortschritt des Lernens

Es wurde ein Satz von Anzeigen ausgewählt, die neu sind für das SVM. D.h. keine der Beispiele sind dem SVM als Lernbeispiele bekannt. Üblicherweise ist die Güte mit dem kleinsten Lerndatensatz am schlechtesten. Mit zunehmendem Lernen sollte die Güte kontinuierlich ansteigen. Abbildung 2 zeigt die Zahl der Fehler 2. Art und die Zahl der noch zu prüfenden Anzeigen. Beide Werte nehmen ab. Besonders nach dem ersten Nachlernen wird die Güte deutlich besser. Viele Anzeigen werden statt der Klasse "ambiguous" einer Fehlerklasse zugeordnet. So erkennt man, wie sich der Fortschritt beim Lernen auch in der Qualität des Ergebnisses niederschlägt.


Abb 2: Leistungsparameter für fortschreitendes Lernen auf einem unabhängigen Validierungssatz.

In Abbildung 3 werden zwei weitere Parameter dargestellt. Die Anzahl der Anzeigen ohne Aktivierung zeigt ein ähnliches Verhalten, wie schon oben die Anzahl der noch zu prüfenden Anzeigen. Nach einem steilen Abfall nach dem ersten Nachlernen, fällt die Kurve leicht weiter ab. Speziell der Effekt des ersten Nachlernens kann leicht erklärt werden, wenn man den Lernsatz genauer betrachtet.


Abb 3: Weitere Leistungsparameter für fortschreitendes Lernen auf einem unabhängigen Validierungssatz.

Im zweiten Trainings-datensatz kamen Anzeigen hinzu, die dem Validierungssatz sehr ähnlich sind. Die Anzeigen stammen aus Rohrleitungen, die beide ca. 40 Jahre alt sind, aus ähnlichen Rohren bestehen und beide das gleiche Produkt befördern. Daher ist der Grad an Echoverlust, Rauschen und anderen Einflüssen ähnlich. Die Merkmalsvektoren sind im Merkmalsraum den Vektoren aus dem Lerndatensatz sehr nah.
Die andere Kurve in Abbildung 3 zeigt der Verlauf der Fehler erster Art. Statt eines zu erwartenden Abfalls ist ein Anstieg zu beobachten. Obwohl der Anstieg auf einem niedrigen Niveau stattfindet, er steigt auf knapp ein Prozent an, ist das Verhalten nicht zufriedenstellend und soll weiter untersucht werden.
Eine statistische Analyse wurde durchgeführt mit allen Anzeigen, die fälschlicherweise verworfen wurden. Für den letzten Lerndatensatz waren das 134 Anzeigen. Dabei wurden drei Laminationen und zwei Einschlüsse verworfen. Für geringere Größen ist das unproblematisch. Es bleiben 129 Metallverluste. Es muss beachtet werden, dass es eine willkürliche Festlegung ist, ab welcher Größe eine Anzeige noch als relevant angesehen werden kann. Oft wird über diese Grenze mit dem Auftrag-geber verhandelt. In der Regel müssen Metallverluste angegeben werden, wenn sie 1 mm überschreiten. Abbildung 4 zeigt ein Tiefen-Histogram dieser 129 Anzeigen.


Abb 4: Tiefen-Histogram von Anzeigen, bei denen in der Klassifikation ein Fehler erster Art besteht. Die Vieldeutigkeit des Lerndatensatzes ist für die Fehler verantwortlich.

Die Anzeigen werden getrennt behandelt je nach dem, ob sie sich im Grundmaterial oder im Schweißnahtbereich befinden. Besonders im Grundmaterial sind die Fehler sehr flach. Die Tatsache, dass diese Fehler zunehmend aussortiert werden, muss auf die Tatsache zurückgeführt werden, dass zunehmend auch Lernbeispiele aus nahtlosen Rohren dazukommen. In diesem Rohrtyp finden sich viele herstellungs-bedingte Änderungen in der Wanddicke. Eine Verminderung der Wanddicke ist daher weniger ungewöhnlich als in geschweißten Rohren. In geschweißten Rohren kann es sich bei kleinen Änderungen bereits um ein beginnende Korrosion handeln, die dann von Interesse ist. In geschweißten Rohren gibt es viele Lernbeispiele von Wandverschwächungen von nur 0.6 mm. Obwohl diese Größe von Fehlern in der Regel nicht in einem Bericht vorkommen wird, wurde es als sinnvoll angesehen, wenn die Entscheidung "Verwerfen" oder "Beibehalten" später von Hand gemacht wird und die Maschine zunächst auf "Metallverlust" entscheiden soll.
In nahtlosen Rohren allerdings handelt es sich bei Fehlern von 0,6 mm um irrelevante Signale, die von vornherein aussortiert werden sollten. Wie es den Anschein hat, kann der Klassifikator nicht ausreichend aufgrund der Merkmalsdaten auf einen der beiden Rohrtypen schließen. Es wird daher vorgesehen, die SVM-Modelle entsprechend separat für die beiden Rohrtypen aufzustellen.

Der Einfluss des Boxing

Wie bereits bekannt war, hat das Boxing einen erheblichen Einfluss auf das Resultat der Auswertung. Bei Magnetstreuflussinspektionen kann die Größe und Lage der Box sogar einen Einfluss auf die berechnete Fehlertiefe habe. Für die hier behandelte Ultraschallinspektion soll untersucht werden, welchen Einfluss das Boxing auf das Klassifikationsergebnis haben kann. Natürlich wird auch hier nur die Auswahl der Boxen für die Lernbeispiele widergespiegelt. Die Boxen werden mit einem Algorithmus erstellt, der seinerseits über Parameter verfügt, die einen Einfluss auf die Anzahl, Größe und den Grad der Zerklüftung der Boxen haben. Auf der linken Seite von Abbildung 5 ist ein metallverlustartiger Fehler gezeigt, der durch eine Box mit zunehmender Größe beschrieben wird. Insgesamt 10 Boxen sind vorhanden, wobei die eine Box immer die jeweils kleinere voll umschließt. Auf der rechten Seite von Abbildung 5 ist die Aktivierung der Klassen "Metallverlust" und "irrelevant" für alle Boxen mit zunehmender Größe gezeigt.


Abb 5: Die Auswirkung einer zunehmenden Boxgröße auf die Aktivierungen der einzelnen Klassen. Es gibt eine optimale mittlere Größe.

Die mittlere Größe zeigt die höchste Aktivierung für Metallverlust, während für die kleineren und die sehr großen Boxen die Aktivierung für irrelevant überwiegt. Die Klassifikation Metallverlust wäre in diesem Fall korrekt. Es sollten daher die Boxen immer derart erzeugt werden, wie sie auch für die Lernbeispiele gewonnen wurden. Alternativ müsste man Lernbeispiele für alle möglichen Variationen von Boxgrößen in den Lerndatensatz einfügen.

5. Die Handhabung der Lerndaten

Die Frage, wie die Wissensgrundlage erweitert wird, ist eine entscheidende Frage für den Wert des Systems als ganzes. Bisher wurden diese Systeme zur Wissensrepräsentation immer am Anfang eingelernt und dann so belassen. Ein Hauptgesichtspunkt dieser Arbeiten besteht darin, die Erweiterung des Wissens so einfach wie möglich zu machen. Dabei muss der Prozess des Neulernens genau definiert werden, damit eine saubere Archivierung und Nachprüfbarkeit der bisherigen Ergebnisse möglich bliebt. Die neuen Lernbeispiele werden dann aus einer anstehenden Inspektion gewonnen. Sobald die manuelle Überprüfung der relevanten Anzeigen durchgeführt wurde, ist die "wahre" Klassifikation bekannt. Alle Anzeigen, die nun als "ambiguous" oder falsch klassifiziert wurden, kommen als neue Lernbeispiele in Betracht. Dieses Neulernen kann bei jedem Inspektionsprojekt durchgeführt werden. Das wäre in der Praxis dann aber ein sehr oft anfallender Prozess. Es scheint sinnvoll, etwas weniger oft und dann intensiver neu zu lernen. Dadurch hat man weniger häufig ein neues Modell zu erzeugen und zu archivieren.
Um das Erkennen der neuen Lerndaten zu erleichtern, wird der Tabelle mit den Boxinformationen eine Spalte zur Klassifikation nach der Automatik und einer Spalte entsprechend der manuellen Überprüfung zugefügt. Eine Kennung kann gesetzt werden, um wichtige Lernbeispiel zu markieren. So kann das Neulernen zu jedem beliebigen Zeitpunkt durchgeführt werden.
Mit immer weiter fortschreitendem Lernen wird der Datensatz immer größer. Jedes Neulernen setzt aber eine Berücksichtigung des gesamten Lerndatensatzes voraus. Aufgrund des Prinzips des SVM werden später nur wenige Merkmalsvektoren (die Support Vektoren) ausgewählt, die für die Entscheidung relevant sind. Das sind in der Regel wesentlich weniger als im Lerndatensatz insgesamt sind. Eine Verkleinerung des Lerndatensatzes sollte also möglich sein, ohne die Fähigkeiten des Klassifikators herabzusetzen. Methoden, den Lerndatensatz gezielt wieder zu verkleinern, sind gegenwärtig Gegenstand der Forschung [3].

6. Zusammenfassung

Support Vector Machines stellen ein effizientes Mittel zur Verwirklichung von künstlicher Intelligenz bei der Analyse von Daten aus Rohrleitungsinspektionen dar. Das Neulernen und damit die Erweiterung der Wissensgrundlage ist deutlich einfacher als mit anderen vergleichbaren Methoden. Mit der vorgestellten Implementierung ist es nun möglich, auf speziellen Anlass hin neu zu trainieren. Mit der vorgestellten Implementierung wird eine deutliche Beschleunigung der Datenauswertung erwartet. Die Entscheidungsfindung wird nachvollziehbar und unabhängig von menschlichen Faktoren.

Literaturverweise

  1. R. Suna, K. Berns, K. Germerdonk, A.O. Barbian, Pipeline diagnosis using backpropagation networks, Neuro-Nimes, 1993
  2. Cristianini, Nello and John Shawe-Taylor (2003). Support Vector and Kernel Methods. In: Berthold, Michael and David J. Hands (Eds.): Intelligent Data Analysis. Springer-Verlag Berlin Heidelberg New York.]
  3. M. Ziegenmeyer, Optimierung und Anpassung der Support-Vektor-Klassifikation motiviert durch reale Diagnoaseanwendungen, MasterThesis, FZI, Karlsruhe 2003

STARTHerausgeber: DGfZPProgrammierung: NDT.net