Eine häufig in der chemischen oder pharmazeutischen Industrie im Rahmen von PAT (Process Analytical Technologies) oder QbD (Quality by Design) auftretende Problemstellung ist die Integration von Daten aus verschiedenen Datenquellen.
So befinden sich die während der Produktion aufgenommenen Prozessdaten oft in einer anderen Datenbank als die Testergebnisse am fertigen Produkt, welche in der Regel in einem Labor-Informations-Managemenstsystem (LIMS) gespeichert sind. Selbst wenn anhand von eindeutigen ID’s für Stichproben oder Produkten eine Zuordnung der Daten aus beiden Quellen möglich ist, bleibt häufig das Problem, dass die Daten in unterschiedlichen Häufigkeiten und/oder Zeitintervallen erfasst werden.
Die Datenanalysesoftware STATISTICA bietet neue Technologien und Software-Tools für die geeignete Zusammenführung der Daten zur Analyse. Dies sind im Einzelnen die neue OLE DB-Schnittstelle für STATISTICA-Datentabellen, das STATISTICA ETL-Modul zum extrahieren, transformieren und laden von Daten sowie eine Schnittstelle zu PI-Datenbanksystemen. Prinzipiell können zwei unterschiedliche Ansätze für die Integration der Daten verwendet werden, die beide durch die neuen Werkzeuge unterstützt werden: Die Bereitstellung der vereinten Daten als Kopie in einem Data-Mart oder die Zusammenführung der Daten zur Laufzeit der Analyse.
Beim Ansatz mittels eines Data-Marts werden über periodisch ausgeführte Batch-Prozesse Daten aus den verschiedenen Datenquellen extrahiert und als Kopie zusammengeführt. Dies lässt sich bequem über das Werkzeug STATISTICA ETL realisieren. Zusätzlich kann in diesem Schritt die Aufbereitung der Daten, z.B. Plausibilitätsprüfungen und Ausreisserbereinigung in STATISTICA durchgeführt werden. Die Erstellung des Data-Marts wird somit zum ersten Teil der Datenanalyse. Als Datencontainer eignen sich gut STATISTICA-Datentabellen, die mittels der neuen von StatSoft entwickelten OLE DB-Schnittstelle auch als Datenquelle für vordefinierte Analysen in STATISTICA Enterprise verwendet werden können. Beim Zusammenfügen der Daten zur Laufzeit der Analysen werden Daten-aufbereitung und -Aggregation „on demand“ als Teil der in STATISTICA Enterprise gespeicherten Knopfdrucklösungen ausgeführt. Dabei werden oft geeignete Anpassungen an den Datenbanken in Form von Views oder gespeicherten Prozeduren vorgenommen, die STATISTICA die Abfrage der Daten über SQL-Ausdrücke gestatten.
Bild: StatSoft