Automatisierte Datenbeschaffung aus dem Internet

Author Image

Von Dominik Imark

26 Juli 2021

In diesem Use Case geht es darum, verfügbare Informationen von Webseiten herunterzuladen, zu aggregieren und in dieser aufbereiteten Form auf einen SFTP-Server hochzuladen, als Excel- oder XML-Datei zu speichern. In Schritt 1 wird der Download einer beliebigen Anzahl der neusten Reports diskutiert. Anschliessend wird in Schritt 2 die Verarbeitung gezeigt und in Schritt 3 wird schließlich das flexible Ablegen des aufbereiteten Reports behandelt. Diese Art der Datenbeschaffung ist aber nicht nur für die Finanzbranche geeignet. Grundsätzlich ist die Automation eines jeden repetitiven Prozesses, bei dem Daten aus dem Internet oder anderen Quellen beschaffen werden sollen, möglich.

Schritt 1 – Download von SIX Trade Repository Weekly Statistics Daten

Hierbei werden aus dem HTML-Code der Webseite Excel-Files identifiziert und heruntergeladen. Welches File genau gesucht werden sollen, wird dabei in Alteryx vordefiniert. Im Download Tool (hellgrünes Feld mit Blitz) wird der HTML-Code heruntergeladen. Da die Excels-Files als Link abgelegt sind, werden mittels "RegEx" in der HTML-Datei nach allen Internetlinks gefiltert, die ”weekly reports" und das Excel-Fileformat ".xlsx" enthalten. Um nur die jeweils neusten Files zu nutzen, werden diese zusätzlich noch nach Neuigkeit sortiert. Nun wird eine dynamisch gewählte Anzahl der neuesten Excel-Files von Alteryx heruntergeladen und lokal, also auf dem eigenen System, abgelegt.

Der gesamte Prozess kann zudem leicht in eine App verpackt und andere Business Usern zur Verfügung gestellt werden. Es müssen einzig die gewünschte Anzahl der neusten Files sowie der Speicherpfad eingestellt werden. Vorteile einer solchen App sind, dass der User, ohne selbst etwas programmieren zu müssen, einen automatisierten Ablauf nutzen und diesen nur minimal auf seine Bedürfnisse anpassen muss.

Schritt 2 – Verarbeitung der Rohdaten und Ausgabe als File mit Versand via SFTP oder Ausgabe als XML

Die Herausforderung bei der Zusammenfassung der Files zu einer Übersicht ist, dass jede Excel-Datei der SIX aus drei Tabellen besteht, welche untereinander platziert sind. Diese Tabellen müssen neu arrangiert werden, um eine Übersicht über alle Wochen zu generieren. Listen mit nur den benötigten Angaben und ohne Formatierungen sind für den gesamten Prozess in der Weiterverarbeitung der Daten einfacher. Grundsätzlich wird hier eine Liste erstellt, wie der User sie haben möchte.

Zu Beginn werden die in Schritt 1 heruntergeladenen Files geöffnet. Die vielen vorgefertigten Daten-Aufbereitungs-Tools von Alteryx erleichtern das Sortieren, Filtern und neu anordnen von Daten. Statt Werte wie "Commodities" oder "Interest Rates" wiederholt für jede Kategorie und erneut pro Woche zu listen, werden sie aggregiert und neu angeordnet und eine Übersicht über alle Wochen entsteht.

Eine der grossen Stärken von Alteryx ist die angenehme Aufbereitung von Daten in automatisierten Pipelines, wie das neu arrangieren und aggregieren der verschiedenen Reports in eine zusammenfassende Wochenübersicht. Daneben bietet Alteryx aber auch verschieden Möglichkeiten auf zahlreiche Datei- und Speichertypen zuzugreifen.

Schritt 3 – Ablagetypen

Im Schritt 3 wird die Speicherung an drei Ablagetypen erläutert. Zunächst kann die Tabelle auf einen SFTP-Server angelegt werden. Dazu wurde ein spezifisches Macro für diesen Use-Case erstellt, welches das File als Input aufnimmt und dann auf dem Server ablegt. Ein Macro ermöglicht Pipelines oder sogar Python- /R-Code zu verpacken und nutzerfreundlich zur Verfügung zu stellen.

Eine zweite Möglichkeit zur Ablage ist der XML-Output. Auch hier wird ein Macro genutzt, dass den darunterliegenden Alteryx Workflow verpackt, und so die Anwendung vereinfacht beziehungsweise die Übersichtlichkeit erhöht. Dieses Macro wurde, wie viele spezialisierte Macros, von anderen Alteryx-Usern in der Alteryx-Community zur allgemeinen Nutzung geteilt. Die aktive Alteryx-Community bietet neben spezial angefertigten Macros und Bug-Fixing-Diskussionen auch Learning-Pfade und viele weitere Materialen rund um Alteryx.  

Schliesslich noch eine letzte und auch die leichteste Möglichkeit die Woche-Übersichts-Tabelle als Excel abzulegen. Dies wird in einem Schritt mit einem Output-Tool erledigt.

Datenverarbeitung – dynamisches Automatisieren von der Quelle bis zum Ablagesystem

Alteryx bietet für die Prozessautomatisierung eine sehr geeignete Software an. Diese Art der Datenbeschaffung kann in jeglichen Bereichen einer Geschäftstätigkeit angewendet werden. Manuelle Prozesse, die viel Zeit benötigen, werden zu minimal aufwändigen Aufgaben. Daraus resultierten eine effizientere Arbeitsweise und mehr Kapazität für andere Aufgaben. Die Dynamik der Datenverarbeitung lässt zu, dass auch andere Quellen als das Internet genutzt werden können. Somit ist für jede Branche und jeden Geschäftsbereich diese Prozessautomatisierung ein Mittel zur Effizienzsteigerung.

Wir von der Banian AG helfen Ihnen gerne mit einer Erstberatung in Sachen Alteryx oder jeglichen anderen Themen weiter. Kontaktieren Sie uns per Telefon +41 (0)61 551 00 12, per Mail oder mit einer Nachricht auf LinkedIn.


Bilder-Gallery

Content


Twitter


Adresse

St. Jakobs-Strasse 3, 4052 Basel, CH

Telefonnummer

+41 (0)61 551 0012

Linkedin

banian-ag

Wir freuen uns, von dir zu hören