Parsing von strukturierten und unstrukturierten Daten, Scraping und Crawling
Zusammenfassung: | Lösung zur Erstellung von beliebigen Text- und Binärparsern, z.B. für Webseiten, CSV, XML oder PDF-Dateien usw. Auch eine Abarbeitung und Download mehrerer Quellen (z.B. Dateien) oder URLs (z.B. Web-Shops) im Batchmodus ist möglich und die Überführung in eine Datenbank oder Dateien. |
Technologien: | Java, Server, Windows/Linux, Datenbanken, XML, CSV etc. |
Security: |
Secure Programming (→ Leitfaden)
sicherer Betrieb, Patch-Management, Update-Prozesse (→ Leitfaden) |
Stand: | 08 / 2024 |
In den letzten 20 Jahren haben wir für diverse Aufgabenstellungen erfolgreich Parser in unterschiedlichsten Situationen entwickelt. Während die Verarbeitung und Umwandlung strukturierter Daten (z.B. CSV, XML) oder semi-strukturierter Daten (z.B. HTML/Webseite) einem festen Schema folgt, müssen bei unstrukturierten Daten Einzelfälle und Abstraktionsmöglichkeiten in der Praxis analysiert werden.
In allen Fällen ist eine effiziente Massenverarbeitung und Überführung in Datenbanken oder Zwischenformate (z.B. CSV oder XML) möglich. Wir unterstützen ebenfalls individuelle oder Spezialformate bestimmter Branchen oder Unternehmen. Massen- oder gezielte Datenextraktionen sind möglich.
Sollen Webseiten getestet bzw. geparst werden, die dynamische Inhalte über z.B. JavaScript einsetzen, ist ein Parsing basierend auf einer integrierten Browser-Engine möglich. Hierbei ist eine Abwägung bei der Performance bzw. den Resourcenanforderungen in der Massenverarbeitung vorzunehmen.