/ News, Forschung, Weiterbildung

Kleine Helferlein: Web-Scraping

Several friendly little helper monsters scraping webs. Generated by Adobe Firefly (beta)

Im ersten Teil unserer "Kleine Helferlein" Serie zeigen wir, wie man in grossem Umfang Daten automatisiert von Webseiten herunterladen kann.

Daten aus dem Netz herunterladen ist manchmal die einzige Variante an Forschungsquellen zu kommen. Wenn es sich um dutzende oder hunderte Dokumente handelt, ist das manuelle Herunterladen ein zeitintensiver, stupider und fehleranfälliger Prozess. Sogenanntes Web-Scraping kann dabei helfen, solche Ressourcen schnell und automatisiert herunterzuladen. Moderne Webseiten erlauben allerdings kaum mehr klassisches Scraping. Die Seiten werden zum Beispiel mit JavaScript oder ähnlichem gerendert und die effektive HTML-Seite stellt nur ein Gerüst ohne Seiteninhalt. Eine Lösung dem zu begegnen ist die Verwendung eines "ferngesteuerten Browsers", der Seiten aufruft, dort Felder anklickt, ausfüllt und Abfragen abschickt. So ist es möglich, kleine Scripts zu schreiben, die zum Beispiel einen Suchbegriff eingeben und dann automatisch die Resultate herunterladen und lokal speichern.

Diese Funktion bietet der Selenium WebDriver. "Selenium with Python" erlaubt es, den Web-Driver von einem Script aufzurufen und automatisches Web-Scraping zu betreiben. Für technisch versierte und experimentierfreudige Forschende hat RISE in seinem GitHub-Repo mehrere Beispiele dazu abgelegt.

Die Zeitersparnis, die gerade bei grösseren Beständen damit erreicht werden kann, ist enorm.

Gerne beraten wir Angehörige der Universität Basel bei der Anpassung der entsprechenden Scripte und der Einbettung in eine umfassendere Datenmanagementstrategie. Für eine Beratung sind keine technischen Vorkenntnisse notwendig. Wir freuen uns auf Ihre Anfrage.