Mit Python Daten von beliebigen Websites auslesen am Beispiel Talkshows

Mit Python und der Bibliothek BeautifulSoup lesen Sie Daten von Websites aus. Etwa aktuelle Talkshow-Termine, das Thema, die G?ste und ihre Beschreibung.

Lesezeit: 26 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 26 Beitr?ge
Von
  • Marvin Strathmann
Inhaltsverzeichnis

Das Internet. Unendliche Weiten. Fast jede nur erdenkliche Information ist im Netz zu finden: Der Wetterbericht für übermorgen um 14.45 Uhr, die Termine zur Vorstandssitzung des Billard Sportvereins Wuppertal 1929 e. V. oder die Begriffserkl?rungen zur Raufutter verzehrenden Gro?vieheinheit. Aber die Fülle an Daten kann einen schnell überw?ltigen und pl?tzlich klappern Sie immer wieder dieselben Websites ab, um immer wiederkehrende Informationen zu erhalten. Das geht effizienter: Ein kleines Python-Programm kann Ihnen diese Arbeit abnehmen, automatisiert beliebige Daten aus dem Netz ziehen und sie neu aufbereiten. Wir zeigen Ihnen, wie Sie ein kleines Python-Programm namens Wer talkt wo basteln, das sich anstehende Termine, Themen, G?ste und die Beschreibung der G?ste von den Homepages der Talkshows zieht.

Das funktioniert, weil das Netz maschinenlesbar ist: Die Auszeichnungssprache Hypertext Markup Language (HTML) strukturiert in der Regel die Texte, Bilder, Videos oder sonstige Daten einer Website. Regeln für die grafische Formatierung werden in der Stylesheet-Sprache Cascading Style Sheets (CSS) festgehalten. Zusammen bestimmen sie, wie eine Website aussehen soll. Ein Browser wie Firefox oder Chrome interpretiert die beiden Sprachen und stellt deren Informationen dar. Auch dieser Artikel besteht im Grunde nur aus HTML und CSS.

Wenn ein Browser diese Daten lesen kann, dann k?nnen das auch andere Programme. Solange Sie die gewonnenen Daten nicht verkaufen, sondern privat nutzen, k?nnen Sie das Netz als Ihre pers?nliche Datenhalde betrachten, aus der Sie mit der Programmiersprache Python die nützlichen Informationen ziehen. Man spricht vom Web Scraping, Screen Scraping oder schlicht vom Scraping.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

  • Zugriff auf alle Inhalte von heise+
  • exklusive Tests, Ratgeber & Hintergründe: unabh?ngig, kritisch fundiert
  • c't, iX, Technology Review, Mac & i, Make, c't Fotografie direkt im Browser lesen
  • einmal anmelden – auf allen Ger?ten lesen - monatlich kündbar
  • erster Monat gratis, danach monatlich 9,95 €
  • W?chentlicher Newsletter mit pers?nlichen Leseempfehlungen des Chefredakteurs
GRATIS-Monat beginnen Jetzt GRATIS-Monat beginnen Mehr Informationen zu heise+
汤姆叔叔影院