Schaben von Mitarbeiterdaten von Webseiten

Ich arbeite daran, Mitarbeiterdaten aus verschiedenen Webseiten zu extrahieren. Ich werde nicht wissen, die Liste der Websites, die ich extrahieren Informationen aus dem Vorfeld.

Beispielsweise:

Von dieser Seite würde ich versuchen, die auf dieser Seite aufgeführten Informationen zu extrahieren.

Und von dieser Seite müsste ich die Info von dieser Seite extrahieren.

Da jede Website verschiedene Wörter / Methoden verwendet, um diese Informationen anzuzeigen, würde jemand Rat haben, was ein guter Ansatz für dieses Problem für eine zufällige Liste von Websites sein könnte?

Danke für Ihre Hilfe.

  • Warum bekomme ich einen Rekursionsfehler mit BeautifulSoup und IDLE?
  • Wie navigiere ich durch HTMl Seiten, die Paging für ihren Inhalt mit Python haben?
  • Selen versus BeautifulSoup für Web-Scraping
  • Extrahieren von Image src basierend auf Attribut mit BeautifulSoup
  • Wie man Text vor "br" extrahiert?
  • Konvertieren Sie eine HTML-Tabelle in JSON
  • One Solution collect form web for “Schaben von Mitarbeiterdaten von Webseiten”

    Die erste Seite ist statisch, also kannst du einfach den HTML- lxml mit lxml oder einer anderen XML-Parsing-Bibliothek analysieren, aber der Inhalt der zweiten Website wird von einer API dynamisch mit JavaScript geladen. In diesem Fall könntest du den Inhalt direkt aus dem API-Endpunkt ( Es ist öffentlich: https://sqs-hub.s3.amazonaws.com/employee_photos/index.json ) oder wenn du eine generischere Lösung wünschst, dann könntest du ein Werkzeug wie Selen-Webdriver benutzen, um einen echten Benutzer nachzuahmen, die Seite zu scrollen Um den dynamischen Inhalt zu laden und dann die HTML-Quelle der Seite zu bekommen, um es ähnlich wie im ersten Fall zu analysieren.

    Python ist die beste Programmiersprache der Welt.