Opis Octoparse
Octoparse to skuteczne narzędzie do skrobania danych, które umożliwia użytkownikowi proste zbieranie publicznie dostępnych danych bez konieczności korzystania z kodu. To narzędzie oferuje szereg funkcji, takich jak automatyczne proxy i ustawianie czasu sesji, aby ominąć systemy blokujące skrobanie. Octoparse wykorzystuje zaawansowane algorytmy uczenia maszynowego do szybkiego rozpoznawania i wydobywania danych z skomplikowanych stron internetowych. To narzędzie jest w stanie przetwarzać różne typy danych, w tym tekst, linki, adresy URL obrazów i HTML.
Oto stopniowe instrukcje, jak skonfigurować ustawienia proxy za pomocą Octoparse:
- Pobierz i zainstaluj Octoparse ze strony dewelopera. Uruchom aplikację po jej zainstalowaniu.
- W lewym górnym rogu kliknij "+ New", aby utworzyć nowe zadanie. Spośród zaproponowanych opcji wybierz "Custom Task".
- Wprowadź adres URL strony, z której chcesz wydobyć dane, do pola wprowadzania URL. Na przykład, weźmiemy stronę "books.toscrape.com". Następnie kliknij przycisk Zapisz.
- Po załadowaniu strony kliknij przycisk "Settings" w prawym górnym rogu.
- Znajdź na dole sekcję o nazwie "Anti-block settings".
- Zaznacz pole "Proxy Server Enable". W tym przypadku pojawią się ustawienia dla serwera proxy i przycisk "Configuration".
- Kliknij przycisk Konfiguracja, a pojawi się okno dialogowe. Skopiuj i wklej adresy swojego serwera proxy od stableproxy do odpowiedniego pola. Adresy powinny być podane w formacie IP:PORT.
Rotating residential proxies:
IP Selection: Podaj adres dla rotujących proxy. Na przykład wybierzemy adres de-1.stableproxy.com
- Ustaw timer przełączania, w zależności od typu sesji i twojego preferencji.
- Aby zapisać zmiany, kliknij przycisk Confirm.
- Aby sprawdzić, czy zintegrowałeś Octoparse, upewnij się, że w sekcji "Anti-block settings" przed przyciskiem "Configuration" jest zaznaczony.
- Aby zapisać zmiany, kliknij przycisk Zapisz.
- Wrócisz do głównego ekranu strony, którą analizujesz.
- Kliknij ikonę z obrazkiem przypominającym żarówkę, aby otworzyć ją i wybrać, czy przechodzić do innych stron, czy włączyć przewijanie.
- Gdy wybierzesz opcję, kliknij na "Create workflow".
- Wybierz element na stronie, który chcesz analizować, na przykład "Mystery". Kliknij na niego i wybierz "Extract the text of the selected element".
- Pojawi się okno dialogowe. W prawym górnym rogu kliknij "Zapisz", a następnie "Uruchom".
- W otwartym oknie opublikowane są możliwe opcje. Wybierz najbardziej pasującą do ciebie opcję (niektóre opcje mogą wymagać opłat). W naszym przypadku wybierzemy "Local Extraction" i "Standard Mode".
- Otworzy się nowa strona, na której rozpocznie się proces skrobania. Uwagę proces, który potrzebujesz, będzie można zatrzymać i wznowić w dowolnym momencie.
- Ponieważ jest to tylko przykład, zakończymy tutaj. Potwierdź zatrzymanie uruchomienia.
- Pokażemy Ci statystyki dotyczące twojego zadania. Wybierz, kiedy chcesz wyeksportować dane: teraz czy później; tym razem wybierzemy "teraz".
- Ostatnie okno dialogowe zasugeruje ci wybór formatu danych do ekstrakcji.
- Wybierz najbardziej odpowiedni format danych.
Gotowe! Teraz twoje urządzenie jest skonfigurowane i gotowe do pracy; cel zadania: zaawansowane zbieranie danych ze stron internetowych za pomocą Octoparse.