Опис Octoparse
Octoparse - це ефективний інструмент для скрапінгу даних, який надає користувачеві можливість просто збирати відкриті дані без необхідності використання коду. Цей інструмент пропонує ряд функцій, таких як автопроксі і налаштування часу сесії, щоб обійти системи, які перешкоджають скрапінгу. Octoparse використовує передові алгоритми машинного навчання для швидкого розпізнавання та видобування даних зі складних сайтів. Це інструмент здатний обробляти різні види даних, включаючи текст, посилання, URL-и зображень та HTML.
Ось поетапні вказівки, як налаштувати параметри проксі за допомогою Octoparse:
- Завантажте та встановіть Octoparse з сайту-розробника. Запустіть додаток після його встановлення.
- У верхньому лівому куті натисніть "+New" для створення нового завдання. Серед запропонованих опцій виберіть "Custom Task".

- Введіть URL-адресу сторінки, звідки хочите вигрузити дані, в поле для введення URL. Наприклад, візьмемо сайт "books.toscrape.com". Далі натисніть кнопку Save.

- Після того, як сторінка завантажиться, натисніть на кнопку "Settings" у правому верхньому куті.

- Знайдіть внизу секцію під назвою "Anti-block settings".
- Поставте галку навпроти "Proxy Server Enable". У цьому випадку з'являться налаштування для проксі та кнопка "Configuration".

- Натисніть кнопку Configuration і відкриється спливаюче вікно. Скопіюйте та вставте адреси своїх проксі-серверів від stableproxy у відповідне поле. Адреси повинні бути приведені у форматі IP:PORT.
Rotating residential proxies:
IP Selection: Вкажіть адресу для обертових проксі. Наприклад, ми виберемо адресу de-1.stableproxy.com

- Встановіть таймер перемикання, виходячи з типу сесії та вашого переваги.
- Щоб зберегти зміни, натисніть кнопку Confirm.
- Щоб перевірити проведену інтеграцію з Octoparse, переконайтеся, що в розділі "Anti-block settings" перед кнопкою "Configuration" стоїть галочка.
- Щоб зберегти зміни, натисніть кнопку Save.
- Ви повернетесь до основного екрану сторінки, яку аналізуєте.
- Натисніть на іконку з картинкою, схожою на лампочку, щоб відкрити її та вибрати, чи потрібно переходити по сторінкам чи включити прокрутку.
- Коли виберете опцію, натисніть на "Create workflow".

- Виберіть елемент на сторінці, який хочете аналізувати, наприклад, "Mystery". Натисніть на нього та виберіть "Extract the text of the selected element".
- Відкриється спливаюче вікно. У правому верхньому куті натисніть "Save", а потім "Run".
- У відкритому вікні опубліковані можливі варіанти. Поставте вибір на найбільш підходящий для вас (можливо, для деяких варіантів потребуватиметься оплата). У нашому випадку, ми виберемо "Local Extraction" і "Standard Mode".

- Відкриється нова сторінка, де розпочнеться процес скрапінга. Ви зможете призупинити та відновити потрібний вам процес, якщо потребується.
- Оскільки це лише приклад, ми зупинимося. Підтвердіть зупинку запуску.
- Вам відобразиться статистика по вашому завданню. Виберіть, коли експортувати дані: зараз чи пізніше; в цей раз ми виберемо "зараз".
- Останнє спливаюче вікно запропонує вам вибрати формат даних для вигрузки.
- Виберіть найбільш підходящий формат даних.
Готово! Тепер ваш пристрій налаштований і готовий до роботи; цільове завдання: розширений збір даних з веб-сторінок за допомогою Octoparse.