Парсинг с помощью Python. Веб-скрапинг в действии. 3-е издание. Митчелл Райан
Парсинг с помощью Python. Веб-скрапинг в действии Если программирование — магия, то веб-скрапинг — настоящее колдовство. Написав простую автоматизированную программу, можно отправлять запросы веб-серверам, получать ответы с данными, а затем анализировать эти данные и извлекать необходимую информацию.
Это обновленное третье издание книги не только познакомит вас с веб-скрапингом, но и послужит исчерпывающим руководством по сбору практически любых видов данных в современном Интернете. В части I основное внимание уделено механике веб-скрапинга: как с помощью Python отправлять запросы веб-серверам, обрабатывать ответы и автоматизировать взаимодействие с сайтами. В части II исследуются более конкретные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.
Книга покажет, как:
• анализировать сложные HTML-страницы;
• разрабатывать веб-сканеры с помощью фреймворка Scrapy;
• хранить данные, полученные с помощью скрапинга;
• читать и извлекать данные из документов;
• очищать и нормализовывать плохо отформатированные данные;
• читать и записывать информацию на естественных языках;
• выполнять поиск по формам и страницам входа;
• выполнять скрапинг JavaScript-кода и работать с API;
• писать и использовать программы для преобразования изображений в текст;
• обходить противоскрапинговые ловушки и блокаторы ботов;
• тестировать свои веб-сайты с помощью скрапинга.
Информация о книге | |
Автор | Митчелл Райан |
Обложка | Мягкая |
Количество страниц | 352 |
Язык издания | Русский |