A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента

Список разделов Продвижение сайта / Поисковая оптимизация SEO

Описание: продвижение сайтов

Сообщение #91 A-Parser Support » 19 мая 2020, 2:23

Сборник рецептов #41: Google таблицы, отправка писем и авторизация с помощью puppeteer

Представляем 41-й сборник рецептов, который полностью посвящен использованию различных Node.js модулей в A-Parser.
  • Работа с Google таблицами
  • Отправка писем из А-Парсера
  • Авторизация с помощью puppeteer

Сохранение результатов в Google SpreadSheets

Один из часто задаваемых вопросов в поддержке, это вопрос о возможности писать результаты прямо в Google Таблицы. Поэтому мы подготовили небольшой пример парсера, который демонстрирует такую возможность.

Изображение

Отправка почтовых писем

Еще одна возможность, о которой часто спрашивают наши пользователи - отправка писем. Такой функционал может быть использован для уведомлений о различных событиях в заданиях, в том числе о завершении их работы. Поэтому мы также подготовили пример, демонстрирующий отправку писем прямиком из А-Парсера.

Изображение

Авторизация на GitHub с использованием puppeteer

Еще один пример по заявкам наших пользователей, демонстрирующий загрузку страницы, авторизацию на ресурсе и простую навигацию.

Изображение


Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #92 A-Parser Support » 13 июня 2020, 7:18

1.2.912 - обновление NodeJS, повышение производительности, адаптация к изменениям в рекаптчах

Изображение

Мы завершили переход на NodeJS в качестве основного движка для парсеров и представляем новую стабильную версию 1.2.912 с поддержкой NodeJS 14.2.0. Данное обновление сочетает в себе множество улучшений, включая повышение производительности, уменьшение потребления памяти, полностью новый сетевой стек, а также поддержку нативных NodeJS модулей, позволяющую использовать всю мощь каталога npmjs в A-Parser'е

Также в данное обновление включены изменения по работе с ReCaptcha2 в парсере Google, наша команда одна из первых нашла решение по обходу новой версии рекаптчи и протестировала его совместно с сервисом RuCaptcha, за что им отдельный респект. На данный момент корректный обход каптчи протестирован с RuCaptcha, Anti-Captcha, XEvil и CapMonster.

Помимо этого было произведено множество оптимизаций в ядре A-Parser'а, значительно увеличилась производительность при использовании большого числа заданий или больших списков прокси. Парсер Изображение Rank::CMS был полностью переписан и стабилизирован, добавлена поддержка нового формата apps.json и поддержка пользовательских правил.

Улучшения

  • NodeJS обновлен до v14.2.0, v8 до 8.1
  • Добавлена поддержка параметра data-s в рекаптчах для Изображение SE::Google, также добавлена опция ReCaptcha2 pass proxy
  • Увеличен лимит потоков до 10000 для OS Windows
  • Значительно улучшена производительность при большом числе активных прокси и/или заданий, полностью переписан стек по работе с прокси, оптимизирована работа с большими списками
  • Добавлен новый парсер Изображение Rank::KeysSo
  • Полностью переписаны на JS Изображение SE::Yahoo::Suggest, Изображение Rank::Alexa::API и Изображение Rank::Archive
  • Улучшена производительность при использовании регулярных выражений, а также улучшена совместимость
  • В Изображение SE::Google::KeywordPlanner добавлено автоматическое получение токена
  • В Изображение SE::Bing добавлена возможность парсить ссылки на кэшированные страницы, а также добавлена возможность парсить мобильную выдачу
  • В парсере Изображение Util::ReCaptcha2 при выборе провайдера Capmonster или Xevil теперь необязательно указывать Provider url
  • В Изображение SE::Google::Trends добавлена возможность указывать произвольный диапазон дат
  • В Изображение Rank::CMS добавлен выбор движка регулярок и поддержка собственного файла с признаками
  • В Изображение SE::Yandex::ByImage добавлена опция Don't scrape if no other sizes, которая позволяет отключить сбор результатов, если искомой картинки нет в других размерах
  • [NodeJS] Добавлена защита от бесконечных циклов и долгих регулярок
  • [NodeJS] Исправлена работа this.cookies.getAll()
  • [JS парсеры] Добавлена опция follow_meta_refresh для this.request
  • [JS парсеры] Добавлена опция bypass_cloudflare для this.request
  • [JS парсеры] Underscore заменен на Lodash
  • [JS парсеры] В логе добавлена пометка при вызове других парсеров
  • [JS парсеры] Использование предыдущего прокси после запроса к другому парсеру
  • [JS парсеры] Добавлен метод destroy()

Исправления в связи с изменениями в выдаче

  • Множество исправлений в Изображение SE::Google
  • Исправлен Изображение SE::Youtube, в т.ч. парсинг по тегам
  • Исправлен сбор ссылок в Изображение Shop::eBay
  • Исправлен парсинг телефонов в Изображение Maps::Google
  • Исправлена работа с каптчами в Изображение SE::Yandex::ByImage
  • В Изображение Rank::Social::Signal удалена переменная $facebook_comment в связи с неактуальностью
  • Изображение SE::Startpage, Изображение Rank::Linkpad, Изображение Social::Instagram::post, Изображение SE::Yandex::Translate

Исправления

  • Исправлен баг, из-за которого игнорировался выбранный проксичекер
  • Исправлена работа функций Decode HTML entities и Extract domain в Конструкторе результатов
  • Исправлена проблема с определением кодировки
  • Исправлена ошибка использования $tools.query
  • Исправлен баг в Изображение Rank::MajesticSEO при котором использовались все попытки при отсутствии результатов
  • Исправлена работа http2
  • Исправлена ошибка, когда парсер падает из-за невозможности писать в alive.txt
  • Исправлено разгадывание каптч в Изображение SE::Yandex::Register и Изображение Check::RosKomNadzor
  • Исправлена разница в запросах, отправляемых через Изображение Net::HTTP и JS
  • Исправлен баг в Изображение SE::Yahoo
  • Исправлены ошибки в Изображение Rank::CMS при выборе приложения без категории
  • [NodeJS] Исправлен подсчет времени исполнения кода парсера
  • [JS парсеры] При пустом body не передавался заголовок content-length при post запросе
  • [JS парсеры] Исправлена работа CloudFlare bypass
  • [JS парсеры] Исправлена работа с сессиями
  • [JS парсеры] Исправлена работа с overrides для this.parser.request
  • [JS парсеры] Исправлена ошибка определения кодировки в JS парсерах

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #93 A-Parser Support » 24 июня 2020, 9:23

Сборник рецептов #42: поиск битых ссылок, сервисы статистики и коммерциализация запросов

Представляем 42-й сборник рецептов, в котором собраны парсеры для определения наличия на сайте битых ссылок, сбора данных об используемых сервисах статистики и определения коммерциализации ключевых слов.

Парсер Ahrefs::BrokenLink

Ahrefs Broken Link Checker - это сервис, позволяющий определить наличие битых ссылок на сайте, а также некоторую другую полезную информацию.

Изображение

Парсер builtwith.com

Этот парсер собирает данные об используемых на сайтах сервисах статистики с ресурса BuiltWith. С его помощью можно получить список id используемых сервисов статистики, а также список других сайтов, на которых используются эти же id.

Изображение

Определение коммерциализации запроса

Способ определения степени коммерциализации ключевых слов, основанный на анализе поисковой выдачи Яндекса. Оценивается количество вхождений определенного списка слов в анкорах и сниппетах ТОП10 выдачи.

Изображение

Кроме этого:

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #94 A-Parser Support » 8 июля 2020, 3:28

Видео урок: где смотреть переменные, скрытые переменные и какой результат они выводят (примеры)

В этом видео рассмотрели где смотреть переменные, какие бывают скрытые переменные и какой результат они выводят на примерах.

Изображение

Содержание видео:
00:20 - 1. Где смотреть какие у парсера есть переменные?
1:16 - 2. Какие бывают скрытые переменные ($query.*, $root и т.п.)?
1:22 - переменная root
2:08 - переменная root объект
3:14 - переменная query.orig
4:04 - переменная query.first
5:24 - переменная query.lvl
5:50 - переменная query.prev
6:20 - переменная query.num

Все возможные методы TT для работы с обьектами
Форматирование запросов (шаблоны)

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #95 A-Parser Support » 17 июля 2020, 22:34

1.2.948 - новые парсеры SecurityTrails IP и Domain, поддержка доменных прокси, множество исправлений

Изображение

Улучшения

  • Добавлен парсер Изображение Rank::MOZ.
    Собираемые данные: вся информация, содержащаяся на странице.
  • Добавлены парсеры Изображение SecurityTrails::Domain и Изображение SecurityTrails::IP.
    Для работы парсеров необходимо указать пресет Изображение Util::ReCaptcha2.
    • Изображение SecurityTrails::IP
      В качестве запроса следует указывать ipv4 адрес.
      Собирает домены по IP и информацию о них.
    • Изображение SecurityTrails::Domain
      В качестве запроса следует указывать домен, например a-parser.com.
      Собираемые данные:
      • Данные по DNS
      • Список технологий, используемых на сайте (движки и проч.)
      • Список открытых портов
      • Alexa rank
      • Страна
      • Хостер
      • Даты начала и окончания регистрации
      • Whois статус
      • Регистратор
      • Список исторических данных по DNS
      • Список субдоменов
  • Добавлена возможность отключать валидацию TLS сертификатов.
  • Добавлена поддержка доменных прокси.

Исправления в связи с изменениями в выдаче


Исправления

  • Исправлена ошибка в алгоритме автовыбора домена в Изображение SE::Yandex.
  • Исправлена работа Изображение Rank::MajesticSEO, Изображение SE::Bing::Translator.
  • Исправлена ошибка, если файл config.txt был сохранен в кодировке utf-8 с BOM (парсер некорректно читал файл).
  • Решена проблема с переопределениями опций в парсере Изображение HTML::LinkExtractor.
  • NodeJS: новые установленные модули теперь доступны до перезагрузки A-Parser'a.
  • Исправлено падение парсера при вызове метода getProxies.

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #96 A-Parser Support » 25 августа 2020, 18:39

Сборник статей #12: скорость работы парсеров, debug режим и работа с куками

В 12-м сборнике статей рассказывается о принципах работы парсеров и факторах, влияющих на их скорость, показаны возможности debug режима в Тестовом парсинге по отладке запросов, а также на реальном примере разбирается работа с куками.

Скорость и принцип работы парсеров

В этой статье подробно рассказано об основном принципе работы парсеров и скорости их работы, а также рассмотрены основные факторы, влияющие на скорость парсинга.

Изображение

Использование Debug режима

В этой статье рассказывается об одном из методов отладки парсеров, а также об анализе получаемых данных - debug режиме в Тестовом парсинге. С его помощью можно прямо в парсере анализировать и экспериментировать с заголовками и изучать приходящие в ответ данные.

Изображение

Работа с куками и заголовками на примере соглашения с правилами сайта auto.ru

А в этой статье на реальном примере показана работа с куками сайта: рассказано как определять необходимость передавать куки и как искать только необходимые для запроса куки. При этом показаны два варианта: простые запросы средствами А-Парсера и использование NodeJS модуля puppeteer.

Изображение

Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники статей

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #97 A-Parser Support » 13 сентября 2020, 10:31

Видео урок: просмотр результатов парсинга, настройка прокси с авторизацией, опция Extra query string

В этом видео уроке рассмотрены ответы на 3 часто задаваемых вопроса от новых пользователей А-Парсера

Изображение

  • Где и как можно посмотреть результаты парсинга?
  • Как подключить прокси с авторизацией?
  • Extra query string, что это такое и как применять эту опцию?

В уроке рассмотрено:
  • Просмотр результатов парсинга 3-мя способами:
    • Способ первый. "Из очереди заданий, если задание на паузе".
    • Способ второй. "Из очереди заданий, если задание завершено".
    • Способ третий. "Забираем результат из папки results".
  • Подключение прокси с авторизацией.
  • Примеры использования опции Extra query string.

Полезные ссылки:

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #98 A-Parser Support » 23 сентября 2020, 9:57

Сборник рецептов #43: освобождающиеся домены, категории сайтов и парсинг PDF

43-й сборник рецептов, в который вошли пресет для парсинга освобождающихся доменов, парсер категорий сайтов и пример сбора данных из PDF документов.

Аукцион доменов REG.RU

Пресет, позволяющий парсить домены с аукциона Reg.ru. В пресете реализована возможность указывать количество страниц пагинации и использовать фильтр по ключевому слову.

Изображение

Определение категорий сайта

Парсер, собирающий категории сайтов из MegaIndex.

Изображение

Парсинг PDF

Пример парсинга данных из документов в формате PDF. Для работы используется Node.js модуль pdf-parse.

Изображение

Кроме этого:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #99 A-Parser Support » 24 октября 2020, 2:20

Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by

44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.

Парсер Cloudflare Radar

Парсер для сбора категорий сайтов из Cloudflare Radar

Изображение

Rozetka - получение данных по API

Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.

Изображение

Парсинг объявлений kufar.by

Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.

Изображение

А также, обновлены следующие ресурсы:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Сообщение #100 A-Parser Support » 23 декабря 2020, 9:46

1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку

Изображение
Улучшения

  • В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
  • Основные улучшения от перевода данных парсеров на Node.js:
    • увеличение производительности в ~1.5 раза
    • унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
  • Добавлены новые парсеры:
  • В Изображение HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п.
  • В Изображение SE::Google::Translate добавлены новые переменные:
    • $translit_orig - оригинальный текст транслитом
    • $translit_translated - переведенный текст транслитом
    • $variants.$i.text - список вариантов перевода оригинального текста
  • В Изображение SE::Bing обновлен список регионов и языков
  • В Изображение Social::Instagram::Profile и Изображение Social::Instagram::Post добавлена возможность собирать кол-во видеопросмотров
  • В Изображение SE::Yandex::Translate добавлена возможность отключать использование сессий
  • В Изображение Net::HTTP добавлена возможность указывать user-agent для Chrome
  • В парсере Изображение Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request().
  • В Изображение Rank::CMS добавлена поддержка нового apps.json и возможность использовать Изображение Net::HTTP
  • В Изображение Net::Whois обновлена поддержка всех зон
  • Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:
    • "All" - использует все прокси выбранные для задании
    • конкретный проксичекер - использует его, даже если он не выбран в задании
  • Добавлена поддержка устаревших версий SSL
  • JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
  • JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
  • JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки
Исправления в связи с изменениями в выдаче
  • Множество различных исправлений в Изображение SE::Google и Изображение SE::Yandex в связи с изменениями в выдаче
  • В Изображение SE::Yandex удалена функция автораспознавания каптч в связи с изменением вида каптч
  • Исправлена работа Изображение SE::Google::Translate
  • В Изображение HTML::EmailExtractor исправлена ошибка, при которой пропускались большие блоки html
  • Исправлена ошибка в Изображение Social::Instagram::profile из-за которой не парсилось больше одной страницы
  • Исправлена авторизация в Изображение SE::Google::KeywordPlanner
  • В Изображение SE::Google::TrustCheck исправлено определение горизонтальных блоков ссылок
  • В Изображение SE::Baidu исправлен парсинг related keywords
  • В Изображение Shop::Amazon исправлен сбор продавцов, а также исправлена ошибка, связанная с количество страниц
  • Исправлен Изображение Rank::Linkpad, а также в нем удалена переменная $links_cost, т.к. этого показателя больше нет на источнике
  • В Изображение Rank::Social::Signal в связи с неактуальностью удалена переменная $googleplus_like
  • В Изображение Rank::CMS исправлено определение по признакам скриптов для нового apps.json
  • Также адаптированы к изменениям в выдаче: Изображение SE::Yandex::Translate, Изображение SE::MailRu, Изображение Rank::MajesticSEO, Изображение SE::Yandex::Direct, Изображение SE::Google::ByImage, Изображение Rank::Ahrefs, Изображение Shop::eBay, Изображение SE::Yandex::Register, Изображение SE::Seznam, Изображение Shop::Yandex::Market, Изображение SE::Dogpile, Изображение SE::Dogpile::Images, Изображение SE::Startpage, Изображение SE::Baidu, Изображение Shop::AliExpress, Изображение SE::Youtube, Изображение Rank::Social::Signal, Изображение SE::Yandex::SQI, Изображение SecurityTrails::Domain
Исправления
  • В Изображение SE::Yandex исправлена работа Extra query string
  • Исправлено регулярное выражение в Изображение HTML::EmailExtractor для устранения ошибок в некоторых случаях
  • Исправлено поведение парсера Изображение SE::Google::KeywordPlanner при отсутствии результатов по запросу
  • Изображение Maps::Yandex исправлен и переведен на puppeteer
  • Исправлена ошибка в приоритетах выбора проксичекера
  • JS парсеры: исправлен follow_meta_refresh
  • API: исправлена работа параметра rawResults

Изображение
A-Parser Support
Автор темы
Репутация: 0
С нами: 6 лет 9 месяцев

Пред.След.

Вернуться в SEO