Асаблівасці вэб-скрабкоў - Semalt Expert

Вэб-скрабок - гэта пашырэнне браўзэра Chrome, накіраванае на атрыманне дадзеных з вэб-старонак. З дапамогай гэтага пашырэння вы можаце стварыць мапу сайта або план, які паказвае найбольш прыдатны спосаб навігацыі па сайце і здабываць з яго дадзеныя.

Пасля вашай карты сайта Web Scraper будзе перамяшчацца па старонцы зыходнага сайта за старонкай і саскрабаць неабходны кантэнт. Здабытыя дадзеныя могуць экспартавацца ў выглядзе CSV або іншых фарматаў. Акрамя таго, гэта пашырэнне можна без праблем усталяваць у краме Chrome.

Некаторыя асаблівасці Web Scraper выкладзены ніжэй

  • Магчымасць скрэбліць некалькі старонак

Інструмент мае магчымасць здабываць дадзеныя з некалькіх вэб-старонак адначасова, калі яны прадугледжаны ў мапе сайта. Калі вам спатрэбіцца здабыць усе выявы са 100-старонкавага вэб-сайта, вам можа спатрэбіцца шмат часу, каб праверыць кожную старонку і даведацца, якія з іх утрымліваюць выявы, а якія - не. Такім чынам, вы можаце даручыць інструменту правяраць выявы на кожнай старонцы.

  • Інструмент захоўвае дадзеныя ў мясцовым сховішчы CouchDB або браўзэра
  • Інструмент захоўвае мапы сайта і здабытыя дадзеныя альбо ў лакальным сховішчы браўзэра, альбо ў CouchDB
  • Можна здабываць некалькі дадзеных

Паколькі інструмент можа працаваць з некалькімі тыпамі дадзеных, карыстальнікі могуць выбраць некалькі тыпаў дадзеных для вымання на адной старонцы. Напрыклад, ён можа адначасова выскрабаць выявы і тэкст з вэб-старонак

  • Скрабіце дадзеныя з дынамічных старонак

Web Scraper настолькі магутны, што можа саскрабаць дадзеныя нават з такіх дынамічных старонак, як Ajax і JavaScript

  • Магчымасць прагляду здабытых дадзеных

Інструмент дазваляе карыстальнікам праглядаць скрабаваныя дадзеныя яшчэ да таго, як яны будуць захаваны ў пазначаным месцы

  • Ён экспартуе здабытыя дадзеныя ў выглядзе CSV

Web Scraper экспартуе здабытыя дадзеныя як CSV па змаўчанні, але таксама можа экспартаваць іх у іншыя фарматы.

  • Экспарт і імпарт мапаў

Магчыма, вам спатрэбіцца выкарыстоўваць карты сайта некалькі разоў, каб інструмент змог імпартаваць і экспартаваць мапы сайта па жаданні.

  • Залежыць толькі ад браўзэра Chrome

На жаль, гэта хутчэй недахоп і перавага. Працуе выключна з браўзэрам Chrome.

Іншыя інструменты выскрабання дадзеных

Ёсць некалькі простых інструментаў для выскрабання дадзеных, якія таксама могуць быць карыснымі для вас. Некаторыя з іх пералічаны ніжэй.

1. Скрапія

Гэтая рамка можа быць выкарыстана для выскрабання ўсяго змесціва вашага сайта. Вычыстка змесціва - не адзіная яго функцыя. Ён таксама можа быць выкарыстаны для аўтаматызаванага тэсціравання, маніторынгу, здабычы дадзеных, поўзання ў Інтэрнэце, выскрабання экрана і многіх іншых мэтаў.

2. Wget

Вы таксама можаце выкарыстоўваць Wget, каб лёгка скрабаць увесь вэб-сайт. Але ёсць невялікі недахоп у гэтага інструмента, ён не можа разабраць файлы CSS.

3. Вы таксама можаце выкарыстоўваць наступную каманду, каб саскрабаць змесціва вашага сайта, перш чым разбіраць яго:

file_put_contents ('/ некаторыя / каталог / scrape_content.html', file_get_contents ('http://google.com'));

mass gmail