Back to Question Center
0

Semalt: Вядомыя Unscrapable сайты

1 answers:

Для таго, каб ачысціць дадзеныя, якія вы хочаце ўручную, вы павінны мець выдатныя навыкі праграмавання. У якасці альтэрнатывы, можна выкарыстоўваць шэраг інструмента здабывання вэб дадзеных , якія накіраваны на чытанне, структура і скрэбці дадзеныя ў пэўным фармаце. Тым не менш, некаторыя вэб-сайты unscrapable, што азначае, што яны альбо выкарыстоўваць анты-соскоб метады або рэгулярна мяняць іх разметку. Напрыклад, LinkedIn, Алибаба і Facebook патрабуюць рэгістрацыйных дадзеных, прапануе ўвесці CAPTCHA, і блок IP-адрасы, каб забяспечыць абарону і канфідэнцыяльнасць сваіх карыстальнікаў.

1. Facebook:

facebook з'яўляецца адным з самых вядомых сацыяльных сетак, якая мае больш за 20 мільёнаў актыўных карыстальнікаў па ўсім свеце - commercial appraisal. Ёсць вялікая колькасць прыкладанняў і дадзеных скребкового праграм, якія накіраваны на выманне індывідуальнай інфармацыі з Facebook. На жаль, большасць інструментаў не даюць нам дакладныя і счытваць дадзеныя. Facebook ўскладняла для спамераў і хакераў для збору інфармацыі аб сваіх карыстачах. Яна можа быць атрымана толькі з дапамогай HTML-парсер, такіх як Python, але большасць вэб-майстроў і фрылансераў нават не знаёмыя з асновамі Python. Зусім нядаўна, скрабок Facebook быў запушчаны, каб атрымаць важную інфармацыю з гэтай сацыяльнай сеткі вэб-сайта. З дапамогай скрабка Facebook, вы можаце атрымаць толькі імёны і адрасы электроннай пошты карыстальнікаў Facebook. Але калі вы хочаце, каб сабраць паглыбленыя дадзеныя, вы не можаце выкарыстоўваць гэты інструмент або любы іншы падобны скрабок.

2. LinkedIn:

LinkedIn з'яўляецца яшчэ сайт сацыяльнай сеткі, што немагчыма саскрабці. Тым не менш, вы можаце часткова выняць дадзеныя з некалькіх вэб-старонак, але большая частка інфармацыі недаступная. Вы можаце толькі скрэбці інфармацыю з агульнага профілю LinkedIn з дапамогай імпарту. І.В. або Кімано Labs. Маркетолагі не могуць скарыстацца паслугамі скребкового з-за строгія меры бяспекі ў LinkedIn. Тым не менш, яны пачалі выкарыстоўваць Lead Extractor, які дапамагае саскрабці агульнадаступныя профілі. Гэты інструмент можа драпаць профілю спасылкі, імёны і адрасы электроннай пошты толькі. Але калі вы хочаце атрымаць Skype ID, Yahoo Messenger ID, поўны адрас і Twitter ідэнтыфікатар карыстальніка, LinkedIn не дазволіць вам зрабіць гэта.

3. Алибаба:

Alibaba з'яўляецца тэхналогія кангламерат, якая забяспечвае бізнес-спажывец паслуг онлайн. На жаль, няма ніякага спосабу, каб ачысціць дадзеныя з гэтага сайта. У адрозненне ад Amazon і eBay, Alibaba ўскладняла для сваіх карыстальнікаў, каб атрымаць інфармацыю аб сваіх прадуктах, малюнка, апісанні і цэны. У 2015 годзе шэраг інструментаў, якія могуць драпаць дадзеныя з Alibaba з лёгкасцю былі прадстаўлены грамадскасці. Большасць інструментаў аплачваюцца і не прыдумалі чакання стартапов. Alibaba працуе шырокі масіў бізнесу ва ўсім свеце і злучае пакупнікоў з пастаўшчыкамі. У той жа час, ён забяспечвае іх канфідэнцыяльнасць і не дазваляйце нікому скрэбці дадзеныя. Па стане на кастрычнік 2017 года, Alibaba мае больш за 500 мільёнаў актыўных карыстальнікаў штомесяц па ўсіх сваёй платформе. Alibaba нават апярэдзілі асноўныя аблокі гульцы, такія як Amazon, Google і Microsoft у росце даходаў аблокі. Ён рэалізаваў лепшыя стратэгіі для забеспячэння прыватнасці і блакуе яе пастаўшчыкоў ўсе падазроныя IP-адрасы на працягу некалькіх секунд.

December 22, 2017