Škrabanie/šrotovanie údajov: (Väčšinou) legálny spôsob zberu vašich informácií

Sprievodca bezpečným prehliadaním, ako sa chrániť online
Sprievodca bezpečným prehliadaním, ako sa chrániť online
25. decembra 2021
Čo sú to biometrické údaje? Je moja identita ohrozená?
Čo sú to biometrické údaje? Je moja identita ohrozená?
31. decembra 2021
Keď zverejňujete informácie alebo obrázky na internete, vždy existuje riziko, že ich niekto zaznamená a nejakým spôsobom použije. Ale prax škrabania údajov (Data Scraping), pri ktorej sa automatizovane zhromažďuje veľké množstvo verejných informácií, túto možnosť takmer zaručila.

Data scraping – voľný preklad: škrabanie údajov („parsovanie“ údajov – analýza a následné zhromažďovanie údajov)

Čo je to škrabanie/šrotovanie údajov?

Pri škrabaní údajov sa na zaznamenávanie informácií, ktoré boli určené pre ľudské oči, používajú stroje/roboti. Najčastejšie sa to deje formou web scrapingu (analýzy internetových stránok), pri ktorom algoritmus kopíruje údaje z webovej stránky, pričom sa „vydáva“ za človeka. Webové škrabky bežne používajú spoločnosti na sledovanie webových stránok svojich konkurentov, pričom vyhľadávajú nové aktualizácie, zmeny zásob a cenové výkyvy. Cestovné portály analyzujú údaje z rôznych webových stránok leteckých spoločností a hotelov, aby používateľom ukázali porovnanie cien. Niektorí maloobchodníci tiež prehľadávajú Twitter a stránky s recenziami, ako napríklad Yelp, aby získali informácie o predaji.

V poslednom čase sa však škrabanie údajov používa na hromadné kopírovanie verejne dostupných informácií o jednotlivcoch na sociálnych sieťach. Hoci tieto informácie neboli na začiatku nikdy tajné, útočníci využívajúci „data scraping“ dokázali vytvoriť veľké, organizované databázy údajov, ktoré sú na predaj.

Škrabanie údajov vs. prehľadávanie webu vs. hacking

Vyhľadávače ako Google používajú webové prehľadávače („web crawlers“) na vyhľadávanie a zaznamenávanie stránok na internete, aby ich ľudia mohli vyhľadávať.

„Webový prehľadávač, pavúk alebo robot vyhľadávača sťahuje a indexuje obsah z celého internetu. Cieľom takéhoto bota je naučiť sa, o čom je (takmer) každá webová stránka na webe, aby bolo možné tieto informácie v prípade potreby vyhľadať. Nazývajú sa "web crawler", pretože crawling je technický termín pre automatický prístup k webovej lokalite a získavanie údajov prostredníctvom softvérového programu.“

Ide o vzájomnú spoluprácu medzi webovými prehľadávačmi (botmi) a webovými stránkami: Google chce vedieť, aký obsah webové stránky ponúkajú svojim používateľom, a majitelia webových stránok (zvyčajne) chcú, aby ich používatelia mohli ľahko nájsť (k tomu slúži napr. OnPage SEO – optimalizácie pre vyhľadávače).

Škrabky údajov sa pritom dajú považovať za parazitov. Nie sú zákazníkmi a neposkytujú webovej lokalite žiadnu spätnú hodnotu. Pri masívnom nasadení môžu preťažiť webové servery a spomaliť webové stránky pre ozajstných používateľov. Museli ste niekedy vyriešiť reCAPTCHA, aby ste „dokázali, že nie ste robot“? Je to čiastočná ochrana proti získavaniu údajov, no nie vždy účinná. Nie je to tak, že by webové stránky nechceli, aby sa ich údajov dotýkali iné stroje. Mnohé webové lokality poskytujú API alebo aplikačné programovacie rozhrania, softvér, ktorý umožňuje legitímnym aplikáciám a ich algoritmom pristupovať k databázam bez toho, aby upchali potrubia pre zákazníkov. Ak však program nepoužíva rozhranie API a namiesto toho sa pokúša analyzovať údaje z verejne prístupnej webovej stránky, ide o škrabanie údajov.

Nekontrolované škrabanie údajov môže byť pre spoločnosti a ich zákazníkov obrovským problémom, ktorý sa začína rovnať tradičným hackerským útokom a únikom údajov. Hackerský útok a škrabanie údajov má svoje rozdiely. „Hacking“ je obdobou krádeže: Útočník získa prístup k údajom, ktoré boli nejakým spôsobom chránené, zvyčajne heslom. Vyškrabávanie údajov je z morálneho hľadiska nejasnejšie. Príslušné údaje už boli technicky otvorené. Napríklad letecké spoločnosti už zverejňujú svoje ceny leteniek, aby pomohli potenciálnym zákazníkom, takže ak bot konkurencie použije tie isté informácie, je to naozaj „krádež“?

Je škrabanie údajov legálne?

Škrabanie webových údajov je teoreticky legálne. Povedzme, že kopírujete a vkladáte text z bezplatného zdroja, ako je napríklad Wikipédia, a rozhodnete sa napísať automatický skript, ktorý vám uľahčí prácu. Je to úplne legálne a nikomu to neškodí. Mnohé webové stránky však majú podmienky používania, ktoré výslovne zakazujú škrabanie údajov, ale dôsledky ich porušenia sa môžu dramaticky líšiť. Ak bolo škrabanie malého rozsahu, môžete jednoducho stratiť prístup k ich službe. Môžete však čeliť aj právnym krokom, najmä ak bolo používanie obsahu dostatočne rozsiahle na to, aby ovplyvnilo ich hospodárske výsledky.

To sa stalo, keď spoločnosť eBay zažalovala službu Bidder's Edge, ktorá zhromažďovala aukčné údaje vyškrabané z eBay, čo malo za následok približne 100 000 dodatočných požiadaviek na server denne. Spoločnosť eBay tvrdila, že Bidder's Edge sa dopustila „neoprávneného zásahu do hnuteľného majetku“ tým, že zasahovala do jej podnikania, čo viedlo k nezverejnenému vyrovnaniu v prospech spoločnosti eBay.

Ďalšie spoločnosti nasledovali tento príklad, najmä Craigslist (v. Padmapper), QVC (v. Resultly) a LinkedIn (v. hiQ), čím sa vytvorili ďalšie a ďalšie precedensy pre právne kroky proti škrabkám údajov.

Škrabanie údajov poškodzuje súkromie jednotlivcov

Až donedávna bol scraping problémom najmä pre podniky. Ale keď ide o sociálne médiá - kde „hlavným produktom ste vy“ - môže byť škrabanie údajov skutočným problémom pre súkromie jednotlivca. Začiatkom tohto roka sa na hackerskom fóre objavili osobné údaje viac ako 533 miliónov používateľov Facebooku vrátane telefónnych čísel, e-mailových adries a celých mien. Na rozdiel od iných veľkých únikov údajov neboli tieto údaje „hacknuté“. Až do roku 2019 boli verejne dostupné prostredníctvom medzery/chyby vo funkcii importu kontaktov na Facebooku a boli jednoducho vyškrabané.

Pravdepodobne najkontroverznejšia aplikácia škrabania údajov pochádza od spoločnosti Clearview AI. Spoločnosť Clearview, spoločný podnik austrálskeho technologického vývojára a amerického politika, využíva technológiu rozpoznávania tvárí a poskytuje policajným oddeleniam prístup k databáze s viac ako 3 miliardami fotografií tvárí vyškrabaných zo sociálnych médií. Po zadaní fotografie tváre podozrivého sa zobrazia všetky dostupné príspevky s touto tvárou.

Polícia tvrdí, že produkt spoločnosti Clearview je mimoriadne účinný pri chytaní zločincov, najmä tých, ktorí sa nenachádzajú v oficiálnych databázach orgánov činných v trestnom konaní. Stagnujúce prípady boli vyriešené v priebehu niekoľkých minút, pretože podozrivý sa náhodou objavil na pozadí nedávnej fotografie priateľa na Facebooku.

Spoločnosť Clearview tvrdí, že jej databáza viac ako 3 miliárd fotografií je spravodlivá, pretože každá z nich bola v čase, keď bola získaná, verejne dostupná na internete. Ak nechcete, aby sa vaše fotografie objavili v ich databáze, jednoducho nastavte nastavenia zdieľania na „súkromné“ alebo ešte lepšie, žiadne fotky na sociálne siete nedávajte. Tým sa však, samozrejme, vaše fotografie, ktoré už boli vyškrabané, spätne neodstránia. Takisto to nepomôže ľuďom, ktorých tvár sa môže jednoducho objaviť na pozadí fotografie iného používateľa. A vzhľadom na milióny ľudí, ktorí každú sekundu zverejňujú fotografie na sociálnych sieťach, je čoraz ťažšie tomu zabrániť.

Okrem obmedzenia toho, aké fotografie a osobné údaje zverejňujete, môžete urobiť len málo, aby ste zabránili tomu, aby boli akékoľvek existujúce informácie o vás online zošrotované.

Budúcnosť škrabania dát

Právne predpisy zatiaľ nezachytili prax škrabania údajov, ale objavujú sa náznaky právneho tlaku. Austrálske orgány nedávno nariadili spoločnosti Clearview, aby odstránila fotografie Austrálčanov zo svojich databáz. Spoločnosť Clearview tvrdí, že príkaz nemá právomoc, pretože spoločnosť Clearview „nepodniká“ v Austrálii. Pri databáze s miliardami ľudských tvárí je však ťažké presadzovať zákony založené na fyzických hraniciach. Budú tradičné právne predpisy stačiť na obmedzenie vplyvu zberu údajov na súkromie?

Ako prebieha škrabanie údajov

Proces škrabania webových stránok je pomerne jednoduchý, hoci jeho realizácia môže byť zložitá. Škrabanie webu prebieha v 3 krokoch:

  1. Najprv časť kódu, ktorá sa používa na získavanie informácií a ktorú nazývame scraper bot, odošle požiadavku HTTP GET na konkrétnu webovú lokalitu.
  2. Keď webová lokalita odpovie, škrabací robot analyzuje dokument HTML a hľadá v ňom určitý vzor údajov.
  3. Po získaní údajov sa tieto údaje prevedú do špecifického formátu, ktorý navrhol autor scraper bota.
Škrabacie roboty môžu byť navrhnuté na rôzne účely, ako napr:

  • Škrabanie obsahu - obsah možno vytiahnuť z webovej lokality s cieľom zopakovať jedinečnú výhodu konkrétneho produktu alebo služby, ktorá sa spolieha na obsah. Napríklad produkt, ako je Yelp, sa spolieha na recenzie; konkurent by mohol zoškrabať všetok obsah recenzií z Yelpu a reprodukovať ho na svojom vlastnom webe, pričom by predstieral, že obsah je pôvodný (pomerne bežná vec).
  • Vyškrabávanie cien - vyškrabávaním údajov o cenách môžu konkurenti zhromažďovať informácie o svojej konkurencii. To im môže umožniť formulovať jedinečnú výhodu.
  • Škrabanie kontaktov - veľa webových stránok obsahuje e-mailové adresy a telefónne čísla v otvorenom texte. Škrabaním lokalít, ako je napríklad online adresár zamestnancov, dokáže škrabák agregovať kontaktné údaje pre zoznamy hromadnej pošty, robotické hovory alebo pokusy o zlomyseľné sociálne inžinierstvo. Ide o jednu z hlavných metód, ktorú spammeri aj podvodníci používajú na vyhľadávanie nových cieľov.
Ďakujem, že ste sa dostali až sem. Ak sa vám článok páčil, zdieľajte ho medzi svojimi známymi (budeme radi). Chcem vás upozorniť aj na to, že nikdy nečerpajte informácie iba z jedného zdroja a informácie si overujte.

Zdroj:
https://www.cloudflare.com/learning/bots/what-is-data-scraping/
https://www.expressvpn.com/blog/data-scraping-a-mostly-legal-way-to-harvest-your-information/
https://www.cloudflare.com/learning/bots/what-is-a-web-crawler/