• DOMOV
  • ČLÁNKY
  • Tvorba WordPress stránok
  • DOMOV
  • ČLÁNKY
  • Tvorba WordPress stránok
  • DOMOV
  • ČLÁNKY
  • Tvorba WordPress stránok

Škrabanie/šrotovanie údajov: (Väčšinou) legálny spôsob zberu vašich informácií

Sprievodca bezpečným prehliadaním, ako sa chrániť online
Sprievodca bezpečným prehliadaním, ako sa chrániť online
25. decembra 2021
Čo sú to biometrické údaje? Je moja identita ohrozená?
Čo sú to biometrické údaje? Je moja identita ohrozená?
31. decembra 2021
Škrabanie údajov
Keď zverejňujete informácie alebo obrázky na internete, vždy existuje riziko, že ich niekto zaznamená a nejakým spôsobom použije. Ale prax škrabania údajov (Data Scraping), pri ktorej sa automatizovane zhromažďuje veľké množstvo verejných informácií, túto možnosť takmer zaručila.

Data scraping – voľný preklad: škrabanie údajov („parsovanie“ údajov – analýza a následné zhromažďovanie údajov)

Čo je to škrabanie/šrotovanie údajov?

Pri škrabaní údajov sa na zaznamenávanie informácií, ktoré boli určené pre ľudské oči, používajú stroje/roboti. Najčastejšie sa to deje formou web scrapingu (analýzy internetových stránok), pri ktorom algoritmus kopíruje údaje z webovej stránky, pričom sa „vydáva“ za človeka. Webové škrabky bežne používajú spoločnosti na sledovanie webových stránok svojich konkurentov, pričom vyhľadávajú nové aktualizácie, zmeny zásob a cenové výkyvy. Cestovné portály analyzujú údaje z rôznych webových stránok leteckých spoločností a hotelov, aby používateľom ukázali porovnanie cien. Niektorí maloobchodníci tiež prehľadávajú Twitter a stránky s recenziami, ako napríklad Yelp, aby získali informácie o predaji.

V poslednom čase sa však škrabanie údajov používa na hromadné kopírovanie verejne dostupných informácií o jednotlivcoch na sociálnych sieťach. Hoci tieto informácie neboli na začiatku nikdy tajné, útočníci využívajúci „data scraping“ dokázali vytvoriť veľké, organizované databázy údajov, ktoré sú na predaj.
zhromažďovanie údajov

Škrabanie údajov vs. prehľadávanie webu vs. hacking

Vyhľadávače ako Google používajú webové prehľadávače („web crawlers“) na vyhľadávanie a zaznamenávanie stránok na internete, aby ich ľudia mohli vyhľadávať.

„Webový prehľadávač, pavúk alebo robot vyhľadávača sťahuje a indexuje obsah z celého internetu. Cieľom takéhoto bota je naučiť sa, o čom je (takmer) každá webová stránka na webe, aby bolo možné tieto informácie v prípade potreby vyhľadať. Nazývajú sa "web crawler", pretože crawling je technický termín pre automatický prístup k webovej lokalite a získavanie údajov prostredníctvom softvérového programu.“

Ide o vzájomnú spoluprácu medzi webovými prehľadávačmi (botmi) a webovými stránkami: Google chce vedieť, aký obsah webové stránky ponúkajú svojim používateľom, a majitelia webových stránok (zvyčajne) chcú, aby ich používatelia mohli ľahko nájsť (k tomu slúži napr. OnPage SEO – optimalizácie pre vyhľadávače).

Škrabky údajov sa pritom dajú považovať za parazitov. Nie sú zákazníkmi a neposkytujú webovej lokalite žiadnu spätnú hodnotu. Pri masívnom nasadení môžu preťažiť webové servery a spomaliť webové stránky pre ozajstných používateľov. Museli ste niekedy vyriešiť reCAPTCHA, aby ste „dokázali, že nie ste robot“? Je to čiastočná ochrana proti získavaniu údajov, no nie vždy účinná. Nie je to tak, že by webové stránky nechceli, aby sa ich údajov dotýkali iné stroje. Mnohé webové lokality poskytujú API alebo aplikačné programovacie rozhrania, softvér, ktorý umožňuje legitímnym aplikáciám a ich algoritmom pristupovať k databázam bez toho, aby upchali potrubia pre zákazníkov. Ak však program nepoužíva rozhranie API a namiesto toho sa pokúša analyzovať údaje z verejne prístupnej webovej stránky, ide o škrabanie údajov.

Nekontrolované škrabanie údajov môže byť pre spoločnosti a ich zákazníkov obrovským problémom, ktorý sa začína rovnať tradičným hackerským útokom a únikom údajov. Hackerský útok a škrabanie údajov má svoje rozdiely. „Hacking“ je obdobou krádeže: Útočník získa prístup k údajom, ktoré boli nejakým spôsobom chránené, zvyčajne heslom. Vyškrabávanie údajov je z morálneho hľadiska nejasnejšie. Príslušné údaje už boli technicky otvorené. Napríklad letecké spoločnosti už zverejňujú svoje ceny leteniek, aby pomohli potenciálnym zákazníkom, takže ak bot konkurencie použije tie isté informácie, je to naozaj „krádež“?

Je škrabanie údajov legálne?

Škrabanie webových údajov je teoreticky legálne. Povedzme, že kopírujete a vkladáte text z bezplatného zdroja, ako je napríklad Wikipédia, a rozhodnete sa napísať automatický skript, ktorý vám uľahčí prácu. Je to úplne legálne a nikomu to neškodí. Mnohé webové stránky však majú podmienky používania, ktoré výslovne zakazujú škrabanie údajov, ale dôsledky ich porušenia sa môžu dramaticky líšiť. Ak bolo škrabanie malého rozsahu, môžete jednoducho stratiť prístup k ich službe. Môžete však čeliť aj právnym krokom, najmä ak bolo používanie obsahu dostatočne rozsiahle na to, aby ovplyvnilo ich hospodárske výsledky.

To sa stalo, keď spoločnosť eBay zažalovala službu Bidder's Edge, ktorá zhromažďovala aukčné údaje vyškrabané z eBay, čo malo za následok približne 100 000 dodatočných požiadaviek na server denne. Spoločnosť eBay tvrdila, že Bidder's Edge sa dopustila „neoprávneného zásahu do hnuteľného majetku“ tým, že zasahovala do jej podnikania, čo viedlo k nezverejnenému vyrovnaniu v prospech spoločnosti eBay.

Ďalšie spoločnosti nasledovali tento príklad, najmä Craigslist (v. Padmapper), QVC (v. Resultly) a LinkedIn (v. hiQ), čím sa vytvorili ďalšie a ďalšie precedensy pre právne kroky proti škrabkám údajov.

Škrabanie údajov poškodzuje súkromie jednotlivcov

Až donedávna bol scraping problémom najmä pre podniky. Ale keď ide o sociálne médiá - kde „hlavným produktom ste vy“ - môže byť škrabanie údajov skutočným problémom pre súkromie jednotlivca. Začiatkom tohto roka sa na hackerskom fóre objavili osobné údaje viac ako 533 miliónov používateľov Facebooku vrátane telefónnych čísel, e-mailových adries a celých mien. Na rozdiel od iných veľkých únikov údajov neboli tieto údaje „hacknuté“. Až do roku 2019 boli verejne dostupné prostredníctvom medzery/chyby vo funkcii importu kontaktov na Facebooku a boli jednoducho vyškrabané.

Pravdepodobne najkontroverznejšia aplikácia škrabania údajov pochádza od spoločnosti Clearview AI. Spoločnosť Clearview, spoločný podnik austrálskeho technologického vývojára a amerického politika, využíva technológiu rozpoznávania tvárí a poskytuje policajným oddeleniam prístup k databáze s viac ako 3 miliardami fotografií tvárí vyškrabaných zo sociálnych médií. Po zadaní fotografie tváre podozrivého sa zobrazia všetky dostupné príspevky s touto tvárou.

Polícia tvrdí, že produkt spoločnosti Clearview je mimoriadne účinný pri chytaní zločincov, najmä tých, ktorí sa nenachádzajú v oficiálnych databázach orgánov činných v trestnom konaní. Stagnujúce prípady boli vyriešené v priebehu niekoľkých minút, pretože podozrivý sa náhodou objavil na pozadí nedávnej fotografie priateľa na Facebooku.

Spoločnosť Clearview tvrdí, že jej databáza viac ako 3 miliárd fotografií je spravodlivá, pretože každá z nich bola v čase, keď bola získaná, verejne dostupná na internete. Ak nechcete, aby sa vaše fotografie objavili v ich databáze, jednoducho nastavte nastavenia zdieľania na „súkromné“ alebo ešte lepšie, žiadne fotky na sociálne siete nedávajte. Tým sa však, samozrejme, vaše fotografie, ktoré už boli vyškrabané, spätne neodstránia. Takisto to nepomôže ľuďom, ktorých tvár sa môže jednoducho objaviť na pozadí fotografie iného používateľa. A vzhľadom na milióny ľudí, ktorí každú sekundu zverejňujú fotografie na sociálnych sieťach, je čoraz ťažšie tomu zabrániť.

Okrem obmedzenia toho, aké fotografie a osobné údaje zverejňujete, môžete urobiť len málo, aby ste zabránili tomu, aby boli akékoľvek existujúce informácie o vás online zošrotované.
scrap-data2

Budúcnosť škrabania dát

Právne predpisy zatiaľ nezachytili prax škrabania údajov, ale objavujú sa náznaky právneho tlaku. Austrálske orgány nedávno nariadili spoločnosti Clearview, aby odstránila fotografie Austrálčanov zo svojich databáz. Spoločnosť Clearview tvrdí, že príkaz nemá právomoc, pretože spoločnosť Clearview „nepodniká“ v Austrálii. Pri databáze s miliardami ľudských tvárí je však ťažké presadzovať zákony založené na fyzických hraniciach. Budú tradičné právne predpisy stačiť na obmedzenie vplyvu zberu údajov na súkromie?

Ako prebieha škrabanie údajov

Proces škrabania webových stránok je pomerne jednoduchý, hoci jeho realizácia môže byť zložitá. Škrabanie webu prebieha v 3 krokoch:

  1. Najprv časť kódu, ktorá sa používa na získavanie informácií a ktorú nazývame scraper bot, odošle požiadavku HTTP GET na konkrétnu webovú lokalitu.
  2. Keď webová lokalita odpovie, škrabací robot analyzuje dokument HTML a hľadá v ňom určitý vzor údajov.
  3. Po získaní údajov sa tieto údaje prevedú do špecifického formátu, ktorý navrhol autor scraper bota.
Škrabacie roboty môžu byť navrhnuté na rôzne účely, ako napr:

  • Škrabanie obsahu - obsah možno vytiahnuť z webovej lokality s cieľom zopakovať jedinečnú výhodu konkrétneho produktu alebo služby, ktorá sa spolieha na obsah. Napríklad produkt, ako je Yelp, sa spolieha na recenzie; konkurent by mohol zoškrabať všetok obsah recenzií z Yelpu a reprodukovať ho na svojom vlastnom webe, pričom by predstieral, že obsah je pôvodný (pomerne bežná vec).
  • Vyškrabávanie cien - vyškrabávaním údajov o cenách môžu konkurenti zhromažďovať informácie o svojej konkurencii. To im môže umožniť formulovať jedinečnú výhodu.
  • Škrabanie kontaktov - veľa webových stránok obsahuje e-mailové adresy a telefónne čísla v otvorenom texte. Škrabaním lokalít, ako je napríklad online adresár zamestnancov, dokáže škrabák agregovať kontaktné údaje pre zoznamy hromadnej pošty, robotické hovory alebo pokusy o zlomyseľné sociálne inžinierstvo. Ide o jednu z hlavných metód, ktorú spammeri aj podvodníci používajú na vyhľadávanie nových cieľov.
Ďakujem, že ste sa dostali až sem. Ak sa vám článok páčil, zdieľajte ho medzi svojimi známymi (budeme radi). Chcem vás upozorniť aj na to, že nikdy nečerpajte informácie iba z jedného zdroja a informácie si overujte.

Zdroj:
https://www.cloudflare.com/learning/bots/what-is-data-scraping/
https://www.expressvpn.com/blog/data-scraping-a-mostly-legal-way-to-harvest-your-information/
https://www.cloudflare.com/learning/bots/what-is-a-web-crawler/

Súvisiace články

Prečo by ste sa mali zaujímať o NFT
7. januára 2022

Prečo by ste sa mali zaujímať o NFT


Čítaj viac
Čo sú to biometrické údaje? Je moja identita ohrozená?
31. decembra 2021

Čo sú to biometrické údaje? Je moja identita ohrozená?


Čítaj viac
Sprievodca bezpečným prehliadaním, ako sa chrániť online
25. decembra 2021

Sprievodca bezpečným prehliadaním, ako sa chrániť online


Čítaj viac

Sleduj nás aj na Facebooku

Vyhľadávanie

✕

Posledné príspevky

  • Prečo by ste sa mali zaujímať o NFT
    Prečo by ste sa mali zaujímať o NFT
    7. januára 2022
  • Čo sú to biometrické údaje? Je moja identita ohrozená?
    Čo sú to biometrické údaje? Je moja identita ohrozená?
    31. decembra 2021
  • Škrabanie údajov
    Škrabanie/šrotovanie údajov: (Väčšinou) legálny spôsob zberu vašich informácií
    31. decembra 2021
  • Sprievodca bezpečným prehliadaním, ako sa chrániť online
    Sprievodca bezpečným prehliadaním, ako sa chrániť online
    25. decembra 2021
  • Počiatok zdravotného sledovania?
    12. apríla 2021

Kategórie

  • Čudo Miniséria
  • Čudo na Infovojna.sk
  • Gameplaye
  • Iné
  • Nástroje a návody
  • Recenzie na hry
  • Správy
  • Videá
  • Zaújimavosti
Čudo | 2019 | Obsah stránky používajte ako sa vám zachce, dúfame, že pomohlo...
Súbory cookie S cieľom zabezpečiť riadne fungovanie tejto webovej lokality ukladáme niekedy na vašom zariadení malé dátové súbory, tzv. cookie. Je to bežná prax väčšiny veľkých webových lokalít.
Prijať cookies
Odmietnuť cookies
Prečítať viac
Nastavenie cookies
Okno s nastavením cookie
Okno s nastavením cookie

Nastavenie súkromia

Rozhodnite sa, ktoré cookies chcete povoliť. Toto nastavenie môžete kedykoľvek zmeniť. Môže sa ale stať, že niektoré funkcie už nebudú dostupné. Pre informácie o zmazanie cookies, sa obráťte na nápovedu vášho prehliadača. ZISTIŤ VIAC O COOKIES, KTORÉ POUŽÍVAME.

Pomocou posuvníka môžete povoliť alebo zakázať rôzne typy cookies:

  • Block all
  • Essential
  • Functionality
  • Analytics
  • Advertising

Táto stránka bude

  • Základná: Zapamätá si vaše nastavenia povolenie cookie
  • Základná: Umožní relácii cookies
  • Základná: Zbiera informácie, ktoré ste vložili do kontaktných formulárov pre newsletter a ďalších formulárov na všetkých stránkach
  • Základná: Sleduje, čo ste vložili do nákupného košíka
  • Základná: Overí, že ste prihlásení na váš užívateľský účet
  • Základná: Zapamätá si vami vybranú verziu jazyka

Táto stránka nebude

  • Pamätá si vaše prihlasovacie údaje
  • Funkcionality: Zapamätá si nastavenie sociálnych sietí
  • Funkcionality: Zapamätá si vami vybraný región a krajinu
  • Analytics: Sleduje vami navštívené stránky a vykonané interakcie
  • Analytics: Sleduje vašu polohu a región na základe IP adresy
  • Analytics: Sleduje váš čas strávený na každej stránke
  • Analytics: Zvyšuje kvalitu dát štatistických funkcií
  • Reklamná: Prispôsobí informácie a reklamu podľa vašich potreb napríklad na základe obsahu, ktorý ste predtým prezerali. (Momentálne nepoužívame cielené cookies)
  • Reklamná: Zhromažďuje osobne identifikovateľné informácie ako je meno a poloha

Táto stránka bude

  • Základná: Zapamätá si vaše nastavenia povolenie cookie
  • Základná: Umožní relácii cookies
  • Základná: Zbiera informácie, ktoré ste vložili do kontaktných formulárov pre newsletter a ďalších formulárov na všetkých stránkach
  • Základná: Sleduje, čo ste vložili do nákupného košíka
  • Základná: Overí, že ste prihlásení na váš užívateľský účet
  • Základná: Zapamätá si vami vybranú verziu jazyka
  • Funkcionality: Zapamätá si nastavenie sociálnych sietí
  • Funkcionality: Zapamätá si vami vybraný región a krajinu

Táto stránka nebude

  • Analytics: Sleduje vami navštívené stránky a vykonané interakcie
  • Analytics: Sleduje vašu polohu a región na základe IP adresy
  • Analytics: Sleduje váš čas strávený na každej stránke
  • Analytics: Zvyšuje kvalitu dát štatistických funkcií
  • Reklamná: Prispôsobí informácie a reklamu podľa vašich potreb napríklad na základe obsahu, ktorý ste predtým prezerali. (Momentálne nepoužívame cielené cookies)
  • Reklamná: Zhromažďuje osobne identifikovateľné informácie ako je meno a poloha

Táto stránka bude

  • Základná: Zapamätá si vaše nastavenia povolenie cookie
  • Základná: Umožní relácii cookies
  • Základná: Zbiera informácie, ktoré ste vložili do kontaktných formulárov pre newsletter a ďalších formulárov na všetkých stránkach
  • Základná: Sleduje, čo ste vložili do nákupného košíka
  • Základná: Overí, že ste prihlásení na váš užívateľský účet
  • Základná: Zapamätá si vami vybranú verziu jazyka
  • Funkcionality: Zapamätá si nastavenie sociálnych sietí
  • Funkcionality: Zapamätá si vami vybraný región a krajinu
  • Analytics: Sleduje vami navštívené stránky a vykonané interakcie
  • Analytics: Sleduje vašu polohu a región na základe IP adresy
  • Analytics: Sleduje váš čas strávený na každej stránke
  • Analytics: Zvyšuje kvalitu dát štatistických funkcií

Táto stránka nebude

  • Reklamná: Prispôsobí informácie a reklamu podľa vašich potreb napríklad na základe obsahu, ktorý ste predtým prezerali. (Momentálne nepoužívame cielené cookies)
  • Reklamná: Zhromažďuje osobne identifikovateľné informácie ako je meno a poloha

Táto stránka bude

  • Funkcionality: Zapamätá si nastavenie sociálnych sietí
  • Funkcionality: Zapamätá si vami vybraný región a krajinu
  • Analytics: Sleduje vami navštívené stránky a vykonané interakcie
  • Analytics: Sleduje vašu polohu a región na základe IP adresy
  • Analytics: Sleduje váš čas strávený na každej stránke
  • Analytics: Zvyšuje kvalitu dát štatistických funkcií
  • Reklamná: Prispôsobí informácie a reklamu podľa vašich potreb napríklad na základe obsahu, ktorý ste predtým prezerali. (Momentálne nepoužívame cielené cookies)
  • Reklamná: Zhromažďuje osobne identifikovateľné informácie ako je meno a poloha

Táto stránka nebude

  • Pamätá si vaše prihlasovacie údaje
Uložiť a zatvoriť