Har blocket blockerat crawlers/scrapers?

Permalänk

Har blocket blockerat crawlers/scrapers?

Sitter och försöker scrapa lite information med hjälp av Scrapy ramverket till Python.
Men varje gång jag kör det får jag en redirect till "<GET https://www.blocket.se/robots.txt>".

Finns det sätt att gå runt detta eller bryter jag mot någon lag som försöker crawla blocket.se?

Vill ju bara ha lite kul data på produkter

Permalänk
Medlem

Du kan ju läsa deras robot.txt som du blir redirectad till

https://www.blocket.se/robots.txt

Vet inte om det är ett explicit lagbrott, det överlåter jag till mer kunniga att avgöra

Visa signatur

| EVGA Z170 FTW | i7 6700k | ASUS RTX 3070 | 16GB DDR4 3200MHz | Cooler Master V850 | Samsung 840 Evo 250GB + 2x WD Black 500GB + Seagate 2TB SSHD + Samsung 970 Evo M.2 500GB |

Permalänk

@BrutalSwede:

Jo jag läste den. Men jag är inte med på om det faktiskt är olagligt att försöka crawla deras hemsida eller om det bara är Blocket som inte tycker om det?

Permalänk
Sötast

Har blocket blockerat crawlers/scrapers?

Citat:

# Det är uttryckligen förbjudet att använda sökrobotar eller andra
# automatiska metoder för att tillgå blocket.se. Endast om blocket.se
# givit särskilt tillstånd får sådan access ske.

Så, mest troligt?

Permalänk

@Allexz:

Men är det olagligt eller är det bara Blockets egna policy som gör det svårare för mig än det kunde vara?

Permalänk
Medlem

Löjligt. Allt man hittar får man läsa, dock inte använda kommersiellt!

Skickades från m.sweclockers.com

Permalänk
Medlem
Skrivet av brittaspjut:

@Allexz:

Men är det olagligt eller är det bara Blockets egna policy som gör det svårare för mig än det kunde vara?

Vad jag kan läsa mig till så är robot.txt någonting som inte är krav på att följa, men som alla stora crawlers respekterar. Skulle väl dock avråda från att kringgå den.

Disclaimer: Jag är inte lagkunnig, det kan finnas platser där det är olagligt att kringgå robot.txt.

Visa signatur

| EVGA Z170 FTW | i7 6700k | ASUS RTX 3070 | 16GB DDR4 3200MHz | Cooler Master V850 | Samsung 840 Evo 250GB + 2x WD Black 500GB + Seagate 2TB SSHD + Samsung 970 Evo M.2 500GB |

Permalänk
Medlem

Hittade detta: https://lawline.se/answers/ar-web-crawling-laglig

Efter denna googlesökning: https://bit.ly/2SXzdYQ

Är dock ingen jurist eller något så du får tolka själv

Permalänk
Medlem

Blocket/Schibsted har ju villkor för hur folk/företag får använda deras tjänst och bör därför inte gärna behöva ljuga om lagen och huruvida man bryter mot den?

Saxat från Regler för blocket.se

Citat:

Immateriella rättigheter

Blocket, eller Blockets licensgivare, innehar de immateriella rättigheterna till text, bild, design och det övriga material och information som görs tillgängligt för dig genom din användning av Tjänsterna. Samma sak gäller den bakomliggande programkoden för Tjänsterna. Sådant material och information får inte användas på annat sätt än inom ramen för normal användning av Tjänsterna. Om inte annat anges är allt material Blockets exklusiva egendom.

Du får skriva ut enskilda sidor från Webbplatsen men du får i övrigt inte kopiera, reproducera, publicera, ladda upp, skicka eller distribuera något material eller någon information på Webbplatsen utan föregående skriftligt tillstånd från Blocket.

Användning av automatiserade tjänster såsom robotar, spindlar, indexering och liknande samt andra metoder för systematisk användning av innehållet på Webbplatsen är inte tillåtet utan föregående skriftligt tillstånd från Blocket.

All otillåten användning medför ersättningsskyldighet. Den som avsiktligt eller genom grov oaktsamhet bryter mot lagen kan straffas med böter eller fängelse upp till två år och bli dömd att betala skadestånd.

Visa signatur

Burk:Ryzen 2700X~Asus Prime X470-Pro~G.Skill Flare X 16GB 3200 | Dark Rock Pro 4 | Asus GTX 970 | 3SSD+1HDD | Fractal Design R6 | AW3418DW | Logitech G810~Logitech G502 | argon C1~Argon DA1
Unraid:Xeon E3-1275~Supermicro X11SSH-LN4F~32GB Crucial DDR4 ECC | JBOD 12TB

Permalänk
Skrivet av Can0n:

Hittade detta: https://lawline.se/answers/ar-web-crawling-laglig

Efter denna googlesökning: https://bit.ly/2SXzdYQ

Är dock ingen jurist eller något så du får tolka själv

Det verkar ju ganska lovande.

Vill inte bryta mot någon lag. Men det är rätt kul med data och finns mycket roligt man skulle kunna göra om man hämtade blockets data för olika produkter under en längre tid

Permalänk
Skrivet av DeadMeat1234:

Blocket/Schibsted har ju villkor för hur folk/företag får använda deras tjänst och bör därför inte gärna behöva ljuga om lagen och huruvida man bryter mot den?

Saxat från Regler för blocket.se

Att hämta data från Blockets sida såsom priser och andra variabler är ju inte att använda något som blocket själva utvecklat.

Och vilken lag är det man bryter mot om man tar det? Är det inte okej att titta på priserna i en butik för att sedan informera andra människor om att det är billigare om du köper din kofta på våren än hösten?

Permalänk
Medlem
Skrivet av brittaspjut:

Att hämta data från Blockets sida såsom priser och andra variabler är ju inte att använda något som blocket själva utvecklat.

Vilka har då utvecklat dem, har de uppstått helt spontant? Var ligger datat? Det ligger i Blockets databas.

Du får så gärna gå omkring i butiker och skriva ned priser och återge men det är ju inte det du vill göra. Du vill använda en bot för att göra det automatiskt vilket är något helt annat.

Om du kollar länken som någon annan lade in angavs just upphovsrätt som eventuellt problem och det är precis vad Blocket lutar sig mot med hänvisning till immaterialrätt. Sen är det en annan fråga om det är något som någonsin testats i rätten och det vet jag inget om.

Men, du får inte använda Blockets tjänster utan att följa deras regler, i reglerna står det att man inte får samla in data med hjälp av bottar och scripts.

Visa signatur

Burk:Ryzen 2700X~Asus Prime X470-Pro~G.Skill Flare X 16GB 3200 | Dark Rock Pro 4 | Asus GTX 970 | 3SSD+1HDD | Fractal Design R6 | AW3418DW | Logitech G810~Logitech G502 | argon C1~Argon DA1
Unraid:Xeon E3-1275~Supermicro X11SSH-LN4F~32GB Crucial DDR4 ECC | JBOD 12TB

Permalänk

Inom dom ehandelssidor jag jobbar med så har vi 'honey-pot' länkar i sidorna som i vissa fall tas upp i robot.txt ej att 'crawlas' men som vid hämtning bjuder på en perm-ban direkt på IP't. Bland annat utan att gå allt för djupt på lösningarna.

Permalänk
Medlem

Utan att ingå i debatten om det är ok eller inte, du kan enkelt kringgå robots.txt blockeringen i scrapy:
Ändra settings.py i projekt mappen och lägg till variabeln:

ROBOTSTXT_OBEY=False

Visa signatur

i7 8700K | Noctua NH-D15 | ASUS Z370-F | EVGA SuperNova G2 750W | Corsair Vengeance 4x8GB @ 3400MHz CL16 | KFA2 RTX2080 Super | Samsung 970 EVO Plus 2TB | LG OLED C2 42" | ASUS PG279Q

Permalänk

tips, gör det anonymt: använd TOR

Ytterliggare tips är att köra alla requests genom TOR-nätverket, byt exit point (=IP) ofta, byt UserAgent i headern ofta, och crawla långsamt så går det nog bra. Dock så kommer det ta ett tag då det finns en hel del annonser på blocket...