Programmera web-spindel men i vilket språk?

Permalänk
Medlem

Programmera web-spindel men i vilket språk?

Jag har ett projekt tillsammans med en kompis där vi kommer att behöva indexera vissa websidor och behöver därför en spindel som först hittar dessa och sedan plockar ur viss fakta ur de intressanta sidorna. Frågan är dock vilket språk man skall använda om man vill att det skall skala bra och samtidigt hålla utvecklingstiden nere.

Då är alltså frågan vilket språk med vilka bibliotek/moduler/ramverk som lämpar sig för detta. Har använt perl något, där finns väldigt fina moduler som löser alltihop men funderar på om det finns några andra språk som kanske klarar det bättre. Är lite fundersam på interpreterande språk när det gäller att skala upp det, skall man istället kolla på ett kompilerande språk för att komma runt eventuella minnesläckor (som jag vet finns i vissa andra scriptspråk) samt öka prestandan eller kommer programmet vara begränsat av nätverket oavsett språk?

Dela gärna kortfattat med er av era tankar, tackar på förhand!

Permalänk

Jag tror Perl skulle vara ett lämpligt språk, kan ni det redan och har utvecklat i det tidigare är det ett givet val, jag tror inte C++ är vettigare då som du själv säger, nätverket är den största flaskhalsen.

Tror Perl har såpass lite minnesluckor att det inte spelar någon större roll.

Permalänk
Medlem

Annars kan ju Java fungera rätt bra, då stödet för strängar och nätverk är rätt bra.

Permalänk
Medlem

Perl är väldigt bra för detta.

Du skall inte kolla på kompilerade språk för att undvika minnesläckor, framförallt inte C ;). Perl har inga minnesläckor, perl kanske har dock.

Permalänk
Glömsk

Kom ihåg att läsa robots.txt så att du inte "spindlar" något serverägaren ogillar.

Visa signatur

...man is not free unless government is limited. There's a clear cause and effect here that is as neat and predictable as a law of physics: As government expands, liberty contracts.

Permalänk
Medlem
Citat:

Ursprungligen inskrivet av Vijjje
Perl är väldigt bra för detta.

Du skall inte kolla på kompilerade språk för att undvika minnesläckor, framförallt inte C ;). Perl har inga minnesläckor, perl kanske har dock.

Hur menar du?

Visa signatur

AMD Phenom2 X4 965 BE (3400 MHz) | Gigabyte GA-MA790-UD5P | Corsair 6GB 1333MHz | 2 st. Gigabyte Radeon HD5850 1GB (Crossfire) | Corsair HX 1000W 80+ | Corsair Obsidian | 26209p @ 1920x1200 (3dmark06)

Permalänk
Medlem

Om du kan perl så kör på det.
Python skulle nog annars fungera utmärkt, men dumt att lära sig det bara för det här då perl bör räcka fint och du trivs med det.

Jag tror inte du behöver oroa dig för scriptspråkens hastighet då du kommer ha andra större flaskhalsar.

Permalänk
Medlem

Mina kunskaper i Perl är ganska begränsade, enbart kodad en enkel irc-bot, python däremot har jag länge letat efter en orsak till att lära mig, det har ju snygg syntax till skillnad för äckel-perl.
Angående minnesläckor så är det min erfarenhet av php men det är väl inte direkt det bästa interpreterande språket... C däremot blir ju så bra som man programmerar, så lägger man bara tiden så går det allt att göra minneseffektiva program som inte läcker... Men det är just det, tid...

Får kolla in python lite närmre innan jag bestämmer mig. Kanske skall fräscha upp kunskaperna om java också, har faktiskt grejat lite nätverk där i en kurs för länge sen, det var ganska enkelt som DeeXt påpekar.

Permalänk
Medlem

Om du är sugen på att lära dig python så låter det här som ett finfint första projekt.
Finns bra moduler för webhantering också

I standardbiblioteket finns tex

urllib och urllib2 (täcker lite olika grejer)
http://docs.python.org/lib/module-urllib.html
http://docs.python.org/lib/module-urllib2.html

cookielib (om du behöver använda cookies)
http://docs.python.org/lib/module-cookielib.html

Permalänk
Medlem
Citat:

Ursprungligen inskrivet av nvm
Hur menar du?

Perl är språket, perl är tolken.