Permalänk
Medlem

Hjälp med Ruby, åäö

Hej håller på lite med ett program som crawlar webbsidor och sparar enskilda ord.
som jag sen ska ha till ordlistor.

Det är inte skrivet av mig från början.

http://www.digininja.org/projects/cewl.php

Problemet jag har är att den vägrar skriva ut åäö har provat varenda regexp som kan tänkas.
Skulle någon vänlig själ vilja ge mig tips eller en knuff i rätt riktning?

http://pastebin.com/gxRpGRCA

Har provat att ändra encoding osv. Jag misstänker att det har med det att göra..

Tack på förhand!

Visa signatur

Nil volentibus arduum

Permalänk
Medlem

Vilken version av Ruby? Vid en snabb googling verkar det som om åtminstone Ruby 1.8 har problem med Unicode i sin regex-implementation.
För 1.9 ska /\p{Word}+/ fungera

Visa signatur

Kom-pa-TI-bilitet

Permalänk
Medlem

ruby --version ruby 1.9.3p0 (2011-10-30) i386-mingw32

Förstår dock inte riktigt hur jag ska använda mig av

/\p{Word}+/

# remove any symbols words.gsub!(/[^a-z0-9]/i," ")

Så ser det ut nu, den plockar bort allt utom a-z och 0-9
/i variabeln ser till att det gäller både upper och lower.

Jag har provat med med ascii \xe5\xe4\xf6\xc5\xc4\xd6 osv.
men har inte fått det att fungera heller.

Visa signatur

Nil volentibus arduum