Hemligheterna bakom UTF-8 och Unicode

Trädvy Permalänk
Medlem
Registrerad
Apr 2006
Skrivet av backfeed:

Det vore skönt om utf-8 var default överallt (alla textredigerare osv), för länge sedan.

Precis, död åt ANSI.

UTF, Uber Text Format!

CPU i9-9900K GPU ASUS RTX 2080 TI Strix OC MB ASUS STRIX Z390-E RAM Corsair VENGEANCE RGB 32GB DDR4 3200MHz Case Corsair 900D PSU EVGA G3 850W Cooling XSPC D5 RX480+RX360 Monitor Philips 65PUS6262/12 SSD Samsung 970 EVO 500GB 860 EVO 500GB HDD 1x WDC Red 10TB 1x Red 4TB 1x Black 4TB Audio DENON 2313 | DALI Zensor 7,5,1, Vokal, SUB E-12F

Trädvy Permalänk
Medlem
Plats
Westrobothnia
Registrerad
Okt 2008
Skrivet av anon81912:

Det skulle vara skönt om Latin 1 var standard för länge sedan. Det är dessutom en standard (ISO/IEC 8859-1)

Den har ju bara stöd för västerländska språk, så det håller jag inte med om. Varför begränsa sig när man kan köra med utf-8?

3700X, X470, 2080 Ti, 4K

Trädvy Permalänk
Medlem
Registrerad
Jun 2003

Intressant klipp, tycker jag stöter på teckenkodningsproblem varannan dag på jobbet. Kommer uppskatta UTF-8 mer nu framöver

Trädvy Permalänk
Medlem
Plats
Gigabyte
Registrerad
Aug 2008
Skrivet av Thomas:

Men det lider ju av exakt det problemet som UTF-8 försöker lösa! Du kan ju inte skriva ett dokument i japanska i Latin1 och räkna med att det går att läsa efteråt. Latin1 funkar ju bara till ett fåtal av de språk som finns.

Latin1 har 256 möjliga tecken, varav 32 är osynliga kontrollkoder, dvs max 224 tecken. Ytterligare 33 används inte, så 191 tecken om jag inte missat något.
Unicode/UTF-8 kan just nu specificera "more than 110,000 characters covering 100 scripts".

UTF-16 har problem med att få med alla tecken som kan behövas. Lite osäker på om UTF-8 räcker till eller om man behöver UTF-32 för att täcka upp det mesta men det blir lite tungt också.

Trädvy Permalänk
Avstängd
Registrerad
Jul 2009

Så glad att jag inte lider av några teckenkodningsproblem i min vardag.
Är ett dokument lr whatever skrivet i en typ av teckenkodning, typ Latin 1 eller som någon tidigare nämnde, kan man vell alltid "aktivera" stöd för rätt kodning om det nu skulle saknas eller? Så att man tillslut kan se/läsa det som står?

En varm och go Haswell @ 4.3 GHz

Trädvy Permalänk
Medlem
Plats
Nyköping
Registrerad
Apr 2008

Hade vi inte haft Microsoft skulle världen vara så mycket bättre.
Alla Linuxdistar samt OSX defaultar till UTF-8 och har gjort det länge.

Snälla, gör Sverige till ett U-land igen.

Trädvy Permalänk
Hedersmedlem
Plats
Uppsala
Registrerad
Jul 2001
Skrivet av samus.fl:

Så glad att jag inte lider av några teckenkodningsproblem i min vardag.
Är ett dokument lr whatever skrivet i en typ av teckenkodning, typ Latin 1 eller som någon tidigare nämnde, kan man vell alltid "aktivera" stöd för rätt kodning om det nu skulle saknas eller? Så att man tillslut kan se/läsa det som står?

Jo, det går alltid att justera dokumentvisaren så det blir korrekt. Problemet är att om du har ett vanligt textdokument (.txt) så lär det inte ges någon hint om vilken teckenkodning som används, så man får gissa sig fram baserat på språk osv, och testa tills det ser bra ut.

X370 Taichi / R7 1700 @ 3.75 GHz 1.2 V / 48 GB 3200 MHz CL14 / MSI GTX 1070 Gaming, OC / Samsung 960 EVO 500 GB / Corsair RM650x
LG G6 (H870)

Trädvy Permalänk
Medlem
Plats
Gigabyte
Registrerad
Aug 2008
Skrivet av Thomas:

Jo, det går alltid att justera dokumentvisaren så det blir korrekt. Problemet är att om du har ett vanligt textdokument (.txt) så lär det inte ges någon hint om vilken teckenkodning som används, så man får gissa sig fram baserat på språk osv, och testa tills det ser bra ut.

Det brukar vara i den teckentabell som din PC är ställd på.
Här ligger det i windows normalt i ANSI med den svenska teckentabellen 1252. Är du i något annat land så har du antagligen också en annan teckentabell som den lagras i men mycket går att läsa ändå. Några kanske kommer ihåg autoexec förr, har för mig att det var norden som delade på tabell 850 då.

Trädvy Permalänk
Avstängd
Registrerad
Jul 2009
Skrivet av Thomas:

Jo, det går alltid att justera dokumentvisaren så det blir korrekt. Problemet är att om du har ett vanligt textdokument (.txt) så lär det inte ges någon hint om vilken teckenkodning som används, så man får gissa sig fram baserat på språk osv, och testa tills det ser bra ut.

Ok, Thanks. Förmodade just det. Good to know liksom. Men som sagt, det är nog inget jag kommer råka ut får någon gång i min livstid ändå.

En varm och go Haswell @ 4.3 GHz

Trädvy Permalänk
Avstängd
Registrerad
Maj 2012
Skrivet av rektor:

Microsofts fel. Notepad defaultar till ANSI istället för UTF-8.

Men Unicode är inte helt straightforward heller, för det finns UTF-7, UTF-8, UTF-16, UTF-32, och BOM (byte order mark), etc.

UTF-8 without BOM är dock standard.

Asus Maximus IV Gene-Z - Intel Core i7 2600K - Corsair Vengeance 1866 MHz 4x4 GB - Asus GTX 670 DirectCU II
BenQ XL2410T - Zowie AM - Zowie Swift - Qpad MK-85

iPhone 5S - iPad Air

Trädvy Permalänk
Medlem
Registrerad
Aug 2011

UTF-8 är onekligen kung och borde bli allmän standard, men sådant går inte direkt snabbt... Teckenkodningen kom 1993, när webben inte alls var särskilt välutbyggd, men det var först 2008 som Google rapporterade att det blivit den vanligaste teckenkodningen för HTML-filer. Utan någon egentlig statistik vågar jag nog påstå att antalet HTML-filer som skapats sedan 1993 långt överskrider de som skapades innan dess. Faktum är att det nog till och med ligger en rejält tung vikt på 2000-talet till och med.

Måste dock klaga på killen i videon. Han vet uppenbarligen vad han pratar om och förklarar det hela på ett bra sätt, men när han upprepade gånger kallar UTF-8 för ett "hack" tappar man liksom respekten för honom. Kom igen, UTF-8 är INTE ett hack...

Trädvy Permalänk
Entusiast
Plats
Stockholm
Registrerad
Jul 2007
Skrivet av Spetsen_nr11:

UTF-8 är onekligen kung och borde bli allmän standard, men sådant går inte direkt snabbt... Teckenkodningen kom 1993, när webben inte alls var särskilt välutbyggd, men det var först 2008 som Google rapporterade att det blivit den vanligaste teckenkodningen för HTML-filer. Utan någon egentlig statistik vågar jag nog påstå att antalet HTML-filer som skapats sedan 1993 långt överskrider de som skapades innan dess. Faktum är att det nog till och med ligger en rejält tung vikt på 2000-talet till och med.

Måste dock klaga på killen i videon. Han vet uppenbarligen vad han pratar om och förklarar det hela på ett bra sätt, men när han upprepade gånger kallar UTF-8 för ett "hack" tappar man liksom respekten för honom. Kom igen, UTF-8 är INTE ett hack...

Det beror väl på hur man använder ordet "hack". Många använder det väldigt löst och friskt. Andra är benhårda och använder bara ordet där de anser att det "passar".
Man kan ibland fundera på vad "hack" egentligen betyder, för det finns väldigt många olika definitioner. Vissa säger att den ena definitionen är korrektare än den andra, och andra säger att den andra definitionen är korrektare än den ena. X vs. Y. vNidia vs ATI, AMD vs Intel, AIK vs Djurgården, bestick vs pinnar, Bilar vs Cyklar... du fattar.

Så för att säga om det är ett hack eller inte, måste man först definiera vad "hack" betyder i sammanhanget. Jag tror vi inte behöver gå in på det, för en sådan diskussion skulle få den här tråden att spåra ur FULLSTÄNDIGT. Vill du ta detta vidare, skapa gärna en ny tråd i så fall.

Att tappa respekten bara för att någon använder ett ord lite mer lösaktigt än du anser är rätt är väl ändå att ta i?
Ta det för vad det är. Allt är inte skrivet i sten och den absoluta och totala sanningen.

Bästa programmen till Linux - v2.0
Linux-guide: Val av grafisk miljö. (Att välja distribution).
-
Everyone should have a SGoC in their systems (SGoC: SysGhost on a Chip)

Trädvy Permalänk
Medlem
Registrerad
Aug 2011
Skrivet av SysGhost:

[Massa ord med betydelsen "folk har olika definition av hack"]

Att tappa respekten bara för att någon använder ett ord lite mer lösaktigt än du anser är rätt är väl ändå att ta i?
Ta det för vad det är. Allt är inte skrivet i sten och den absoluta och totala sanningen.

Jag är självklart medveten om att man kan ha olika definitioner av vad som är och inte är ett hack och jag skulle kunna skriva relativt långa utläggningar om ämnet, men det passar ju som du sa inte riktigt in här.

Jo, tappa respekten för någon är definitivt att ta i, det var en så kallad överdrift. Dock tappar jag faktiskt respekt för honom för varje gång han kallar det för ett hack. Inte som att jag slutar ha någon form av respekt för honom, men har svårt att se honom som en kunnig person inom området när han använder "hack" i den betydelsen.

Fast jag är ju omotiverat strikt när det gäller användandet av det ordet och trodde faktiskt att folk inom teknikvärlden var ganska överens om någon form av åtminstone grundläggande betydelse. Att bli kallad hacker av folk som inte har någon koll på "den världen" är jag van vid, trots att jag är oerhört negativ till alla former av hack.

Att tappa respekt för en persons kunskap inom ett område bara för att man använder ett ord felaktigt ser jag förresten inte alls något konstigt med. Skulle jag säga att jag köpt en ny hårddisk när jag köpt en SSD tror jag att sannolikheten att du skulle fråga mig om hjälp vid köp av ny dator skulle minska rejält (visserligen var väl sannolikheten noll redan innan men du förstår nog vad jag menar). Då säger jag ju något som är objektivt fel så liknelsen faller lite, men att kalla UTF-8 för ett hack är med min relativt flytande definition av ordet så fel att det nästan är lika fel som att kalla SSD för hårddisk.