Notepad: ANSI och Unicode tecken

Permalänk

Notepad: ANSI och Unicode tecken

Har det hänt er att när ni har markerat och kopierat en text från t.ex. en webbsida och sedan klistrat in i Notepad att ni får ett varningsmeddelande om att vissa tecken i texten kommer att försvinna när ni försöker spara texten som en fil på datorn?

Det har i alla fall hänt mig ett dussin gånger när jag har använt Notepad i Windows. Med det är det inte sagt att det inte kan hända med andra program och under andra operativsystem. Det kan vara så enkelt som att andra program och/eller operativsystem är förinställda på att spara text i Unicode format när Notepad är förinställt på ANSI.

Så här lyder varningsmeddelandet.

Citat:

Den här filen innehåller tecken i Unicode-format. Alla sådana tecken kommer att gå förlorade om du sparar filen som en textfil i ANSI-format. Om du vill spara Unicode-informationen måste du klicka på Avbryt och istället välja ett av Unicode-alternativen i den nedrullningsbara listrutan. Vill du fortsätta?

Nu senast i veckan när detta visades kunde jag inte se direkt några specialtecken i min text som skulle finnas endast i Unicode. Men idag valde jag att kopiera och klistra in samma text (från den Unicode sparade filen) i ett nytt Notepad fönster som jag sedan har sparat till fil. Då kunde jag öppna de bägge filerna (en ANSI och en Unicode) i varsitt Notepad fönster som jag la ovanpå varandra. Då kunde jag se frågetecknet (?) på tre positioner i ANSI filen.

Texten består av tre paragrafer på omkring 70 ord och i varje paragraf förekommer ett frågetecken där det inte ska vara. Jämför man med Unicode filen så ser det ut som att ett mellanslag skulle ha varit där. Eller rättare sagt, frågetecknen har placerats direkt före ett mellanslag mellan två ord i varje paragraf.

I övrigt så var texten i Unicode och ANSI filen identisk.

Hur identifierar man då tecknet som Notepad insisterar på att det inte är ANSI kompatibelt och som den ersätter med frågetecken? Det verkar vara ett osynligt Unicode tecken, om något alls.

Visa signatur

"Good teaching is one-fourth preparation and three-fourths pure theatre."—Gail Godwin
Sweclockers BB kod
0101001101000111

Permalänk

Jag klistrade in ursprungstexten (från Unicode filen) i MS Word och där kan man då välja bara att visa dolda tecken så ser man ett tecken som annars är dolt. Det ser ut att vara någon formateringssymbol, antagligen för Unicode, som jag måste ha fått med när jag kopierade texten från webbsidan. Delar av texten är direkt skriven av mig i webbläsaren. Det är skrivet på ren engelska utan specialtecken så det ska räcka med ANSI kodning när man vill spara den. Några delar av texten har jag kopierat och klistrat in från en webbsida för att citera en person. Det var nog då jag fick smolk i bägaren så att säga.

http://img714.imageshack.us/img714/387/themysteriousunicodefo...
http://img96.imageshack.us/img96/387/themysteriousunicodefor....

Jag har inte kollat upp vad det är för tecken och var det används, om det nu är ett formateringstecken eller formateringssymbol. Men hur som helst, det är lite kul och intressant när sånt här dyker upp och ger Notepad och andra program spader. Teckenkodning har alltid varit besvärligt och associerat med problem.

Visa signatur

"Good teaching is one-fourth preparation and three-fourths pure theatre."—Gail Godwin
Sweclockers BB kod
0101001101000111

Permalänk

Prova öppna filen i nån hex-editor och kolla upp tecknet i nån unicode-tabell.