From: Christof Awater Subject: <1998-06-18> Umlaute in E-Mail und Netnews Newsgroups: de.newusers.questions Version: 1.6 Last-modified: 1998-06-18 Posting-frequency: bi-monthly URL: http://www.westfalen.de/paefken/de.newusers/umlaute-faq.txt Umlaute in E-Mail und Netnews FAQ fuer de.newusers.questions 1) E-Mail und Netnews. 2) Wo ist das Problem? 3) Welche technischen Voraussetzungen muss ein Newsreader erfuellen? 4) Welche News-/Mailreader koennen mit Umlauten umgehen? 5) Was soll ich tun, wenn mein Programm dies nicht kann? 6) Weiterfuehrende Literatur. 7) Copyright / GNU GPL / Dank ---------------------------------------------------------- 1) E-Mail und Netnews. ---------------------- Diese FAQ gibt eine Einfuehrung in die Problematik von Umlauten und anderen Sonderzeichen in E-Mail und Netnews. Trotz aller Unterschiede beider Kommunikationstechniken nutzen beide ein sehr aehnliches Nachrichtenformat, so dass sich bei beiden eine vergleichbare Umlaut-Problematik und dementsprechend auch eine gemeinsame Loesungsmoeglichkeit ergibt. 2) Wo ist das Problem? ---------------------- Im Usenet arbeiten viele verschiedene Computer mit sehr unterschiedlicher Hardware und unterschiedlichen Betriebssystemen zusammen. Deshalb mussten sich anfangs die Betreiber der Rechner einigen, welcher Zeichensatz und Zeichenkodierung verwendet werden sollte, also welcher Buchstabe gemeint ist, wenn ein bestimmtes Byte weitergegeben wird. Dabei einigte man sich als kleinsten gemeinsamen Nenner auf US-ASCII (american standard code of information interchange). US-ASCII ist eine 7-Bit-Zeichenkodierung. Das heisst, dass nur 128 Zeichen zur Verfuegung stehen, waehrend eine 8-Bit-Zeichenkodierung 256 Zeichen zur Verfuegung stellt. Dabei stellt beispielsweise die (dezimale) Zahl 97 ein kleines a dar, die Zahl 98 ein kleines b usw. US-ASCII enthaelt alle Buchstaben a-z, A-Z, alle Ziffern 0-9 sowie einige wenige Sonderzeichen, jedoch keine deutschen Umlaute. Dies war anfangs keine grosse Einschraenkung, da ueberall Englisch gesprochen wurde, wozu keine Umlaute und in der Regel auch keine Sonderzeichen benoetigt werden. Als sich das Usenet auch im deutschsprachigen Bereich ausdehnte, fingen die Benutzer an, die deutschen Umlaute mit ae, oe, ue und ss bzw sz zu umschreiben. Sehr verbreitet war (und ist) auch die TeX-Schreibweise "a "o und "u. Zwar koennen inzwischen alle Computer Umlaute darstellen, jedoch werden die nicht in US-ASCII enthaltenen Zeichen teilweise unterschiedlich kodiert, wodurch auf anderen Computern teilweise andere als die gemeinten Zeichen dargestellt werden. Jeder Windows-Benutzer (ANSI-Zeichenkodierung) kann dies beobachten, wenn er einen unter MS-DOS geschriebenen Text (meist code page 850) unter Windows ansieht. Niemandem sollte ein Vorwurf gemacht werden, weil er Umschreibungen fuer Umlaute wie z.B. "ae" verwendet. Aehnliches gilt fuer die TeX-Schreibweise. Genausowenig sollte jemand kritisiert werden, weil er Umlaute oder Sonderzeichen verwendet, die der unten beschriebenen korrekten Form genuegen. 3) Welche technischen Vorraussetzungen muss ein Newsreader erfuellen? ------------------------------------------------ Der von 1992 stammende und in RfC 2045-2049 definierte MIME-Standard (Multipurpose Internet Mail Extension) gilt heute als die allgemein akzeptierte Loesungsmoeglichkeit. Er beruht darauf, dass die verwendete Zeichenkodierung im Header eines Artikels angegeben ("deklariert") wird und dass 8bit-Zeichen gegebenenfalls durch US-ASCII-Zeichen kodiert werden. Das Programm des Empfaengers kann aufgrund dieser Angaben erkennen, welches Zeichen tatsaechlich gemeint war und dieses entsprechend darstellen. Allerdings muss man zwischen Umlauten im Body (also dem eigentlichen Text) und im Header (also Subject, From, Organization, ...) differenzieren: 1. Umlaute im Body: Dazu muss das Programm des Absenders folgendes in den Header eines Artikels einfuegen: 1.1 eine Zeile "Content-Type:". Dort steht 1.1.1 der Daten-Typ, der verwendet wird. Ueblich ist "text/plain", also einfacher Text. 1.1.2 der Zeichensatz, der verwendet wird. Alle deutschen Umlaute befinden sich beispielsweise in dem in Westeuropa ueblichen Zeichensatz ISO-8859-1. Ausser den deutschen Umlauten enthaelt er auch alle Sonderzeichen der romanischen und skandinavischen Sprachen. Dieser Zeichensatz wird haeufig auch als Latin1 bezeichnet. 1.2 Eine Zeile "Content-Transfer-Encoding:". Hier gibt es 3 Moeglichkeiten 1.2.1 8bit Dabei werden die Umlaute einfach unveraendert im Body gelassen. Das Programm des Empfaengers weiss aus der Content-Type-Zeile, in welchem Zeichensatz diese Zeichen gemeint waren. Diese in den Netnews meist benutzte Moeglichkeit hat den Vorteil, dass auch Leute mit Programmen ohne Umlaut-Moeglichkeiten etwas damit anfangen koennen, wenn (!) sie zufaellig (!) den gleichen Zeichensatz verwenden. 1.2.2 quoted-printable Dabei werden die Umlaute in 7-Bit-Zeichenfolgen wie =D0 kodiert. Diese Methode hat den Vorteil, dass sie technisch sicherer ist, weil nur 7bit-Zeichen vorkommen. Besonders beim Eintritt in Netze mit anderen Uebertragungsstandards (Maus, Fido, ...) treten immer wieder Probleme mit 8bit-Zeichen auf. 1.2.3 base64 Diese Form der Kodierung wird normalerweise nur fuer Binaries (also Dateien jeglicher Art, die nicht aus reinem Text bestehen) verwendet. 1.3 eine Zeile "Mime-Version: 1.0" sollte vorhanden sein. 2. Umlaute im Header: Im Header duerfen auf keinen Fall 8-Bit-Zeichen stehen. Deshalb werden hier Umlaute vom Newsreader kodiert und die entsprechende Zeichenkodierung dazugeschrieben. Dies sieht dann beispielsweise so aus: Subject: =?ISO-8859-1?Q?L=FCsung?= des Umlautproblems Hier wurde der Umlaut im Wort "Loesung" mit dem Zeichensatz ISO-8859-1 geschrieben und anschliessend kodiert (=FC). Da diese Kodierung immer nur US-ASCII-Zeichen enthaelt, ist gewaehrleistet, dass kein 8-Bit-Code im Header vorkommt, wie es die RfCs vorschreiben. 4) Welche News-/Mailreader koennen mit Umlauten umgehen? --------------------------------------------------------- Die folgenden News- und Mailreader in ihrer jeweils neusten Version beherrschen den korrekten Umgang mit Umlauten sofern sie korrekt konfiguriert wurden: AK-Mail, CrossPoint, FFNews, Forte Agent, GNUs, knews, MacSOUP, Microsoft Internet News, Microsoft Outlook Express, Netscape Navigator/Communicator, Mutt, Pegasus Mail, pine, slrn, Thor, tin. Forte Free Agent sowie Anawave Gravity koennen es nicht. Ob es Dein Programm kann, solltest Du in der Anleitung nachlesen koennen. 5) Was soll ich tun, wenn mein Programm dies nicht kann? --------------------------------------------------------- Wenn Dein Programm nicht mit Umlauten umgehen kann, gibt es verschiedene Moeglichkeiten, dieses Problem zu umgehen: a) Am sinnvollsten ist es sicherlich, sich Software zu besorgen, die dem Standard entspricht. Vielleicht gibt es auch eine aktuellere Version Deiner Software, die inzwischen mit Umlauten umgehen kann. Du kannst auch den Hersteller oder den Autor des Programms per E-Mail darum bitten eine entsprechende Funktion in die Software einzubauen. b) Wenn die Software dies zulaesst, kannst Du die erforderlichen Deklarationen fuer den Body (s.o.) per Hand in den Header einfuegen. Umlaute im Header darfst Du dann natuerlich weiterhin nicht verwenden. c) Wenn Du selbst ein neues Subject schreibst, solltest Du die Umlaute mit ae, ue, oe umschreiben. d) Beim Antworten auf ein ordnungsgemaess kodiertes Subject (=?ISO...) solltest Du dieses genau so lassen, wie Du es empfangen hat. Der Empfaenger des eigenen Textes kann das Subject anschliessend wieder dekodieren. Dies entspricht im Prinzip b). e) Du kannst die Umlaute im Body eines Artikels mit ae, oe und ue umschreiben. Dies muss dann jedoch auch mit Text gemacht werden, den Du lediglich zitiert. 6) Weiterfuehrende Literatur ----------------------------- Kostis, K. "Umlaute im deutschsprachigen Usenet FAQ", de.comp.standards, de.answers, http://www.kostis.net/de/faq/umlaute/ Freed, N.; Borenstein, N. RFC 2045: "Multipurpose Internet Mail Extensions, Part One: Format of Internet Message Bodies", ftp://ftp.fu-berlin.de/doc/rfc/rfc2045.txt Freed, N.; Borenstein, N. RFC 2046: "Multipurpose Internet Mail Extensions, Part Two: Media Types", ftp://ftp.fu-berlin.de/doc/rfc/rfc2046.txt Moore, K. RFC 2047: "Multipurpose Internet Mail Extensions, Part Three: Message Header Extensions for Non-ASCII Text", ftp://ftp.fu-berlin.de/doc/rfc/rfc2047.txt Freed, N.; Borenstein, N. RFC 2049: "Multipurpose Internet Mail Extensions, Part Five: Conformance Criteria and Examples", ftp://ftp.fu-berlin.de/doc/rfc/rfc2049.txt In der Gruppe de.comp.standards lesen auch immer User mit, die weitere Fragen beantworten koennen. 7) Copyright / GNU GPL / Dank ------------------------------ Umlaute in E-Mail und Netnews FAQ fuer de.newusers.questions Copyright 1997 Christof Awater Dieser Text ist urheberrechtlich geschuetzt. Der Text darf gemaess der GNU General Public License Version 2 oder einer spaeteren Version kostenlos ueber elektronische wie auch physikalische Medien verbreitet werden, solange dieser Copyright Hinweis nicht entfernt wird. Eine Kopie der GNU General Public License kann bezogen ueber die Free Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA. Mein Dank fuer die Hilfe bei der Ausarbeitung dieses Textes geht an Boris 'pi' Piwinger <3.14@Math.MIT.edu> Dirk Nimmich Hermann Roth Werner Icking Zippo Zimmermann sowie alle anderen, die mir dabei geholfen haben. Anregungen, Kommentare und Verbesserungsvorschlaege sind jederzeit willkommen. -- Christof Awater