Python Skript update.
[wortliste.git] / dehyph-exptl / dehyph-exptl.tex
blob69dece6e13c67760b44339be813da106499d2087
1 %%% Artikelklasse mit:
2 %%% * Grundschriftgröße 11 Punkt,
3 %%% * klassischem Satzspiegel,
4 %%% * flachem Inhaltsverzeichnis,
5 %%% * Tabellenüberschriften.
6 \documentclass[11pt,DIV8,tocleft,tablecaptionabove,abstracton]{scrartcl}
7 %%% Eingabekodierung ist ISO-8859-15.
8 \usepackage[ansinew]{inputenc}
9 %%% Schrifteinstellung:
10 %%% * Grundschrift Palatino,
11 %%% * Akzidenzschrift Bera Sans,
12 %%% * Schreibmaschinenschrift Latin Modern Typewriter.
13 \usepackage[T1]{fontenc}
14 \usepackage[osf]{mathpazo}
15 \usepackage[scaled]{berasans}
16 \renewcommand*{\ttdefault}{lmtt}
17 \usepackage{textcomp}
18 \linespread{1.05}
19 \usepackage[expansion=true, letterspace=80]{microtype}
20 %%% Lade einige Pakete.
21 \usepackage{ifthen}
22 \usepackage{calc}
23 \usepackage{multicol}
24 \usepackage{paralist}
25 \usepackage{fncylab}
26 \usepackage{tabularx}
27 \usepackage{booktabs}
28 \newcolumntype{L}{>{\raggedright\arraybackslash}X}
29 \usepackage{listings}
30 \lstloadlanguages{[LaTeX]TeX, sh}
31 \lstset{basicstyle=\ttfamily, keywordstyle={}, commentstyle={},
32 columns=flexible, showspaces=false, showstringspaces=false,
33 % aboveskip=12pt, belowskip=12pt, frame=tb,
34 % framesep=8pt, framerule=2pt,
35 xleftmargin=6pt, xrightmargin=6pt,
36 % framexleftmargin=6pt, framexrightmargin=6pt
38 \lstdefinestyle{LaTeX}{language=[LaTeX]TeX, basicstyle=\ttfamily,
39 keywordstyle={}, commentstyle={\itshape}}
40 \lstdefinestyle{shell}{language=sh, basicstyle=\ttfamily,
41 keywordstyle={}, commentstyle={\itshape}}
42 \lstdefinestyle{Text}{language=, basicstyle=\ttfamily,
43 keywordstyle={}, commentstyle={}}
44 \usepackage{needspace}
45 %%% Literaturverweise in runden Klammern mit Semikolon als Trenner.
46 % \usepackage[round,semicolon]{natbib}
47 % \renewcommand*{\bibnumfmt}[1]{(#1)}
48 %%% Literaturverzeichnis mit Sprachunterstützung.
49 \usepackage[fixlanguage]{babelbib}
50 \bibliographystyle{babalpha}
51 %%% Babelbib fordert trotz fixlanguage zuviele Sprachen an.
52 \usepackage[english, german, ngerman]{babel}
53 %%% Einstellungen für interaktive PDF-Dokumente.
54 \usepackage[rgb,x11names]{xcolor}
55 \usepackage[hyperref]{zref}
56 \usepackage{hyperref}
57 \hypersetup{
58 pdftitle={dehyph-exptl},
59 pdfauthor={Die deutschsprachige Trennmustermannschaft},
60 pdfkeywords={TeX, deutsche Rechtschreibung, Trennmuster,
61 computergestützte Worttrennung}
63 \hypersetup{
64 ngerman,% For \autoref.
65 pdfstartview={XYZ null null null},% Zoom factor is determined by viewer.
66 colorlinks,
67 linkcolor=RoyalBlue3,
68 urlcolor=Chocolate4,
69 citecolor=DeepPink2
71 \newcommand*{\regelref}[1]{%
72 \begingroup%
73 \renewcommand*{\Itemautorefname}{Regel}%
74 \autoref{#1}%
75 \endgroup%
77 %%% Schriftfestlegungen.
78 \setkomafont{title}{\normalcolor\normalfont}
79 \setkomafont{sectioning}{\normalcolor\normalfont}
80 \setkomafont{section}{\Large}
81 \setkomafont{subsection}{\Large\itshape}
82 \setkomafont{descriptionlabel}{\normalfont\itshape}
83 %%% Einige Makros für logische Auszeichnungen definieren.
84 \newcommand*{\Abk}[1]{\mbox{\textsc{\lsstyle#1}}}
85 \newcommand*{\Programm}[1]{\textsc{\lsstyle#1}}
86 \newcommand*{\Datei}[1]{\texttt{#1}}
87 \colorlet{richtigcol}{green!80!black}
88 \colorlet{falschcol}{red!80!black}
89 \colorlet{tradcol}{green!50!black}
90 \colorlet{reformcol}{green!75!black}
91 \colorlet{unerwcol}{red!60!black}
93 \newcolumntype{T}{>{\color{tradcol}}l}
94 \newcolumntype{R}{>{\color{reformcol}}l}
95 \newcolumntype{U}{>{\color{unerwcol}}l}
97 \newcommand*{\trennung}[2]{%
98 \makebox[0pt][l]{%
99 \color{#1}%
100 \smash{\rule[-3.5pt]{\widthof{#2}}{.7pt}}% Schriftabhängig.
104 \newcommand*{\ftr}[1]{\trennung{falschcol}{#1}}% Falsche Trennung.
105 \newcommand*{\rtr}[1]{\trennung{richtigcol}{#1}}% Richtige Trennung.
107 %%% Satzspiegel erneut berechnen.
108 \typearea{last}
110 \begin{document}
111 %%% Trennausnahmen definieren.
112 \hyphenation{Back-end hyph-subst Ent-wick-ler-re-po-si-to-ri-um
113 Wort-her-kunft Not-tren-nung Trenn-al-go-rith-mus
114 um-bruch-in-kom-pa-tib-le}
115 %%% Protokollierung der Trennungen für findhyph.
116 %\tracingparagraphs=1
118 %%% Dokumenttitel.
119 \author{Die deutschsprachige Trennmustermannschaft}
120 \title{\texttt{dehyph-exptl}\thanks{This document describes the
121 \texttt{dehyph-exptl} package v0.40.}}
122 \subtitle{Experimentelle Trennmuster für die deutsche Sprache}
123 \maketitle
126 %%% Zweisprachige Zusammenfassung.
127 \selectlanguage{english}
128 \begin{abstract}
129 This package provides experimental hyphenation patterns for the German
130 language, covering traditional and reformed orthography for several
131 varieties of Standard German. The patterns can be used with packages
132 \texttt{Babel} and \texttt{hyphsubst} from the \Programm{Oberdiek
133 bundle}. More information can be found in the Trennmuster-Wiki%
134 \footnote{\url{http://projekte.dante.de/Trennmuster}}
136 (in German).
137 \end{abstract}
139 \selectlanguage{ngerman}
140 \begin{abstract}
141 Dieses Paket enthält experimentelle Trennmuster für die deutsche
142 Sprache. Die Trennmuster decken das in Deutschland, Österreich und
143 der Schweiz gebräuchliche Standarddeutsch in der traditionellen und
144 reformierten Rechtschreibung ab und können mit den Paketen
145 \texttt{Babel} und \texttt{hyphsubst} aus dem
146 \Programm{Oberdiek-Bündel} verwendet werden.
148 Dieses Paket richtet sich ausschließlich an Nutzer der Programme \TeX\
149 und pdf\TeX. Lua\TeX- und Xe\TeX-Nutzer können experimentelle Muster
150 aus dem Paket \texttt{hyph-utf8} verwenden und benötigen dieses Paket
151 nicht.
152 \end{abstract}
154 \vfill
155 \begingroup
156 \em\large
157 \begin{center}
158 Warnung!
159 \end{center}
160 Diese Trennmuster befinden sich im experimentellen Status. Sie können
161 jeder\-zeit vom \Abk{ctan} oder aus \TeX-Vertei\-lun\-gen entfernt oder
162 durch umbruch\-inkompa\-ti\-ble Versionen ersetzt werden. Sie sind
163 daher nicht für Anwendungen geeignet, die einen dauerhaft stabilen
164 Umbruch erfordern.
165 \endgroup
166 \vfill
168 \clearpage
169 %%% Zweispaltiges Inhaltsverzeichnis.
170 \begin{multicols}{2}
171 \small
172 \renewcommand*{\ngermanhyphenmins}{44}
173 \selectlanguage{ngerman}
174 \tableofcontents
175 \end{multicols}
178 \section{Einleitung}
179 \label{sec:einleitung}
180 Der in \TeX\ implementierte Trennalgorithmus arbeitet
181 musterbasiert~\cite{liang:1983}. Prinzipiell können mit einem solchen
182 Algorithmus nicht alle möglichen Wörter korrekt getrennt werden. Die
183 Qualität der Worttrennung einer Sprache wird jedoch maßgeblich von der
184 Qualität der Wortliste beeinflusst, aus der die verwendeten Trennmuster
185 berechnet wurden.
187 Obwohl die herkömmlichen Trennmuster für die deutsche Sprache bei der
188 Worttrennung in gewöhnlichen Texten eine akzeptable Fehlerrate
189 erreichen, enthalten sie doch eine Reihe von Schwächen:%
190 \footnote{Diese Liste bezieht sich auf die Trennmusterdateien
191 \Datei{dehypht.tex}, Version~3.2a vom 3.\,3.\,1999, und
192 \Datei{dehyphn.tex}, Version~31 vom 7.\,5.\,2001.}
194 \bigskip\smallskip
195 \needspace{4\baselineskip}
196 \noindent\textit{traditionelle und reformierte Rechtschreibung}
198 \begin{itemize}
199 \item In zusammengesetzten Wörtern treten häufig Trennfehler an
200 Wortfugen auf.
202 \item Fremdwörter mit akzentuierten Buchstaben werden mangelhaft
203 getrennt: ">C\ftr{af}é"<, ">Ci-tr\ftr{}n"<, ">F\ftr{}on"<,
204 ">vo\ftr{il}à"<.
206 \item Die Trennmusterdateien enthalten eine Mischung aus \Abk{t1}- sowie
207 unvollständigen \Abk{ot1}-kodierten Mustern. Mit Erscheinen von
208 16-Bit-fähigen \TeX-Varianten werden sauber \Abk{utf-8}-kodierte
209 Trennmuster nötig \cite{miklavec:2008}.
210 \end{itemize}
212 \bigskip
213 \needspace{4\baselineskip}
214 \noindent\textit{traditionelle Rechtschreibung}
216 \begin{itemize}
217 \item Die herkömmlichen Trennmuster für die traditionelle deutsche
218 Rechtschreibung können mit \Programm{Patgen} nicht reproduziert
219 werden, da die zugrundeliegende Wortliste verschollen ist. Die Pflege
220 der Trennmuster ist daher schwierig bis unmöglich. Für freie Software
221 ist dies kein zufriedenstellender Zustand.
223 \item Umfang und Qualität der ursprünglichen Wortliste lassen sich nicht
224 mehr einschätzen. Für die Trennmuster in traditioneller
225 Rechtschreibung existiert jedoch inzwischen eine Ausnahmeliste mit
226 über 3500 korrigierten Trennungen einfacher Wörter \cite{lemberg:2003,
227 lemberg:2005}.%
228 \footnote{\url{CTAN:language/hyphenation/dehyph/dehyphtex.tex}}
230 \item Wird in der traditionellen Rechtschreibung \emph{ß} durch
231 \emph{ss/SS} oder \emph{sz/SZ} ersetzt, so bleibt die Trennung davon
232 unberührt. Die herkömmlichen Trennmuster berücksichtigen diese Regel
233 nicht und trennen häufig den Ersatz: \textls{">GR\ftr{ÖS-S}E"<},
234 \textls{">GR\ftr{ÜS-S}E"<}, \textls{">M\ftr{AS-S}ES"<}.%
235 \footnote{Die Trennung der herkömmlichen Muster entspricht den Regeln
236 der deutschen Standardsprache in der Schweiz, obwohl diese
237 Sprachvarietät vom Paket \texttt{Babel} nicht offiziell unterstützt
238 wird. \texttt{Babel} versucht den Mangel mit Hilfe des Kürzels
239 \lstinline[style=LaTeX]+\"S+ zu kompensieren.}
241 \item Abweichende Schreibweisen, die in der traditionellen
242 Rechtschreibung in Österreich und der Schweiz verwendet werden, werden
243 mangelhaft getrennt: ">Gro\ftr{s-so}n-kel"<, ">Ku\ftr{s-sh}and"<,
244 ">Ma\ftr{ssn}ah-me"<, ">mi\ftr{s-sa}ch-ten"< (nur Schweiz) und
245 ">Ex-pre\ftr{ssz}ug"<, ">Fit-ne\ftr{s-sc}en-ter"<,
246 ">Fit-ne\ftr{sst}rai-ner"<.
247 \end{itemize}
249 \bigskip
250 \needspace{4\baselineskip}
251 \noindent\textit{reformierte Rechtschreibung}
253 \begin{itemize}
254 \item Die Trennmuster für die reformierte deutsche Rechtschreibung
255 wurden nicht mit \Programm{Patgen} aus einer Wortliste erstellt.
256 Stattdessen wurden die Trennmuster für die traditionelle
257 Rechtschreibung von Hand an die reformierten Regeln
258 angepasst~\cite{schmidt:1998}. Aus diesem Grund ist die Worttrennung
259 mit den Trennmustern für die reformierte Rechtschreibung etwas
260 schlechter als mit den Trennmustern für die traditionelle
261 Rechtschreibung.
262 \end{itemize}
264 Das Projekt \emph{Freie Wortlisten und Trennmuster für die deutsche
265 Sprache} hat sich das Ziel gesetzt, neue Trennmuster hoher Qualität
266 für die deutsche Sprache zu erstellen, die die genannten Probleme
267 ausräumen.
269 Den experimentellen Trennmustern dieses Pakets liegt eine Wortliste mit
270 den etwa fünfhunderttausend häufigsten Wörtern der deutschen Sprache
271 zugrunde. Vermutlich ist diese Liste erheblich umfangreicher als die
272 ursprüngliche Wortliste, in der Worthäufigkeiten wahrscheinlich
273 überhaupt nicht berücksichtigt wurden. Die verwendete Wortliste deckt
274 das in Deutschland, Österreich und der Schweiz gebräuchliche
275 Standarddeutsch ab.
277 Mit den vorliegenden Trennmustern sollte für nicht-fachsprach\-li\-che
278 Wörter eine sehr gute Trennqualität erreicht werden. Insbesondere
279 sollte sich die Trennung häufig auftretender zusammengesetzter Wörter
280 verbessern.
283 \section{Verwenden der Trennmuster}
284 \label{sec:verwenden}
285 Dieses Paket stellt die experimentellen Trennmuster für die Verwendung
286 mit \LaTeX\ und dem Sprachenpaket \texttt{Babel} zur Verfügung. Das
287 Paket richtet sich derzeit ausschließlich an Nutzer der Programme \TeX\
288 und pdf\TeX\ (siehe \autoref{tab:texkompat}).
290 Mit den nicht unterstützten \TeX-Programmen können experimentelle
291 Trennmuster dennoch verwendet werden, da das Paket \texttt{hyph-utf8}
292 ebenfalls Muster dieses Projekts enthält. Werden die UTF-8-fähigen
293 Programme Xe\TeX\ und Lua\TeX\ oder p\TeX\footnote{%
294 Eine in Japan populäre \TeX-Variante.%
295 } verwendet, so werden jene Muster standardmäßig aktiviert. Die
296 Trennmuster dieses Pakets sollten dann nicht verwendet werden. Siehe
297 \autoref{sec:fragen} für Hinweise, wie die Version der im Paket
298 \texttt{hyph-utf8} enthaltenen Muster ermittelt werden kann.
300 \begin{table}
301 \centering
302 \caption{Kompatibilität mit verschiedenen \TeX-Varianten}
303 \label{tab:texkompat}
304 \begin{tabular}{l>{\ttfamily}l}
305 Programm & \normalfont Quelle experimenteller Muster\\
306 \addlinespace\toprule\addlinespace
307 \TeX & dehyph-exptl\\
308 pdf\TeX & dehyph-exptl\\
309 XeTeX & hyph-utf8, dehyph-exptl\\
310 LuaTeX & hyph-utf8\\
311 p\TeX & hyph-utf8\\
312 \end{tabular}
313 \end{table}
315 Zur Installation der experimentellen Trennmuster siehe
316 \autoref{sec:installation} und die Datei \Datei{INSTALL}. Beachte, in
317 den folgenden Abschnitten ist \verb+<datum>+ durch das bei der
318 Installation angegebene Datum in \Abk{iso}-Notation (\verb+JJJJ-MM-TT+)
319 oder die Zeichenkette \verb+latest+ zu ersetzen. \autoref{sec:fragen}
320 enthält Hinweise, wie das Datum ermittelt werden kann, falls die
321 experimentellen Trennmuster in Ihrer \TeX-Verteilung schon
322 vorinstalliert sind.
325 \subsection{Sprachvarietät und Rechtschreibung}
326 \label{sec:varietaeten}
327 Dieses Paket stellt Trennmuster für die Worttrennung der deutschen
328 Sprache in der traditionellen und der reformierten Rechtschreibung
329 bereit. Die Trennmuster unterstützen zur Zeit die drei in
330 \begin{itemize}
331 \item Deutschland,
332 \item Österreich und der
333 \item Schweiz%
335 \footnote{Für Texte in Schweizer Standarddeutsch fehlt zur Zeit die
336 \texttt{Babel}-Unterstützung. Zum Beispiel muss das Kürzel
337 \lstinline[style=LaTeX]+\"s+ stets zu \emph{ss} expandieren. In der
338 traditionellen Rechtschreibung wird außerdem ein zusätzliches Kürzel
339 \lstinline[style=LaTeX]+\"ss+ benötigt (Dreikonsonantenregel). Wer
340 kann helfen?}
341 \end{itemize}
342 gebräuchlichen Hauptvarietäten der deutschen Standardsprache.
343 \autoref{tab:varietaeten} zeigt die Trennmuster, die abhängig von
344 gewünschter Varietät und Rechtschreibung in einem Dokument aktiviert
345 werden können.
347 \begin{table}
348 \centering
349 \caption{Die unterstützten Varietäten und Rechtschreibungen}
350 \label{tab:varietaeten}
351 \begin{tabular}{l>{\ttfamily}l}
352 \normalfont Sprachvarietät & Trennmusterbezeichner\\
353 \addlinespace\toprule\addlinespace
354 \hspace*{-\tabcolsep}\normalfont\emph{traditionelle Rechtschreibung}\\
355 Deutschland, Österreich & german-x-<datum>\\
356 Schweiz & gswiss-x-<datum>\\\addlinespace
357 \hspace*{-\tabcolsep}\normalfont\emph{reformierte Rechtschreibung}\\
358 Deutschland, Österreich, Schweiz & ngerman-x-<datum>\\
359 \end{tabular}
360 \end{table}
362 Varietäten, die sich nur in der Verwendung und Schreibung einzelner
363 Wörter voneinander unterscheiden, können durch gemeinsame Trennmuster
364 unterstützt werden. Die Eingabewortliste für \Programm{Patgen} ist dann
365 eine Vereinigung der den Varietäten entsprechenden Wortlisten. Zum
366 Beispiel werden Besonderheiten der österreichischen Standardsprache in
367 den Trennmustern für die Standardsprache Deutschlands berücksichtigt.
368 Österreichische und deutsche Anwender können daher dieselben Trennmuster
369 verwenden. (Wie das auch schon bei den herkömmlichen Trennmustern der
370 Fall war.)
372 Aufgrund unvereinbarer Trennregeln in der traditionellen Rechtschreibung
373 der Standardsprachen Deutschlands/""Österreichs und der Schweiz werden
374 für die letztere Varietät eigene Trennmuster bereitgestellt.
376 Mit der Rechtschreibreform 1996 wurden die Trennregeln aller drei
377 Standardsprachen so weit angeglichen, dass für die reformierte
378 Rechtschreibung einheitliche Trennmuster für alle drei unterstützten
379 Sprachvarietäten bereitgestellt werden können.
381 \subsection{Aktivieren der Trennmuster}
382 \label{sec:aktivieren}
383 Das folgende Beispiel zeigt eine \LaTeX-Präambel für die Aktivierung der
384 experimentellen Trennmuster für die reformierte Rechtschreibung. Die
385 Trennmusterbezeichner, die vom Paket \texttt{Babel} verwendet werden,
386 werden dazu mit Hilfe des Pakets \texttt{hyphsubst} aus dem
387 \Programm{Oberdiek-Bündel} so geändert, dass sie auf die experimentellen
388 Trennmuster verweisen:
390 \begin{lstlisting}[style=LaTeX]
391 \RequirePackage[ngerman=ngerman-x-<datum>]{hyphsubst}
392 % \RequirePackage[ngerman=ngerman-x-latest]{hyphsubst}
393 \documentclass{article}
394 \usepackage[T1]{fontenc}
395 \usepackage[ngerman]{babel}
396 \end{lstlisting}
398 Die folgende Variante erleichtert das schnelle Umschalten zwischen
399 verschiedenen Trennmustern im Editor. Weitere Hinweise können der
400 Dokumentation des Pakets \texttt{hyphsubst} entnommen werden.
402 \begin{lstlisting}[style=LaTeX]
403 \RequirePackage{hyphsubst}
404 \documentclass{article}
405 \usepackage[T1]{fontenc}
406 % \HyphSubstLet{german}{german-x-<datum>}
407 % \usepackage[german]{babel}
408 \HyphSubstLet{ngerman}{ngerman-x-<datum>}
409 \usepackage[ngerman]{babel}
410 \end{lstlisting}
412 Ob die experimentellen Trennmuster korrekt aktiviert werden, kann mit
413 dem folgenden Beispiel getestet werden. Die Ausgabe für die
414 traditionelle und reformierte Rechtschreibung mit herkömmlichen und
415 experimentellen Trennmustern ist in \autoref{tab:trennvarianten}
416 zusammengefasst.
417 \begin{lstlisting}[style=LaTeX]
418 \begin{document}
419 \showhyphens{löste Fassade modernste Abendstern Mordopfer}
420 \end{lstlisting}
422 %\suppressfloats[t]
423 \begin{table*}
424 \centering
425 \caption{Trennvarianten}
426 \label{tab:trennvarianten}
427 \begin{tabular}{llll}
428 \multicolumn{2}{c}{\itshape traditionelle Rechtschreibung} &
429 \multicolumn{2}{c}{\itshape reformierte Rechtschreibung}\\
430 herkömmlich & experimentell & herkömmlich & experimentell\\
431 \addlinespace\toprule\addlinespace
432 l\ftr{ös-t}e & lö-ste & lös-te & lös-te\\
433 Fas-sa-de & Fas-sa-de & Fa\ftr{ss}a-de & Fas-sa-de\\
434 mo-\ftr{d-e}rn-ste & mo-dern-ste & mo-\ftr{d-e}rns-te & mo-derns-te\\
435 Abend-stern & Abend-stern & Aben\ftr{ds-t}ern & Abend-stern\\
436 Mo\ftr{r-do}p-fer & Mord-op-fer & Mo\ftr{r-do}p-fer & Mord-op-fer\\
437 \end{tabular}
438 \end{table*}
441 % Trennung mit Mustern für traditionelle Rechtschreibung.
442 \newcommand*{\trtr}[1]{\trennung{tradcol!20}{#1}}
443 % Trennung mit Mustern für reformierte Rechtschreibung.
444 \newcommand*{\retr}[1]{\trennung{reformcol!20}{#1}}
445 % Unerwünschte Trennung.
446 \newcommand*{\untr}[1]{\trennung{unerwcol!20}{#1}}
448 \section{Trennregeln und Konventionen}
449 \label{sec:trennregeln}
450 Die Trennmuster für die traditionelle Rechtschreibung in Deutschland und
451 Österreich orientieren sich an den verbindlichen Regeln des Dudens in
452 der Fassung von 1991~\cite{duden:1991}. Dasselbe gilt für die
453 Trennmuster für die traditionelle Rechtschreibung in der Schweiz, jedoch
454 mit einer unten beschriebenen Abweichung. Die Trennmuster für die
455 reformierte Rechtschreibung orientieren sich an den amtlichen Regeln für
456 die Rechtschreibung der deutschen Sprache in der Fassung von
457 2006~\cite{amtlRegeln:2006, amtlRegeln:2006:duden}.
459 Die Regeln lassen gewisse Freiheiten bei der Schreibung und Trennung von
460 Wörtern zu. Da sich solche Freiheiten nicht ohne weiteres auf die
461 maschinelle Worttrennung übertragen lassen, wurden die im folgenden
462 beschriebenen Konventionen getroffen. Hauptsächlich betreffen diese die
463 reformierte Rechtschreibung, die zusätzliche Freiheiten eingeführt
464 hat.\footnote{%
465 Im Ergebnis weicht in reformierter Rechtschreibung die Trennung zum
466 Beispiel des Dudens (nach Sprechsilben) von der Trennung mit diesen
467 Trennmustern (bevorzugt etymologisch) ab, siehe auch
468 \regelref{enum:reformEtymo} und \regelref{enum:reformClusterLR} sowie
469 \autoref{sec:fragen}.}
470 Beziehen sich die Konventionen für die reformierte Rechtschreibung auf
471 die traditionelle Rechtschreibung, so werden die entsprechenden Regeln
472 etwas ausführlicher dargestellt. Die folgenden Abschnitte enthalten
473 jedoch keine vollständige Aufstellung der Silbentrennregeln. Diese sind
474 den entsprechenden Regelwerken zu entnehmen. Es folgen zunächst einige
475 allgemeine Hinweise:
477 \begin{itemize}
479 \item In Liangs Trennalgorithmus werden Groß- und Kleinschreibung nicht
480 unterschieden~\cite{liang:1983}. Die Schreibweisen \emph{Nachtritt}
481 und \emph{nachtritt} werden aus Sicht des Trennalgorithmus gleich
482 behandelt (siehe auch \regelref{enum:tradDoppeld} und
483 \regelref{enum:reformDoppeld}).
485 \item Die von einem Programm aus diesen Mustern abgeleiteten möglichen
486 Trennstellen können (u.\,a. durch Programmfehler) durchaus von denen
487 der zugrundeliegenden Wortliste abweichen. So führt zum Beispiel die
488 Eingabe \lstinline[style=LaTeX]+Meta"llegierung+ (Dreikonsonantenregel
489 in der traditionellen Rechtschreibung) mit dem Paket \texttt{Babel} zu
490 den in \autoref{tab:trennung-dreik} gezeigten Trennmöglichkeiten.
492 \begin{table}
493 \centering
494 \caption{Unterschiedlich ermittelte Trennmöglichkeiten.}
495 \label{tab:trennung-dreik}
496 \begin{tabular}{ll}
497 Quelle & Trennmöglichkeiten\\
498 \addlinespace
499 \toprule
500 \addlinespace
501 pdf\LaTeX\ mit \texttt{Babel}~3.8 & Me-tall(-l)egierung\\
502 pdf\LaTeX\ mit \texttt{Babel}~3.9 & Me-tall(-l)e-gie-rung\\
503 erwünscht \emph{(vgl. \regelref{enum:tradnstd})} & Me-tall(-l)egie-rung\\
504 \end{tabular}
505 \end{table}
507 \item Die von \TeX\ gewählte Trennung kann in Einzelfällen mit den \TeX-
508 und \texttt{Babel}-Kürzeln \lstinline[style=LaTeX]+\-+ und
509 \lstinline[style=LaTeX]+"-+ geändert werden. Für dokumentweite
510 Änderungen der Trennung eignet sich das Kommando
511 \lstinline[style=LaTeX]+\hyphenation+.
513 \item Die Datei \Datei{CHANGES} beschreibt bekannte, systematische
514 Fehler der Trennmuster.
516 \item In den Beispielen zeigt die linke (grüne) Spalte jeweils die
517 Trennung mit den experimentellen Trennmustern, die rechten (roten)
518 Spalten zeigen alternative oder unerwünschte Trennungen.
520 \end{itemize}
522 \subsection{Traditionelle Rechtschreibung in Deutschland und Österreich}
523 \label{sec:tradRS}
525 \begin{enumerate}[\hspace{1em}\itshape{T}1]
526 \labelformat{enumi}{\textit{T#1}}
528 \item\label{enum:tradhyphenmin} Die minimal unterstützte Silbenlänge am
529 Wortanfang und "~ende beträgt zwei Buchstaben
530 \cite[R~178]{duden:1991}.
532 Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
533 den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
534 \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
535 \lstinline[style=LaTeX]+\germanhyphenmins+ (\texttt{Babel}) anpassen.
536 Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
537 können fehlerhafte Trennungen auftreten.
539 \item\label{enum:tradSinn} Sinnentstellende und irreführende Trennungen
540 werden möglichst vermieden \cite[R~181]{duden:1991} (siehe auch
541 \regelref{enum:tradnstd}):
543 \begin{tabular}[t]{TU}
544 An-alpha-bet & Anal-phabet\\
545 Kaf-ka-kenner & Kafkaken-ner\\
546 Tal-entwäs-se-rung & Talent-wässerung\\
547 \end{tabular}
549 \item\label{enum:tradDoppeld} In mehrdeutigen Wörtern werden Trennungen
550 nur an übereinstimmenden Trennstellen zugelassen.
552 \begin{tabular}[t]{TUU}
553 nachtritt & nach-tritt & Nacht-ritt\\
554 Wachstu-be & Wach-stube & Wachs-tube\\
555 Druckerzeug-nis & Druck-erzeugnis & Drucker-zeugnis\\
556 Mu-sikerle-ben & Musik-erleben & Musi-ker-leben\\
557 Fuß-balleh-re & Fußball-ehre & Fußball-lehre\\
558 \end{tabular}
560 Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
561 sind in den Interpretationen \emph{Druck-Erzeugnis} und
562 \emph{Musik-Erleben} irreführend. Sie entfallen nach
563 \regelref{enum:tradSinn} und sind nicht als übereinstimmende
564 Trennstellen anzusehen. Zur Spezialtrennung ">Fußball-lehre"< siehe
565 auch \regelref{enum:tradnstd}.
567 Für diese Regel gelten die folgenden Einschränkungen:
568 \begin{itemize}
570 \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
571 "~endes} wird stets die Trennung der Partizipform des Verbs
572 verwendet.
574 \item Mehrdeutigkeiten, die durch die Ersatzschreibweise von Wörtern
575 mit~\emph{ß} auftreten, werden nicht berücksichtigt (vergleiche
576 \regelref{enum:tradEszett}).
578 \begin{tabular}[t]{TUU}
579 spie-len-de & Spiel-ende & spielende\\
580 Mas-se & \textls{M\kern-.4ptA-SSE} & \textls{M\kern-.4ptA\kern-.6ptSSE}\\
581 \end{tabular}
583 \end{itemize}
585 \item\label{enum:tradEszett} Wird der Buchstabe~\emph{ß} durch
586 \emph{ss/SS} ersetzt, so bleibt die Trennung davon unberührt
587 \cite[R~179]{duden:1991}:
589 \begin{tabular}[t]{T}
590 \textls{GRÖSS-TE}\\
591 \textls{GRÜ-SSE}\\
592 \textls{M\kern-.4ptA\kern-.4pt-SSES}\\
593 \end{tabular}
595 Für diese Regel gilt die folgende Einschränkung:
596 \begin{itemize}
598 \item Wenn durch den Ersatz von~\emph{ß} an dieser Stelle keine
599 eindeutige Trennung möglich ist, so wird zugunsten der Bedeutung des
600 Wortes in der normalen Schreibweise getrennt (siehe auch
601 \regelref{enum:tradDoppeld}).
603 \begin{tabular}[t]{TTU}
604 \textls{FLÖS-SE} & (wegen flös-se) & \textls{FLÖ-SSE}\\
605 \textls{MAS-SE} & (wegen Mas-se) & \textls{MA-SSE}\\
606 \end{tabular}
608 Beachte:
609 \begin{itemize}
611 \item Wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
612 durch~\emph{SS} ersetzt, so bleibt~\emph{SS} stets ungetrennt.
613 Die Trennung richtet sich dann nach der Schreibweise mit~\emph{ß}
614 im Quelldokument.
616 \item Existiert ein Wort in verschiedenen Varietäten in der
617 Schreibweise mit~\emph{ß} und mit~\emph{ss}, so wird aufgrund
618 dieser Einschränkung \emph{s-s} stets getrennt:
620 \begin{tabular}[t]{TTUU}
621 Ge-scho-ße & (AT)\\
622 Ge-schos-se & (D) & \textls{GESCHO-SSE} & (AT)\\
623 \end{tabular}
625 \item Wenn durch den Ersatz des~\emph{ß} an entfernten Stellen keine
626 eindeutige Trennung möglich wird, zum Beispiel an Wortfugen, so
627 werden die betroffenen Trennungen gemäß
628 \regelref{enum:tradDoppeld} unterdrückt. In der Folge wird
629 gegebenenfalls auch die Trennung von \emph{ss/SS} unterdrückt.
631 \begin{tabular}[t]{TU}
632 \textls{BAHN-HOFSTRASSE} & \textls{BAHNHOF-STRA-SSE}\\
633 & \textls{BAHNHOFS-TRAS-SE}\\
634 \end{tabular}
636 \end{itemize}
638 \end{itemize}
640 \item\label{enum:tradOW} In Ableitungen von Namen auf \emph{"~ow} wird
641 die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
642 \emph{"~ers} unterdrückt \cite[R~180]{duden:1991}:
644 \begin{tabular}[t]{TU}
645 Tel-tower & Teltow-er\\
646 Trep-towern & Treptow-ern\\
647 Pan-kowers & Pankow-ers\\
648 \end{tabular}
650 \item\label{enum:tradnstd} Spezialtrennungen (\emph{engl.:} non-standard
651 hyphenation), die nach Regeln erfolgen, die über das bloße Einfügen
652 eines Trennstrichs hinausgehen, wie die \emph{ck}- oder die
653 Dreikonsonantenregel, kann \TeX82 nicht automatisch behandeln. Aus
654 diesem Grund sind solche Trennstellen in diesen Trennmustern nicht
655 berücksichtigt.
657 \begin{tabular}[t]{lTUU}
658 \lstinline[style=LaTeX]+drucken+ & drucken & druk-ken\\
659 \lstinline[style=LaTeX]+Zuckerbäcker+ & Zucker-bäcker & Zuk-kerbäk-ker\\
660 \lstinline[style=LaTeX]+Brennessel+ & Brennes-sel & Brenn-nessel\\
661 \lstinline[style=LaTeX]+Stoffetzen+ & Stoffet-zen & Stoff-fetzen\\
662 \end{tabular}
664 Die Dreikonsonantenregel birgt aufgrund des ausgefallenen Konsonanten
665 die Gefahr irreführender und sinnentstellender Trennungen (siehe auch
666 \regelref{enum:tradSinn}). Trennstellen, die in einem Abstand von
667 zwei Lauten auf eine Wortfuge mit Anwendung der Dreikonsonantenregel
668 folgen, werden daher grundsätzlich unterdrückt.
670 \begin{tabular}[t]{lTUU}
671 \lstinline[style=LaTeX]+Metallegierung+ & Me-tallegie-rung & Metall-legierung & Metalle-gierung\\
672 \lstinline[style=LaTeX]+schnellebige+ & schnellebi-ge & schnell-lebige & schnelle-bige\\
673 \lstinline[style=LaTeX]+Stilleben+ & Stilleben & Still-leben & Stille-ben\\
674 \end{tabular}
675 \par\nobreak
676 \textit{auch:}
678 \begin{tabular}[t]{lTUU}
679 \lstinline[style=LaTeX]+Abfallager+ & Ab-fallager & Abfall-lager & Abfalla-ger\\
680 \lstinline[style=LaTeX]+Zellstoffabrik+ & Zell-stoffabrik & Zellstoff-fabrik & Zellstoffa-brik\\
681 \end{tabular}
683 Das Paket \texttt{Babel} stellt verschiedene Kürzel zur Verfügung,
684 u.\,a. \lstinline[style=LaTeX]+"ck+%
685 \footnote{Spezialtrennungen werden in \TeX\ mit Hilfe des Kommandos
686 \lstinline[style=LaTeX]+\\discretionary+ kodiert. So wird zum
687 Beispiel das \texttt{Babel}-Kürzel \lstinline[style=LaTeX]+\"ck+ in
688 der Eingabe während des Setzens durch
689 \lstinline[style=LaTeX]+\\discretionary\{k-\}\{k\}\{ck\}+ ersetzt,
690 wodurch \emph{k-k}-Trennungen möglich werden.}
692 oder \lstinline[style=LaTeX]+"ff+ \emph{etc.}, mit denen
693 Spezialtrennungen im Quelldokument ausgezeichnet werden können (siehe
694 auch \autoref{tab:trennung-dreik}).
696 Lua\TeX%
697 \footnote{\url{http://www.luatex.org/}}
699 soll in einer zukünftigen Version Mechanismen zur automatischen
700 Behandlung von Spezialtrennungen bereitstellen. Eine physische
701 Auszeichnung im Quelltext ist dann nicht mehr erforderlich. Die
702 entsprechenden Spezialtrennmuster für die deutsche Sprache werden
703 ebenfalls im Rahmen dieses Projekts erstellt.
705 \end{enumerate}
707 \subsection{Traditionelle Rechtschreibung in der Schweiz}
708 \label{sec:tradchRS}
710 Die Trennmuster für die traditionelle Rechtschreibung in der Schweiz
711 folgen weitgehend den Konventionen für die traditionelle Rechtschreibung
712 in Deutschland (siehe \autoref{sec:tradRS}). Die folgende Liste enthält
713 daher nur Fälle, in denen davon abgewichen wird oder deren Beschreibung
714 aus anderen Gründen sinnvoll erscheint.
716 \begin{enumerate}[\hspace{1em}\itshape{TS}1]
717 \labelformat{enumi}{\textit{TS#1}}
719 \item\label{enum:tradchEszett} Wörter mit \emph{ß} werden gemäß den
720 Regeln für die traditionelle Rechtschreibung in Deutschland getrennt.
722 \item\label{enum:tradchSS} Abweichend von \regelref{enum:tradEszett}
723 wird \emph{ss/SS} immer als Doppelkonsonant behandelt und
724 gegebenenfalls getrennt:
726 \begin{tabular}[t]{T}
727 grös-ste\\
728 Grüs-se\\
729 Mas-ses\\
730 \end{tabular}
732 Beachte, wird~\emph{ß} jedoch mit
733 \lstinline[style=LaTeX]+\MakeUppercase+ durch~\emph{SS} ersetzt, so
734 bleibt~\emph{SS} stets ungetrennt. Die Trennung richtet sich dann
735 nach der Schreibweise mit~\emph{ß} im Quelldokument (siehe
736 \regelref{enum:tradchEszett}).
738 \end{enumerate}
740 \subsection{Reformierte Rechtschreibung}
741 \label{sec:reformRS}
743 \begin{enumerate}[\hspace{1em}\itshape{R}1]
744 \labelformat{enumi}{\textit{R#1}}
746 \item\label{enum:reformhyphenmin} Die minimal unterstützte Silbenlänge
747 am Wortanfang und "~ende beträgt zwei Buchstaben
748 \cite[\S~107]{amtlRegeln:2006, amtlRegeln:2006:duden}.
750 Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
751 den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
752 \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
753 \lstinline[style=LaTeX]+\ngermanhyphenmins+ (\texttt{Babel}) anpassen.
754 Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
755 können fehlerhafte Trennungen auftreten.
757 \item\label{enum:reformEtymo} Falls die Trennung nach Sprechsilben und
758 die etymologische (sprachgeschichtliche) Trennung kollidieren, wird
759 weitgehend die etymologische Trennung gewählt
760 \cite[\S~113]{amtlRegeln:2006, amtlRegeln:2006:duden}:
762 \begin{tabular}[t]{RUU}
763 % Heli-ko-pter & Helikop-ter\\
764 % in-ter-view-en & intervie-wen\\
765 in-ter-es-sant & inte-ressant\\
766 Lin-ole-um & Li-noleum & Lino-leum\\
767 Päd-ago-ge & Pä-dagoge & Päda-goge\\
768 \end{tabular}
770 \item\label{enum:reformClusterLR} In Fremdwörtern bleiben die
771 Buchstabengruppen \emph{bl, pl, fl, gl, cl, kl, phl; br, pr, dr, tr,
772 fr, vr, gr, cr, kr, phr, thr; chth; gn, kn} im allgemeinen
773 ungetrennt, nicht jedoch \emph{str} \cite[\S~112]{amtlRegeln:2006,
774 amtlRegeln:2006:duden}
775 i.\,V.\,m.~\cite[R~179]{duden:1991}:
777 \begin{tabular}[t]{RU}
778 Ar-thri-tis & Arth-ritis\\
779 % Co-gnac & Cog-nac\\
780 Di-plom & Dip-lom\\
781 % Fe-bru-ar & Feb-ruar\\
782 igno-rie-re & ig-noriere\\
783 In-te-gral & Integ-ral\\
784 \end{tabular}
785 \par\nobreak
786 \textit{aber:}
788 \begin{tabular}[t]{RUU}
789 In-dus-trie & Indu-strie & Indust-rie\\
790 % Ma-gis-tra-le & Magi-strale\\
791 de-struk-tiv\\
792 sub-lim\\
793 \end{tabular}
795 \item\label{enum:reformSinn} Sinnentstellende und irreführende Trennungen
796 werden möglichst vermieden \cite[\S~107]{amtlRegeln:2006,
797 amtlRegeln:2006:duden}:
799 \begin{tabular}[t]{RU}
800 An-alpha-bet & Anal-phabet\\
801 Kaf-ka-kenner & Kafkaken-ner\\
802 Tal-entwäs-se-rung & Talent-wässerung\\
803 \end{tabular}
805 \item\label{enum:reformDoppeld} In mehrdeutigen Wörtern werden
806 Trennungen nur an übereinstimmenden Trennstellen
807 zugelassen:
809 \begin{tabular}[t]{RUUU}
810 Druckerzeug-nis & Dru-ckerzeugnis & Druck-erzeugnis &
811 Drucker-zeugnis\\
812 Mu-sikerle-ben & Musi-kerleben & Musik-erleben & Musiker-leben\\
813 nachtritt & nach-tritt & Nacht-ritt\\
814 Wachstu-be & Wach-stube & Wachs-tube\\
815 \end{tabular}
817 Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
818 sind in den Interpretationen \emph{Druck-Erzeugnis} und
819 \emph{Musik-Erleben} irreführend. Sie entfallen nach
820 \regelref{enum:reformSinn} und sind nicht als übereinstimmende
821 Trennstellen anzusehen.
823 Für diese Regel gilt die folgende Einschränkung:
824 \begin{itemize}
826 \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
827 "~endes} wird stets die Trennung der Partizipform des Verbs
828 verwendet.
830 \begin{tabular}[t]{RUU}
831 spie-len-de & Spiel-ende & spielende\\
832 \end{tabular}
834 \end{itemize}
836 \item\label{enum:reformEszett} Wird der Buchstabe~\emph{ß} durch
837 \emph{ss/SS} ersetzt, so wird \emph{s-s} getrennt \cite[\S\S~25~E3,
838 110]{amtlRegeln:2006, amtlRegeln:2006:duden}:
840 \begin{tabular}[t]{R}
841 \textls{GRÖS-STE}\\
842 \textls{GRÜS-SE}\\
843 \textls{M\kern-.4ptA\kern-.6ptS-SES}\\
844 \end{tabular}
846 Beachte, wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
847 oder in Kapitälchen in~\emph{SS} gewandelt, so bleibt~\emph{SS}
848 ungetrennt. Dies ist kein Fehler in den Trennmustern, sondern im
849 \LaTeX-Kern fest implementiert.
851 % \item\label{enum:reformOW} In Ableitungen von Namen auf \emph{"~ow}
852 % bleibt \emph{"~ow} ungetrennt, wenn es den Laut [o\,:] bezeichnet.
853 % Die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
854 % \emph{"~ers} wird unterdrückt \cite[\S~113]{amtlRegeln:2006,
855 % amtlRegeln:2006:duden}
856 % i.\,V.\,m.~\cite[R~180]{duden:1991}:
858 % \begin{tabular}[t]{RUU}
859 % Tel-tower & Telto-wer & Teltow-er\\
860 % Trep-towern & Trepto-wern & Treptow-ern\\
861 % Pan-kowers & Panko-wers & Pankow-ers\\
862 % \end{tabular}
864 \end{enumerate}
867 \section{Trennfehler}
868 \label{sec:trennfehler}
869 Mit den vorliegenden Trennmustern können sämtliche Wörter der
870 zugrundeliegenden Wortliste fehlerfrei getrennt werden. Technisch
871 gesprochen endet der letzte \Programm{Patgen}-Lauf mit der Meldung
873 \begin{lstlisting}[style=shell]
874 1266082 good, 0 bad, 0 missed
875 100.00 %, 0.00 %, 0.00 %
876 \end{lstlisting}
877 (der Wert vor \lstinline[style=shell]+good+ ist vom Listenumfang
878 abhängig). Trotz des großen Umfangs der Wortliste lassen sich
879 Trennfehler in Wörtern, die nicht in der Liste enthalten sind, nicht
880 vermeiden. Der Umfang der Wortliste kann allerdings nicht beliebig
881 erweitert werden.%
882 \footnote{Liangs Schema sieht nur einen begrenzten Bereich für die
883 Trennstellenbewertungen vor (0--9). Die derzeitigen Trennmuster
884 vewenden bereits Bewertungen der Höhe~8.}
886 In den folgenden Fällen sollten fehlerhafte Trennungen der Trennmuster
887 jedoch gemeldet werden:
889 \begin{enumerate}[\hspace{1em}A.]
891 \item\label{enum:kritWLfehlerhaft} Das Wort ist bereits in der Wortliste
892 enthalten. Der Eintrag ist jedoch fehlerhaft.
894 \end{enumerate}
896 Falls das Wort nicht in der Wortliste enthalten ist, bestehen sehr gute
897 Chancen, dass es aufgenommen wird, wenn eines der folgenden Kriterien
898 erfüllt ist:
900 \begin{enumerate}[\hspace{1em}A.]
901 \refstepcounter{enumi}% Fortsetzung der obigen Aufzählung.
903 \item\label{enum:kritHerkTM} Das betreffende Wort wird mit den
904 \emph{herkömmlichen} Trennmustern für die traditionelle oder
905 reformierte Rechtschreibung korrekt getrennt. Korrekt bedeutet hier:
906 Nicht alle möglichen Trennstellen müssen erkannt werden; es werden
907 jedoch in keinem Fall falsche Trennstellen ermittelt. Zum Testen kann
908 in \TeX\ der folgende Aufruf verwendet werden (die Ausgabe erfolgt in
909 der \Abk{log}-Datei):
910 \begin{lstlisting}[style=LaTeX]
911 \showhyphens{durch Leerzeichen getrennte Wörter}
912 \end{lstlisting}
914 \item\label{enum:kritSinn} Es handelt es sich um eine orthographisch
915 richtige, aber sinnentstellende oder irreführende Trennung.
916 Berücksichtigt werden allerdings nur Wörter, die aus höchstens zwei
917 (gegebenenfalls prä- und suffigierten) Wörtern zusammengesetzt sind,
918 zum Beispiel ">Talent-wässerung"<. Nicht berücksichtigt wird hingegen
919 die ">Talent-wässerungsanlage"<.
921 \end{enumerate}
923 Einige bekannte Fehler in den Trennmustern sind in der Datei
924 \Datei{CHANGES} verzeichnet. Noch nicht bekannte falsche, fehlende und
925 unerwünschte Worttrennungen können an die folgenden E-Mail-Adressen
926 gerichtet werden:
927 \begin{itemize}
928 \item
929 \href{mailto:trennmuster@dante.de}{trennmuster@dante.de},
930 \item \href{mailto:wl@gnu.org}{wl@gnu.org} (Werner Lemberg).
931 \end{itemize}
933 Trennfehler, die in den Trennmustern nicht korrigiert werden können,
934 können mit Hilfe einer privaten Ausnahmeliste behandelt werden:
935 \begin{lstlisting}[style=LaTeX]
936 \hyphenation{Tal-entwäs-se-rungs-an-la-ge Kaf-ka-kenner-klub}
937 \end{lstlisting}
939 Die aktuelle und ältere Ausgaben der Trennmuster sind im Dateibereich
940 des Trennmuster-Wikis erhältlich.%
941 \footnote{\url{http://projekte.dante.de/Trennmuster}}
943 Im Entwicklerrepositorium\footnote{%
944 siehe \url{http://projekte.dante.de/Trennmuster/Entwickler}}
945 befindet sich ein Makefile, mit dem jederzeit neue Trennmuster erzeugt
946 werden können.
948 \nobreak
949 \noindent\parbox{\linewidth}{%
950 \vspace*{\baselineskip}
951 \raggedright
952 \itshape
953 Happy \TeX ing!\newline
954 Die deutschsprachige Trennmustermannschaft
958 \bibliography{dehyph-exptl}
961 \appendix
962 \section{Dateien und Installation}
963 \label{sec:installation}
965 Die eigentlichen Trennmusterdateien liegen in \Abk{utf-8}-Kodierung vor
966 (siehe \autoref{tab:dateien}, Endung \texttt{pat}). Sie werden von
967 \TeX\ nicht direkt geladen, sondern durch Manteldateien, die ebenfalls
968 Teil des Pakets sind (Endung \texttt{tex}). Wird eine 8-Bit-fähige
969 \TeX-Variante erkannt, übernehmen diese Manteldateien die Konvertierung
970 der Trennmuster in die \Abk{t1}-Kodierung.
972 \begin{table}
973 \centering
974 \caption{Trennmuster- und Manteldateien}
975 \label{tab:dateien}
976 \begin{tabular}{>{\ttfamily}l>{\ttfamily}l}
977 \normalfont Trennmusterdatei & \normalfont Manteldatei\\
978 \addlinespace\toprule\addlinespace
979 dehypht-x-<datum>.pat & dehypht-x-<datum>.tex\\
980 dehyphts-x-<datum>.pat & dehyphts-x-<datum>.tex\\
981 dehyphn-x-<datum>.pat & dehyphn-x-<datum>.tex\\
982 \end{tabular}
983 \end{table}
985 Bei der Installation werden die Manteldateien an die in
986 \autoref{tab:varietaeten} gezeigten Trennmusterbezeichner gebunden.
987 Diese Schritte werden für verschiedene \TeX-Verteilungen in der Datei
988 \Datei{INSTALL} beschrieben. Nach der Installation können die
989 experimentellen Trennmuster wie in \autoref{sec:aktivieren} gezeigt
990 verwendet werden.
993 \section{Fragen \& Antworten}
994 \label{sec:fragen}
996 \newcommand*{\fragefont}{\itshape}
997 \newcommand*{\themenfont}{\large\normalfont}
998 \newcounter{cntfrage}% Zaehler fuer Fragen.
999 \newcounter{thema}% Zaehler fuer Themenueberschriften.
1000 \renewcommand*{\thethema}{\Roman{thema}.}
1001 \newcounter{frage}% Zaehler fuer Fragen.
1002 \renewcommand*{\thefrage}{\arabic{frage}.}
1003 \newboolean{nextfrage}
1005 \makeatletter
1007 %%% Neue zref-Liste frage = (type, text, anchor).
1008 \zref@newlist{frage}
1009 \zref@newprop{type}{f}
1010 \zref@newprop{text}{??}
1011 \zref@addprop{frage}{type}
1012 \zref@addprop{frage}{text}
1013 \zref@addprop{frage}{anchor}
1015 %%% Fuegt eine neue Themenueberschrift ein.
1016 \newcommand*{\fragenthema}[1]{%
1017 \par
1018 \pagebreak[1]
1019 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1020 \refstepcounter{cntfrage}
1021 \stepcounter{thema}
1022 \zref@setcurrent{type}{t}
1023 \zref@setcurrent{text}{\thethema~#1}
1024 \zref@labelbylist{frage:\thecntfrage}{frage}
1025 \noindent{\themenfont\thethema~#1\par}
1028 %%% Umgebung fuer eine Frage mit Antwort.
1029 \newenvironment{frageantwort}[1]{%
1030 \par
1031 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1032 \refstepcounter{cntfrage}
1033 \stepcounter{frage}
1034 \zref@setcurrent{type}{f}
1035 \zref@setcurrent{text}{\thefrage~#1}
1036 \zref@labelbylist{frage:\thecntfrage}{frage}
1037 \noindent{\fragefont\thefrage~#1\par}
1038 \nobreak\noindent\ignorespaces
1040 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1043 %%% Zeige alle Fragen in sortierter Reihenfolge.
1044 \newcommand{\zeigefragen}{%
1045 \par
1046 \zref@refused{frage:1}
1047 \setcounter{cntfrage}{1}
1048 \setboolean{nextfrage}{true}
1049 \whiledo{\boolean{nextfrage}}{
1050 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1051 \ifthenelse{\equal{\zref@extract{frage:\thecntfrage}{type}}{f}}{% Frage
1052 \noindent%
1053 \begingroup%
1054 \fragefont%
1055 \hyperlink{\zref@extract{frage:\thecntfrage}{anchor}}{%
1056 \zref@extract{frage:\thecntfrage}{text}%
1058 \par
1059 \endgroup
1060 }{% Themenueberschrift
1061 \noindent%
1062 \begingroup%
1063 \themenfont%
1064 \zref@extract{frage:\thecntfrage}{text}%
1065 \par
1066 \endgroup
1067 \nobreak
1069 \stepcounter{cntfrage}
1070 \zref@ifrefundefined{frage:\thecntfrage}{\setboolean{nextfrage}{false}}{}
1072 \vspace{.5\baselineskip plus .1\baselineskip minus .1\baselineskip}
1073 \setcounter{cntfrage}{0}
1074 \setcounter{frage}{0}
1078 \zeigefragen
1081 \fragenthema{Verwenden der Trennmuster}
1083 \begin{frageantwort}{Die experimentellen Trennmuster waren in der
1084 \TeX-Verteilung bereits vorinstalliert. Wie kann das Datum
1085 ermittelt werden, das Teil des Trennmusterbezeichners ist, wie in
1086 \autoref{sec:verwenden} erwähnt?}
1087 Die Trennmusterbezeichner werden in der Datei \Datei{language.dat}
1088 definiert, wo auch die Verbindung zu den Manteldateien hergestellt
1089 wird. Da ein Teil der Trennmusterbezeichner bereits bekannt ist,
1090 \verb+german-x+, vgl. \autoref{tab:varietaeten}, kann die Datei
1091 \Datei{language.dat} danach durchsucht werden. Zunächst muss der Ort
1092 der Datei mit Hilfe des Kommandos \lstinline[style=shell]{kpsewhich}
1093 ermittelt werden. Es folgen die vollständigen Kommandos für
1094 unixähnliche Shells und die Windows-Kommandozeile \Datei{cmd.exe}.
1095 Achtung, bei den einfachen Anführungszeichen handelt es sich um
1096 Gravis ("`Backquotes"').
1098 \begin{lstlisting}[style=shell, caption=Shell]
1099 grep -i german-x `kpsewhich language.dat`
1100 \end{lstlisting}
1102 \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1103 for /F "usebackq" %f in (`kpsewhich language.dat`) do find /i "german-x" "%f"
1104 \end{lstlisting}
1106 Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1107 abweichen):
1109 \begin{lstlisting}
1110 german-x-2009-06-19 dehypht-x-2009-06-19.tex
1111 =german-x-latest
1112 ngerman-x-2009-06-19 dehyphn-x-2009-06-19.tex
1113 =ngerman-x-latest
1114 \end{lstlisting}
1115 Die gesuchten Trennmusterbezeichner befinden sich in der ersten Spalte
1116 und lauten in diesem Beispiel
1117 \lstinline[style=LaTeX]{german-x-2009-06-19} und
1118 \lstinline[style=LaTeX]{ngerman-x-2009-06-19}. In der zweiten Spalte
1119 kann man die Namen der Manteldateien erkennen
1120 (vgl. \autoref{tab:dateien}). Die mit einem Gleichheitszeichen
1121 beginnenden Zeilen definieren ein Synonym für den
1122 Trennmusterbezeichner der unmittelbar vorangehenden Zeile in der Datei
1123 \Datei{language.dat}.
1124 \end{frageantwort}
1127 \begin{frageantwort}{Wie kann die Version der experimentellen Muster
1128 ermittelt werden, die im Paket \texttt{hyph-utf8} enthalten sind?}
1129 Das Vorgehen ähnelt dem der vorherigen Antwort. Zunächst wird der Ort
1130 einer bestimmten Datei ermittelt. Diese wird dann nach einer
1131 hilfreichen Zeichenkette durchsucht.
1133 \begin{lstlisting}[style=shell, caption=Shell]
1134 grep dehyph `kpsewhich hyph-de-1901.lic.txt`
1135 \end{lstlisting}
1137 \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1138 for /F "usebackq" %f in (`kpsewhich hyph-de-1901.lic.txt`) do find "dehyph" "%f"
1139 \end{lstlisting}
1141 Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1142 abweichen):
1144 \begin{lstlisting}
1145 % dehypht-x-2011-06-01.pat
1146 \message{German Hyphenation Patterns (Traditional Orthography) `dehypht-x' 2011-
1147 06-01 (WL)}
1148 \end{lstlisting}
1149 \end{frageantwort}
1152 \fragenthema{Rechtschreibung}
1154 \begin{frageantwort}{Verlag, Prüfer o.\,ä. bemängeln die Trennung
1155 der Trennmuster für die reformierte Rechtschreibung. Zum Beispiel
1156 wird ">In-dus-trie"< getrennt, der Duden trennt jedoch
1157 ">In-dust-rie"<.}
1158 Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache
1159 lassen für viele Wörter mehrere Trennvarianten zu. Die Trennmuster
1160 und ebenso Wörterverzeichnisse legen sich aus praktischen Gründen auf
1161 eine Trennvariante fest. Sie können daher unterschiedliche Trennungen
1162 verwenden, ohne dass eine von beiden falsch ist. Aus diesem Grund
1163 sind Wörterverzeichnisse nicht geeignet, eine bestimmte Trennung auf
1164 Richtigkeit zu prüfen. Verbindlich sind einzig die amtlichen Regeln
1165 für die Rechtschreibung der deutschen Sprache~\cite{amtlRegeln:2006}.
1166 Häufig sind diese im Anhang eines Wörterbuchs abgedruckt. Die von den
1167 Trennmustern befolgten Konventionen können \autoref{sec:trennregeln}
1168 entnommen werden.
1170 Wenn Unsicherheit darüber herrscht, wie die Rechtschreibung geprüft
1171 wird, sollte dies frühzeitig geklärt werden. Nicht jedem Redakteur
1172 oder Prüfer ist bewusst, dass der Duden seine normative Stellung mit
1173 der Rechtschreibreform~1996 eingebüßt hat.
1174 \end{frageantwort}
1177 \begin{frageantwort}{Gibt es dudenkonforme Trennmuster für die
1178 reformierte Rechtschreibung?}
1179 Zur Zeit nicht, es ist auch nicht geplant. Dieses Projekt ist jedoch
1180 offen für Vorschläge und Mitarbeit.
1181 \end{frageantwort}
1184 \begin{frageantwort}{Weshalb werden noch Trennmuster für die
1185 traditionelle Rechtschreibung bereitgestellt?}
1186 Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache in
1187 der Fassung von 2006 sind nur für öffentliche Einrichtungen und
1188 Behörden verbindlich. Im privaten Schriftverkehr kann man wahlweise
1189 die traditionelle oder die reformierte Rechtschreibung verwenden.%
1190 \footnote{Oder auch keine von beiden.}
1192 Daher erfreut sich die traditionelle Rechtschreibung weiterhin großer
1193 Beliebtheit.
1195 Für Texte in gebrochener Schrift ist die traditionelle Rechtschreibung
1196 sogar vorzuziehen.
1197 \end{frageantwort}
1200 \begin{frageantwort}{Können Trennungen mit einer Silbenlänge von nur
1201 einem Buchstaben ermöglicht werden, zum Beispiel für den Satz in
1202 schmalen Kolumnen?}
1203 Mit diesen Trennmustern ist das nicht möglich, da die zugrundeliegende
1204 Wortliste solche Trennungen nicht enthält. Die Abtrennung einzelner
1205 Vokale, zum Beispiel ">A-bend"<, war nur kurzzeitig zulässig; die
1206 entsprechende Regelung von 1996 wurde mit der Rechtschreibreform 2006
1207 wieder zurückgenommen. Wird die Silbenmindestlänge für die
1208 Worttrennung auf eins verringert, können falsche Trennungen auftreten.
1209 \end{frageantwort}
1212 \fragenthema{Mitarbeit}
1214 \begin{frageantwort}{Wie kann ich mich über dieses Projekt informieren?}
1215 Zentrale Anlaufstelle ist das Trennmuster-Wiki, welches sich momentan
1216 jedoch noch im Aufbau befindet.%
1217 \footnote{\url{http://projekte.dante.de/Trennmuster}}
1219 Für Fragen und Hinweise kann nach Anmeldung die Mailingliste%
1221 \footnote{\url{trennmuster@dante.de}};
1223 oder alternativ die Usenetgruppe \Datei{de.comp.text.tex} genutzt
1224 werden. Die folgenden Dateien enthalten weitergehende Informationen:
1226 \begin{itemize}
1227 \item Neben der Dokumentation zu den Trennmustern enthält dieses Paket
1228 eine Projektbeschreibung (\Datei{projektbeschreibung.pdf}).
1230 \item Die Datei \Datei{CHANGES} enthält bekannte, systematische Fehler
1231 der Trennmuster.
1233 \item Das Entwicklerrepositorium enthält in der Datei
1234 \Datei{README.wortliste} eine Beschreibung des Formats der
1235 Wortliste.
1237 \end{itemize}
1238 \end{frageantwort}
1241 \begin{frageantwort}{Wie kann ich helfen?}
1242 Die deutschsprachige Trennmustermannschaft ist eine offene Gruppe und
1243 benötigt dringend weitere Mithilfe. Interessenten sind daher hoch
1244 willkommen! Zum Mitmachen gibt es mehrere Möglichkeiten:
1245 \begin{itemize}
1246 \item Die einfachste ist, die experimentellen Trennmuster ausgiebig zu
1247 testen und Fehler zu melden (siehe \autoref{sec:trennfehler}).
1249 \item Besonders hilfreich wäre Mitarbeit am Projekt. Als Einstieg
1250 kann die (grobe) Aufgabenliste in der Projektbeschreibung dienen.
1252 Obwohl schon experimentelle Trennmuster veröffentlicht wurden, steht
1253 dieses Projekt noch ziemlich am Anfang. Ziel ist, die verwendete
1254 Wortliste von möglichst vielen Menschen in verteilter Arbeit auf
1255 Richtigkeit zu prüfen. Bis dahin bleibt jedoch noch viel zu tun.
1257 \item Mittelfristig -- nach Fertigstellung der Prüfmaske~-- kann auch
1258 durch systematische Durchsicht eines Teils der Wortliste geholfen
1259 werden.
1261 \item Fragen, Hinweise und Ideen sind auf der Mailingliste immer
1262 willkommen!
1263 \end{itemize}
1264 \end{frageantwort}
1267 \begin{frageantwort}{Sollten Trennfehler einzeln oder gesammelt
1268 eingereicht werden?}
1269 Das ist egal. Es sollten allerdings die folgenden Hinweise beim
1270 Einreichen von Fehlern beachtet werden:
1272 \begin{description}\setkomafont{descriptionlabel}{\normalfont\itshape}
1273 \item[Aktualität] Wenn Sie ältere Trennmusterdateien verwenden, prüfen
1274 Sie zunächst, ob der Fehler auch mit aktuellen Trennmustern
1275 auftritt. Die aktuellen Trennmuster sind im \Abk{ctan} im Paket
1276 \texttt{dehyph-exptl} oder im Dateibereich unter der
1277 Projekt-\Abk{url} erhältlich. Im Repositorium befindet sich auch
1278 ein Makefile, mit dem jederzeit neue Trennmuster aus der aktuellen
1279 Wortliste erzeugt werden können.
1281 \item[Informationen] In einem Fehlerbericht sollte für das betreffende
1282 Wort die richtige und bei einzelnen Worteinreichungen auch die
1283 falsche Trennung angegeben werden. Außerdem die genaue Version der
1284 verwendeten Trennmuster (traditionelle oder reformierte
1285 Rechtschreibung, Datum der Trennmusterdatei).
1287 \item[Listenformat] Es erleichtert die Korrektur, wenn
1288 Berichtigungsvorschläge in Form einer Liste eingereicht werden, die
1289 automatisch mit Skripten bearbeitet werden kann. Die folgenden
1290 Konventionen sollten dabei eingehalten werden:
1291 \begin{itemize}
1292 \item Die Spalten werden mit einem Semikolon \verb+;+ getrennt.
1293 \item Die erste Spalte enthält das betreffende Wort in ungetrennter
1294 Form.
1295 \item Die zweite Spalte enthält das Wort in der Trennvariante nach
1296 traditioneller Rechtschreibung.
1297 \item Falls die Trennung nach reformierter Rechtschreibung davon
1298 abweicht, steht diese in der dritten Spalte.
1299 \item Ab der vierten Spalte \emph{können} weitere Trennvarianten
1300 folgen, etwa die falsche Trennung. Eine kurze Erklärung sollte
1301 dann darauf eingehen.
1302 \item Unerwünschte Trennungen werden mit einem Punkt \verb+.+
1303 markiert.
1304 \item Anfang und Ende der Liste sollten klar erkennbar sein.
1305 \end{itemize}
1306 Eine Liste könnte beispielhaft so aussehen:
1307 \begin{lstlisting}[style=Text]
1308 sonnendurchfluteten;son-nen-durch-flu-te-ten
1309 Talentwässerung;Tal-ent.wäs-se-rung
1310 Fensterplatz;Fen-ster-platz;Fens-ter-platz
1311 \end{lstlisting}
1312 Dieses Format ist auch für einzeln eingereichte Korrekturen
1313 sinnvoll.
1315 \item[Betreff] Der Betreff einer Fehlermeldung sollte aussagekräftig
1316 sein. Daher sollten mehrere Trennfehler, sofern möglich, thematisch
1317 zusammengefasst werden. Außerdem kann zur einfacheren Zuordnung das
1318 entsprechende Kriterium aus \autoref{sec:trennfehler} dem Betreff
1319 der E-Mail in eckigen Klammern vorangestellt werden, zum Beispiel:
1320 \begin{lstlisting}[style=Text]
1321 Betreff: [A] sonnendurchfluteten
1322 \end{lstlisting}
1323 für einen Trennfehler im Wortes \emph{sonnendurchfluteten}, der
1324 durch einen Fehler in der Wortliste hervorgerufen wird.
1325 \end{description}
1326 \end{frageantwort}
1329 \end{document}
1331 %%% Local Variables:
1332 %%% mode: latex
1333 %%% TeX-PDF-mode: t
1334 %%% TeX-master: t
1335 %%% coding: iso-8859-15
1336 %%% End: