[dehyph-exptl] Aktualisiere Dokumentation.
[wortliste.git] / dehyph-exptl / dehyph-exptl.tex
blob0405f9c3588f4671c107531991b52bd3dd35437a
1 %%% Artikelklasse mit:
2 %%% * Grundschriftgröße 11 Punkt,
3 %%% * klassischem Satzspiegel,
4 %%% * flachem Inhaltsverzeichnis,
5 %%% * Tabellenüberschriften.
6 \documentclass[11pt,DIV8,tocleft,tablecaptionabove,abstracton]{scrartcl}
7 %%% Eingabekodierung ist UTF-8.
8 \usepackage[utf8]{inputenc}
9 %%% Schrifteinstellung:
10 %%% * Grundschrift Palatino,
11 %%% * Akzidenzschrift Bera Sans,
12 %%% * Schreibmaschinenschrift Latin Modern Typewriter.
13 \usepackage[T1]{fontenc}
14 \usepackage[osf]{mathpazo}
15 \usepackage[scaled]{berasans}
16 \renewcommand*{\ttdefault}{lmtt}
17 \usepackage{textcomp}
18 \linespread{1.05}
19 \usepackage[expansion=true, letterspace=80]{microtype}
20 %%% Lade einige Pakete.
21 \usepackage{ifthen}
22 \usepackage{calc}
23 \usepackage{multicol}
24 \usepackage{paralist}
25 \usepackage{fncylab}
26 \usepackage{tabularx}
27 \usepackage{booktabs}
28 \newcolumntype{L}{>{\raggedright\arraybackslash}X}
29 \usepackage{listings}
30 \lstloadlanguages{[LaTeX]TeX, sh}
31 \lstset{basicstyle=\ttfamily, keywordstyle={}, commentstyle={},
32 columns=flexible, showspaces=false, showstringspaces=false,
33 % aboveskip=12pt, belowskip=12pt, frame=tb,
34 % framesep=8pt, framerule=2pt,
35 xleftmargin=6pt, xrightmargin=6pt,
36 % framexleftmargin=6pt, framexrightmargin=6pt
37 inputencoding=utf8,
38 extendedchars=true,
39 literate={ä}{{\"a}}1 {ö}{{\"o}}1 {ü}{{\"u}}1,
41 \lstdefinestyle{LaTeX}{language=[LaTeX]TeX, basicstyle=\ttfamily,
42 keywordstyle={}, commentstyle={\itshape}}
43 \lstdefinestyle{shell}{language=sh, basicstyle=\ttfamily,
44 keywordstyle={}, commentstyle={\itshape}}
45 \lstdefinestyle{Text}{language=, basicstyle=\ttfamily,
46 keywordstyle={}, commentstyle={}}
47 \usepackage{needspace}
48 %%% Literaturverweise in runden Klammern mit Semikolon als Trenner.
49 % \usepackage[round,semicolon]{natbib}
50 % \renewcommand*{\bibnumfmt}[1]{(#1)}
51 %%% Literaturverzeichnis mit Sprachunterstützung.
52 \usepackage[fixlanguage]{babelbib}
53 \bibliographystyle{babalpha}
54 %%% Babelbib fordert trotz fixlanguage zuviele Sprachen an.
55 \usepackage[english, german, ngerman]{babel}
56 %%% Einstellungen für interaktive PDF-Dokumente.
57 \usepackage[rgb,x11names]{xcolor}
58 \usepackage[hyperref]{zref}
59 \usepackage{hyperref}
60 \hypersetup{
61 pdftitle={dehyph-exptl},
62 pdfauthor={Die deutschsprachige Trennmustermannschaft},
63 pdfkeywords={TeX, deutsche Rechtschreibung, Trennmuster,
64 computergestützte Worttrennung}
66 \hypersetup{
67 ngerman,% For \autoref.
68 pdfstartview={XYZ null null null},% Zoom factor is determined by viewer.
69 colorlinks,
70 linkcolor=RoyalBlue3,
71 urlcolor=Chocolate4,
72 citecolor=DeepPink2
74 \newcommand*{\regelref}[1]{%
75 \begingroup%
76 \renewcommand*{\Itemautorefname}{Regel}%
77 \autoref{#1}%
78 \endgroup%
80 %%% Schriftfestlegungen.
81 \setkomafont{title}{\normalcolor\normalfont}
82 \setkomafont{sectioning}{\normalcolor\normalfont}
83 \setkomafont{section}{\Large}
84 \setkomafont{subsection}{\Large\itshape}
85 \setkomafont{descriptionlabel}{\normalfont\itshape}
86 %%% Einige Makros für logische Auszeichnungen definieren.
87 \newcommand*{\Abk}[1]{\mbox{\textsc{\lsstyle#1}}}
88 \newcommand*{\Programm}[1]{\textsc{\lsstyle#1}}
89 \newcommand*{\Datei}[1]{\texttt{#1}}
90 \colorlet{richtigcol}{green!80!black}
91 \colorlet{falschcol}{red!80!black}
92 \colorlet{tradcol}{green!50!black}
93 \colorlet{reformcol}{green!75!black}
94 \colorlet{unerwcol}{red!60!black}
96 \newcolumntype{T}{>{\color{tradcol}}l}
97 \newcolumntype{R}{>{\color{reformcol}}l}
98 \newcolumntype{U}{>{\color{unerwcol}}l}
100 \newcommand*{\trennung}[2]{%
101 \makebox[0pt][l]{%
102 \color{#1}%
103 \smash{\rule[-3.5pt]{\widthof{#2}}{.7pt}}% Schriftabhängig.
107 \newcommand*{\ftr}[1]{\trennung{falschcol}{#1}}% Falsche Trennung.
108 \newcommand*{\rtr}[1]{\trennung{richtigcol}{#1}}% Richtige Trennung.
110 %%% Satzspiegel erneut berechnen.
111 \typearea{last}
113 \begin{document}
114 %%% Trennausnahmen definieren.
115 \hyphenation{Back-end hyph-subst Ent-wick-ler-re-po-si-to-ri-um
116 Wort-her-kunft Not-tren-nung Trenn-al-go-rith-mus
117 um-bruch-in-kom-pa-tib-le}
118 %%% Protokollierung der Trennungen für findhyph.
119 %\tracingparagraphs=1
121 %%% Dokumenttitel.
122 \author{Die deutschsprachige Trennmustermannschaft}
123 \title{\texttt{dehyph-exptl}\thanks{This document describes the
124 \texttt{dehyph-exptl} package v0.41.}}
125 \subtitle{Experimentelle Trennmuster für die deutsche Sprache}
126 \maketitle
129 %%% Zweisprachige Zusammenfassung.
130 \selectlanguage{english}
131 \begin{abstract}
132 This package provides experimental hyphenation patterns for the German
133 language, covering traditional and reformed orthography for several
134 varieties of Standard German. The patterns can be used with packages
135 \texttt{Babel} and \texttt{hyphsubst} from the \Programm{Oberdiek
136 bundle}. More information can be found in the Trennmuster-Wiki%
137 \footnote{\url{http://projekte.dante.de/Trennmuster}}
139 (in German).
140 \end{abstract}
142 \selectlanguage{ngerman}
143 \begin{abstract}
144 Dieses Paket enthält experimentelle Trennmuster für die deutsche
145 Sprache. Die Trennmuster decken das in Deutschland, Österreich und
146 der Schweiz gebräuchliche Standarddeutsch in der traditionellen und
147 reformierten Rechtschreibung ab und können mit den Paketen
148 \texttt{Babel} und \texttt{hyphsubst} aus dem
149 \Programm{Oberdiek-Bündel} verwendet werden.
151 Dieses Paket richtet sich ausschließlich an Nutzer der Programme \TeX\
152 und pdf\TeX. Lua\TeX- und Xe\TeX-Nutzer können experimentelle Muster
153 aus dem Paket \texttt{hyph-utf8} verwenden und benötigen dieses Paket
154 nicht.
155 \end{abstract}
157 \vfill
158 \begingroup
159 \em\large
160 \begin{center}
161 Warnung!
162 \end{center}
163 Diese Trennmuster befinden sich im experimentellen Status. Sie können
164 jeder\-zeit vom \Abk{ctan} oder aus \TeX-Vertei\-lun\-gen entfernt oder
165 durch umbruch\-inkompa\-ti\-ble Versionen ersetzt werden. Sie sind
166 daher nicht für Anwendungen geeignet, die einen dauerhaft stabilen
167 Umbruch erfordern.
168 \endgroup
169 \vfill
171 \clearpage
172 %%% Zweispaltiges Inhaltsverzeichnis.
173 \begin{multicols}{2}
174 \small
175 \renewcommand*{\ngermanhyphenmins}{44}
176 \selectlanguage{ngerman}
177 \tableofcontents
178 \end{multicols}
181 \section{Einleitung}
182 \label{sec:einleitung}
183 Der in \TeX\ implementierte Trennalgorithmus arbeitet
184 musterbasiert~\cite{liang:1983}. Prinzipiell können mit einem solchen
185 Algorithmus nicht alle möglichen Wörter korrekt getrennt werden. Die
186 Qualität der Worttrennung einer Sprache wird jedoch maßgeblich von der
187 Qualität der Wortliste beeinflusst, aus der die verwendeten Trennmuster
188 berechnet wurden.
190 Obwohl die herkömmlichen Trennmuster für die deutsche Sprache bei der
191 Worttrennung in gewöhnlichen Texten eine akzeptable Fehlerrate
192 erreichen, enthalten sie doch eine Reihe von Schwächen:%
193 \footnote{Diese Liste bezieht sich auf die Trennmusterdateien
194 \Datei{dehypht.tex}, Version~3.2a vom 3.\,3.\,1999, und
195 \Datei{dehyphn.tex}, Version~31 vom 7.\,5.\,2001.}
197 \bigskip\smallskip
198 \needspace{4\baselineskip}
199 \noindent\textit{traditionelle und reformierte Rechtschreibung}
201 \begin{itemize}
202 \item In zusammengesetzten Wörtern treten häufig Trennfehler an
203 Wortfugen auf.
205 \item Fremdwörter mit akzentuierten Buchstaben werden mangelhaft
206 getrennt: ">C\ftr{af}é"<, ">Ci-tr\ftr{}n"<, ">F\ftr{}on"<,
207 ">vo\ftr{il}à"<.
209 \item Die Trennmusterdateien enthalten eine Mischung aus \Abk{t1}- sowie
210 unvollständigen \Abk{ot1}-kodierten Mustern. Mit Erscheinen von
211 16-Bit-fähigen \TeX-Varianten werden sauber \Abk{utf-8}-kodierte
212 Trennmuster nötig \cite{miklavec:2008}.
213 \end{itemize}
215 \bigskip
216 \needspace{4\baselineskip}
217 \noindent\textit{traditionelle Rechtschreibung}
219 \begin{itemize}
220 \item Die herkömmlichen Trennmuster für die traditionelle deutsche
221 Rechtschreibung können mit \Programm{Patgen} nicht reproduziert
222 werden, da die zugrundeliegende Wortliste verschollen ist. Die Pflege
223 der Trennmuster ist daher schwierig bis unmöglich. Für freie Software
224 ist dies kein zufriedenstellender Zustand.
226 \item Umfang und Qualität der ursprünglichen Wortliste lassen sich nicht
227 mehr einschätzen. Für die Trennmuster in traditioneller
228 Rechtschreibung existiert jedoch inzwischen eine Ausnahmeliste mit
229 über 3500 korrigierten Trennungen einfacher Wörter \cite{lemberg:2003,
230 lemberg:2005}.%
231 \footnote{\url{CTAN:language/hyphenation/dehyph/dehyphtex.tex}}
233 \item Wird in der traditionellen Rechtschreibung \emph{ß} durch
234 \emph{ss/SS} oder \emph{sz/SZ} ersetzt, so bleibt die Trennung davon
235 unberührt. Die herkömmlichen Trennmuster berücksichtigen diese Regel
236 nicht und trennen häufig den Ersatz: \textls{">GR\ftr{ÖS-S}E"<},
237 \textls{">GR\ftr{ÜS-S}E"<}, \textls{">M\ftr{AS-S}ES"<}.%
238 \footnote{Die Trennung der herkömmlichen Muster entspricht den Regeln
239 der deutschen Standardsprache in der Schweiz, obwohl diese
240 Sprachvarietät vom Paket \texttt{Babel} nicht offiziell unterstützt
241 wird. \texttt{Babel} versucht den Mangel mit Hilfe des Kürzels
242 \lstinline[style=LaTeX]+\"S+ zu kompensieren.}
244 \item Abweichende Schreibweisen, die in der traditionellen
245 Rechtschreibung in Österreich und der Schweiz verwendet werden, werden
246 mangelhaft getrennt: ">Gro\ftr{s-so}n-kel"<, ">Ku\ftr{s-sh}and"<,
247 ">Ma\ftr{ssn}ah-me"<, ">mi\ftr{s-sa}ch-ten"< (nur Schweiz) und
248 ">Ex-pre\ftr{ssz}ug"<, ">Fit-ne\ftr{s-sc}en-ter"<,
249 ">Fit-ne\ftr{sst}rai-ner"<.
250 \end{itemize}
252 \bigskip
253 \needspace{4\baselineskip}
254 \noindent\textit{reformierte Rechtschreibung}
256 \begin{itemize}
257 \item Die Trennmuster für die reformierte deutsche Rechtschreibung
258 wurden nicht mit \Programm{Patgen} aus einer Wortliste erstellt.
259 Stattdessen wurden die Trennmuster für die traditionelle
260 Rechtschreibung von Hand an die reformierten Regeln
261 angepasst~\cite{schmidt:1998}. Aus diesem Grund ist die Worttrennung
262 mit den Trennmustern für die reformierte Rechtschreibung etwas
263 schlechter als mit den Trennmustern für die traditionelle
264 Rechtschreibung.
265 \end{itemize}
267 Das Projekt \emph{Freie Wortlisten und Trennmuster für die deutsche
268 Sprache} hat sich das Ziel gesetzt, neue Trennmuster hoher Qualität
269 für die deutsche Sprache zu erstellen, die die genannten Probleme
270 ausräumen.
272 Den experimentellen Trennmustern dieses Pakets liegt eine Wortliste mit
273 den etwa fünfhunderttausend häufigsten Wörtern der deutschen Sprache
274 zugrunde. Vermutlich ist diese Liste erheblich umfangreicher als die
275 ursprüngliche Wortliste, in der Worthäufigkeiten wahrscheinlich
276 überhaupt nicht berücksichtigt wurden. Die verwendete Wortliste deckt
277 das in Deutschland, Österreich und der Schweiz gebräuchliche
278 Standarddeutsch ab.
280 Mit den vorliegenden Trennmustern sollte für nicht-fachsprach\-li\-che
281 Wörter eine sehr gute Trennqualität erreicht werden. Insbesondere
282 sollte sich die Trennung häufig auftretender zusammengesetzter Wörter
283 verbessern.
286 \section{Verwenden der Trennmuster}
287 \label{sec:verwenden}
288 Dieses Paket stellt die experimentellen Trennmuster für die Verwendung
289 mit \LaTeX\ und dem Sprachenpaket \texttt{Babel} zur Verfügung. Das
290 Paket richtet sich derzeit ausschließlich an Nutzer der Programme \TeX\
291 und pdf\TeX\ (siehe \autoref{tab:texkompat}).
293 Mit den nicht unterstützten \TeX-Programmen können experimentelle
294 Trennmuster dennoch verwendet werden, da das Paket \texttt{hyph-utf8}
295 ebenfalls Muster dieses Projekts enthält. Werden die UTF-8-fähigen
296 Programme Xe\TeX\ und Lua\TeX\ oder p\TeX\footnote{%
297 Eine in Japan populäre \TeX-Variante.%
298 } verwendet, so werden jene Muster standardmäßig aktiviert. Die
299 Trennmuster dieses Pakets sollten dann nicht verwendet werden. Siehe
300 \autoref{sec:fragen} für Hinweise, wie die Version der im Paket
301 \texttt{hyph-utf8} enthaltenen Muster ermittelt werden kann.
303 \begin{table}
304 \centering
305 \caption{Kompatibilität mit verschiedenen \TeX-Varianten}
306 \label{tab:texkompat}
307 \begin{tabular}{l>{\ttfamily}l}
308 Programm & \normalfont Quelle experimenteller Muster\\
309 \addlinespace\toprule\addlinespace
310 \TeX & dehyph-exptl\\
311 pdf\TeX & dehyph-exptl\\
312 XeTeX & hyph-utf8, dehyph-exptl\\
313 LuaTeX & hyph-utf8\\
314 p\TeX & hyph-utf8\\
315 \end{tabular}
316 \end{table}
318 Zur Installation der experimentellen Trennmuster siehe
319 \autoref{sec:installation} und die Datei \Datei{INSTALL}. Beachte, in
320 den folgenden Abschnitten ist \verb+<datum>+ durch das bei der
321 Installation angegebene Datum in \Abk{iso}-Notation (\verb+JJJJ-MM-TT+)
322 oder die Zeichenkette \verb+latest+ zu ersetzen. \autoref{sec:fragen}
323 enthält Hinweise, wie das Datum ermittelt werden kann, falls die
324 experimentellen Trennmuster in Ihrer \TeX-Verteilung schon
325 vorinstalliert sind.
328 \subsection{Sprachvarietät und Rechtschreibung}
329 \label{sec:varietaeten}
330 Dieses Paket stellt Trennmuster für die Worttrennung der deutschen
331 Sprache in der traditionellen und der reformierten Rechtschreibung
332 bereit. Die Trennmuster unterstützen zur Zeit die drei in
333 \begin{itemize}
334 \item Deutschland,
335 \item Österreich und der
336 \item Schweiz%
338 \footnote{Für Texte in Schweizer Standarddeutsch fehlt zur Zeit die
339 \texttt{Babel}-Unterstützung. Zum Beispiel muss das Kürzel
340 \lstinline[style=LaTeX]+\"s+ stets zu \emph{ss} expandieren. In der
341 traditionellen Rechtschreibung wird außerdem ein zusätzliches Kürzel
342 \lstinline[style=LaTeX]+\"ss+ benötigt (Dreikonsonantenregel). Wer
343 kann helfen?}
344 \end{itemize}
345 gebräuchlichen Hauptvarietäten der deutschen Standardsprache.
346 \autoref{tab:varietaeten} zeigt die Trennmuster, die abhängig von
347 gewünschter Varietät und Rechtschreibung in einem Dokument aktiviert
348 werden können.
350 \begin{table}
351 \centering
352 \caption{Die unterstützten Varietäten und Rechtschreibungen}
353 \label{tab:varietaeten}
354 \begin{tabular}{l>{\ttfamily}l}
355 \normalfont Sprachvarietät & Trennmusterbezeichner\\
356 \addlinespace\toprule\addlinespace
357 \hspace*{-\tabcolsep}\normalfont\emph{traditionelle Rechtschreibung}\\
358 Deutschland, Österreich & german-x-<datum>\\
359 Schweiz & gswiss-x-<datum>\\\addlinespace
360 \hspace*{-\tabcolsep}\normalfont\emph{reformierte Rechtschreibung}\\
361 Deutschland, Österreich, Schweiz & ngerman-x-<datum>\\
362 \end{tabular}
363 \end{table}
365 Varietäten, die sich nur in der Verwendung und Schreibung einzelner
366 Wörter voneinander unterscheiden, können durch gemeinsame Trennmuster
367 unterstützt werden. Die Eingabewortliste für \Programm{Patgen} ist dann
368 eine Vereinigung der den Varietäten entsprechenden Wortlisten. Zum
369 Beispiel werden Besonderheiten der österreichischen Standardsprache in
370 den Trennmustern für die Standardsprache Deutschlands berücksichtigt.
371 Österreichische und deutsche Anwender können daher dieselben Trennmuster
372 verwenden. (Wie das auch schon bei den herkömmlichen Trennmustern der
373 Fall war.)
375 Aufgrund unvereinbarer Trennregeln in der traditionellen Rechtschreibung
376 der Standardsprachen Deutschlands/""Österreichs und der Schweiz werden
377 für die letztere Varietät eigene Trennmuster bereitgestellt.
379 Mit der Rechtschreibreform 1996 wurden die Trennregeln aller drei
380 Standardsprachen so weit angeglichen, dass für die reformierte
381 Rechtschreibung einheitliche Trennmuster für alle drei unterstützten
382 Sprachvarietäten bereitgestellt werden können.
384 \subsection{Aktivieren der Trennmuster}
385 \label{sec:aktivieren}
386 Das folgende Beispiel zeigt eine \LaTeX-Präambel für die Aktivierung der
387 experimentellen Trennmuster für die reformierte Rechtschreibung. Die
388 Trennmusterbezeichner, die vom Paket \texttt{Babel} verwendet werden,
389 werden dazu mit Hilfe des Pakets \texttt{hyphsubst} aus dem
390 \Programm{Oberdiek-Bündel} so geändert, dass sie auf die experimentellen
391 Trennmuster verweisen:
393 \begin{lstlisting}[style=LaTeX]
394 \RequirePackage[ngerman=ngerman-x-<datum>]{hyphsubst}
395 % \RequirePackage[ngerman=ngerman-x-latest]{hyphsubst}
396 \documentclass{article}
397 \usepackage[T1]{fontenc}
398 \usepackage[ngerman]{babel}
399 \end{lstlisting}
401 Die folgende Variante erleichtert das schnelle Umschalten zwischen
402 verschiedenen Trennmustern im Editor. Weitere Hinweise können der
403 Dokumentation des Pakets \texttt{hyphsubst} entnommen werden.
405 \begin{lstlisting}[style=LaTeX]
406 \RequirePackage{hyphsubst}
407 \documentclass{article}
408 \usepackage[T1]{fontenc}
409 % \HyphSubstLet{german}{german-x-<datum>}
410 % \usepackage[german]{babel}
411 \HyphSubstLet{ngerman}{ngerman-x-<datum>}
412 \usepackage[ngerman]{babel}
413 \end{lstlisting}
415 Ob die experimentellen Trennmuster korrekt aktiviert werden, kann mit
416 dem folgenden Beispiel getestet werden. Die Ausgabe für die
417 traditionelle und reformierte Rechtschreibung mit herkömmlichen und
418 experimentellen Trennmustern ist in \autoref{tab:trennvarianten}
419 zusammengefasst.
420 \begin{lstlisting}[style=LaTeX]
421 \begin{document}
422 \showhyphens{löste Fassade modernste Abendstern Mordopfer}
423 \end{lstlisting}
425 %\suppressfloats[t]
426 \begin{table*}
427 \centering
428 \caption{Trennvarianten}
429 \label{tab:trennvarianten}
430 \begin{tabular}{llll}
431 \multicolumn{2}{c}{\itshape traditionelle Rechtschreibung} &
432 \multicolumn{2}{c}{\itshape reformierte Rechtschreibung}\\
433 herkömmlich & experimentell & herkömmlich & experimentell\\
434 \addlinespace\toprule\addlinespace
435 l\ftr{ös-t}e & lö-ste & lös-te & lös-te\\
436 Fas-sa-de & Fas-sa-de & Fa\ftr{ss}a-de & Fas-sa-de\\
437 mo-\ftr{d-e}rn-ste & mo-dern-ste & mo-\ftr{d-e}rns-te & mo-derns-te\\
438 Abend-stern & Abend-stern & Aben\ftr{ds-t}ern & Abend-stern\\
439 Mo\ftr{r-do}p-fer & Mord-op-fer & Mo\ftr{r-do}p-fer & Mord-op-fer\\
440 \end{tabular}
441 \end{table*}
444 % Trennung mit Mustern für traditionelle Rechtschreibung.
445 \newcommand*{\trtr}[1]{\trennung{tradcol!20}{#1}}
446 % Trennung mit Mustern für reformierte Rechtschreibung.
447 \newcommand*{\retr}[1]{\trennung{reformcol!20}{#1}}
448 % Unerwünschte Trennung.
449 \newcommand*{\untr}[1]{\trennung{unerwcol!20}{#1}}
451 \section{Trennregeln und Konventionen}
452 \label{sec:trennregeln}
453 Die Trennmuster für die traditionelle Rechtschreibung in Deutschland und
454 Österreich orientieren sich an den verbindlichen Regeln des Dudens in
455 der Fassung von 1991~\cite{duden:1991}. Dasselbe gilt für die
456 Trennmuster für die traditionelle Rechtschreibung in der Schweiz, jedoch
457 mit einer unten beschriebenen Abweichung. Die Trennmuster für die
458 reformierte Rechtschreibung orientieren sich an den amtlichen Regeln für
459 die Rechtschreibung der deutschen Sprache in der Fassung von
460 2006~\cite{amtlRegeln:2006, amtlRegeln:2006:duden}.
462 Die Regeln lassen gewisse Freiheiten bei der Schreibung und Trennung von
463 Wörtern zu. Da sich solche Freiheiten nicht ohne weiteres auf die
464 maschinelle Worttrennung übertragen lassen, wurden die im folgenden
465 beschriebenen Konventionen getroffen. Hauptsächlich betreffen diese die
466 reformierte Rechtschreibung, die zusätzliche Freiheiten eingeführt
467 hat.\footnote{%
468 Im Ergebnis weicht in reformierter Rechtschreibung die Trennung zum
469 Beispiel des Dudens (nach Sprechsilben) von der Trennung mit diesen
470 Trennmustern (bevorzugt etymologisch) ab, siehe auch
471 \regelref{enum:reformEtymo} und \regelref{enum:reformClusterLR} sowie
472 \autoref{sec:fragen}.}
473 Beziehen sich die Konventionen für die reformierte Rechtschreibung auf
474 die traditionelle Rechtschreibung, so werden die entsprechenden Regeln
475 etwas ausführlicher dargestellt. Die folgenden Abschnitte enthalten
476 jedoch keine vollständige Aufstellung der Silbentrennregeln. Diese sind
477 den entsprechenden Regelwerken zu entnehmen. Es folgen zunächst einige
478 allgemeine Hinweise:
480 \begin{itemize}
482 \item In Liangs Trennalgorithmus werden Groß- und Kleinschreibung nicht
483 unterschieden~\cite{liang:1983}. Die Schreibweisen \emph{Nachtritt}
484 und \emph{nachtritt} werden aus Sicht des Trennalgorithmus gleich
485 behandelt (siehe auch \regelref{enum:tradDoppeld} und
486 \regelref{enum:reformDoppeld}).
488 \item Die von einem Programm aus diesen Mustern abgeleiteten möglichen
489 Trennstellen können (u.\,a. durch Programmfehler) durchaus von denen
490 der zugrundeliegenden Wortliste abweichen. So führt zum Beispiel die
491 Eingabe \lstinline[style=LaTeX]+Meta"llegierung+ (Dreikonsonantenregel
492 in der traditionellen Rechtschreibung) mit dem Paket \texttt{Babel} zu
493 den in \autoref{tab:trennung-dreik} gezeigten Trennmöglichkeiten.
495 \begin{table}
496 \centering
497 \caption{Unterschiedlich ermittelte Trennmöglichkeiten.}
498 \label{tab:trennung-dreik}
499 \begin{tabular}{ll}
500 Quelle & Trennmöglichkeiten\\
501 \addlinespace
502 \toprule
503 \addlinespace
504 pdf\LaTeX\ mit \texttt{Babel}~3.8 & Me-tall(-l)egierung\\
505 pdf\LaTeX\ mit \texttt{Babel}~3.9 & Me-tall(-l)e-gie-rung\\
506 erwünscht \emph{(vgl. \regelref{enum:tradnstd})} & Me-tall(-l)egie-rung\\
507 \end{tabular}
508 \end{table}
510 \item Die von \TeX\ gewählte Trennung kann in Einzelfällen mit den \TeX-
511 und \texttt{Babel}-Kürzeln \lstinline[style=LaTeX]+\-+ und
512 \lstinline[style=LaTeX]+"-+ geändert werden. Für dokumentweite
513 Änderungen der Trennung eignet sich das Kommando
514 \lstinline[style=LaTeX]+\hyphenation+.
516 \item Die Datei \Datei{CHANGES} beschreibt bekannte, systematische
517 Fehler der Trennmuster.
519 \item In den Beispielen zeigt die linke (grüne) Spalte jeweils die
520 Trennung mit den experimentellen Trennmustern, die rechten (roten)
521 Spalten zeigen alternative oder unerwünschte Trennungen.
523 \end{itemize}
525 \subsection{Traditionelle Rechtschreibung in Deutschland und Österreich}
526 \label{sec:tradRS}
528 \begin{enumerate}[\hspace{1em}\itshape{T}1]
529 \labelformat{enumi}{\textit{T#1}}
531 \item\label{enum:tradhyphenmin} Die minimal unterstützte Silbenlänge am
532 Wortanfang und "~ende beträgt zwei Buchstaben
533 \cite[R~178]{duden:1991}.
535 Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
536 den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
537 \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
538 \lstinline[style=LaTeX]+\germanhyphenmins+ (\texttt{Babel}) anpassen.
539 Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
540 können fehlerhafte Trennungen auftreten.
542 \item\label{enum:tradSinn} Sinnentstellende und irreführende Trennungen
543 werden möglichst vermieden \cite[R~181]{duden:1991} (siehe auch
544 \regelref{enum:tradnstd}):
546 \begin{tabular}[t]{TU}
547 An-alpha-bet & Anal-phabet\\
548 Kaf-ka-kenner & Kafkaken-ner\\
549 Tal-entwäs-se-rung & Talent-wässerung\\
550 \end{tabular}
552 Beachte, dass derzeit die Unterdrückung von solchen Trennstellen bis
553 zu einem gewissen Grade willkürlich und subjektiv ist. Außerdem ist
554 die Erfassung weit davon entfernt, vollständig zu sein. Um diesen
555 Problemen abzuhelfen, ist für zukünftige Versionen der Trennmuster
556 ein anderer, automatisierter Ansatz geplant, welcher die Anzahl
557 manuell zu erfassender Fälle sehr stark reduzieren wird.
559 \item\label{enum:tradDoppeld} In mehrdeutigen Wörtern werden Trennungen
560 nur an übereinstimmenden Trennstellen zugelassen.
562 \begin{tabular}[t]{TUU}
563 nachtritt & nach-tritt & Nacht-ritt\\
564 Wachstu-be & Wach-stube & Wachs-tube\\
565 Druckerzeug-nis & Druck-erzeugnis & Drucker-zeugnis\\
566 Mu-sikerle-ben & Musik-erleben & Musi-ker-leben\\
567 Fuß-balleh-re & Fußball-ehre & Fußball-lehre\\
568 \end{tabular}
570 Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
571 sind in den Interpretationen \emph{Druck-Erzeugnis} und
572 \emph{Musik-Erleben} irreführend. Sie entfallen nach
573 \regelref{enum:tradSinn} und sind nicht als übereinstimmende
574 Trennstellen anzusehen. Zur Spezialtrennung ">Fußball-lehre"< siehe
575 auch \regelref{enum:tradnstd}.
577 Für diese Regel gelten die folgenden Einschränkungen:
578 \begin{itemize}
580 \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
581 "~endes} wird stets die Trennung der Partizipform des Verbs
582 verwendet.
584 \item Mehrdeutigkeiten, die durch die Ersatzschreibweise von Wörtern
585 mit~\emph{ß} auftreten, werden nicht berücksichtigt (vergleiche
586 \regelref{enum:tradEszett}).
588 \begin{tabular}[t]{TUU}
589 spie-len-de & Spiel-ende & spielende\\
590 Mas-se & \textls{M\kern-.4ptA-SSE} & \textls{M\kern-.4ptA\kern-.6ptSSE}\\
591 \end{tabular}
593 \end{itemize}
595 \item\label{enum:tradEszett} Wird der Buchstabe~\emph{ß} durch
596 \emph{ss/SS} ersetzt, so bleibt die Trennung davon unberührt
597 \cite[R~179]{duden:1991}:
599 \begin{tabular}[t]{T}
600 \textls{GRÖSS-TE}\\
601 \textls{GRÜ-SSE}\\
602 \textls{M\kern-.4ptA\kern-.4pt-SSES}\\
603 \end{tabular}
605 Für diese Regel gilt die folgende Einschränkung:
606 \begin{itemize}
608 \item Wenn durch den Ersatz von~\emph{ß} an dieser Stelle keine
609 eindeutige Trennung möglich ist, so wird zugunsten der Bedeutung des
610 Wortes in der normalen Schreibweise getrennt (siehe auch
611 \regelref{enum:tradDoppeld}).
613 \begin{tabular}[t]{TTU}
614 \textls{FLÖS-SE} & (wegen flös-se) & \textls{FLÖ-SSE}\\
615 \textls{MAS-SE} & (wegen Mas-se) & \textls{MA-SSE}\\
616 \end{tabular}
618 Beachte:
619 \begin{itemize}
621 \item Wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
622 durch~\emph{SS} ersetzt, so bleibt~\emph{SS} stets ungetrennt.
623 Die Trennung richtet sich dann nach der Schreibweise mit~\emph{ß}
624 im Quelldokument.
626 \item Existiert ein Wort in verschiedenen Varietäten in der
627 Schreibweise mit~\emph{ß} und mit~\emph{ss}, so wird aufgrund
628 dieser Einschränkung \emph{s-s} stets getrennt:
630 \begin{tabular}[t]{TTUU}
631 Ge-scho-ße & (AT)\\
632 Ge-schos-se & (D) & \textls{GESCHO-SSE} & (AT)\\
633 \end{tabular}
635 \item Wenn durch den Ersatz des~\emph{ß} an entfernten Stellen keine
636 eindeutige Trennung möglich wird, zum Beispiel an Wortfugen, so
637 werden die betroffenen Trennungen gemäß
638 \regelref{enum:tradDoppeld} unterdrückt. In der Folge wird
639 gegebenenfalls auch die Trennung von \emph{ss/SS} unterdrückt.
641 \begin{tabular}[t]{TU}
642 \textls{BAHN-HOFSTRASSE} & \textls{BAHNHOF-STRA-SSE}\\
643 & \textls{BAHNHOFS-TRAS-SE}\\
644 \end{tabular}
646 \end{itemize}
648 \end{itemize}
650 \item\label{enum:tradOW} In Ableitungen von Namen auf \emph{"~ow} wird
651 die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
652 \emph{"~ers} unterdrückt \cite[R~180]{duden:1991}:
654 \begin{tabular}[t]{TU}
655 Tel-tower & Teltow-er\\
656 Trep-towern & Treptow-ern\\
657 Pan-kowers & Pankow-ers\\
658 \end{tabular}
660 \item\label{enum:tradnstd} Spezialtrennungen (\emph{engl.:} non-standard
661 hyphenation), die nach Regeln erfolgen, die über das bloße Einfügen
662 eines Trennstrichs hinausgehen, wie die \emph{ck}- oder die
663 Dreikonsonantenregel, kann \TeX82 nicht automatisch behandeln. Aus
664 diesem Grund sind solche Trennstellen in diesen Trennmustern nicht
665 berücksichtigt.
667 \begin{tabular}[t]{lTUU}
668 \lstinline[style=LaTeX]+drucken+ & drucken & druk-ken\\
669 \lstinline[style=LaTeX]+Zuckerbäcker+ & Zucker-bäcker & Zuk-kerbäk-ker\\
670 \lstinline[style=LaTeX]+Brennessel+ & Brennes-sel & Brenn-nessel\\
671 \lstinline[style=LaTeX]+Stoffetzen+ & Stoffet-zen & Stoff-fetzen\\
672 \end{tabular}
674 Die Dreikonsonantenregel birgt aufgrund des ausgefallenen Konsonanten
675 die Gefahr irreführender und sinnentstellender Trennungen (siehe auch
676 \regelref{enum:tradSinn}). Trennstellen, die in einem Abstand von
677 zwei Lauten auf eine Wortfuge mit Anwendung der Dreikonsonantenregel
678 folgen, werden daher grundsätzlich unterdrückt.
680 \begin{tabular}[t]{lTUU}
681 \lstinline[style=LaTeX]+Metallegierung+ & Me-tallegie-rung & Metall-legierung & Metalle-gierung\\
682 \lstinline[style=LaTeX]+schnellebige+ & schnellebi-ge & schnell-lebige & schnelle-bige\\
683 \lstinline[style=LaTeX]+Stilleben+ & Stilleben & Still-leben & Stille-ben\\
684 \end{tabular}
685 \par\nobreak
686 \textit{auch:}
688 \begin{tabular}[t]{lTUU}
689 \lstinline[style=LaTeX]+Abfallager+ & Ab-fallager & Abfall-lager & Abfalla-ger\\
690 \lstinline[style=LaTeX]+Zellstoffabrik+ & Zell-stoffabrik & Zellstoff-fabrik & Zellstoffa-brik\\
691 \end{tabular}
693 Das Paket \texttt{Babel} stellt verschiedene Kürzel zur Verfügung,
694 u.\,a. \lstinline[style=LaTeX]+"ck+%
695 \footnote{Spezialtrennungen werden in \TeX\ mit Hilfe des Kommandos
696 \lstinline[style=LaTeX]+\\discretionary+ kodiert. So wird zum
697 Beispiel das \texttt{Babel}-Kürzel \lstinline[style=LaTeX]+\"ck+ in
698 der Eingabe während des Setzens durch
699 \lstinline[style=LaTeX]+\\discretionary\{k-\}\{k\}\{ck\}+ ersetzt,
700 wodurch \emph{k-k}-Trennungen möglich werden.}
702 oder \lstinline[style=LaTeX]+"ff+ \emph{etc.}, mit denen
703 Spezialtrennungen im Quelldokument ausgezeichnet werden können (siehe
704 auch \autoref{tab:trennung-dreik}).
706 Lua\TeX%
707 \footnote{\url{http://www.luatex.org/}}
709 soll in einer zukünftigen Version Mechanismen zur automatischen
710 Behandlung von Spezialtrennungen bereitstellen. Eine physische
711 Auszeichnung im Quelltext ist dann nicht mehr erforderlich. Die
712 entsprechenden Spezialtrennmuster für die deutsche Sprache werden
713 ebenfalls im Rahmen dieses Projekts erstellt.
715 \end{enumerate}
717 \subsection{Traditionelle Rechtschreibung in der Schweiz}
718 \label{sec:tradchRS}
720 Die Trennmuster für die traditionelle Rechtschreibung in der Schweiz
721 folgen weitgehend den Konventionen für die traditionelle Rechtschreibung
722 in Deutschland (siehe \autoref{sec:tradRS}). Die folgende Liste enthält
723 daher nur Fälle, in denen davon abgewichen wird oder deren Beschreibung
724 aus anderen Gründen sinnvoll erscheint.
726 \begin{enumerate}[\hspace{1em}\itshape{TS}1]
727 \labelformat{enumi}{\textit{TS#1}}
729 \item\label{enum:tradchEszett} Wörter mit \emph{ß} werden gemäß den
730 Regeln für die traditionelle Rechtschreibung in Deutschland getrennt.
732 \item\label{enum:tradchSS} Abweichend von \regelref{enum:tradEszett}
733 wird \emph{ss/SS} immer als Doppelkonsonant behandelt und
734 gegebenenfalls getrennt:
736 \begin{tabular}[t]{T}
737 grös-ste\\
738 Grüs-se\\
739 Mas-ses\\
740 \end{tabular}
742 Beachte, wird~\emph{ß} jedoch mit
743 \lstinline[style=LaTeX]+\MakeUppercase+ durch~\emph{SS} ersetzt, so
744 bleibt~\emph{SS} stets ungetrennt. Die Trennung richtet sich dann
745 nach der Schreibweise mit~\emph{ß} im Quelldokument (siehe
746 \regelref{enum:tradchEszett}).
748 \end{enumerate}
750 \subsection{Reformierte Rechtschreibung}
751 \label{sec:reformRS}
753 \begin{enumerate}[\hspace{1em}\itshape{R}1]
754 \labelformat{enumi}{\textit{R#1}}
756 \item\label{enum:reformhyphenmin} Die minimal unterstützte Silbenlänge
757 am Wortanfang und "~ende beträgt zwei Buchstaben
758 \cite[\S~107]{amtlRegeln:2006, amtlRegeln:2006:duden}.
760 Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
761 den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
762 \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
763 \lstinline[style=LaTeX]+\ngermanhyphenmins+ (\texttt{Babel}) anpassen.
764 Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
765 können fehlerhafte Trennungen auftreten.
767 \item\label{enum:reformEtymo} Falls die Trennung nach Sprechsilben und
768 die etymologische (sprachgeschichtliche) Trennung kollidieren, wird
769 weitgehend die etymologische Trennung gewählt
770 \cite[\S~113]{amtlRegeln:2006, amtlRegeln:2006:duden}:
772 \begin{tabular}[t]{RUU}
773 % Heli-ko-pter & Helikop-ter\\
774 % in-ter-view-en & intervie-wen\\
775 in-ter-es-sant & inte-ressant\\
776 Lin-ole-um & Li-noleum & Lino-leum\\
777 Päd-ago-ge & Pä-dagoge & Päda-goge\\
778 \end{tabular}
780 \item\label{enum:reformClusterLR} In Fremdwörtern bleiben die
781 Buchstabengruppen \emph{bl, pl, fl, gl, cl, kl, phl; br, pr, dr, tr,
782 fr, vr, gr, cr, kr, phr, thr; chth; gn, kn} im allgemeinen
783 ungetrennt, nicht jedoch \emph{str} \cite[\S~112]{amtlRegeln:2006,
784 amtlRegeln:2006:duden}
785 i.\,V.\,m.~\cite[R~179]{duden:1991}:
787 \begin{tabular}[t]{RU}
788 Ar-thri-tis & Arth-ritis\\
789 % Co-gnac & Cog-nac\\
790 Di-plom & Dip-lom\\
791 % Fe-bru-ar & Feb-ruar\\
792 igno-rie-re & ig-noriere\\
793 In-te-gral & Integ-ral\\
794 \end{tabular}
795 \par\nobreak
796 \textit{aber:}
798 \begin{tabular}[t]{RUU}
799 In-dus-trie & Indu-strie & Indust-rie\\
800 % Ma-gis-tra-le & Magi-strale\\
801 de-struk-tiv\\
802 sub-lim\\
803 \end{tabular}
805 \item\label{enum:reformSinn} Sinnentstellende und irreführende Trennungen
806 werden möglichst vermieden \cite[\S~107]{amtlRegeln:2006,
807 amtlRegeln:2006:duden}:
809 \begin{tabular}[t]{RU}
810 An-alpha-bet & Anal-phabet\\
811 Kaf-ka-kenner & Kafkaken-ner\\
812 Tal-entwäs-se-rung & Talent-wässerung\\
813 \end{tabular}
815 \item\label{enum:reformDoppeld} In mehrdeutigen Wörtern werden
816 Trennungen nur an übereinstimmenden Trennstellen
817 zugelassen:
819 \begin{tabular}[t]{RUUU}
820 Druckerzeug-nis & Dru-ckerzeugnis & Druck-erzeugnis &
821 Drucker-zeugnis\\
822 Mu-sikerle-ben & Musi-kerleben & Musik-erleben & Musiker-leben\\
823 nachtritt & nach-tritt & Nacht-ritt\\
824 Wachstu-be & Wach-stube & Wachs-tube\\
825 \end{tabular}
827 Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
828 sind in den Interpretationen \emph{Druck-Erzeugnis} und
829 \emph{Musik-Erleben} irreführend. Sie entfallen nach
830 \regelref{enum:reformSinn} und sind nicht als übereinstimmende
831 Trennstellen anzusehen.
833 Für diese Regel gilt die folgende Einschränkung:
834 \begin{itemize}
836 \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
837 "~endes} wird stets die Trennung der Partizipform des Verbs
838 verwendet.
840 \begin{tabular}[t]{RUU}
841 spie-len-de & Spiel-ende & spielende\\
842 \end{tabular}
844 \end{itemize}
846 \item\label{enum:reformEszett} Wird der Buchstabe~\emph{ß} durch
847 \emph{ss/SS} ersetzt, so wird \emph{s-s} getrennt \cite[\S\S~25~E3,
848 110]{amtlRegeln:2006, amtlRegeln:2006:duden}:
850 \begin{tabular}[t]{R}
851 \textls{GRÖS-STE}\\
852 \textls{GRÜS-SE}\\
853 \textls{M\kern-.4ptA\kern-.6ptS-SES}\\
854 \end{tabular}
856 Beachte, wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
857 oder in Kapitälchen in~\emph{SS} gewandelt, so bleibt~\emph{SS}
858 ungetrennt. Dies ist kein Fehler in den Trennmustern, sondern im
859 \LaTeX-Kern fest implementiert.
861 % \item\label{enum:reformOW} In Ableitungen von Namen auf \emph{"~ow}
862 % bleibt \emph{"~ow} ungetrennt, wenn es den Laut [o\,:] bezeichnet.
863 % Die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
864 % \emph{"~ers} wird unterdrückt \cite[\S~113]{amtlRegeln:2006,
865 % amtlRegeln:2006:duden}
866 % i.\,V.\,m.~\cite[R~180]{duden:1991}:
868 % \begin{tabular}[t]{RUU}
869 % Tel-tower & Telto-wer & Teltow-er\\
870 % Trep-towern & Trepto-wern & Treptow-ern\\
871 % Pan-kowers & Panko-wers & Pankow-ers\\
872 % \end{tabular}
874 \end{enumerate}
877 \section{Trennfehler}
878 \label{sec:trennfehler}
879 Mit den vorliegenden Trennmustern können sämtliche Wörter der
880 zugrundeliegenden Wortliste fehlerfrei getrennt werden. Technisch
881 gesprochen endet der letzte \Programm{Patgen}-Lauf mit der Meldung
883 \begin{lstlisting}[style=shell]
884 1266082 good, 0 bad, 0 missed
885 100.00 %, 0.00 %, 0.00 %
886 \end{lstlisting}
887 (der Wert vor \lstinline[style=shell]+good+ ist vom Listenumfang
888 abhängig). Trotz des großen Umfangs der Wortliste lassen sich
889 Trennfehler in Wörtern, die nicht in der Liste enthalten sind, nicht
890 vermeiden. Der Umfang der Wortliste kann allerdings nicht beliebig
891 erweitert werden.%
892 \footnote{Liangs Schema sieht nur einen begrenzten Bereich für die
893 Trennstellenbewertungen vor (0--9). Die derzeitigen Trennmuster
894 vewenden bereits Bewertungen der Höhe~8.}
896 In den folgenden Fällen sollten fehlerhafte Trennungen der Trennmuster
897 jedoch gemeldet werden:
899 \begin{enumerate}[\hspace{1em}A.]
901 \item\label{enum:kritWLfehlerhaft} Das Wort ist bereits in der Wortliste
902 enthalten. Der Eintrag ist jedoch fehlerhaft.
904 \end{enumerate}
906 Falls das Wort nicht in der Wortliste enthalten ist, bestehen sehr gute
907 Chancen, dass es aufgenommen wird, wenn eines der folgenden Kriterien
908 erfüllt ist:
910 \begin{enumerate}[\hspace{1em}A.]
911 \refstepcounter{enumi}% Fortsetzung der obigen Aufzählung.
913 \item\label{enum:kritHerkTM} Das betreffende Wort wird mit den
914 \emph{herkömmlichen} Trennmustern für die traditionelle oder
915 reformierte Rechtschreibung korrekt getrennt. Korrekt bedeutet hier:
916 Nicht alle möglichen Trennstellen müssen erkannt werden; es werden
917 jedoch in keinem Fall falsche Trennstellen ermittelt. Zum Testen kann
918 in \TeX\ der folgende Aufruf verwendet werden (die Ausgabe erfolgt in
919 der \Abk{log}-Datei):
920 \begin{lstlisting}[style=LaTeX]
921 \showhyphens{durch Leerzeichen getrennte Wörter}
922 \end{lstlisting}
924 \item\label{enum:kritSinn} Es handelt es sich um eine orthographisch
925 richtige, aber sinnentstellende oder irreführende Trennung.
926 Berücksichtigt werden allerdings nur Wörter, die aus höchstens zwei
927 (gegebenenfalls prä- und suffigierten) Wörtern zusammengesetzt sind,
928 zum Beispiel ">Talent-wässerung"<. Nicht berücksichtigt wird hingegen
929 die ">Talent-wässerungsanlage"<.
931 \end{enumerate}
933 Einige bekannte Fehler in den Trennmustern sind in der Datei
934 \Datei{CHANGES} verzeichnet. Noch nicht bekannte falsche, fehlende und
935 unerwünschte Worttrennungen können an die folgenden E-Mail-Adressen
936 gerichtet werden:
937 \begin{itemize}
938 \item
939 \href{mailto:trennmuster@dante.de}{trennmuster@dante.de},
940 \item \href{mailto:wl@gnu.org}{wl@gnu.org} (Werner Lemberg).
941 \end{itemize}
943 Trennfehler, die in den Trennmustern nicht korrigiert werden können,
944 können mit Hilfe einer privaten Ausnahmeliste behandelt werden:
945 \begin{lstlisting}[style=LaTeX]
946 \hyphenation{Tal-entwäs-se-rungs-an-la-ge Kaf-ka-kenner-klub}
947 \end{lstlisting}
949 Die aktuelle und ältere Ausgaben der Trennmuster sind im Dateibereich
950 des Trennmuster-Wikis erhältlich.%
951 \footnote{\url{http://projekte.dante.de/Trennmuster}}
953 Im Entwicklerrepositorium\footnote{%
954 siehe \url{http://projekte.dante.de/Trennmuster/Entwickler}}
955 befindet sich ein Makefile, mit dem jederzeit neue Trennmuster erzeugt
956 werden können.
958 \nobreak
959 \noindent\parbox{\linewidth}{%
960 \vspace*{\baselineskip}
961 \raggedright
962 \itshape
963 Happy \TeX ing!\newline
964 Die deutschsprachige Trennmustermannschaft
968 \bibliography{dehyph-exptl}
971 \appendix
972 \section{Dateien und Installation}
973 \label{sec:installation}
975 Die eigentlichen Trennmusterdateien liegen in \Abk{utf-8}-Kodierung vor
976 (siehe \autoref{tab:dateien}, Endung \texttt{pat}). Sie werden von
977 \TeX\ nicht direkt geladen, sondern durch Manteldateien, die ebenfalls
978 Teil des Pakets sind (Endung \texttt{tex}). Wird eine 8-Bit-fähige
979 \TeX-Variante erkannt, übernehmen diese Manteldateien die Konvertierung
980 der Trennmuster in die \Abk{t1}-Kodierung.
982 \begin{table}
983 \centering
984 \caption{Trennmuster- und Manteldateien}
985 \label{tab:dateien}
986 \begin{tabular}{>{\ttfamily}l>{\ttfamily}l}
987 \normalfont Trennmusterdatei & \normalfont Manteldatei\\
988 \addlinespace\toprule\addlinespace
989 dehypht-x-<datum>.pat & dehypht-x-<datum>.tex\\
990 dehyphts-x-<datum>.pat & dehyphts-x-<datum>.tex\\
991 dehyphn-x-<datum>.pat & dehyphn-x-<datum>.tex\\
992 \end{tabular}
993 \end{table}
995 Bei der Installation werden die Manteldateien an die in
996 \autoref{tab:varietaeten} gezeigten Trennmusterbezeichner gebunden.
997 Diese Schritte werden für verschiedene \TeX-Verteilungen in der Datei
998 \Datei{INSTALL} beschrieben. Nach der Installation können die
999 experimentellen Trennmuster wie in \autoref{sec:aktivieren} gezeigt
1000 verwendet werden.
1003 \section{Fragen \& Antworten}
1004 \label{sec:fragen}
1006 \newcommand*{\fragefont}{\itshape}
1007 \newcommand*{\themenfont}{\large\normalfont}
1008 \newcounter{cntfrage}% Zaehler fuer Fragen.
1009 \newcounter{thema}% Zaehler fuer Themenueberschriften.
1010 \renewcommand*{\thethema}{\Roman{thema}.}
1011 \newcounter{frage}% Zaehler fuer Fragen.
1012 \renewcommand*{\thefrage}{\arabic{frage}.}
1013 \newboolean{nextfrage}
1015 \makeatletter
1017 %%% Neue zref-Liste frage = (type, text, anchor).
1018 \zref@newlist{frage}
1019 \zref@newprop{type}{f}
1020 \zref@newprop{text}{??}
1021 \zref@addprop{frage}{type}
1022 \zref@addprop{frage}{text}
1023 \zref@addprop{frage}{anchor}
1025 %%% Fuegt eine neue Themenueberschrift ein.
1026 \newcommand*{\fragenthema}[1]{%
1027 \par
1028 \pagebreak[1]
1029 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1030 \refstepcounter{cntfrage}
1031 \stepcounter{thema}
1032 \zref@setcurrent{type}{t}
1033 \zref@setcurrent{text}{\thethema~#1}
1034 \zref@labelbylist{frage:\thecntfrage}{frage}
1035 \noindent{\themenfont\thethema~#1\par}
1038 %%% Umgebung fuer eine Frage mit Antwort.
1039 \newenvironment{frageantwort}[1]{%
1040 \par
1041 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1042 \refstepcounter{cntfrage}
1043 \stepcounter{frage}
1044 \zref@setcurrent{type}{f}
1045 \zref@setcurrent{text}{\thefrage~#1}
1046 \zref@labelbylist{frage:\thecntfrage}{frage}
1047 \noindent{\fragefont\thefrage~#1\par}
1048 \nobreak\noindent\ignorespaces
1050 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1053 %%% Zeige alle Fragen in sortierter Reihenfolge.
1054 \newcommand{\zeigefragen}{%
1055 \par
1056 \zref@refused{frage:1}
1057 \setcounter{cntfrage}{1}
1058 \setboolean{nextfrage}{true}
1059 \whiledo{\boolean{nextfrage}}{
1060 \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1061 \ifthenelse{\equal{\zref@extract{frage:\thecntfrage}{type}}{f}}{% Frage
1062 \noindent%
1063 \begingroup%
1064 \fragefont%
1065 \hyperlink{\zref@extract{frage:\thecntfrage}{anchor}}{%
1066 \zref@extract{frage:\thecntfrage}{text}%
1068 \par
1069 \endgroup
1070 }{% Themenueberschrift
1071 \noindent%
1072 \begingroup%
1073 \themenfont%
1074 \zref@extract{frage:\thecntfrage}{text}%
1075 \par
1076 \endgroup
1077 \nobreak
1079 \stepcounter{cntfrage}
1080 \zref@ifrefundefined{frage:\thecntfrage}{\setboolean{nextfrage}{false}}{}
1082 \vspace{.5\baselineskip plus .1\baselineskip minus .1\baselineskip}
1083 \setcounter{cntfrage}{0}
1084 \setcounter{frage}{0}
1088 \zeigefragen
1091 \fragenthema{Verwenden der Trennmuster}
1093 \begin{frageantwort}{Die experimentellen Trennmuster waren in der
1094 \TeX-Verteilung bereits vorinstalliert. Wie kann das Datum
1095 ermittelt werden, das Teil des Trennmusterbezeichners ist, wie in
1096 \autoref{sec:verwenden} erwähnt?}
1097 Die Trennmusterbezeichner werden in der Datei \Datei{language.dat}
1098 definiert, wo auch die Verbindung zu den Manteldateien hergestellt
1099 wird. Da ein Teil der Trennmusterbezeichner bereits bekannt ist,
1100 \verb+german-x+, vgl. \autoref{tab:varietaeten}, kann die Datei
1101 \Datei{language.dat} danach durchsucht werden. Zunächst muss der Ort
1102 der Datei mit Hilfe des Kommandos \lstinline[style=shell]{kpsewhich}
1103 ermittelt werden. Es folgen die vollständigen Kommandos für
1104 unixähnliche Shells und die Windows-Kommandozeile \Datei{cmd.exe}.
1105 Achtung, bei den einfachen Anführungszeichen handelt es sich um
1106 Gravis ("`Backquotes"').
1108 \begin{lstlisting}[style=shell, caption=Shell]
1109 grep -i german-x `kpsewhich language.dat`
1110 \end{lstlisting}
1112 \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1113 for /F "usebackq" %f in (`kpsewhich language.dat`) do find /i "german-x" "%f"
1114 \end{lstlisting}
1116 Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1117 abweichen):
1119 \begin{lstlisting}
1120 german-x-2009-06-19 dehypht-x-2009-06-19.tex
1121 =german-x-latest
1122 ngerman-x-2009-06-19 dehyphn-x-2009-06-19.tex
1123 =ngerman-x-latest
1124 \end{lstlisting}
1125 Die gesuchten Trennmusterbezeichner befinden sich in der ersten Spalte
1126 und lauten in diesem Beispiel
1127 \lstinline[style=LaTeX]{german-x-2009-06-19} und
1128 \lstinline[style=LaTeX]{ngerman-x-2009-06-19}. In der zweiten Spalte
1129 kann man die Namen der Manteldateien erkennen
1130 (vgl. \autoref{tab:dateien}). Die mit einem Gleichheitszeichen
1131 beginnenden Zeilen definieren ein Synonym für den
1132 Trennmusterbezeichner der unmittelbar vorangehenden Zeile in der Datei
1133 \Datei{language.dat}.
1134 \end{frageantwort}
1137 \begin{frageantwort}{Wie kann die Version der experimentellen Muster
1138 ermittelt werden, die im Paket \texttt{hyph-utf8} enthalten sind?}
1139 Das Vorgehen ähnelt dem der vorherigen Antwort. Zunächst wird der Ort
1140 einer bestimmten Datei ermittelt. Diese wird dann nach einer
1141 hilfreichen Zeichenkette durchsucht.
1143 \begin{lstlisting}[style=shell, caption=Shell]
1144 grep dehyph `kpsewhich hyph-de-1901.lic.txt`
1145 \end{lstlisting}
1147 \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1148 for /F "usebackq" %f in (`kpsewhich hyph-de-1901.lic.txt`) do find "dehyph" "%f"
1149 \end{lstlisting}
1151 Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1152 abweichen):
1154 \begin{lstlisting}
1155 % dehypht-x-2011-06-01.pat
1156 \message{German Hyphenation Patterns (Traditional Orthography) `dehypht-x' 2011-
1157 06-01 (WL)}
1158 \end{lstlisting}
1159 \end{frageantwort}
1162 \fragenthema{Rechtschreibung}
1164 \begin{frageantwort}{Verlag, Prüfer o.\,ä. bemängeln die Trennung
1165 der Trennmuster für die reformierte Rechtschreibung. Zum Beispiel
1166 wird ">In-dus-trie"< getrennt, der Duden trennt jedoch
1167 ">In-dust-rie"<.}
1168 Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache
1169 lassen für viele Wörter mehrere Trennvarianten zu. Die Trennmuster
1170 und ebenso Wörterverzeichnisse legen sich aus praktischen Gründen auf
1171 eine Trennvariante fest. Sie können daher unterschiedliche Trennungen
1172 verwenden, ohne dass eine von beiden falsch ist. Aus diesem Grund
1173 sind Wörterverzeichnisse nicht geeignet, eine bestimmte Trennung auf
1174 Richtigkeit zu prüfen. Verbindlich sind einzig die amtlichen Regeln
1175 für die Rechtschreibung der deutschen Sprache~\cite{amtlRegeln:2006}.
1176 Häufig sind diese im Anhang eines Wörterbuchs abgedruckt. Die von den
1177 Trennmustern befolgten Konventionen können \autoref{sec:trennregeln}
1178 entnommen werden.
1180 Wenn Unsicherheit darüber herrscht, wie die Rechtschreibung geprüft
1181 wird, sollte dies frühzeitig geklärt werden. Nicht jedem Redakteur
1182 oder Prüfer ist bewusst, dass der Duden seine normative Stellung mit
1183 der Rechtschreibreform~1996 eingebüßt hat.
1184 \end{frageantwort}
1187 \begin{frageantwort}{Gibt es dudenkonforme Trennmuster für die
1188 reformierte Rechtschreibung?}
1189 Zur Zeit nicht, es ist auch nicht geplant. Dieses Projekt ist jedoch
1190 offen für Vorschläge und Mitarbeit.
1191 \end{frageantwort}
1194 \begin{frageantwort}{Weshalb werden noch Trennmuster für die
1195 traditionelle Rechtschreibung bereitgestellt?}
1196 Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache in
1197 der Fassung von 2006 sind nur für öffentliche Einrichtungen und
1198 Behörden verbindlich. Im privaten Schriftverkehr kann man wahlweise
1199 die traditionelle oder die reformierte Rechtschreibung verwenden.%
1200 \footnote{Oder auch keine von beiden.}
1202 Daher erfreut sich die traditionelle Rechtschreibung weiterhin großer
1203 Beliebtheit.
1205 Für Texte in gebrochener Schrift ist die traditionelle Rechtschreibung
1206 sogar vorzuziehen.
1207 \end{frageantwort}
1210 \begin{frageantwort}{Können Trennungen mit einer Silbenlänge von nur
1211 einem Buchstaben ermöglicht werden, zum Beispiel für den Satz in
1212 schmalen Kolumnen?}
1213 Mit diesen Trennmustern ist das nicht möglich, da die zugrundeliegende
1214 Wortliste solche Trennungen nicht enthält. Die Abtrennung einzelner
1215 Vokale, zum Beispiel ">A-bend"<, war nur kurzzeitig zulässig; die
1216 entsprechende Regelung von 1996 wurde mit der Rechtschreibreform 2006
1217 wieder zurückgenommen. Wird die Silbenmindestlänge für die
1218 Worttrennung auf eins verringert, können falsche Trennungen auftreten.
1219 \end{frageantwort}
1222 \fragenthema{Mitarbeit}
1224 \begin{frageantwort}{Wie kann ich mich über dieses Projekt informieren?}
1225 Zentrale Anlaufstelle ist das Trennmuster-Wiki, welches sich momentan
1226 jedoch noch im Aufbau befindet.%
1227 \footnote{\url{http://projekte.dante.de/Trennmuster}}
1229 Für Fragen und Hinweise kann nach Anmeldung die Mailingliste%
1231 \footnote{\url{trennmuster@dante.de}};
1233 oder alternativ die Usenetgruppe \Datei{de.comp.text.tex} genutzt
1234 werden. Die folgenden Dateien enthalten weitergehende Informationen:
1236 \begin{itemize}
1237 \item Neben der Dokumentation zu den Trennmustern enthält dieses Paket
1238 eine Projektbeschreibung (\Datei{projektbeschreibung.pdf}).
1240 \item Die Datei \Datei{CHANGES} enthält bekannte, systematische Fehler
1241 der Trennmuster.
1243 \item Das Entwicklerrepositorium enthält in der Datei
1244 \Datei{README.wortliste} eine Beschreibung des Formats der
1245 Wortliste.
1247 \end{itemize}
1248 \end{frageantwort}
1251 \begin{frageantwort}{Wie kann ich helfen?}
1252 Die deutschsprachige Trennmustermannschaft ist eine offene Gruppe und
1253 benötigt dringend weitere Mithilfe. Interessenten sind daher hoch
1254 willkommen! Zum Mitmachen gibt es mehrere Möglichkeiten:
1255 \begin{itemize}
1256 \item Die einfachste ist, die experimentellen Trennmuster ausgiebig zu
1257 testen und Fehler zu melden (siehe \autoref{sec:trennfehler}).
1259 \item Besonders hilfreich wäre Mitarbeit am Projekt. Als Einstieg
1260 kann die (grobe) Aufgabenliste in der Projektbeschreibung dienen.
1262 Obwohl schon experimentelle Trennmuster veröffentlicht wurden, steht
1263 dieses Projekt noch ziemlich am Anfang. Ziel ist, die verwendete
1264 Wortliste von möglichst vielen Menschen in verteilter Arbeit auf
1265 Richtigkeit zu prüfen. Bis dahin bleibt jedoch noch viel zu tun.
1267 \item Mittelfristig -- nach Fertigstellung der Prüfmaske~-- kann auch
1268 durch systematische Durchsicht eines Teils der Wortliste geholfen
1269 werden.
1271 \item Fragen, Hinweise und Ideen sind auf der Mailingliste immer
1272 willkommen!
1273 \end{itemize}
1274 \end{frageantwort}
1277 \begin{frageantwort}{Sollten Trennfehler einzeln oder gesammelt
1278 eingereicht werden?}
1279 Das ist egal. Es sollten allerdings die folgenden Hinweise beim
1280 Einreichen von Fehlern beachtet werden:
1282 \begin{description}\setkomafont{descriptionlabel}{\normalfont\itshape}
1283 \item[Aktualität] Wenn Sie ältere Trennmusterdateien verwenden, prüfen
1284 Sie zunächst, ob der Fehler auch mit aktuellen Trennmustern
1285 auftritt. Die aktuellen Trennmuster sind im \Abk{ctan} im Paket
1286 \texttt{dehyph-exptl} oder im Dateibereich unter der
1287 Projekt-\Abk{url} erhältlich. Im Repositorium befindet sich auch
1288 ein Makefile, mit dem jederzeit neue Trennmuster aus der aktuellen
1289 Wortliste erzeugt werden können.
1291 \item[Informationen] In einem Fehlerbericht sollte für das betreffende
1292 Wort die richtige und bei einzelnen Worteinreichungen auch die
1293 falsche Trennung angegeben werden. Außerdem die genaue Version der
1294 verwendeten Trennmuster (traditionelle oder reformierte
1295 Rechtschreibung, Datum der Trennmusterdatei).
1297 \item[Listenformat] Es erleichtert die Korrektur, wenn
1298 Berichtigungsvorschläge in Form einer Liste eingereicht werden, die
1299 automatisch mit Skripten bearbeitet werden kann. Die folgenden
1300 Konventionen sollten dabei eingehalten werden:
1301 \begin{itemize}
1302 \item Die Spalten werden mit einem Semikolon \verb+;+ getrennt.
1303 \item Die erste Spalte enthält das betreffende Wort in ungetrennter
1304 Form.
1305 \item Die zweite Spalte enthält das Wort in der Trennvariante nach
1306 traditioneller Rechtschreibung.
1307 \item Falls die Trennung nach reformierter Rechtschreibung davon
1308 abweicht, steht diese in der dritten Spalte.
1309 \item Ab der vierten Spalte \emph{können} weitere Trennvarianten
1310 folgen, etwa die falsche Trennung. Eine kurze Erklärung sollte
1311 dann darauf eingehen.
1312 \item Unerwünschte Trennungen werden mit einem Punkt \verb+.+
1313 markiert.
1314 \item Anfang und Ende der Liste sollten klar erkennbar sein.
1315 \end{itemize}
1316 Eine Liste könnte beispielhaft so aussehen:
1317 \begin{lstlisting}[style=Text]
1318 sonnendurchfluteten;son-nen-durch-flu-te-ten
1319 Talentwässerung;Tal-ent.wäs-se-rung
1320 Fensterplatz;Fen-ster-platz;Fens-ter-platz
1321 \end{lstlisting}
1322 Dieses Format ist auch für einzeln eingereichte Korrekturen
1323 sinnvoll.
1325 \item[Betreff] Der Betreff einer Fehlermeldung sollte aussagekräftig
1326 sein. Daher sollten mehrere Trennfehler, sofern möglich, thematisch
1327 zusammengefasst werden. Außerdem kann zur einfacheren Zuordnung das
1328 entsprechende Kriterium aus \autoref{sec:trennfehler} dem Betreff
1329 der E-Mail in eckigen Klammern vorangestellt werden, zum Beispiel:
1330 \begin{lstlisting}[style=Text]
1331 Betreff: [A] sonnendurchfluteten
1332 \end{lstlisting}
1333 für einen Trennfehler im Wortes \emph{sonnendurchfluteten}, der
1334 durch einen Fehler in der Wortliste hervorgerufen wird.
1335 \end{description}
1336 \end{frageantwort}
1339 \end{document}
1341 %%% Local Variables:
1342 %%% mode: latex
1343 %%% TeX-PDF-mode: t
1344 %%% TeX-master: t
1345 %%% coding: utf-8
1346 %%% End: