dehyph-exptl/dehyph-exptl.tex

   1 %%% Artikelklasse mit:
   2 %%% * Grundschriftgröße 11 Punkt,
   3 %%% * klassischem Satzspiegel,
   4 %%% * flachem Inhaltsverzeichnis,
   5 %%% * Tabellenüberschriften.
   6 \documentclass[11pt,DIV8,tocleft,tablecaptionabove,abstracton]{scrartcl}
   7 %%% Eingabekodierung ist UTF-8.
   8 \usepackage[utf8]{inputenc}
   9 %%% Schrifteinstellung:
  10 %%% * Grundschrift Palatino,
  11 %%% * Akzidenzschrift Bera Sans,
  12 %%% * Schreibmaschinenschrift Latin Modern Typewriter.
  13 \usepackage[T1]{fontenc}
  14 \usepackage[osf]{mathpazo}
  15 \usepackage[scaled]{berasans}
  16 \renewcommand*{\ttdefault}{lmtt}
  17 \usepackage{textcomp}
  18 \linespread{1.05}
  19 \usepackage[expansion=true, letterspace=80]{microtype}
  20 %%% Lade einige Pakete.
  21 \usepackage{ifthen}
  22 \usepackage{calc}
  23 \usepackage{multicol}
  24 \usepackage{paralist}
  25 \usepackage{fncylab}
  26 \usepackage{tabularx}
  27 \usepackage{booktabs}
  28 \newcolumntype{L}{>{\raggedright\arraybackslash}X}
  29 \usepackage{listings}
  30 \lstloadlanguages{[LaTeX]TeX, sh}
  31 \lstset{basicstyle=\ttfamily, keywordstyle={}, commentstyle={},
  32   columns=flexible, showspaces=false, showstringspaces=false,
  33 %  aboveskip=12pt, belowskip=12pt, frame=tb,
  34 %  framesep=8pt, framerule=2pt,
  35   xleftmargin=6pt, xrightmargin=6pt,
  36 % framexleftmargin=6pt, framexrightmargin=6pt
  37   inputencoding=utf8,
  38   extendedchars=true,
  39   literate={ä}{{\"a}}1 {ö}{{\"o}}1 {ü}{{\"u}}1,
  40 }
  41 \lstdefinestyle{LaTeX}{language=[LaTeX]TeX, basicstyle=\ttfamily,
  42   keywordstyle={}, commentstyle={\itshape}}
  43 \lstdefinestyle{shell}{language=sh, basicstyle=\ttfamily,
  44   keywordstyle={}, commentstyle={\itshape}}
  45 \lstdefinestyle{Text}{language=, basicstyle=\ttfamily,
  46   keywordstyle={}, commentstyle={}}
  47 \usepackage{needspace}
  48 %%% Literaturverweise in runden Klammern mit Semikolon als Trenner.
  49 % \usepackage[round,semicolon]{natbib}
  50 % \renewcommand*{\bibnumfmt}[1]{(#1)}
  51 %%% Literaturverzeichnis mit Sprachunterstützung.
  52 \usepackage[fixlanguage]{babelbib}
  53 \bibliographystyle{babalpha}
  54 %%% Babelbib fordert trotz fixlanguage zuviele Sprachen an.
  55 \usepackage[english, german, ngerman]{babel}
  56 %%% Einstellungen für interaktive PDF-Dokumente.
  57 \usepackage[rgb,x11names]{xcolor}
  58 \usepackage[hyperref]{zref}
  59 \usepackage{hyperref}
  60 \hypersetup{
  61   pdftitle={dehyph-exptl},
  62   pdfauthor={Die deutschsprachige Trennmustermannschaft},
  63   pdfkeywords={TeX, deutsche Rechtschreibung, Trennmuster,
  64     computergestützte Worttrennung}
  65 }
  66 \hypersetup{
  67   ngerman,% For \autoref.
  68   pdfstartview={XYZ null null null},% Zoom factor is determined by viewer.
  69   colorlinks,
  70   linkcolor=RoyalBlue3,
  71   urlcolor=Chocolate4,
  72   citecolor=DeepPink2
  73 }
  74 \newcommand*{\regelref}[1]{%
  75   \begingroup%
  76   \renewcommand*{\Itemautorefname}{Regel}%
  77   \autoref{#1}%
  78   \endgroup%
  79 }
  80 %%% Schriftfestlegungen.
  81 \setkomafont{title}{\normalcolor\normalfont}
  82 \setkomafont{sectioning}{\normalcolor\normalfont}
  83 \setkomafont{section}{\Large}
  84 \setkomafont{subsection}{\Large\itshape}
  85 \setkomafont{descriptionlabel}{\normalfont\itshape}
  86 %%% Einige Makros für logische Auszeichnungen definieren.
  87 \newcommand*{\Abk}[1]{\mbox{\textsc{\lsstyle#1}}}
  88 \newcommand*{\Programm}[1]{\textsc{\lsstyle#1}}
  89 \newcommand*{\Datei}[1]{\texttt{#1}}
  90 \colorlet{richtigcol}{green!80!black}
  91 \colorlet{falschcol}{red!80!black}
  92 \colorlet{tradcol}{green!50!black}
  93 \colorlet{reformcol}{green!75!black}
  94 \colorlet{unerwcol}{red!60!black}
  95
  96 \newcolumntype{T}{>{\color{tradcol}}l}
  97 \newcolumntype{R}{>{\color{reformcol}}l}
  98 \newcolumntype{U}{>{\color{unerwcol}}l}
  99
 100 \newcommand*{\trennung}[2]{%
 101    \makebox[0pt][l]{%
 102      \color{#1}%
 103      \smash{\rule[-3.5pt]{\widthof{#2}}{.7pt}}% Schriftabhängig.
 104    }%
 105    #2%
 106 }
 107 \newcommand*{\ftr}[1]{\trennung{falschcol}{#1}}% Falsche Trennung.
 108 \newcommand*{\rtr}[1]{\trennung{richtigcol}{#1}}% Richtige Trennung.
 109
 110 %%% Satzspiegel erneut berechnen.
 111 \typearea{last}
 112
 113 \begin{document}
 114 %%% Trennausnahmen definieren.
 115 \hyphenation{Back-end hyph-subst Ent-wick-ler-re-po-si-to-ri-um
 116   Wort-her-kunft Not-tren-nung Trenn-al-go-rith-mus
 117   um-bruch-in-kom-pa-tib-le}
 118 %%% Protokollierung der Trennungen für findhyph.
 119 %\tracingparagraphs=1
 120
 121 %%% Dokumenttitel.
 122 \author{Die deutschsprachige Trennmustermannschaft}
 123 \title{\texttt{dehyph-exptl}\thanks{This document describes the
 124     \texttt{dehyph-exptl} package v0.41.}}
 125 \subtitle{Experimentelle Trennmuster für die deutsche Sprache}
 126 \maketitle
 127
 128
 129 %%% Zweisprachige Zusammenfassung.
 130 \selectlanguage{english}
 131 \begin{abstract}
 132   This package provides experimental hyphenation patterns for the German
 133   language, covering traditional and reformed orthography for several
 134   varieties of Standard German.  The patterns can be used with packages
 135   \texttt{Babel} and \texttt{hyphsubst} from the \Programm{Oberdiek
 136     bundle}.  More information can be found in the Trennmuster-Wiki%
 137   \footnote{\url{http://projekte.dante.de/Trennmuster}}
 138   %
 139   (in German).
 140 \end{abstract}
 141
 142 \selectlanguage{ngerman}
 143 \begin{abstract}
 144   Dieses Paket enthält experimentelle Trennmuster für die deutsche
 145   Sprache.  Die Trennmuster decken das in Deutschland, Österreich und
 146   der Schweiz gebräuchliche Standarddeutsch in der traditionellen und
 147   reformierten Rechtschreibung ab und können mit den Paketen
 148   \texttt{Babel} und \texttt{hyphsubst} aus dem
 149   \Programm{Oberdiek-Bündel} verwendet werden.
 150
 151   Dieses Paket richtet sich ausschließlich an Nutzer der Programme \TeX\
 152   und pdf\TeX.  Lua\TeX- und Xe\TeX-Nutzer können experimentelle Muster
 153   aus dem Paket \texttt{hyph-utf8} verwenden und benötigen dieses Paket
 154   nicht.
 155 \end{abstract}
 156
 157 \vfill
 158 \begingroup
 159 \em\large
 160 \begin{center}
 161   Warnung!
 162 \end{center}
 163 Diese Trennmuster befinden sich im experimentellen Status.  Sie können
 164 jeder\-zeit vom \Abk{ctan} oder aus \TeX-Vertei\-lun\-gen entfernt oder
 165 durch umbruch\-inkompa\-ti\-ble Versionen ersetzt werden.  Sie sind
 166 daher nicht für Anwendungen geeignet, die einen dauerhaft stabilen
 167 Umbruch erfordern.
 168 \endgroup
 169 \vfill
 170
 171 \clearpage
 172 %%% Zweispaltiges Inhaltsverzeichnis.
 173 \begin{multicols}{2}
 174 \small
 175 \renewcommand*{\ngermanhyphenmins}{44}
 176 \selectlanguage{ngerman}
 177 \tableofcontents
 178 \end{multicols}
 179
 180
 181 \section{Einleitung}
 182 \label{sec:einleitung}
 183 Der in \TeX\ implementierte Trennalgorithmus arbeitet
 184 musterbasiert~\cite{liang:1983}.  Prinzipiell können mit einem solchen
 185 Algorithmus nicht alle möglichen Wörter korrekt getrennt werden.  Die
 186 Qualität der Worttrennung einer Sprache wird jedoch maßgeblich von der
 187 Qualität der Wortliste beeinflusst, aus der die verwendeten Trennmuster
 188 berechnet wurden.
 189
 190 Obwohl die herkömmlichen Trennmuster für die deutsche Sprache bei der
 191 Worttrennung in gewöhnlichen Texten eine akzeptable Fehlerrate
 192 erreichen, enthalten sie doch eine Reihe von Schwächen:%
 193 \footnote{Diese Liste bezieht sich auf die Trennmusterdateien
 194   \Datei{dehypht.tex}, Version~3.2a vom 3.\,3.\,1999, und
 195   \Datei{dehyphn.tex}, Version~31 vom 7.\,5.\,2001.}
 196
 197 \bigskip\smallskip
 198 \needspace{4\baselineskip}
 199 \noindent\textit{traditionelle und reformierte Rechtschreibung}
 200
 201 \begin{itemize}
 202 \item In zusammengesetzten Wörtern treten häufig Trennfehler an
 203   Wortfugen auf.
 204
 205 \item Fremdwörter mit akzentuierten Buchstaben werden mangelhaft
 206   getrennt: ">C\ftr{af}é"<, ">Ci-tr\ftr{oë}n"<, ">F\ftr{aç}on"<,
 207   ">vo\ftr{il}à"<.
 208
 209 \item Die Trennmusterdateien enthalten eine Mischung aus \Abk{t1}- sowie
 210   unvollständigen \Abk{ot1}-kodierten Mustern.  Mit Erscheinen von
 211   16-Bit-fähigen \TeX-Varianten werden sauber \Abk{utf-8}-kodierte
 212   Trennmuster nötig \cite{miklavec:2008}.
 213 \end{itemize}
 214
 215 \bigskip
 216 \needspace{4\baselineskip}
 217 \noindent\textit{traditionelle Rechtschreibung}
 218
 219 \begin{itemize}
 220 \item Die herkömmlichen Trennmuster für die traditionelle deutsche
 221   Rechtschreibung können mit \Programm{Patgen} nicht reproduziert
 222   werden, da die zugrundeliegende Wortliste verschollen ist.  Die Pflege
 223   der Trennmuster ist daher schwierig bis unmöglich.  Für freie Software
 224   ist dies kein zufriedenstellender Zustand.
 225
 226 \item Umfang und Qualität der ursprünglichen Wortliste lassen sich nicht
 227   mehr einschätzen.  Für die Trennmuster in traditioneller
 228   Rechtschreibung existiert jedoch inzwischen eine Ausnahmeliste mit
 229   über 3500 korrigierten Trennungen einfacher Wörter \cite{lemberg:2003,
 230     lemberg:2005}.%
 231   \footnote{\url{CTAN:language/hyphenation/dehyph/dehyphtex.tex}}
 232
 233 \item Wird in der traditionellen Rechtschreibung \emph{ß} durch
 234   \emph{ss/SS} oder \emph{sz/SZ} ersetzt, so bleibt die Trennung davon
 235   unberührt.  Die herkömmlichen Trennmuster berücksichtigen diese Regel
 236   nicht und trennen häufig den Ersatz: \textls{">GR\ftr{ÖS-S}E"<},
 237   \textls{">GR\ftr{ÜS-S}E"<}, \textls{">M\ftr{AS-S}ES"<}.%
 238   \footnote{Die Trennung der herkömmlichen Muster entspricht den Regeln
 239     der deutschen Standardsprache in der Schweiz, obwohl diese
 240     Sprachvarietät vom Paket \texttt{Babel} nicht offiziell unterstützt
 241     wird.  \texttt{Babel} versucht den Mangel mit Hilfe des Kürzels
 242     \lstinline[style=LaTeX]+\"S+ zu kompensieren.}
 243
 244 \item Abweichende Schreibweisen, die in der traditionellen
 245   Rechtschreibung in Österreich und der Schweiz verwendet werden, werden
 246   mangelhaft getrennt: ">Gro\ftr{s-so}n-kel"<, ">Ku\ftr{s-sh}and"<,
 247   ">Ma\ftr{ssn}ah-me"<, ">mi\ftr{s-sa}ch-ten"< (nur Schweiz) und
 248   ">Ex-pre\ftr{ssz}ug"<, ">Fit-ne\ftr{s-sc}en-ter"<,
 249   ">Fit-ne\ftr{sst}rai-ner"<.
 250 \end{itemize}
 251
 252 \bigskip
 253 \needspace{4\baselineskip}
 254 \noindent\textit{reformierte Rechtschreibung}
 255
 256 \begin{itemize}
 257 \item Die Trennmuster für die reformierte deutsche Rechtschreibung
 258   wurden nicht mit \Programm{Patgen} aus einer Wortliste erstellt.
 259   Stattdessen wurden die Trennmuster für die traditionelle
 260   Rechtschreibung von Hand an die reformierten Regeln
 261   angepasst~\cite{schmidt:1998}.  Aus diesem Grund ist die Worttrennung
 262   mit den Trennmustern für die reformierte Rechtschreibung etwas
 263   schlechter als mit den Trennmustern für die traditionelle
 264   Rechtschreibung.
 265 \end{itemize}
 266
 267 Das Projekt \emph{Freie Wortlisten und Trennmuster für die deutsche
 268   Sprache} hat sich das Ziel gesetzt, neue Trennmuster hoher Qualität
 269 für die deutsche Sprache zu erstellen, die die genannten Probleme
 270 ausräumen.
 271
 272 Den experimentellen Trennmustern dieses Pakets liegt eine Wortliste mit
 273 den etwa fünfhunderttausend häufigsten Wörtern der deutschen Sprache
 274 zugrunde.  Vermutlich ist diese Liste erheblich umfangreicher als die
 275 ursprüngliche Wortliste, in der Worthäufigkeiten wahrscheinlich
 276 überhaupt nicht berücksichtigt wurden.  Die verwendete Wortliste deckt
 277 das in Deutschland, Österreich und der Schweiz gebräuchliche
 278 Standarddeutsch ab.
 279
 280 Mit den vorliegenden Trennmustern sollte für nicht-fachsprach\-li\-che
 281 Wörter eine sehr gute Trennqualität erreicht werden.  Insbesondere
 282 sollte sich die Trennung häufig auftretender zusammengesetzter Wörter
 283 verbessern.
 284
 285
 286 \section{Verwenden der Trennmuster}
 287 \label{sec:verwenden}
 288 Dieses Paket stellt die experimentellen Trennmuster für die Verwendung
 289 mit \LaTeX\ und dem Sprachenpaket \texttt{Babel} zur Verfügung.  Das
 290 Paket richtet sich derzeit ausschließlich an Nutzer der Programme \TeX\
 291 und pdf\TeX\ (siehe \autoref{tab:texkompat}).
 292
 293 Mit den nicht unterstützten \TeX-Programmen können experimentelle
 294 Trennmuster dennoch verwendet werden, da das Paket \texttt{hyph-utf8}
 295 ebenfalls Muster dieses Projekts enthält.  Werden die UTF-8-fähigen
 296 Programme Xe\TeX\ und Lua\TeX\ oder p\TeX\footnote{%
 297   Eine in Japan populäre \TeX-Variante.%
 298 } verwendet, so werden jene Muster standardmäßig aktiviert.  Die
 299 Trennmuster dieses Pakets sollten dann nicht verwendet werden.  Siehe
 300 \autoref{sec:fragen} für Hinweise, wie die Version der im Paket
 301 \texttt{hyph-utf8} enthaltenen Muster ermittelt werden kann.
 302
 303 \begin{table}
 304   \centering
 305   \caption{Kompatibilität mit verschiedenen \TeX-Varianten}
 306   \label{tab:texkompat}
 307   \begin{tabular}{l>{\ttfamily}l}
 308     Programm & \normalfont Quelle experimenteller Muster\\
 309     \addlinespace\toprule\addlinespace
 310     \TeX & dehyph-exptl\\
 311     pdf\TeX & dehyph-exptl\\
 312     XeTeX & hyph-utf8, dehyph-exptl\\
 313     LuaTeX & hyph-utf8\\
 314     p\TeX & hyph-utf8\\
 315   \end{tabular}
 316 \end{table}
 317
 318 Zur Installation der experimentellen Trennmuster siehe
 319 \autoref{sec:installation} und die Datei \Datei{INSTALL}.  Beachte, in
 320 den folgenden Abschnitten ist \verb+<datum>+ durch das bei der
 321 Installation angegebene Datum in \Abk{iso}-Notation (\verb+JJJJ-MM-TT+)
 322 oder die Zeichenkette \verb+latest+ zu ersetzen.  \autoref{sec:fragen}
 323 enthält Hinweise, wie das Datum ermittelt werden kann, falls die
 324 experimentellen Trennmuster in Ihrer \TeX-Verteilung schon
 325 vorinstalliert sind.
 326
 327
 328 \subsection{Sprachvarietät und Rechtschreibung}
 329 \label{sec:varietaeten}
 330 Dieses Paket stellt Trennmuster für die Worttrennung der deutschen
 331 Sprache in der traditionellen und der reformierten Rechtschreibung
 332 bereit.  Die Trennmuster unterstützen zur Zeit die drei in
 333 \begin{itemize}
 334 \item Deutschland,
 335 \item Österreich und der
 336 \item Schweiz%
 337   %
 338   \footnote{Für Texte in Schweizer Standarddeutsch fehlt zur Zeit die
 339     \texttt{Babel}-Unterstützung.  Zum Beispiel muss das Kürzel
 340     \lstinline[style=LaTeX]+\"s+ stets zu \emph{ss} expandieren.  In der
 341     traditionellen Rechtschreibung wird außerdem ein zusätzliches Kürzel
 342     \lstinline[style=LaTeX]+\"ss+ benötigt (Dreikonsonantenregel).  Wer
 343     kann helfen?}
 344 \end{itemize}
 345 gebräuchlichen Hauptvarietäten der deutschen Standardsprache.
 346 \autoref{tab:varietaeten} zeigt die Trennmuster, die abhängig von
 347 gewünschter Varietät und Rechtschreibung in einem Dokument aktiviert
 348 werden können.
 349
 350 \begin{table}
 351   \centering
 352   \caption{Die unterstützten Varietäten und Rechtschreibungen}
 353   \label{tab:varietaeten}
 354   \begin{tabular}{l>{\ttfamily}l}
 355     \normalfont Sprachvarietät & Trennmusterbezeichner\\
 356     \addlinespace\toprule\addlinespace
 357     \hspace*{-\tabcolsep}\normalfont\emph{traditionelle Rechtschreibung}\\
 358     Deutschland, Österreich & german-x-<datum>\\
 359     Schweiz & gswiss-x-<datum>\\\addlinespace
 360     \hspace*{-\tabcolsep}\normalfont\emph{reformierte Rechtschreibung}\\
 361     Deutschland, Österreich, Schweiz & ngerman-x-<datum>\\
 362   \end{tabular}
 363 \end{table}
 364
 365 Varietäten, die sich nur in der Verwendung und Schreibung einzelner
 366 Wörter voneinander unterscheiden, können durch gemeinsame Trennmuster
 367 unterstützt werden.  Die Eingabewortliste für \Programm{Patgen} ist dann
 368 eine Vereinigung der den Varietäten entsprechenden Wortlisten.  Zum
 369 Beispiel werden Besonderheiten der österreichischen Standardsprache in
 370 den Trennmustern für die Standardsprache Deutschlands berücksichtigt.
 371 Österreichische und deutsche Anwender können daher dieselben Trennmuster
 372 verwenden.  (Wie das auch schon bei den herkömmlichen Trennmustern der
 373 Fall war.)
 374
 375 Aufgrund unvereinbarer Trennregeln in der traditionellen Rechtschreibung
 376 der Standardsprachen Deutschlands/""Österreichs und der Schweiz werden
 377 für die letztere Varietät eigene Trennmuster bereitgestellt.
 378
 379 Mit der Rechtschreibreform 1996 wurden die Trennregeln aller drei
 380 Standardsprachen so weit angeglichen, dass für die reformierte
 381 Rechtschreibung einheitliche Trennmuster für alle drei unterstützten
 382 Sprachvarietäten bereitgestellt werden können.
 383
 384 \subsection{Aktivieren der Trennmuster}
 385 \label{sec:aktivieren}
 386 Das folgende Beispiel zeigt eine \LaTeX-Präambel für die Aktivierung der
 387 experimentellen Trennmuster für die reformierte Rechtschreibung.  Die
 388 Trennmusterbezeichner, die vom Paket \texttt{Babel} verwendet werden,
 389 werden dazu mit Hilfe des Pakets \texttt{hyphsubst} aus dem
 390 \Programm{Oberdiek-Bündel} so geändert, dass sie auf die experimentellen
 391 Trennmuster verweisen:
 392
 393 \begin{lstlisting}[style=LaTeX]
 394 \RequirePackage[ngerman=ngerman-x-<datum>]{hyphsubst}
 395 % \RequirePackage[ngerman=ngerman-x-latest]{hyphsubst}
 396 \documentclass{article}
 397 \usepackage[T1]{fontenc}
 398 \usepackage[ngerman]{babel}
 399 \end{lstlisting}
 400
 401 Die folgende Variante erleichtert das schnelle Umschalten zwischen
 402 verschiedenen Trennmustern im Editor.  Weitere Hinweise können der
 403 Dokumentation des Pakets \texttt{hyphsubst} entnommen werden.
 404
 405 \begin{lstlisting}[style=LaTeX]
 406 \RequirePackage{hyphsubst}
 407 \documentclass{article}
 408 \usepackage[T1]{fontenc}
 409 % \HyphSubstLet{german}{german-x-<datum>}
 410 % \usepackage[german]{babel}
 411 \HyphSubstLet{ngerman}{ngerman-x-<datum>}
 412 \usepackage[ngerman]{babel}
 413 \end{lstlisting}
 414
 415 Ob die experimentellen Trennmuster korrekt aktiviert werden, kann mit
 416 dem folgenden Beispiel getestet werden.  Die Ausgabe für die
 417 traditionelle und reformierte Rechtschreibung mit herkömmlichen und
 418 experimentellen Trennmustern ist in \autoref{tab:trennvarianten}
 419 zusammengefasst.
 420 \begin{lstlisting}[style=LaTeX]
 421 \begin{document}
 422 \showhyphens{löste Fassade modernste Abendstern Mordopfer}
 423 \end{lstlisting}
 424
 425 %\suppressfloats[t]
 426 \begin{table*}
 427   \centering
 428   \caption{Trennvarianten}
 429   \label{tab:trennvarianten}
 430   \begin{tabular}{llll}
 431     \multicolumn{2}{c}{\itshape traditionelle Rechtschreibung} &
 432     \multicolumn{2}{c}{\itshape reformierte Rechtschreibung}\\
 433     herkömmlich & experimentell & herkömmlich & experimentell\\
 434     \addlinespace\toprule\addlinespace
 435     l\ftr{ös-t}e & lö-ste & lös-te & lös-te\\
 436     Fas-sa-de & Fas-sa-de & Fa\ftr{ss}a-de & Fas-sa-de\\
 437     mo-\ftr{d-e}rn-ste & mo-dern-ste & mo-\ftr{d-e}rns-te & mo-derns-te\\
 438     Abend-stern & Abend-stern & Aben\ftr{ds-t}ern & Abend-stern\\
 439     Mo\ftr{r-do}p-fer & Mord-op-fer & Mo\ftr{r-do}p-fer & Mord-op-fer\\
 440   \end{tabular}
 441 \end{table*}
 442
 443
 444 % Trennung mit Mustern für traditionelle Rechtschreibung.
 445 \newcommand*{\trtr}[1]{\trennung{tradcol!20}{#1}}
 446 % Trennung mit Mustern für reformierte Rechtschreibung.
 447 \newcommand*{\retr}[1]{\trennung{reformcol!20}{#1}}
 448 % Unerwünschte Trennung.
 449 \newcommand*{\untr}[1]{\trennung{unerwcol!20}{#1}}
 450
 451 \section{Trennregeln und Konventionen}
 452 \label{sec:trennregeln}
 453 Die Trennmuster für die traditionelle Rechtschreibung in Deutschland und
 454 Österreich orientieren sich an den verbindlichen Regeln des Dudens in
 455 der Fassung von 1991~\cite{duden:1991}.  Dasselbe gilt für die
 456 Trennmuster für die traditionelle Rechtschreibung in der Schweiz, jedoch
 457 mit einer unten beschriebenen Abweichung.  Die Trennmuster für die
 458 reformierte Rechtschreibung orientieren sich an den amtlichen Regeln für
 459 die Rechtschreibung der deutschen Sprache in der Fassung von
 460 2006~\cite{amtlRegeln:2006, amtlRegeln:2006:duden}.
 461
 462 Die Regeln lassen gewisse Freiheiten bei der Schreibung und Trennung von
 463 Wörtern zu.  Da sich solche Freiheiten nicht ohne weiteres auf die
 464 maschinelle Worttrennung übertragen lassen, wurden die im folgenden
 465 beschriebenen Konventionen getroffen.  Hauptsächlich betreffen diese die
 466 reformierte Rechtschreibung, die zusätzliche Freiheiten eingeführt
 467 hat.\footnote{%
 468   Im Ergebnis weicht in reformierter Rechtschreibung die Trennung zum
 469   Beispiel des Dudens (nach Sprechsilben) von der Trennung mit diesen
 470   Trennmustern (bevorzugt etymologisch) ab, siehe auch
 471   \regelref{enum:reformEtymo} und \regelref{enum:reformClusterLR} sowie
 472   \autoref{sec:fragen}.}
 473 Beziehen sich die Konventionen für die reformierte Rechtschreibung auf
 474 die traditionelle Rechtschreibung, so werden die entsprechenden Regeln
 475 etwas ausführlicher dargestellt.  Die folgenden Abschnitte enthalten
 476 jedoch keine vollständige Aufstellung der Silbentrennregeln.  Diese sind
 477 den entsprechenden Regelwerken zu entnehmen.  Es folgen zunächst einige
 478 allgemeine Hinweise:
 479
 480 \begin{itemize}
 481
 482 \item In Liangs Trennalgorithmus werden Groß- und Kleinschreibung nicht
 483   unterschieden~\cite{liang:1983}.  Die Schreibweisen \emph{Nachtritt}
 484   und \emph{nachtritt} werden aus Sicht des Trennalgorithmus gleich
 485   behandelt (siehe auch \regelref{enum:tradDoppeld} und
 486   \regelref{enum:reformDoppeld}).
 487
 488 \item Die von einem Programm aus diesen Mustern abgeleiteten möglichen
 489   Trennstellen können (u.\,a. durch Programmfehler) durchaus von denen
 490   der zugrundeliegenden Wortliste abweichen.  So führt zum Beispiel die
 491   Eingabe \lstinline[style=LaTeX]+Meta"llegierung+ (Dreikonsonantenregel
 492   in der traditionellen Rechtschreibung) mit dem Paket \texttt{Babel} zu
 493   den in \autoref{tab:trennung-dreik} gezeigten Trennmöglichkeiten.
 494
 495   \begin{table}
 496     \centering
 497     \caption{Unterschiedlich ermittelte Trennmöglichkeiten.}
 498     \label{tab:trennung-dreik}
 499     \begin{tabular}{ll}
 500       Quelle & Trennmöglichkeiten\\
 501       \addlinespace
 502       \toprule
 503       \addlinespace
 504       pdf\LaTeX\ mit \texttt{Babel}~3.8 & Me-tall(-l)egierung\\
 505       pdf\LaTeX\ mit \texttt{Babel}~3.9 & Me-tall(-l)e-gie-rung\\
 506       erwünscht \emph{(vgl. \regelref{enum:tradnstd})} & Me-tall(-l)egie-rung\\
 507     \end{tabular}
 508   \end{table}
 509
 510 \item Die von \TeX\ gewählte Trennung kann in Einzelfällen mit den \TeX-
 511   und \texttt{Babel}-Kürzeln \lstinline[style=LaTeX]+\-+ und
 512   \lstinline[style=LaTeX]+"-+ geändert werden.  Für dokumentweite
 513   Änderungen der Trennung eignet sich das Kommando
 514   \lstinline[style=LaTeX]+\hyphenation+.
 515
 516 \item Die Datei \Datei{CHANGES} beschreibt bekannte, systematische
 517   Fehler der Trennmuster.
 518
 519 \item In den Beispielen zeigt die linke (grüne) Spalte jeweils die
 520   Trennung mit den experimentellen Trennmustern, die rechten (roten)
 521   Spalten zeigen alternative oder unerwünschte Trennungen.
 522
 523 \end{itemize}
 524
 525 \subsection{Traditionelle Rechtschreibung in Deutschland und Österreich}
 526 \label{sec:tradRS}
 527
 528 \begin{enumerate}[\hspace{1em}\itshape{T}1]
 529 \labelformat{enumi}{\textit{T#1}}
 530
 531 \item\label{enum:tradhyphenmin} Die minimal unterstützte Silbenlänge am
 532   Wortanfang und "~ende beträgt zwei Buchstaben
 533   \cite[R~178]{duden:1991}.
 534
 535   Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
 536   den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
 537   \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
 538   \lstinline[style=LaTeX]+\germanhyphenmins+ (\texttt{Babel}) anpassen.
 539   Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
 540   können fehlerhafte Trennungen auftreten.
 541
 542 \item\label{enum:tradSinn} Sinnentstellende und irreführende Trennungen
 543   werden möglichst vermieden \cite[R~181]{duden:1991} (siehe auch
 544   \regelref{enum:tradnstd}):
 545
 546   \begin{tabular}[t]{TU}
 547     An-alpha-bet & Anal-phabet\\
 548     Kaf-ka-kenner & Kafkaken-ner\\
 549     Tal-entwäs-se-rung & Talent-wässerung\\
 550   \end{tabular}
 551
 552   Beachte, dass derzeit die Unterdrückung von solchen Trennstellen bis
 553   zu einem gewissen Grade willkürlich und subjektiv ist.  Außerdem ist
 554   die Erfassung weit davon entfernt, vollständig zu sein.  Um diesen
 555   Problemen abzuhelfen, ist für zukünftige Versionen der Trennmuster
 556   ein anderer, automatisierter Ansatz geplant, welcher die Anzahl
 557   manuell zu erfassender Fälle sehr stark reduzieren wird.
 558
 559 \item\label{enum:tradDoppeld} In mehrdeutigen Wörtern werden Trennungen
 560   nur an übereinstimmenden Trennstellen zugelassen.
 561
 562   \begin{tabular}[t]{TUU}
 563     nachtritt & nach-tritt & Nacht-ritt\\
 564     Wachstu-be & Wach-stube & Wachs-tube\\
 565     Druckerzeug-nis & Druck-erzeugnis & Drucker-zeugnis\\
 566     Mu-sikerle-ben & Musik-erleben & Musi-ker-leben\\
 567     Fuß-balleh-re & Fußball-ehre & Fußball-lehre\\
 568   \end{tabular}
 569
 570   Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
 571   sind in den Interpretationen \emph{Druck-Erzeugnis} und
 572   \emph{Musik-Erleben} irreführend.  Sie entfallen nach
 573   \regelref{enum:tradSinn} und sind nicht als übereinstimmende
 574   Trennstellen anzusehen.  Zur Spezialtrennung ">Fußball-lehre"< siehe
 575   auch \regelref{enum:tradnstd}.
 576
 577   Für diese Regel gelten die folgenden Einschränkungen:
 578   \begin{itemize}
 579
 580   \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
 581       "~endes} wird stets die Trennung der Partizipform des Verbs
 582     verwendet.
 583
 584   \item Mehrdeutigkeiten, die durch die Ersatzschreibweise von Wörtern
 585     mit~\emph{ß} auftreten, werden nicht berücksichtigt (vergleiche
 586     \regelref{enum:tradEszett}).
 587
 588     \begin{tabular}[t]{TUU}
 589       spie-len-de & Spiel-ende & spielende\\
 590       Mas-se & \textls{M\kern-.4ptA-SSE} & \textls{M\kern-.4ptA\kern-.6ptSSE}\\
 591     \end{tabular}
 592
 593   \end{itemize}
 594
 595 \item\label{enum:tradEszett} Wird der Buchstabe~\emph{ß} durch
 596   \emph{ss/SS} ersetzt, so bleibt die Trennung davon unberührt
 597   \cite[R~179]{duden:1991}:
 598
 599   \begin{tabular}[t]{T}
 600     \textls{GRÖSS-TE}\\
 601     \textls{GRÜ-SSE}\\
 602     \textls{M\kern-.4ptA\kern-.4pt-SSES}\\
 603   \end{tabular}
 604
 605   Für diese Regel gilt die folgende Einschränkung:
 606   \begin{itemize}
 607
 608   \item Wenn durch den Ersatz von~\emph{ß} an dieser Stelle keine
 609     eindeutige Trennung möglich ist, so wird zugunsten der Bedeutung des
 610     Wortes in der normalen Schreibweise getrennt (siehe auch
 611     \regelref{enum:tradDoppeld}).
 612
 613     \begin{tabular}[t]{TTU}
 614       \textls{FLÖS-SE} & (wegen flös-se) & \textls{FLÖ-SSE}\\
 615       \textls{MAS-SE} & (wegen Mas-se) & \textls{MA-SSE}\\
 616     \end{tabular}
 617
 618     Beachte:
 619     \begin{itemize}
 620
 621     \item Wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
 622       durch~\emph{SS} ersetzt, so bleibt~\emph{SS} stets ungetrennt.
 623       Die Trennung richtet sich dann nach der Schreibweise mit~\emph{ß}
 624       im Quelldokument.
 625
 626     \item Existiert ein Wort in verschiedenen Varietäten in der
 627       Schreibweise mit~\emph{ß} und mit~\emph{ss}, so wird aufgrund
 628       dieser Einschränkung \emph{s-s} stets getrennt:
 629
 630       \begin{tabular}[t]{TTUU}
 631         Ge-scho-ße  & (AT)\\
 632         Ge-schos-se & (D) & \textls{GESCHO-SSE} & (AT)\\
 633       \end{tabular}
 634
 635     \item Wenn durch den Ersatz des~\emph{ß} an entfernten Stellen keine
 636       eindeutige Trennung möglich wird, zum Beispiel an Wortfugen, so
 637       werden die betroffenen Trennungen gemäß
 638       \regelref{enum:tradDoppeld} unterdrückt.  In der Folge wird
 639       gegebenenfalls auch die Trennung von \emph{ss/SS} unterdrückt.
 640
 641       \begin{tabular}[t]{TU}
 642         \textls{BAHN-HOFSTRASSE} & \textls{BAHNHOF-STRA-SSE}\\
 643                                  & \textls{BAHNHOFS-TRAS-SE}\\
 644       \end{tabular}
 645
 646     \end{itemize}
 647
 648   \end{itemize}
 649
 650 \item\label{enum:tradOW} In Ableitungen von Namen auf \emph{"~ow} wird
 651   die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
 652   \emph{"~ers} unterdrückt \cite[R~180]{duden:1991}:
 653
 654   \begin{tabular}[t]{TU}
 655     Tel-tower & Teltow-er\\
 656     Trep-towern & Treptow-ern\\
 657     Pan-kowers & Pankow-ers\\
 658   \end{tabular}
 659
 660 \item\label{enum:tradnstd} Spezialtrennungen (\emph{engl.:} non-standard
 661   hyphenation), die nach Regeln erfolgen, die über das bloße Einfügen
 662   eines Trennstrichs hinausgehen, wie die \emph{ck}- oder die
 663   Dreikonsonantenregel, kann \TeX82 nicht automatisch behandeln.  Aus
 664   diesem Grund sind solche Trennstellen in diesen Trennmustern nicht
 665   berücksichtigt.
 666
 667   \begin{tabular}[t]{lTUU}
 668     \lstinline[style=LaTeX]+drucken+ & drucken & druk-ken\\
 669     \lstinline[style=LaTeX]+Zuckerbäcker+ & Zucker-bäcker & Zuk-kerbäk-ker\\
 670     \lstinline[style=LaTeX]+Brennessel+ & Brennes-sel & Brenn-nessel\\
 671     \lstinline[style=LaTeX]+Stoffetzen+ & Stoffet-zen & Stoff-fetzen\\
 672   \end{tabular}
 673
 674   Die Dreikonsonantenregel birgt aufgrund des ausgefallenen Konsonanten
 675   die Gefahr irreführender und sinnentstellender Trennungen (siehe auch
 676   \regelref{enum:tradSinn}).  Trennstellen, die in einem Abstand von
 677   zwei Lauten auf eine Wortfuge mit Anwendung der Dreikonsonantenregel
 678   folgen, werden daher grundsätzlich unterdrückt.
 679
 680   \begin{tabular}[t]{lTUU}
 681     \lstinline[style=LaTeX]+Metallegierung+ & Me-tallegie-rung & Metall-legierung & Metalle-gierung\\
 682     \lstinline[style=LaTeX]+schnellebige+ & schnellebi-ge & schnell-lebige & schnelle-bige\\
 683     \lstinline[style=LaTeX]+Stilleben+ & Stilleben & Still-leben & Stille-ben\\
 684   \end{tabular}
 685   \par\nobreak
 686   \textit{auch:}
 687
 688   \begin{tabular}[t]{lTUU}
 689     \lstinline[style=LaTeX]+Abfallager+ & Ab-fallager & Abfall-lager & Abfalla-ger\\
 690     \lstinline[style=LaTeX]+Zellstoffabrik+ & Zell-stoffabrik & Zellstoff-fabrik & Zellstoffa-brik\\
 691   \end{tabular}
 692
 693   Das Paket \texttt{Babel} stellt verschiedene Kürzel zur Verfügung,
 694   u.\,a. \lstinline[style=LaTeX]+"ck+%
 695   \footnote{Spezialtrennungen werden in \TeX\ mit Hilfe des Kommandos
 696     \lstinline[style=LaTeX]+\\discretionary+ kodiert.  So wird zum
 697     Beispiel das \texttt{Babel}-Kürzel \lstinline[style=LaTeX]+\"ck+ in
 698     der Eingabe während des Setzens durch
 699     \lstinline[style=LaTeX]+\\discretionary\{k-\}\{k\}\{ck\}+ ersetzt,
 700     wodurch \emph{k-k}-Trennungen möglich werden.}
 701   %
 702   oder \lstinline[style=LaTeX]+"ff+ \emph{etc.}, mit denen
 703   Spezialtrennungen im Quelldokument ausgezeichnet werden können (siehe
 704   auch \autoref{tab:trennung-dreik}).
 705
 706   Lua\TeX%
 707   \footnote{\url{http://www.luatex.org/}}
 708 %
 709   soll in einer zukünftigen Version Mechanismen zur automatischen
 710   Behandlung von Spezialtrennungen bereitstellen.  Eine physische
 711   Auszeichnung im Quelltext ist dann nicht mehr erforderlich.  Die
 712   entsprechenden Spezialtrennmuster für die deutsche Sprache werden
 713   ebenfalls im Rahmen dieses Projekts erstellt.
 714
 715 \end{enumerate}
 716
 717 \subsection{Traditionelle Rechtschreibung in der Schweiz}
 718 \label{sec:tradchRS}
 719
 720 Die Trennmuster für die traditionelle Rechtschreibung in der Schweiz
 721 folgen weitgehend den Konventionen für die traditionelle Rechtschreibung
 722 in Deutschland (siehe \autoref{sec:tradRS}).  Die folgende Liste enthält
 723 daher nur Fälle, in denen davon abgewichen wird oder deren Beschreibung
 724 aus anderen Gründen sinnvoll erscheint.
 725
 726 \begin{enumerate}[\hspace{1em}\itshape{TS}1]
 727 \labelformat{enumi}{\textit{TS#1}}
 728
 729 \item\label{enum:tradchEszett} Wörter mit \emph{ß} werden gemäß den
 730   Regeln für die traditionelle Rechtschreibung in Deutschland getrennt.
 731
 732 \item\label{enum:tradchSS} Abweichend von \regelref{enum:tradEszett}
 733   wird \emph{ss/SS} immer als Doppelkonsonant behandelt und
 734   gegebenenfalls getrennt:
 735
 736   \begin{tabular}[t]{T}
 737     grös-ste\\
 738     Grüs-se\\
 739     Mas-ses\\
 740   \end{tabular}
 741
 742   Beachte, wird~\emph{ß} jedoch mit
 743   \lstinline[style=LaTeX]+\MakeUppercase+ durch~\emph{SS} ersetzt, so
 744   bleibt~\emph{SS} stets ungetrennt.  Die Trennung richtet sich dann
 745   nach der Schreibweise mit~\emph{ß} im Quelldokument (siehe
 746   \regelref{enum:tradchEszett}).
 747
 748 \end{enumerate}
 749
 750 \subsection{Reformierte Rechtschreibung}
 751 \label{sec:reformRS}
 752
 753 \begin{enumerate}[\hspace{1em}\itshape{R}1]
 754 \labelformat{enumi}{\textit{R#1}}
 755
 756 \item\label{enum:reformhyphenmin} Die minimal unterstützte Silbenlänge
 757   am Wortanfang und "~ende beträgt zwei Buchstaben
 758   \cite[\S~107]{amtlRegeln:2006, amtlRegeln:2006:duden}.
 759
 760   Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
 761   den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
 762   \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
 763   \lstinline[style=LaTeX]+\ngermanhyphenmins+ (\texttt{Babel}) anpassen.
 764   Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
 765   können fehlerhafte Trennungen auftreten.
 766
 767 \item\label{enum:reformEtymo} Falls die Trennung nach Sprechsilben und
 768   die etymologische (sprachgeschichtliche) Trennung kollidieren, wird
 769   weitgehend die etymologische Trennung gewählt
 770   \cite[\S~113]{amtlRegeln:2006, amtlRegeln:2006:duden}:
 771
 772   \begin{tabular}[t]{RUU}
 773 %    Heli-ko-pter & Helikop-ter\\
 774 %    in-ter-view-en & intervie-wen\\
 775     in-ter-es-sant & inte-ressant\\
 776     Lin-ole-um & Li-noleum & Lino-leum\\
 777     Päd-ago-ge & Pä-dagoge & Päda-goge\\
 778   \end{tabular}
 779
 780 \item\label{enum:reformClusterLR} In Fremdwörtern bleiben die
 781   Buchstabengruppen \emph{bl, pl, fl, gl, cl, kl, phl; br, pr, dr, tr,
 782     fr, vr, gr, cr, kr, phr, thr; chth; gn, kn} im allgemeinen
 783   ungetrennt, nicht jedoch \emph{str} \cite[\S~112]{amtlRegeln:2006,
 784     amtlRegeln:2006:duden}
 785   i.\,V.\,m.~\cite[R~179]{duden:1991}:
 786
 787   \begin{tabular}[t]{RU}
 788     Ar-thri-tis & Arth-ritis\\
 789 %    Co-gnac & Cog-nac\\
 790     Di-plom & Dip-lom\\
 791 %    Fe-bru-ar & Feb-ruar\\
 792     igno-rie-re & ig-noriere\\
 793     In-te-gral & Integ-ral\\
 794   \end{tabular}
 795   \par\nobreak
 796   \textit{aber:}
 797
 798   \begin{tabular}[t]{RUU}
 799     In-dus-trie & Indu-strie & Indust-rie\\
 800 %    Ma-gis-tra-le & Magi-strale\\
 801     de-struk-tiv\\
 802     sub-lim\\
 803   \end{tabular}
 804
 805 \item\label{enum:reformSinn} Sinnentstellende und irreführende Trennungen
 806   werden möglichst vermieden \cite[\S~107]{amtlRegeln:2006,
 807     amtlRegeln:2006:duden}:
 808
 809   \begin{tabular}[t]{RU}
 810     An-alpha-bet & Anal-phabet\\
 811     Kaf-ka-kenner & Kafkaken-ner\\
 812     Tal-entwäs-se-rung & Talent-wässerung\\
 813   \end{tabular}
 814
 815 \item\label{enum:reformDoppeld} In mehrdeutigen Wörtern werden
 816   Trennungen nur an übereinstimmenden Trennstellen
 817   zugelassen:
 818
 819   \begin{tabular}[t]{RUUU}
 820     Druckerzeug-nis & Dru-ckerzeugnis & Druck-erzeugnis &
 821     Drucker-zeugnis\\
 822     Mu-sikerle-ben & Musi-kerleben & Musik-erleben & Musiker-leben\\
 823     nachtritt & nach-tritt & Nacht-ritt\\
 824     Wachstu-be & Wach-stube & Wachs-tube\\
 825   \end{tabular}
 826
 827   Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
 828   sind in den Interpretationen \emph{Druck-Erzeugnis} und
 829   \emph{Musik-Erleben} irreführend.  Sie entfallen nach
 830   \regelref{enum:reformSinn} und sind nicht als übereinstimmende
 831   Trennstellen anzusehen.
 832
 833   Für diese Regel gilt die folgende Einschränkung:
 834   \begin{itemize}
 835
 836   \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
 837       "~endes} wird stets die Trennung der Partizipform des Verbs
 838     verwendet.
 839
 840     \begin{tabular}[t]{RUU}
 841       spie-len-de & Spiel-ende & spielende\\
 842     \end{tabular}
 843
 844   \end{itemize}
 845
 846 \item\label{enum:reformEszett} Wird der Buchstabe~\emph{ß} durch
 847   \emph{ss/SS} ersetzt, so wird \emph{s-s} getrennt \cite[\S\S~25~E3,
 848   110]{amtlRegeln:2006, amtlRegeln:2006:duden}:
 849
 850   \begin{tabular}[t]{R}
 851     \textls{GRÖS-STE}\\
 852     \textls{GRÜS-SE}\\
 853     \textls{M\kern-.4ptA\kern-.6ptS-SES}\\
 854   \end{tabular}
 855
 856   Beachte, wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
 857   oder in Kapitälchen in~\emph{SS} gewandelt, so bleibt~\emph{SS}
 858   ungetrennt.  Dies ist kein Fehler in den Trennmustern, sondern im
 859   \LaTeX-Kern fest implementiert.
 860
 861 % \item\label{enum:reformOW} In Ableitungen von Namen auf \emph{"~ow}
 862 %   bleibt \emph{"~ow} ungetrennt, wenn es den Laut [o\,:] bezeichnet.
 863 %   Die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
 864 %   \emph{"~ers} wird unterdrückt \cite[\S~113]{amtlRegeln:2006,
 865 %     amtlRegeln:2006:duden}
 866 %   i.\,V.\,m.~\cite[R~180]{duden:1991}:
 867
 868 %   \begin{tabular}[t]{RUU}
 869 %     Tel-tower & Telto-wer & Teltow-er\\
 870 %     Trep-towern & Trepto-wern & Treptow-ern\\
 871 %     Pan-kowers & Panko-wers & Pankow-ers\\
 872 %   \end{tabular}
 873
 874 \end{enumerate}
 875
 876
 877 \section{Trennfehler}
 878 \label{sec:trennfehler}
 879 Mit den vorliegenden Trennmustern können sämtliche Wörter der
 880 zugrundeliegenden Wortliste fehlerfrei getrennt werden.  Technisch
 881 gesprochen endet der letzte \Programm{Patgen}-Lauf mit der Meldung
 882
 883 \begin{lstlisting}[style=shell]
 884 1266082 good, 0 bad, 0 missed
 885 100.00 %, 0.00 %, 0.00 %
 886 \end{lstlisting}
 887 (der Wert vor \lstinline[style=shell]+good+ ist vom Listenumfang
 888 abhängig).  Trotz des großen Umfangs der Wortliste lassen sich
 889 Trennfehler in Wörtern, die nicht in der Liste enthalten sind, nicht
 890 vermeiden.  Der Umfang der Wortliste kann allerdings nicht beliebig
 891 erweitert werden.%
 892 \footnote{Liangs Schema sieht nur einen begrenzten Bereich für die
 893   Trennstellenbewertungen vor (0--9).  Die derzeitigen Trennmuster
 894   vewenden bereits Bewertungen der Höhe~8.}
 895 %
 896 In den folgenden Fällen sollten fehlerhafte Trennungen der Trennmuster
 897 jedoch gemeldet werden:
 898
 899 \begin{enumerate}[\hspace{1em}A.]
 900
 901 \item\label{enum:kritWLfehlerhaft} Das Wort ist bereits in der Wortliste
 902   enthalten.  Der Eintrag ist jedoch fehlerhaft.
 903
 904 \end{enumerate}
 905
 906 Falls das Wort nicht in der Wortliste enthalten ist, bestehen sehr gute
 907 Chancen, dass es aufgenommen wird, wenn eines der folgenden Kriterien
 908 erfüllt ist:
 909
 910 \begin{enumerate}[\hspace{1em}A.]
 911   \refstepcounter{enumi}% Fortsetzung der obigen Aufzählung.
 912
 913 \item\label{enum:kritHerkTM} Das betreffende Wort wird mit den
 914   \emph{herkömmlichen} Trennmustern für die traditionelle oder
 915   reformierte Rechtschreibung korrekt getrennt.  Korrekt bedeutet hier:
 916   Nicht alle möglichen Trennstellen müssen erkannt werden; es werden
 917   jedoch in keinem Fall falsche Trennstellen ermittelt.  Zum Testen kann
 918   in \TeX\ der folgende Aufruf verwendet werden (die Ausgabe erfolgt in
 919   der \Abk{log}-Datei):
 920 \begin{lstlisting}[style=LaTeX]
 921 \showhyphens{durch Leerzeichen getrennte Wörter}
 922 \end{lstlisting}
 923
 924 \item\label{enum:kritSinn} Es handelt es sich um eine orthographisch
 925   richtige, aber sinnentstellende oder irreführende Trennung.
 926   Berücksichtigt werden allerdings nur Wörter, die aus höchstens zwei
 927   (gegebenenfalls prä- und suffigierten) Wörtern zusammengesetzt sind,
 928   zum Beispiel ">Talent-wässerung"<.  Nicht berücksichtigt wird hingegen
 929   die ">Talent-wässerungsanlage"<.
 930
 931 \end{enumerate}
 932
 933 Einige bekannte Fehler in den Trennmustern sind in der Datei
 934 \Datei{CHANGES} verzeichnet.  Noch nicht bekannte falsche, fehlende und
 935 unerwünschte Worttrennungen können an die folgenden E-Mail-Adressen
 936 gerichtet werden:
 937 \begin{itemize}
 938 \item
 939   \href{mailto:trennmuster@dante.de}{trennmuster@dante.de},
 940 \item \href{mailto:wl@gnu.org}{wl@gnu.org} (Werner Lemberg).
 941 \end{itemize}
 942
 943 Trennfehler, die in den Trennmustern nicht korrigiert werden können,
 944 können mit Hilfe einer privaten Ausnahmeliste behandelt werden:
 945 \begin{lstlisting}[style=LaTeX]
 946 \hyphenation{Tal-entwäs-se-rungs-an-la-ge Kaf-ka-kenner-klub}
 947 \end{lstlisting}
 948
 949 Die aktuelle und ältere Ausgaben der Trennmuster sind im Dateibereich
 950 des Trennmuster-Wikis erhältlich.%
 951 \footnote{\url{http://projekte.dante.de/Trennmuster}}
 952 %
 953 Im Entwicklerrepositorium\footnote{%
 954   siehe \url{http://projekte.dante.de/Trennmuster/Entwickler}}
 955 befindet sich ein Makefile, mit dem jederzeit neue Trennmuster erzeugt
 956 werden können.
 957
 958 \nobreak
 959 \noindent\parbox{\linewidth}{%
 960   \vspace*{\baselineskip}
 961   \raggedright
 962   \itshape
 963   Happy \TeX ing!\newline
 964   Die deutschsprachige Trennmustermannschaft
 965 }
 966
 967
 968 \bibliography{dehyph-exptl}
 969
 970
 971 \appendix
 972 \section{Dateien und Installation}
 973 \label{sec:installation}
 974
 975 Die eigentlichen Trennmusterdateien liegen in \Abk{utf-8}-Kodierung vor
 976 (siehe \autoref{tab:dateien}, Endung \texttt{pat}).  Sie werden von
 977 \TeX\ nicht direkt geladen, sondern durch Manteldateien, die ebenfalls
 978 Teil des Pakets sind (Endung \texttt{tex}).  Wird eine 8-Bit-fähige
 979 \TeX-Variante erkannt, übernehmen diese Manteldateien die Konvertierung
 980 der Trennmuster in die \Abk{t1}-Kodierung.
 981
 982 \begin{table}
 983   \centering
 984   \caption{Trennmuster- und Manteldateien}
 985   \label{tab:dateien}
 986   \begin{tabular}{>{\ttfamily}l>{\ttfamily}l}
 987     \normalfont Trennmusterdatei & \normalfont Manteldatei\\
 988     \addlinespace\toprule\addlinespace
 989     dehypht-x-<datum>.pat & dehypht-x-<datum>.tex\\
 990     dehyphts-x-<datum>.pat & dehyphts-x-<datum>.tex\\
 991     dehyphn-x-<datum>.pat & dehyphn-x-<datum>.tex\\
 992   \end{tabular}
 993 \end{table}
 994
 995 Bei der Installation werden die Manteldateien an die in
 996 \autoref{tab:varietaeten} gezeigten Trennmusterbezeichner gebunden.
 997 Diese Schritte werden für verschiedene \TeX-Verteilungen in der Datei
 998 \Datei{INSTALL} beschrieben.  Nach der Installation können die
 999 experimentellen Trennmuster wie in \autoref{sec:aktivieren} gezeigt
1000 verwendet werden.
1001
1002
1003 \section{Fragen \& Antworten}
1004 \label{sec:fragen}
1005
1006 \newcommand*{\fragefont}{\itshape}
1007 \newcommand*{\themenfont}{\large\normalfont}
1008 \newcounter{cntfrage}% Zaehler fuer Fragen.
1009 \newcounter{thema}% Zaehler fuer Themenueberschriften.
1010 \renewcommand*{\thethema}{\Roman{thema}.}
1011 \newcounter{frage}% Zaehler fuer Fragen.
1012 \renewcommand*{\thefrage}{\arabic{frage}.}
1013 \newboolean{nextfrage}
1014
1015 \makeatletter
1016
1017 %%% Neue zref-Liste frage = (type, text, anchor).
1018 \zref@newlist{frage}
1019 \zref@newprop{type}{f}
1020 \zref@newprop{text}{??}
1021 \zref@addprop{frage}{type}
1022 \zref@addprop{frage}{text}
1023 \zref@addprop{frage}{anchor}
1024
1025 %%% Fuegt eine neue Themenueberschrift ein.
1026 \newcommand*{\fragenthema}[1]{%
1027   \par
1028   \pagebreak[1]
1029   \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1030   \refstepcounter{cntfrage}
1031   \stepcounter{thema}
1032   \zref@setcurrent{type}{t}
1033   \zref@setcurrent{text}{\thethema~#1}
1034   \zref@labelbylist{frage:\thecntfrage}{frage}
1035   \noindent{\themenfont\thethema~#1\par}
1036 }
1037
1038 %%% Umgebung fuer eine Frage mit Antwort.
1039 \newenvironment{frageantwort}[1]{%
1040   \par
1041   \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1042   \refstepcounter{cntfrage}
1043   \stepcounter{frage}
1044   \zref@setcurrent{type}{f}
1045   \zref@setcurrent{text}{\thefrage~#1}
1046   \zref@labelbylist{frage:\thecntfrage}{frage}
1047   \noindent{\fragefont\thefrage~#1\par}
1048   \nobreak\noindent\ignorespaces
1049 }{%
1050   \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1051 }
1052
1053 %%% Zeige alle Fragen in sortierter Reihenfolge.
1054 \newcommand{\zeigefragen}{%
1055   \par
1056   \zref@refused{frage:1}
1057   \setcounter{cntfrage}{1}
1058   \setboolean{nextfrage}{true}
1059   \whiledo{\boolean{nextfrage}}{
1060     \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1061     \ifthenelse{\equal{\zref@extract{frage:\thecntfrage}{type}}{f}}{% Frage
1062       \noindent%
1063       \begingroup%
1064         \fragefont%
1065         \hyperlink{\zref@extract{frage:\thecntfrage}{anchor}}{%
1066           \zref@extract{frage:\thecntfrage}{text}%
1067         }%
1068         \par
1069       \endgroup
1070     }{% Themenueberschrift
1071       \noindent%
1072       \begingroup%
1073         \themenfont%
1074         \zref@extract{frage:\thecntfrage}{text}%
1075         \par
1076       \endgroup
1077       \nobreak
1078     }
1079     \stepcounter{cntfrage}
1080     \zref@ifrefundefined{frage:\thecntfrage}{\setboolean{nextfrage}{false}}{}
1081   }
1082   \vspace{.5\baselineskip plus .1\baselineskip minus .1\baselineskip}
1083   \setcounter{cntfrage}{0}
1084   \setcounter{frage}{0}
1085 }
1086
1087
1088 \zeigefragen
1089
1090
1091 \fragenthema{Verwenden der Trennmuster}
1092
1093 \begin{frageantwort}{Die experimentellen Trennmuster waren in der
1094     \TeX-Verteilung bereits vorinstalliert.  Wie kann das Datum
1095     ermittelt werden, das Teil des Trennmusterbezeichners ist, wie in
1096     \autoref{sec:verwenden} erwähnt?}
1097   Die Trennmusterbezeichner werden in der Datei \Datei{language.dat}
1098   definiert, wo auch die Verbindung zu den Manteldateien hergestellt
1099   wird.  Da ein Teil der Trennmusterbezeichner bereits bekannt ist,
1100   \verb+german-x+, vgl. \autoref{tab:varietaeten}, kann die Datei
1101   \Datei{language.dat} danach durchsucht werden.  Zunächst muss der Ort
1102   der Datei mit Hilfe des Kommandos \lstinline[style=shell]{kpsewhich}
1103   ermittelt werden.  Es folgen die vollständigen Kommandos für
1104   unixähnliche Shells und die Windows-Kommandozeile \Datei{cmd.exe}.
1105   Achtung, bei den einfachen Anführungszeichen handelt es sich um
1106   Gravis ("`Backquotes"').
1107
1108   \begin{lstlisting}[style=shell, caption=Shell]
1109 grep -i german-x `kpsewhich language.dat`
1110   \end{lstlisting}
1111
1112   \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1113 for /F "usebackq" %f in (`kpsewhich language.dat`) do find /i "german-x" "%f"
1114   \end{lstlisting}
1115
1116   Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1117   abweichen):
1118
1119 \begin{lstlisting}
1120 german-x-2009-06-19 dehypht-x-2009-06-19.tex
1121 =german-x-latest
1122 ngerman-x-2009-06-19 dehyphn-x-2009-06-19.tex
1123 =ngerman-x-latest
1124 \end{lstlisting}
1125   Die gesuchten Trennmusterbezeichner befinden sich in der ersten Spalte
1126   und lauten in diesem Beispiel
1127   \lstinline[style=LaTeX]{german-x-2009-06-19} und
1128   \lstinline[style=LaTeX]{ngerman-x-2009-06-19}.  In der zweiten Spalte
1129   kann man die Namen der Manteldateien erkennen
1130   (vgl. \autoref{tab:dateien}).  Die mit einem Gleichheitszeichen
1131   beginnenden Zeilen definieren ein Synonym für den
1132   Trennmusterbezeichner der unmittelbar vorangehenden Zeile in der Datei
1133   \Datei{language.dat}.
1134 \end{frageantwort}
1135
1136
1137 \begin{frageantwort}{Wie kann die Version der experimentellen Muster
1138     ermittelt werden, die im Paket \texttt{hyph-utf8} enthalten sind?}
1139   Das Vorgehen ähnelt dem der vorherigen Antwort.  Zunächst wird der Ort
1140   einer bestimmten Datei ermittelt.  Diese wird dann nach einer
1141   hilfreichen Zeichenkette durchsucht.
1142
1143   \begin{lstlisting}[style=shell, caption=Shell]
1144 grep dehyph `kpsewhich hyph-de-1901.lic.txt`
1145   \end{lstlisting}
1146
1147   \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1148 for /F "usebackq" %f in (`kpsewhich hyph-de-1901.lic.txt`) do find "dehyph" "%f"
1149   \end{lstlisting}
1150
1151   Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1152   abweichen):
1153
1154 \begin{lstlisting}
1155 % dehypht-x-2011-06-01.pat
1156 \message{German Hyphenation Patterns (Traditional Orthography) `dehypht-x' 2011-
1157 06-01 (WL)}
1158 \end{lstlisting}
1159 \end{frageantwort}
1160
1161
1162 \fragenthema{Rechtschreibung}
1163
1164 \begin{frageantwort}{Verlag, Prüfer o.\,ä. bemängeln die Trennung
1165     der Trennmuster für die reformierte Rechtschreibung.  Zum Beispiel
1166     wird ">In-dus-trie"< getrennt, der Duden trennt jedoch
1167     ">In-dust-rie"<.}
1168   Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache
1169   lassen für viele Wörter mehrere Trennvarianten zu.  Die Trennmuster
1170   und ebenso Wörterverzeichnisse legen sich aus praktischen Gründen auf
1171   eine Trennvariante fest.  Sie können daher unterschiedliche Trennungen
1172   verwenden, ohne dass eine von beiden falsch ist.  Aus diesem Grund
1173   sind Wörterverzeichnisse nicht geeignet, eine bestimmte Trennung auf
1174   Richtigkeit zu prüfen.  Verbindlich sind einzig die amtlichen Regeln
1175   für die Rechtschreibung der deutschen Sprache~\cite{amtlRegeln:2006}.
1176   Häufig sind diese im Anhang eines Wörterbuchs abgedruckt.  Die von den
1177   Trennmustern befolgten Konventionen können \autoref{sec:trennregeln}
1178   entnommen werden.
1179
1180   Wenn Unsicherheit darüber herrscht, wie die Rechtschreibung geprüft
1181   wird, sollte dies frühzeitig geklärt werden.  Nicht jedem Redakteur
1182   oder Prüfer ist bewusst, dass der Duden seine normative Stellung mit
1183   der Rechtschreibreform~1996 eingebüßt hat.
1184 \end{frageantwort}
1185
1186
1187 \begin{frageantwort}{Gibt es dudenkonforme Trennmuster für die
1188     reformierte Rechtschreibung?}
1189   Zur Zeit nicht, es ist auch nicht geplant.  Dieses Projekt ist jedoch
1190   offen für Vorschläge und Mitarbeit.
1191 \end{frageantwort}
1192
1193
1194 \begin{frageantwort}{Weshalb werden noch Trennmuster für die
1195     traditionelle Rechtschreibung bereitgestellt?}
1196   Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache in
1197   der Fassung von 2006 sind nur für öffentliche Einrichtungen und
1198   Behörden verbindlich.  Im privaten Schriftverkehr kann man wahlweise
1199   die traditionelle oder die reformierte Rechtschreibung verwenden.%
1200   \footnote{Oder auch keine von beiden.}
1201 %
1202   Daher erfreut sich die traditionelle Rechtschreibung weiterhin großer
1203   Beliebtheit.
1204
1205   Für Texte in gebrochener Schrift ist die traditionelle Rechtschreibung
1206   sogar vorzuziehen.
1207 \end{frageantwort}
1208
1209
1210 \begin{frageantwort}{Können Trennungen mit einer Silbenlänge von nur
1211     einem Buchstaben ermöglicht werden, zum Beispiel für den Satz in
1212     schmalen Kolumnen?}
1213   Mit diesen Trennmustern ist das nicht möglich, da die zugrundeliegende
1214   Wortliste solche Trennungen nicht enthält.  Die Abtrennung einzelner
1215   Vokale, zum Beispiel ">A-bend"<, war nur kurzzeitig zulässig; die
1216   entsprechende Regelung von 1996 wurde mit der Rechtschreibreform 2006
1217   wieder zurückgenommen.  Wird die Silbenmindestlänge für die
1218   Worttrennung auf eins verringert, können falsche Trennungen auftreten.
1219 \end{frageantwort}
1220
1221
1222 \fragenthema{Mitarbeit}
1223
1224 \begin{frageantwort}{Wie kann ich mich über dieses Projekt informieren?}
1225   Zentrale Anlaufstelle ist das Trennmuster-Wiki, welches sich momentan
1226   jedoch noch im Aufbau befindet.%
1227   \footnote{\url{http://projekte.dante.de/Trennmuster}}
1228 %
1229   Für Fragen und Hinweise kann nach Anmeldung die Mailingliste%
1230 %
1231   \footnote{\url{trennmuster@dante.de}};
1232 %
1233   oder alternativ die Usenetgruppe \Datei{de.comp.text.tex} genutzt
1234   werden.  Die folgenden Dateien enthalten weitergehende Informationen:
1235
1236   \begin{itemize}
1237   \item Neben der Dokumentation zu den Trennmustern enthält dieses Paket
1238     eine Projektbeschreibung (\Datei{projektbeschreibung.pdf}).
1239
1240   \item Die Datei \Datei{CHANGES} enthält bekannte, systematische Fehler
1241     der Trennmuster.
1242
1243   \item Das Entwicklerrepositorium enthält in der Datei
1244     \Datei{README.wortliste} eine Beschreibung des Formats der
1245     Wortliste.
1246
1247   \end{itemize}
1248 \end{frageantwort}
1249
1250
1251 \begin{frageantwort}{Wie kann ich helfen?}
1252   Die deutschsprachige Trennmustermannschaft ist eine offene Gruppe und
1253   benötigt dringend weitere Mithilfe.  Interessenten sind daher hoch
1254   willkommen!  Zum Mitmachen gibt es mehrere Möglichkeiten:
1255   \begin{itemize}
1256   \item Die einfachste ist, die experimentellen Trennmuster ausgiebig zu
1257     testen und Fehler zu melden (siehe \autoref{sec:trennfehler}).
1258
1259   \item Besonders hilfreich wäre Mitarbeit am Projekt.  Als Einstieg
1260     kann die (grobe) Aufgabenliste in der Projektbeschreibung dienen.
1261
1262     Obwohl schon experimentelle Trennmuster veröffentlicht wurden, steht
1263     dieses Projekt noch ziemlich am Anfang.  Ziel ist, die verwendete
1264     Wortliste von möglichst vielen Menschen in verteilter Arbeit auf
1265     Richtigkeit zu prüfen.  Bis dahin bleibt jedoch noch viel zu tun.
1266
1267   \item Mittelfristig -- nach Fertigstellung der Prüfmaske~-- kann auch
1268     durch systematische Durchsicht eines Teils der Wortliste geholfen
1269     werden.
1270
1271   \item Fragen, Hinweise und Ideen sind auf der Mailingliste immer
1272     willkommen!
1273   \end{itemize}
1274 \end{frageantwort}
1275
1276
1277 \begin{frageantwort}{Sollten Trennfehler einzeln oder gesammelt
1278     eingereicht werden?}
1279   Das ist egal.  Es sollten allerdings die folgenden Hinweise beim
1280   Einreichen von Fehlern beachtet werden:
1281
1282   \begin{description}\setkomafont{descriptionlabel}{\normalfont\itshape}
1283   \item[Aktualität] Wenn Sie ältere Trennmusterdateien verwenden, prüfen
1284     Sie zunächst, ob der Fehler auch mit aktuellen Trennmustern
1285     auftritt.  Die aktuellen Trennmuster sind im \Abk{ctan} im Paket
1286     \texttt{dehyph-exptl} oder im Dateibereich unter der
1287     Projekt-\Abk{url} erhältlich.  Im Repositorium befindet sich auch
1288     ein Makefile, mit dem jederzeit neue Trennmuster aus der aktuellen
1289     Wortliste erzeugt werden können.
1290
1291   \item[Informationen] In einem Fehlerbericht sollte für das betreffende
1292     Wort die richtige und bei einzelnen Worteinreichungen auch die
1293     falsche Trennung angegeben werden.  Außerdem die genaue Version der
1294     verwendeten Trennmuster (traditionelle oder reformierte
1295     Rechtschreibung, Datum der Trennmusterdatei).
1296
1297   \item[Listenformat] Es erleichtert die Korrektur, wenn
1298     Berichtigungsvorschläge in Form einer Liste eingereicht werden, die
1299     automatisch mit Skripten bearbeitet werden kann.  Die folgenden
1300     Konventionen sollten dabei eingehalten werden:
1301     \begin{itemize}
1302     \item Die Spalten werden mit einem Semikolon \verb+;+ getrennt.
1303     \item Die erste Spalte enthält das betreffende Wort in ungetrennter
1304       Form.
1305     \item Die zweite Spalte enthält das Wort in der Trennvariante nach
1306       traditioneller Rechtschreibung.
1307     \item Falls die Trennung nach reformierter Rechtschreibung davon
1308       abweicht, steht diese in der dritten Spalte.
1309     \item Ab der vierten Spalte \emph{können} weitere Trennvarianten
1310       folgen, etwa die falsche Trennung.  Eine kurze Erklärung sollte
1311       dann darauf eingehen.
1312     \item Unerwünschte Trennungen werden mit einem Punkt \verb+.+
1313       markiert.
1314     \item Anfang und Ende der Liste sollten klar erkennbar sein.
1315     \end{itemize}
1316     Eine Liste könnte beispielhaft so aussehen:
1317 \begin{lstlisting}[style=Text]
1318 sonnendurchfluteten;son-nen-durch-flu-te-ten
1319 Talentwässerung;Tal-ent.wäs-se-rung
1320 Fensterplatz;Fen-ster-platz;Fens-ter-platz
1321 \end{lstlisting}
1322     Dieses Format ist auch für einzeln eingereichte Korrekturen
1323     sinnvoll.
1324
1325   \item[Betreff] Der Betreff einer Fehlermeldung sollte aussagekräftig
1326     sein.  Daher sollten mehrere Trennfehler, sofern möglich, thematisch
1327     zusammengefasst werden.  Außerdem kann zur einfacheren Zuordnung das
1328     entsprechende Kriterium aus \autoref{sec:trennfehler} dem Betreff
1329     der E-Mail in eckigen Klammern vorangestellt werden, zum Beispiel:
1330 \begin{lstlisting}[style=Text]
1331 Betreff: [A] sonnendurchfluteten
1332 \end{lstlisting}
1333     für einen Trennfehler im Wortes \emph{sonnendurchfluteten}, der
1334     durch einen Fehler in der Wortliste hervorgerufen wird.
1335   \end{description}
1336 \end{frageantwort}
1337
1338
1339 \end{document}
1340
1341 %%% Local Variables:
1342 %%% mode: latex
1343 %%% TeX-PDF-mode: t
1344 %%% TeX-master: t
1345 %%% coding: utf-8
1346 %%% End: