dehyph-exptl/dehyph-exptl.tex

   1 %%% Artikelklasse mit:
   2 %%% * Grundschriftgröße 11 Punkt,
   3 %%% * klassischem Satzspiegel,
   4 %%% * flachem Inhaltsverzeichnis,
   5 %%% * Tabellenüberschriften.
   6 \documentclass[11pt,DIV8,tocleft,tablecaptionabove,abstracton]{scrartcl}
   7 %%% Eingabekodierung ist ISO-8859-15.
   8 \usepackage[ansinew]{inputenc}
   9 %%% Schrifteinstellung:
  10 %%% * Grundschrift Palatino,
  11 %%% * Akzidenzschrift Bera Sans,
  12 %%% * Schreibmaschinenschrift Latin Modern Typewriter.
  13 \usepackage[T1]{fontenc}
  14 \usepackage[osf]{mathpazo}
  15 \usepackage[scaled]{berasans}
  16 \renewcommand*{\ttdefault}{lmtt}
  17 \usepackage{textcomp}
  18 \linespread{1.05}
  19 \usepackage[expansion=true, letterspace=80]{microtype}
  20 %%% Lade einige Pakete.
  21 \usepackage{ifthen}
  22 \usepackage{calc}
  23 \usepackage{multicol}
  24 \usepackage{paralist}
  25 \usepackage{fncylab}
  26 \usepackage{tabularx}
  27 \usepackage{booktabs}
  28 \newcolumntype{L}{>{\raggedright\arraybackslash}X}
  29 \usepackage{listings}
  30 \lstloadlanguages{[LaTeX]TeX, sh}
  31 \lstset{basicstyle=\ttfamily, keywordstyle={}, commentstyle={},
  32   columns=flexible, showspaces=false, showstringspaces=false,
  33 %  aboveskip=12pt, belowskip=12pt, frame=tb,
  34 %  framesep=8pt, framerule=2pt,
  35   xleftmargin=6pt, xrightmargin=6pt,
  36 % framexleftmargin=6pt, framexrightmargin=6pt
  37 }
  38 \lstdefinestyle{LaTeX}{language=[LaTeX]TeX, basicstyle=\ttfamily,
  39   keywordstyle={}, commentstyle={\itshape}}
  40 \lstdefinestyle{shell}{language=sh, basicstyle=\ttfamily,
  41   keywordstyle={}, commentstyle={\itshape}}
  42 \lstdefinestyle{Text}{language=, basicstyle=\ttfamily,
  43   keywordstyle={}, commentstyle={}}
  44 \usepackage{needspace}
  45 %%% Literaturverweise in runden Klammern mit Semikolon als Trenner.
  46 % \usepackage[round,semicolon]{natbib}
  47 % \renewcommand*{\bibnumfmt}[1]{(#1)}
  48 %%% Literaturverzeichnis mit Sprachunterstützung.
  49 \usepackage[fixlanguage]{babelbib}
  50 \bibliographystyle{babalpha}
  51 %%% Babelbib fordert trotz fixlanguage zuviele Sprachen an.
  52 \usepackage[english, german, ngerman]{babel}
  53 %%% Einstellungen für interaktive PDF-Dokumente.
  54 \usepackage[rgb,x11names]{xcolor}
  55 \usepackage[hyperref]{zref}
  56 \usepackage{hyperref}
  57 \hypersetup{
  58   pdftitle={dehyph-exptl},
  59   pdfauthor={Die deutschsprachige Trennmustermannschaft},
  60   pdfkeywords={TeX, deutsche Rechtschreibung, Trennmuster,
  61     computergestützte Worttrennung}
  62 }
  63 \hypersetup{
  64   ngerman,% For \autoref.
  65   pdfstartview={XYZ null null null},% Zoom factor is determined by viewer.
  66   colorlinks,
  67   linkcolor=RoyalBlue3,
  68   urlcolor=Chocolate4,
  69   citecolor=DeepPink2
  70 }
  71 \newcommand*{\regelref}[1]{%
  72   \begingroup%
  73   \renewcommand*{\Itemautorefname}{Regel}%
  74   \autoref{#1}%
  75   \endgroup%
  76 }
  77 %%% Schriftfestlegungen.
  78 \setkomafont{title}{\normalcolor\normalfont}
  79 \setkomafont{sectioning}{\normalcolor\normalfont}
  80 \setkomafont{section}{\Large}
  81 \setkomafont{subsection}{\Large\itshape}
  82 \setkomafont{descriptionlabel}{\normalfont\itshape}
  83 %%% Einige Makros für logische Auszeichnungen definieren.
  84 \newcommand*{\Abk}[1]{\mbox{\textsc{\lsstyle#1}}}
  85 \newcommand*{\Programm}[1]{\textsc{\lsstyle#1}}
  86 \newcommand*{\Datei}[1]{\texttt{#1}}
  87 \colorlet{richtigcol}{green!80!black}
  88 \colorlet{falschcol}{red!80!black}
  89 \colorlet{tradcol}{green!50!black}
  90 \colorlet{reformcol}{green!75!black}
  91 \colorlet{unerwcol}{red!60!black}
  92
  93 \newcolumntype{T}{>{\color{tradcol}}l}
  94 \newcolumntype{R}{>{\color{reformcol}}l}
  95 \newcolumntype{U}{>{\color{unerwcol}}l}
  96
  97 \newcommand*{\trennung}[2]{%
  98    \makebox[0pt][l]{%
  99      \color{#1}%
 100      \smash{\rule[-3.5pt]{\widthof{#2}}{.7pt}}% Schriftabhängig.
 101    }%
 102    #2%
 103 }
 104 \newcommand*{\ftr}[1]{\trennung{falschcol}{#1}}% Falsche Trennung.
 105 \newcommand*{\rtr}[1]{\trennung{richtigcol}{#1}}% Richtige Trennung.
 106
 107 %%% Satzspiegel erneut berechnen.
 108 \typearea{last}
 109
 110 \begin{document}
 111 %%% Trennausnahmen definieren.
 112 \hyphenation{Back-end hyph-subst Ent-wick-ler-re-po-si-to-ri-um
 113   Wort-her-kunft Not-tren-nung Trenn-al-go-rith-mus
 114   um-bruch-in-kom-pa-tib-le}
 115 %%% Protokollierung der Trennungen für findhyph.
 116 %\tracingparagraphs=1
 117
 118 %%% Dokumenttitel.
 119 \author{Die deutschsprachige Trennmustermannschaft}
 120 \title{\texttt{dehyph-exptl}\thanks{This document describes the
 121     \texttt{dehyph-exptl} package v0.40.}}
 122 \subtitle{Experimentelle Trennmuster für die deutsche Sprache}
 123 \maketitle
 124
 125
 126 %%% Zweisprachige Zusammenfassung.
 127 \selectlanguage{english}
 128 \begin{abstract}
 129   This package provides experimental hyphenation patterns for the German
 130   language, covering traditional and reformed orthography for several
 131   varieties of Standard German.  The patterns can be used with packages
 132   \texttt{Babel} and \texttt{hyphsubst} from the \Programm{Oberdiek
 133     bundle}.  More information can be found in the Trennmuster-Wiki%
 134   \footnote{\url{http://projekte.dante.de/Trennmuster}}
 135   %
 136   (in German).
 137 \end{abstract}
 138
 139 \selectlanguage{ngerman}
 140 \begin{abstract}
 141   Dieses Paket enthält experimentelle Trennmuster für die deutsche
 142   Sprache.  Die Trennmuster decken das in Deutschland, Österreich und
 143   der Schweiz gebräuchliche Standarddeutsch in der traditionellen und
 144   reformierten Rechtschreibung ab und können mit den Paketen
 145   \texttt{Babel} und \texttt{hyphsubst} aus dem
 146   \Programm{Oberdiek-Bündel} verwendet werden.
 147
 148   Dieses Paket richtet sich ausschließlich an Nutzer der Programme \TeX\
 149   und pdf\TeX.  Lua\TeX- und Xe\TeX-Nutzer können experimentelle Muster
 150   aus dem Paket \texttt{hyph-utf8} verwenden und benötigen dieses Paket
 151   nicht.
 152 \end{abstract}
 153
 154 \vfill
 155 \begingroup
 156 \em\large
 157 \begin{center}
 158   Warnung!
 159 \end{center}
 160 Diese Trennmuster befinden sich im experimentellen Status.  Sie können
 161 jeder\-zeit vom \Abk{ctan} oder aus \TeX-Vertei\-lun\-gen entfernt oder
 162 durch umbruch\-inkompa\-ti\-ble Versionen ersetzt werden.  Sie sind
 163 daher nicht für Anwendungen geeignet, die einen dauerhaft stabilen
 164 Umbruch erfordern.
 165 \endgroup
 166 \vfill
 167
 168 \clearpage
 169 %%% Zweispaltiges Inhaltsverzeichnis.
 170 \begin{multicols}{2}
 171 \small
 172 \renewcommand*{\ngermanhyphenmins}{44}
 173 \selectlanguage{ngerman}
 174 \tableofcontents
 175 \end{multicols}
 176
 177
 178 \section{Einleitung}
 179 \label{sec:einleitung}
 180 Der in \TeX\ implementierte Trennalgorithmus arbeitet
 181 musterbasiert~\cite{liang:1983}.  Prinzipiell können mit einem solchen
 182 Algorithmus nicht alle möglichen Wörter korrekt getrennt werden.  Die
 183 Qualität der Worttrennung einer Sprache wird jedoch maßgeblich von der
 184 Qualität der Wortliste beeinflusst, aus der die verwendeten Trennmuster
 185 berechnet wurden.
 186
 187 Obwohl die herkömmlichen Trennmuster für die deutsche Sprache bei der
 188 Worttrennung in gewöhnlichen Texten eine akzeptable Fehlerrate
 189 erreichen, enthalten sie doch eine Reihe von Schwächen:%
 190 \footnote{Diese Liste bezieht sich auf die Trennmusterdateien
 191   \Datei{dehypht.tex}, Version~3.2a vom 3.\,3.\,1999, und
 192   \Datei{dehyphn.tex}, Version~31 vom 7.\,5.\,2001.}
 193
 194 \bigskip\smallskip
 195 \needspace{4\baselineskip}
 196 \noindent\textit{traditionelle und reformierte Rechtschreibung}
 197
 198 \begin{itemize}
 199 \item In zusammengesetzten Wörtern treten häufig Trennfehler an
 200   Wortfugen auf.
 201
 202 \item Fremdwörter mit akzentuierten Buchstaben werden mangelhaft
 203   getrennt: ">C\ftr{af}é"<, ">Ci-tr\ftr{oë}n"<, ">F\ftr{aç}on"<,
 204   ">vo\ftr{il}à"<.
 205
 206 \item Die Trennmusterdateien enthalten eine Mischung aus \Abk{t1}- sowie
 207   unvollständigen \Abk{ot1}-kodierten Mustern.  Mit Erscheinen von
 208   16-Bit-fähigen \TeX-Varianten werden sauber \Abk{utf-8}-kodierte
 209   Trennmuster nötig \cite{miklavec:2008}.
 210 \end{itemize}
 211
 212 \bigskip
 213 \needspace{4\baselineskip}
 214 \noindent\textit{traditionelle Rechtschreibung}
 215
 216 \begin{itemize}
 217 \item Die herkömmlichen Trennmuster für die traditionelle deutsche
 218   Rechtschreibung können mit \Programm{Patgen} nicht reproduziert
 219   werden, da die zugrundeliegende Wortliste verschollen ist.  Die Pflege
 220   der Trennmuster ist daher schwierig bis unmöglich.  Für freie Software
 221   ist dies kein zufriedenstellender Zustand.
 222
 223 \item Umfang und Qualität der ursprünglichen Wortliste lassen sich nicht
 224   mehr einschätzen.  Für die Trennmuster in traditioneller
 225   Rechtschreibung existiert jedoch inzwischen eine Ausnahmeliste mit
 226   über 3500 korrigierten Trennungen einfacher Wörter \cite{lemberg:2003,
 227     lemberg:2005}.%
 228   \footnote{\url{CTAN:language/hyphenation/dehyph/dehyphtex.tex}}
 229
 230 \item Wird in der traditionellen Rechtschreibung \emph{ß} durch
 231   \emph{ss/SS} oder \emph{sz/SZ} ersetzt, so bleibt die Trennung davon
 232   unberührt.  Die herkömmlichen Trennmuster berücksichtigen diese Regel
 233   nicht und trennen häufig den Ersatz: \textls{">GR\ftr{ÖS-S}E"<},
 234   \textls{">GR\ftr{ÜS-S}E"<}, \textls{">M\ftr{AS-S}ES"<}.%
 235   \footnote{Die Trennung der herkömmlichen Muster entspricht den Regeln
 236     der deutschen Standardsprache in der Schweiz, obwohl diese
 237     Sprachvarietät vom Paket \texttt{Babel} nicht offiziell unterstützt
 238     wird.  \texttt{Babel} versucht den Mangel mit Hilfe des Kürzels
 239     \lstinline[style=LaTeX]+\"S+ zu kompensieren.}
 240
 241 \item Abweichende Schreibweisen, die in der traditionellen
 242   Rechtschreibung in Österreich und der Schweiz verwendet werden, werden
 243   mangelhaft getrennt: ">Gro\ftr{s-so}n-kel"<, ">Ku\ftr{s-sh}and"<,
 244   ">Ma\ftr{ssn}ah-me"<, ">mi\ftr{s-sa}ch-ten"< (nur Schweiz) und
 245   ">Ex-pre\ftr{ssz}ug"<, ">Fit-ne\ftr{s-sc}en-ter"<,
 246   ">Fit-ne\ftr{sst}rai-ner"<.
 247 \end{itemize}
 248
 249 \bigskip
 250 \needspace{4\baselineskip}
 251 \noindent\textit{reformierte Rechtschreibung}
 252
 253 \begin{itemize}
 254 \item Die Trennmuster für die reformierte deutsche Rechtschreibung
 255   wurden nicht mit \Programm{Patgen} aus einer Wortliste erstellt.
 256   Stattdessen wurden die Trennmuster für die traditionelle
 257   Rechtschreibung von Hand an die reformierten Regeln
 258   angepasst~\cite{schmidt:1998}.  Aus diesem Grund ist die Worttrennung
 259   mit den Trennmustern für die reformierte Rechtschreibung etwas
 260   schlechter als mit den Trennmustern für die traditionelle
 261   Rechtschreibung.
 262 \end{itemize}
 263
 264 Das Projekt \emph{Freie Wortlisten und Trennmuster für die deutsche
 265   Sprache} hat sich das Ziel gesetzt, neue Trennmuster hoher Qualität
 266 für die deutsche Sprache zu erstellen, die die genannten Probleme
 267 ausräumen.
 268
 269 Den experimentellen Trennmustern dieses Pakets liegt eine Wortliste mit
 270 den etwa fünfhunderttausend häufigsten Wörtern der deutschen Sprache
 271 zugrunde.  Vermutlich ist diese Liste erheblich umfangreicher als die
 272 ursprüngliche Wortliste, in der Worthäufigkeiten wahrscheinlich
 273 überhaupt nicht berücksichtigt wurden.  Die verwendete Wortliste deckt
 274 das in Deutschland, Österreich und der Schweiz gebräuchliche
 275 Standarddeutsch ab.
 276
 277 Mit den vorliegenden Trennmustern sollte für nicht-fachsprach\-li\-che
 278 Wörter eine sehr gute Trennqualität erreicht werden.  Insbesondere
 279 sollte sich die Trennung häufig auftretender zusammengesetzter Wörter
 280 verbessern.
 281
 282
 283 \section{Verwenden der Trennmuster}
 284 \label{sec:verwenden}
 285 Dieses Paket stellt die experimentellen Trennmuster für die Verwendung
 286 mit \LaTeX\ und dem Sprachenpaket \texttt{Babel} zur Verfügung.  Das
 287 Paket richtet sich derzeit ausschließlich an Nutzer der Programme \TeX\
 288 und pdf\TeX\ (siehe \autoref{tab:texkompat}).
 289
 290 Mit den nicht unterstützten \TeX-Programmen können experimentelle
 291 Trennmuster dennoch verwendet werden, da das Paket \texttt{hyph-utf8}
 292 ebenfalls Muster dieses Projekts enthält.  Werden die UTF-8-fähigen
 293 Programme Xe\TeX\ und Lua\TeX\ oder p\TeX\footnote{%
 294   Eine in Japan populäre \TeX-Variante.%
 295 } verwendet, so werden jene Muster standardmäßig aktiviert.  Die
 296 Trennmuster dieses Pakets sollten dann nicht verwendet werden.  Siehe
 297 \autoref{sec:fragen} für Hinweise, wie die Version der im Paket
 298 \texttt{hyph-utf8} enthaltenen Muster ermittelt werden kann.
 299
 300 \begin{table}
 301   \centering
 302   \caption{Kompatibilität mit verschiedenen \TeX-Varianten}
 303   \label{tab:texkompat}
 304   \begin{tabular}{l>{\ttfamily}l}
 305     Programm & \normalfont Quelle experimenteller Muster\\
 306     \addlinespace\toprule\addlinespace
 307     \TeX & dehyph-exptl\\
 308     pdf\TeX & dehyph-exptl\\
 309     XeTeX & hyph-utf8, dehyph-exptl\\
 310     LuaTeX & hyph-utf8\\
 311     p\TeX & hyph-utf8\\
 312   \end{tabular}
 313 \end{table}
 314
 315 Zur Installation der experimentellen Trennmuster siehe
 316 \autoref{sec:installation} und die Datei \Datei{INSTALL}.  Beachte, in
 317 den folgenden Abschnitten ist \verb+<datum>+ durch das bei der
 318 Installation angegebene Datum in \Abk{iso}-Notation (\verb+JJJJ-MM-TT+)
 319 oder die Zeichenkette \verb+latest+ zu ersetzen.  \autoref{sec:fragen}
 320 enthält Hinweise, wie das Datum ermittelt werden kann, falls die
 321 experimentellen Trennmuster in Ihrer \TeX-Verteilung schon
 322 vorinstalliert sind.
 323
 324
 325 \subsection{Sprachvarietät und Rechtschreibung}
 326 \label{sec:varietaeten}
 327 Dieses Paket stellt Trennmuster für die Worttrennung der deutschen
 328 Sprache in der traditionellen und der reformierten Rechtschreibung
 329 bereit.  Die Trennmuster unterstützen zur Zeit die drei in
 330 \begin{itemize}
 331 \item Deutschland,
 332 \item Österreich und der
 333 \item Schweiz%
 334   %
 335   \footnote{Für Texte in Schweizer Standarddeutsch fehlt zur Zeit die
 336     \texttt{Babel}-Unterstützung.  Zum Beispiel muss das Kürzel
 337     \lstinline[style=LaTeX]+\"s+ stets zu \emph{ss} expandieren.  In der
 338     traditionellen Rechtschreibung wird außerdem ein zusätzliches Kürzel
 339     \lstinline[style=LaTeX]+\"ss+ benötigt (Dreikonsonantenregel).  Wer
 340     kann helfen?}
 341 \end{itemize}
 342 gebräuchlichen Hauptvarietäten der deutschen Standardsprache.
 343 \autoref{tab:varietaeten} zeigt die Trennmuster, die abhängig von
 344 gewünschter Varietät und Rechtschreibung in einem Dokument aktiviert
 345 werden können.
 346
 347 \begin{table}
 348   \centering
 349   \caption{Die unterstützten Varietäten und Rechtschreibungen}
 350   \label{tab:varietaeten}
 351   \begin{tabular}{l>{\ttfamily}l}
 352     \normalfont Sprachvarietät & Trennmusterbezeichner\\
 353     \addlinespace\toprule\addlinespace
 354     \hspace*{-\tabcolsep}\normalfont\emph{traditionelle Rechtschreibung}\\
 355     Deutschland, Österreich & german-x-<datum>\\
 356     Schweiz & gswiss-x-<datum>\\\addlinespace
 357     \hspace*{-\tabcolsep}\normalfont\emph{reformierte Rechtschreibung}\\
 358     Deutschland, Österreich, Schweiz & ngerman-x-<datum>\\
 359   \end{tabular}
 360 \end{table}
 361
 362 Varietäten, die sich nur in der Verwendung und Schreibung einzelner
 363 Wörter voneinander unterscheiden, können durch gemeinsame Trennmuster
 364 unterstützt werden.  Die Eingabewortliste für \Programm{Patgen} ist dann
 365 eine Vereinigung der den Varietäten entsprechenden Wortlisten.  Zum
 366 Beispiel werden Besonderheiten der österreichischen Standardsprache in
 367 den Trennmustern für die Standardsprache Deutschlands berücksichtigt.
 368 Österreichische und deutsche Anwender können daher dieselben Trennmuster
 369 verwenden.  (Wie das auch schon bei den herkömmlichen Trennmustern der
 370 Fall war.)
 371
 372 Aufgrund unvereinbarer Trennregeln in der traditionellen Rechtschreibung
 373 der Standardsprachen Deutschlands/""Österreichs und der Schweiz werden
 374 für die letztere Varietät eigene Trennmuster bereitgestellt.
 375
 376 Mit der Rechtschreibreform 1996 wurden die Trennregeln aller drei
 377 Standardsprachen so weit angeglichen, dass für die reformierte
 378 Rechtschreibung einheitliche Trennmuster für alle drei unterstützten
 379 Sprachvarietäten bereitgestellt werden können.
 380
 381 \subsection{Aktivieren der Trennmuster}
 382 \label{sec:aktivieren}
 383 Das folgende Beispiel zeigt eine \LaTeX-Präambel für die Aktivierung der
 384 experimentellen Trennmuster für die reformierte Rechtschreibung.  Die
 385 Trennmusterbezeichner, die vom Paket \texttt{Babel} verwendet werden,
 386 werden dazu mit Hilfe des Pakets \texttt{hyphsubst} aus dem
 387 \Programm{Oberdiek-Bündel} so geändert, dass sie auf die experimentellen
 388 Trennmuster verweisen:
 389
 390 \begin{lstlisting}[style=LaTeX]
 391 \RequirePackage[ngerman=ngerman-x-<datum>]{hyphsubst}
 392 % \RequirePackage[ngerman=ngerman-x-latest]{hyphsubst}
 393 \documentclass{article}
 394 \usepackage[T1]{fontenc}
 395 \usepackage[ngerman]{babel}
 396 \end{lstlisting}
 397
 398 Die folgende Variante erleichtert das schnelle Umschalten zwischen
 399 verschiedenen Trennmustern im Editor.  Weitere Hinweise können der
 400 Dokumentation des Pakets \texttt{hyphsubst} entnommen werden.
 401
 402 \begin{lstlisting}[style=LaTeX]
 403 \RequirePackage{hyphsubst}
 404 \documentclass{article}
 405 \usepackage[T1]{fontenc}
 406 % \HyphSubstLet{german}{german-x-<datum>}
 407 % \usepackage[german]{babel}
 408 \HyphSubstLet{ngerman}{ngerman-x-<datum>}
 409 \usepackage[ngerman]{babel}
 410 \end{lstlisting}
 411
 412 Ob die experimentellen Trennmuster korrekt aktiviert werden, kann mit
 413 dem folgenden Beispiel getestet werden.  Die Ausgabe für die
 414 traditionelle und reformierte Rechtschreibung mit herkömmlichen und
 415 experimentellen Trennmustern ist in \autoref{tab:trennvarianten}
 416 zusammengefasst.
 417 \begin{lstlisting}[style=LaTeX]
 418 \begin{document}
 419 \showhyphens{löste Fassade modernste Abendstern Mordopfer}
 420 \end{lstlisting}
 421
 422 %\suppressfloats[t]
 423 \begin{table*}
 424   \centering
 425   \caption{Trennvarianten}
 426   \label{tab:trennvarianten}
 427   \begin{tabular}{llll}
 428     \multicolumn{2}{c}{\itshape traditionelle Rechtschreibung} &
 429     \multicolumn{2}{c}{\itshape reformierte Rechtschreibung}\\
 430     herkömmlich & experimentell & herkömmlich & experimentell\\
 431     \addlinespace\toprule\addlinespace
 432     l\ftr{ös-t}e & lö-ste & lös-te & lös-te\\
 433     Fas-sa-de & Fas-sa-de & Fa\ftr{ss}a-de & Fas-sa-de\\
 434     mo-\ftr{d-e}rn-ste & mo-dern-ste & mo-\ftr{d-e}rns-te & mo-derns-te\\
 435     Abend-stern & Abend-stern & Aben\ftr{ds-t}ern & Abend-stern\\
 436     Mo\ftr{r-do}p-fer & Mord-op-fer & Mo\ftr{r-do}p-fer & Mord-op-fer\\
 437   \end{tabular}
 438 \end{table*}
 439
 440
 441 % Trennung mit Mustern für traditionelle Rechtschreibung.
 442 \newcommand*{\trtr}[1]{\trennung{tradcol!20}{#1}}
 443 % Trennung mit Mustern für reformierte Rechtschreibung.
 444 \newcommand*{\retr}[1]{\trennung{reformcol!20}{#1}}
 445 % Unerwünschte Trennung.
 446 \newcommand*{\untr}[1]{\trennung{unerwcol!20}{#1}}
 447
 448 \section{Trennregeln und Konventionen}
 449 \label{sec:trennregeln}
 450 Die Trennmuster für die traditionelle Rechtschreibung in Deutschland und
 451 Österreich orientieren sich an den verbindlichen Regeln des Dudens in
 452 der Fassung von 1991~\cite{duden:1991}.  Dasselbe gilt für die
 453 Trennmuster für die traditionelle Rechtschreibung in der Schweiz, jedoch
 454 mit einer unten beschriebenen Abweichung.  Die Trennmuster für die
 455 reformierte Rechtschreibung orientieren sich an den amtlichen Regeln für
 456 die Rechtschreibung der deutschen Sprache in der Fassung von
 457 2006~\cite{amtlRegeln:2006, amtlRegeln:2006:duden}.
 458
 459 Die Regeln lassen gewisse Freiheiten bei der Schreibung und Trennung von
 460 Wörtern zu.  Da sich solche Freiheiten nicht ohne weiteres auf die
 461 maschinelle Worttrennung übertragen lassen, wurden die im folgenden
 462 beschriebenen Konventionen getroffen.  Hauptsächlich betreffen diese die
 463 reformierte Rechtschreibung, die zusätzliche Freiheiten eingeführt
 464 hat.\footnote{%
 465   Im Ergebnis weicht in reformierter Rechtschreibung die Trennung zum
 466   Beispiel des Dudens (nach Sprechsilben) von der Trennung mit diesen
 467   Trennmustern (bevorzugt etymologisch) ab, siehe auch
 468   \regelref{enum:reformEtymo} und \regelref{enum:reformClusterLR} sowie
 469   \autoref{sec:fragen}.}
 470 Beziehen sich die Konventionen für die reformierte Rechtschreibung auf
 471 die traditionelle Rechtschreibung, so werden die entsprechenden Regeln
 472 etwas ausführlicher dargestellt.  Die folgenden Abschnitte enthalten
 473 jedoch keine vollständige Aufstellung der Silbentrennregeln.  Diese sind
 474 den entsprechenden Regelwerken zu entnehmen.  Es folgen zunächst einige
 475 allgemeine Hinweise:
 476
 477 \begin{itemize}
 478
 479 \item In Liangs Trennalgorithmus werden Groß- und Kleinschreibung nicht
 480   unterschieden~\cite{liang:1983}.  Die Schreibweisen \emph{Nachtritt}
 481   und \emph{nachtritt} werden aus Sicht des Trennalgorithmus gleich
 482   behandelt (siehe auch \regelref{enum:tradDoppeld} und
 483   \regelref{enum:reformDoppeld}).
 484
 485 \item Die von einem Programm aus diesen Mustern abgeleiteten möglichen
 486   Trennstellen können (u.\,a. durch Programmfehler) durchaus von denen
 487   der zugrundeliegenden Wortliste abweichen.  So führt zum Beispiel die
 488   Eingabe \lstinline[style=LaTeX]+Meta"llegierung+ (Dreikonsonantenregel
 489   in der traditionellen Rechtschreibung) mit dem Paket \texttt{Babel} zu
 490   den in \autoref{tab:trennung-dreik} gezeigten Trennmöglichkeiten.
 491
 492   \begin{table}
 493     \centering
 494     \caption{Unterschiedlich ermittelte Trennmöglichkeiten.}
 495     \label{tab:trennung-dreik}
 496     \begin{tabular}{ll}
 497       Quelle & Trennmöglichkeiten\\
 498       \addlinespace
 499       \toprule
 500       \addlinespace
 501       pdf\LaTeX\ mit \texttt{Babel}~3.8 & Me-tall(-l)egierung\\
 502       pdf\LaTeX\ mit \texttt{Babel}~3.9 & Me-tall(-l)e-gie-rung\\
 503       erwünscht \emph{(vgl. \regelref{enum:tradnstd})} & Me-tall(-l)egie-rung\\
 504     \end{tabular}
 505   \end{table}
 506
 507 \item Die von \TeX\ gewählte Trennung kann in Einzelfällen mit den \TeX-
 508   und \texttt{Babel}-Kürzeln \lstinline[style=LaTeX]+\-+ und
 509   \lstinline[style=LaTeX]+"-+ geändert werden.  Für dokumentweite
 510   Änderungen der Trennung eignet sich das Kommando
 511   \lstinline[style=LaTeX]+\hyphenation+.
 512
 513 \item Die Datei \Datei{CHANGES} beschreibt bekannte, systematische
 514   Fehler der Trennmuster.
 515
 516 \item In den Beispielen zeigt die linke (grüne) Spalte jeweils die
 517   Trennung mit den experimentellen Trennmustern, die rechten (roten)
 518   Spalten zeigen alternative oder unerwünschte Trennungen.
 519
 520 \end{itemize}
 521
 522 \subsection{Traditionelle Rechtschreibung in Deutschland und Österreich}
 523 \label{sec:tradRS}
 524
 525 \begin{enumerate}[\hspace{1em}\itshape{T}1]
 526 \labelformat{enumi}{\textit{T#1}}
 527
 528 \item\label{enum:tradhyphenmin} Die minimal unterstützte Silbenlänge am
 529   Wortanfang und "~ende beträgt zwei Buchstaben
 530   \cite[R~178]{duden:1991}.
 531
 532   Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
 533   den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
 534   \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
 535   \lstinline[style=LaTeX]+\germanhyphenmins+ (\texttt{Babel}) anpassen.
 536   Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
 537   können fehlerhafte Trennungen auftreten.
 538
 539 \item\label{enum:tradSinn} Sinnentstellende und irreführende Trennungen
 540   werden möglichst vermieden \cite[R~181]{duden:1991} (siehe auch
 541   \regelref{enum:tradnstd}):
 542
 543   \begin{tabular}[t]{TU}
 544     An-alpha-bet & Anal-phabet\\
 545     Kaf-ka-kenner & Kafkaken-ner\\
 546     Tal-entwäs-se-rung & Talent-wässerung\\
 547   \end{tabular}
 548
 549 \item\label{enum:tradDoppeld} In mehrdeutigen Wörtern werden Trennungen
 550   nur an übereinstimmenden Trennstellen zugelassen.
 551
 552   \begin{tabular}[t]{TUU}
 553     nachtritt & nach-tritt & Nacht-ritt\\
 554     Wachstu-be & Wach-stube & Wachs-tube\\
 555     Druckerzeug-nis & Druck-erzeugnis & Drucker-zeugnis\\
 556     Mu-sikerle-ben & Musik-erleben & Musi-ker-leben\\
 557     Fuß-balleh-re & Fußball-ehre & Fußball-lehre\\
 558   \end{tabular}
 559
 560   Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
 561   sind in den Interpretationen \emph{Druck-Erzeugnis} und
 562   \emph{Musik-Erleben} irreführend.  Sie entfallen nach
 563   \regelref{enum:tradSinn} und sind nicht als übereinstimmende
 564   Trennstellen anzusehen.  Zur Spezialtrennung ">Fußball-lehre"< siehe
 565   auch \regelref{enum:tradnstd}.
 566
 567   Für diese Regel gelten die folgenden Einschränkungen:
 568   \begin{itemize}
 569
 570   \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
 571       "~endes} wird stets die Trennung der Partizipform des Verbs
 572     verwendet.
 573
 574   \item Mehrdeutigkeiten, die durch die Ersatzschreibweise von Wörtern
 575     mit~\emph{ß} auftreten, werden nicht berücksichtigt (vergleiche
 576     \regelref{enum:tradEszett}).
 577
 578     \begin{tabular}[t]{TUU}
 579       spie-len-de & Spiel-ende & spielende\\
 580       Mas-se & \textls{M\kern-.4ptA-SSE} & \textls{M\kern-.4ptA\kern-.6ptSSE}\\
 581     \end{tabular}
 582
 583   \end{itemize}
 584
 585 \item\label{enum:tradEszett} Wird der Buchstabe~\emph{ß} durch
 586   \emph{ss/SS} ersetzt, so bleibt die Trennung davon unberührt
 587   \cite[R~179]{duden:1991}:
 588
 589   \begin{tabular}[t]{T}
 590     \textls{GRÖSS-TE}\\
 591     \textls{GRÜ-SSE}\\
 592     \textls{M\kern-.4ptA\kern-.4pt-SSES}\\
 593   \end{tabular}
 594
 595   Für diese Regel gilt die folgende Einschränkung:
 596   \begin{itemize}
 597
 598   \item Wenn durch den Ersatz von~\emph{ß} an dieser Stelle keine
 599     eindeutige Trennung möglich ist, so wird zugunsten der Bedeutung des
 600     Wortes in der normalen Schreibweise getrennt (siehe auch
 601     \regelref{enum:tradDoppeld}).
 602
 603     \begin{tabular}[t]{TTU}
 604       \textls{FLÖS-SE} & (wegen flös-se) & \textls{FLÖ-SSE}\\
 605       \textls{MAS-SE} & (wegen Mas-se) & \textls{MA-SSE}\\
 606     \end{tabular}
 607
 608     Beachte:
 609     \begin{itemize}
 610
 611     \item Wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
 612       durch~\emph{SS} ersetzt, so bleibt~\emph{SS} stets ungetrennt.
 613       Die Trennung richtet sich dann nach der Schreibweise mit~\emph{ß}
 614       im Quelldokument.
 615
 616     \item Existiert ein Wort in verschiedenen Varietäten in der
 617       Schreibweise mit~\emph{ß} und mit~\emph{ss}, so wird aufgrund
 618       dieser Einschränkung \emph{s-s} stets getrennt:
 619
 620       \begin{tabular}[t]{TTUU}
 621         Ge-scho-ße  & (AT)\\
 622         Ge-schos-se & (D) & \textls{GESCHO-SSE} & (AT)\\
 623       \end{tabular}
 624
 625     \item Wenn durch den Ersatz des~\emph{ß} an entfernten Stellen keine
 626       eindeutige Trennung möglich wird, zum Beispiel an Wortfugen, so
 627       werden die betroffenen Trennungen gemäß
 628       \regelref{enum:tradDoppeld} unterdrückt.  In der Folge wird
 629       gegebenenfalls auch die Trennung von \emph{ss/SS} unterdrückt.
 630
 631       \begin{tabular}[t]{TU}
 632         \textls{BAHN-HOFSTRASSE} & \textls{BAHNHOF-STRA-SSE}\\
 633                                  & \textls{BAHNHOFS-TRAS-SE}\\
 634       \end{tabular}
 635
 636     \end{itemize}
 637
 638   \end{itemize}
 639
 640 \item\label{enum:tradOW} In Ableitungen von Namen auf \emph{"~ow} wird
 641   die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
 642   \emph{"~ers} unterdrückt \cite[R~180]{duden:1991}:
 643
 644   \begin{tabular}[t]{TU}
 645     Tel-tower & Teltow-er\\
 646     Trep-towern & Treptow-ern\\
 647     Pan-kowers & Pankow-ers\\
 648   \end{tabular}
 649
 650 \item\label{enum:tradnstd} Spezialtrennungen (\emph{engl.:} non-standard
 651   hyphenation), die nach Regeln erfolgen, die über das bloße Einfügen
 652   eines Trennstrichs hinausgehen, wie die \emph{ck}- oder die
 653   Dreikonsonantenregel, kann \TeX82 nicht automatisch behandeln.  Aus
 654   diesem Grund sind solche Trennstellen in diesen Trennmustern nicht
 655   berücksichtigt.
 656
 657   \begin{tabular}[t]{lTUU}
 658     \lstinline[style=LaTeX]+drucken+ & drucken & druk-ken\\
 659     \lstinline[style=LaTeX]+Zuckerbäcker+ & Zucker-bäcker & Zuk-kerbäk-ker\\
 660     \lstinline[style=LaTeX]+Brennessel+ & Brennes-sel & Brenn-nessel\\
 661     \lstinline[style=LaTeX]+Stoffetzen+ & Stoffet-zen & Stoff-fetzen\\
 662   \end{tabular}
 663
 664   Die Dreikonsonantenregel birgt aufgrund des ausgefallenen Konsonanten
 665   die Gefahr irreführender und sinnentstellender Trennungen (siehe auch
 666   \regelref{enum:tradSinn}).  Trennstellen, die in einem Abstand von
 667   zwei Lauten auf eine Wortfuge mit Anwendung der Dreikonsonantenregel
 668   folgen, werden daher grundsätzlich unterdrückt.
 669
 670   \begin{tabular}[t]{lTUU}
 671     \lstinline[style=LaTeX]+Metallegierung+ & Me-tallegie-rung & Metall-legierung & Metalle-gierung\\
 672     \lstinline[style=LaTeX]+schnellebige+ & schnellebi-ge & schnell-lebige & schnelle-bige\\
 673     \lstinline[style=LaTeX]+Stilleben+ & Stilleben & Still-leben & Stille-ben\\
 674   \end{tabular}
 675   \par\nobreak
 676   \textit{auch:}
 677
 678   \begin{tabular}[t]{lTUU}
 679     \lstinline[style=LaTeX]+Abfallager+ & Ab-fallager & Abfall-lager & Abfalla-ger\\
 680     \lstinline[style=LaTeX]+Zellstoffabrik+ & Zell-stoffabrik & Zellstoff-fabrik & Zellstoffa-brik\\
 681   \end{tabular}
 682
 683   Das Paket \texttt{Babel} stellt verschiedene Kürzel zur Verfügung,
 684   u.\,a. \lstinline[style=LaTeX]+"ck+%
 685   \footnote{Spezialtrennungen werden in \TeX\ mit Hilfe des Kommandos
 686     \lstinline[style=LaTeX]+\\discretionary+ kodiert.  So wird zum
 687     Beispiel das \texttt{Babel}-Kürzel \lstinline[style=LaTeX]+\"ck+ in
 688     der Eingabe während des Setzens durch
 689     \lstinline[style=LaTeX]+\\discretionary\{k-\}\{k\}\{ck\}+ ersetzt,
 690     wodurch \emph{k-k}-Trennungen möglich werden.}
 691   %
 692   oder \lstinline[style=LaTeX]+"ff+ \emph{etc.}, mit denen
 693   Spezialtrennungen im Quelldokument ausgezeichnet werden können (siehe
 694   auch \autoref{tab:trennung-dreik}).
 695
 696   Lua\TeX%
 697   \footnote{\url{http://www.luatex.org/}}
 698 %
 699   soll in einer zukünftigen Version Mechanismen zur automatischen
 700   Behandlung von Spezialtrennungen bereitstellen.  Eine physische
 701   Auszeichnung im Quelltext ist dann nicht mehr erforderlich.  Die
 702   entsprechenden Spezialtrennmuster für die deutsche Sprache werden
 703   ebenfalls im Rahmen dieses Projekts erstellt.
 704
 705 \end{enumerate}
 706
 707 \subsection{Traditionelle Rechtschreibung in der Schweiz}
 708 \label{sec:tradchRS}
 709
 710 Die Trennmuster für die traditionelle Rechtschreibung in der Schweiz
 711 folgen weitgehend den Konventionen für die traditionelle Rechtschreibung
 712 in Deutschland (siehe \autoref{sec:tradRS}).  Die folgende Liste enthält
 713 daher nur Fälle, in denen davon abgewichen wird oder deren Beschreibung
 714 aus anderen Gründen sinnvoll erscheint.
 715
 716 \begin{enumerate}[\hspace{1em}\itshape{TS}1]
 717 \labelformat{enumi}{\textit{TS#1}}
 718
 719 \item\label{enum:tradchEszett} Wörter mit \emph{ß} werden gemäß den
 720   Regeln für die traditionelle Rechtschreibung in Deutschland getrennt.
 721
 722 \item\label{enum:tradchSS} Abweichend von \regelref{enum:tradEszett}
 723   wird \emph{ss/SS} immer als Doppelkonsonant behandelt und
 724   gegebenenfalls getrennt:
 725
 726   \begin{tabular}[t]{T}
 727     grös-ste\\
 728     Grüs-se\\
 729     Mas-ses\\
 730   \end{tabular}
 731
 732   Beachte, wird~\emph{ß} jedoch mit
 733   \lstinline[style=LaTeX]+\MakeUppercase+ durch~\emph{SS} ersetzt, so
 734   bleibt~\emph{SS} stets ungetrennt.  Die Trennung richtet sich dann
 735   nach der Schreibweise mit~\emph{ß} im Quelldokument (siehe
 736   \regelref{enum:tradchEszett}).
 737
 738 \end{enumerate}
 739
 740 \subsection{Reformierte Rechtschreibung}
 741 \label{sec:reformRS}
 742
 743 \begin{enumerate}[\hspace{1em}\itshape{R}1]
 744 \labelformat{enumi}{\textit{R#1}}
 745
 746 \item\label{enum:reformhyphenmin} Die minimal unterstützte Silbenlänge
 747   am Wortanfang und "~ende beträgt zwei Buchstaben
 748   \cite[\S~107]{amtlRegeln:2006, amtlRegeln:2006:duden}.
 749
 750   Beachte, die Mindestlänge abgetrennter Silben lässt sich in \TeX\ mit
 751   den Makros \lstinline[style=LaTeX]+\lefthyphenmin+ und
 752   \lstinline[style=LaTeX]+\righthyphenmin+ und in \LaTeX\ mit dem Makro
 753   \lstinline[style=LaTeX]+\ngermanhyphenmins+ (\texttt{Babel}) anpassen.
 754   Wird die Mindestlänge auf weniger als zwei Buchstaben verringert, so
 755   können fehlerhafte Trennungen auftreten.
 756
 757 \item\label{enum:reformEtymo} Falls die Trennung nach Sprechsilben und
 758   die etymologische (sprachgeschichtliche) Trennung kollidieren, wird
 759   weitgehend die etymologische Trennung gewählt
 760   \cite[\S~113]{amtlRegeln:2006, amtlRegeln:2006:duden}:
 761
 762   \begin{tabular}[t]{RUU}
 763 %    Heli-ko-pter & Helikop-ter\\
 764 %    in-ter-view-en & intervie-wen\\
 765     in-ter-es-sant & inte-ressant\\
 766     Lin-ole-um & Li-noleum & Lino-leum\\
 767     Päd-ago-ge & Pä-dagoge & Päda-goge\\
 768   \end{tabular}
 769
 770 \item\label{enum:reformClusterLR} In Fremdwörtern bleiben die
 771   Buchstabengruppen \emph{bl, pl, fl, gl, cl, kl, phl; br, pr, dr, tr,
 772     fr, vr, gr, cr, kr, phr, thr; chth; gn, kn} im allgemeinen
 773   ungetrennt, nicht jedoch \emph{str} \cite[\S~112]{amtlRegeln:2006,
 774     amtlRegeln:2006:duden}
 775   i.\,V.\,m.~\cite[R~179]{duden:1991}:
 776
 777   \begin{tabular}[t]{RU}
 778     Ar-thri-tis & Arth-ritis\\
 779 %    Co-gnac & Cog-nac\\
 780     Di-plom & Dip-lom\\
 781 %    Fe-bru-ar & Feb-ruar\\
 782     igno-rie-re & ig-noriere\\
 783     In-te-gral & Integ-ral\\
 784   \end{tabular}
 785   \par\nobreak
 786   \textit{aber:}
 787
 788   \begin{tabular}[t]{RUU}
 789     In-dus-trie & Indu-strie & Indust-rie\\
 790 %    Ma-gis-tra-le & Magi-strale\\
 791     de-struk-tiv\\
 792     sub-lim\\
 793   \end{tabular}
 794
 795 \item\label{enum:reformSinn} Sinnentstellende und irreführende Trennungen
 796   werden möglichst vermieden \cite[\S~107]{amtlRegeln:2006,
 797     amtlRegeln:2006:duden}:
 798
 799   \begin{tabular}[t]{RU}
 800     An-alpha-bet & Anal-phabet\\
 801     Kaf-ka-kenner & Kafkaken-ner\\
 802     Tal-entwäs-se-rung & Talent-wässerung\\
 803   \end{tabular}
 804
 805 \item\label{enum:reformDoppeld} In mehrdeutigen Wörtern werden
 806   Trennungen nur an übereinstimmenden Trennstellen
 807   zugelassen:
 808
 809   \begin{tabular}[t]{RUUU}
 810     Druckerzeug-nis & Dru-ckerzeugnis & Druck-erzeugnis &
 811     Drucker-zeugnis\\
 812     Mu-sikerle-ben & Musi-kerleben & Musik-erleben & Musiker-leben\\
 813     nachtritt & nach-tritt & Nacht-ritt\\
 814     Wachstu-be & Wach-stube & Wachs-tube\\
 815   \end{tabular}
 816
 817   Beachte, die Trennstellen ">Drucker-zeugnis"< und ">Musiker-leben"<
 818   sind in den Interpretationen \emph{Druck-Erzeugnis} und
 819   \emph{Musik-Erleben} irreführend.  Sie entfallen nach
 820   \regelref{enum:reformSinn} und sind nicht als übereinstimmende
 821   Trennstellen anzusehen.
 822
 823   Für diese Regel gilt die folgende Einschränkung:
 824   \begin{itemize}
 825
 826   \item Bei mehrdeutigen Wörtern endend auf \emph{"~ende, "~enden,
 827       "~endes} wird stets die Trennung der Partizipform des Verbs
 828     verwendet.
 829
 830     \begin{tabular}[t]{RUU}
 831       spie-len-de & Spiel-ende & spielende\\
 832     \end{tabular}
 833
 834   \end{itemize}
 835
 836 \item\label{enum:reformEszett} Wird der Buchstabe~\emph{ß} durch
 837   \emph{ss/SS} ersetzt, so wird \emph{s-s} getrennt \cite[\S\S~25~E3,
 838   110]{amtlRegeln:2006, amtlRegeln:2006:duden}:
 839
 840   \begin{tabular}[t]{R}
 841     \textls{GRÖS-STE}\\
 842     \textls{GRÜS-SE}\\
 843     \textls{M\kern-.4ptA\kern-.6ptS-SES}\\
 844   \end{tabular}
 845
 846   Beachte, wird~\emph{ß} mit \lstinline[style=LaTeX]+\MakeUppercase+
 847   oder in Kapitälchen in~\emph{SS} gewandelt, so bleibt~\emph{SS}
 848   ungetrennt.  Dies ist kein Fehler in den Trennmustern, sondern im
 849   \LaTeX-Kern fest implementiert.
 850
 851 % \item\label{enum:reformOW} In Ableitungen von Namen auf \emph{"~ow}
 852 %   bleibt \emph{"~ow} ungetrennt, wenn es den Laut [o\,:] bezeichnet.
 853 %   Die Nottrennung der Ableitungssilben \emph{"~er}, \emph{"~ern},
 854 %   \emph{"~ers} wird unterdrückt \cite[\S~113]{amtlRegeln:2006,
 855 %     amtlRegeln:2006:duden}
 856 %   i.\,V.\,m.~\cite[R~180]{duden:1991}:
 857
 858 %   \begin{tabular}[t]{RUU}
 859 %     Tel-tower & Telto-wer & Teltow-er\\
 860 %     Trep-towern & Trepto-wern & Treptow-ern\\
 861 %     Pan-kowers & Panko-wers & Pankow-ers\\
 862 %   \end{tabular}
 863
 864 \end{enumerate}
 865
 866
 867 \section{Trennfehler}
 868 \label{sec:trennfehler}
 869 Mit den vorliegenden Trennmustern können sämtliche Wörter der
 870 zugrundeliegenden Wortliste fehlerfrei getrennt werden.  Technisch
 871 gesprochen endet der letzte \Programm{Patgen}-Lauf mit der Meldung
 872
 873 \begin{lstlisting}[style=shell]
 874 1266082 good, 0 bad, 0 missed
 875 100.00 %, 0.00 %, 0.00 %
 876 \end{lstlisting}
 877 (der Wert vor \lstinline[style=shell]+good+ ist vom Listenumfang
 878 abhängig).  Trotz des großen Umfangs der Wortliste lassen sich
 879 Trennfehler in Wörtern, die nicht in der Liste enthalten sind, nicht
 880 vermeiden.  Der Umfang der Wortliste kann allerdings nicht beliebig
 881 erweitert werden.%
 882 \footnote{Liangs Schema sieht nur einen begrenzten Bereich für die
 883   Trennstellenbewertungen vor (0--9).  Die derzeitigen Trennmuster
 884   vewenden bereits Bewertungen der Höhe~8.}
 885 %
 886 In den folgenden Fällen sollten fehlerhafte Trennungen der Trennmuster
 887 jedoch gemeldet werden:
 888
 889 \begin{enumerate}[\hspace{1em}A.]
 890
 891 \item\label{enum:kritWLfehlerhaft} Das Wort ist bereits in der Wortliste
 892   enthalten.  Der Eintrag ist jedoch fehlerhaft.
 893
 894 \end{enumerate}
 895
 896 Falls das Wort nicht in der Wortliste enthalten ist, bestehen sehr gute
 897 Chancen, dass es aufgenommen wird, wenn eines der folgenden Kriterien
 898 erfüllt ist:
 899
 900 \begin{enumerate}[\hspace{1em}A.]
 901   \refstepcounter{enumi}% Fortsetzung der obigen Aufzählung.
 902
 903 \item\label{enum:kritHerkTM} Das betreffende Wort wird mit den
 904   \emph{herkömmlichen} Trennmustern für die traditionelle oder
 905   reformierte Rechtschreibung korrekt getrennt.  Korrekt bedeutet hier:
 906   Nicht alle möglichen Trennstellen müssen erkannt werden; es werden
 907   jedoch in keinem Fall falsche Trennstellen ermittelt.  Zum Testen kann
 908   in \TeX\ der folgende Aufruf verwendet werden (die Ausgabe erfolgt in
 909   der \Abk{log}-Datei):
 910 \begin{lstlisting}[style=LaTeX]
 911 \showhyphens{durch Leerzeichen getrennte Wörter}
 912 \end{lstlisting}
 913
 914 \item\label{enum:kritSinn} Es handelt es sich um eine orthographisch
 915   richtige, aber sinnentstellende oder irreführende Trennung.
 916   Berücksichtigt werden allerdings nur Wörter, die aus höchstens zwei
 917   (gegebenenfalls prä- und suffigierten) Wörtern zusammengesetzt sind,
 918   zum Beispiel ">Talent-wässerung"<.  Nicht berücksichtigt wird hingegen
 919   die ">Talent-wässerungsanlage"<.
 920
 921 \end{enumerate}
 922
 923 Einige bekannte Fehler in den Trennmustern sind in der Datei
 924 \Datei{CHANGES} verzeichnet.  Noch nicht bekannte falsche, fehlende und
 925 unerwünschte Worttrennungen können an die folgenden E-Mail-Adressen
 926 gerichtet werden:
 927 \begin{itemize}
 928 \item
 929   \href{mailto:trennmuster@dante.de}{trennmuster@dante.de},
 930 \item \href{mailto:wl@gnu.org}{wl@gnu.org} (Werner Lemberg).
 931 \end{itemize}
 932
 933 Trennfehler, die in den Trennmustern nicht korrigiert werden können,
 934 können mit Hilfe einer privaten Ausnahmeliste behandelt werden:
 935 \begin{lstlisting}[style=LaTeX]
 936 \hyphenation{Tal-entwäs-se-rungs-an-la-ge Kaf-ka-kenner-klub}
 937 \end{lstlisting}
 938
 939 Die aktuelle und ältere Ausgaben der Trennmuster sind im Dateibereich
 940 des Trennmuster-Wikis erhältlich.%
 941 \footnote{\url{http://projekte.dante.de/Trennmuster}}
 942 %
 943 Im Entwicklerrepositorium\footnote{%
 944   siehe \url{http://projekte.dante.de/Trennmuster/Entwickler}}
 945 befindet sich ein Makefile, mit dem jederzeit neue Trennmuster erzeugt
 946 werden können.
 947
 948 \nobreak
 949 \noindent\parbox{\linewidth}{%
 950   \vspace*{\baselineskip}
 951   \raggedright
 952   \itshape
 953   Happy \TeX ing!\newline
 954   Die deutschsprachige Trennmustermannschaft
 955 }
 956
 957
 958 \bibliography{dehyph-exptl}
 959
 960
 961 \appendix
 962 \section{Dateien und Installation}
 963 \label{sec:installation}
 964
 965 Die eigentlichen Trennmusterdateien liegen in \Abk{utf-8}-Kodierung vor
 966 (siehe \autoref{tab:dateien}, Endung \texttt{pat}).  Sie werden von
 967 \TeX\ nicht direkt geladen, sondern durch Manteldateien, die ebenfalls
 968 Teil des Pakets sind (Endung \texttt{tex}).  Wird eine 8-Bit-fähige
 969 \TeX-Variante erkannt, übernehmen diese Manteldateien die Konvertierung
 970 der Trennmuster in die \Abk{t1}-Kodierung.
 971
 972 \begin{table}
 973   \centering
 974   \caption{Trennmuster- und Manteldateien}
 975   \label{tab:dateien}
 976   \begin{tabular}{>{\ttfamily}l>{\ttfamily}l}
 977     \normalfont Trennmusterdatei & \normalfont Manteldatei\\
 978     \addlinespace\toprule\addlinespace
 979     dehypht-x-<datum>.pat & dehypht-x-<datum>.tex\\
 980     dehyphts-x-<datum>.pat & dehyphts-x-<datum>.tex\\
 981     dehyphn-x-<datum>.pat & dehyphn-x-<datum>.tex\\
 982   \end{tabular}
 983 \end{table}
 984
 985 Bei der Installation werden die Manteldateien an die in
 986 \autoref{tab:varietaeten} gezeigten Trennmusterbezeichner gebunden.
 987 Diese Schritte werden für verschiedene \TeX-Verteilungen in der Datei
 988 \Datei{INSTALL} beschrieben.  Nach der Installation können die
 989 experimentellen Trennmuster wie in \autoref{sec:aktivieren} gezeigt
 990 verwendet werden.
 991
 992
 993 \section{Fragen \& Antworten}
 994 \label{sec:fragen}
 995
 996 \newcommand*{\fragefont}{\itshape}
 997 \newcommand*{\themenfont}{\large\normalfont}
 998 \newcounter{cntfrage}% Zaehler fuer Fragen.
 999 \newcounter{thema}% Zaehler fuer Themenueberschriften.
1000 \renewcommand*{\thethema}{\Roman{thema}.}
1001 \newcounter{frage}% Zaehler fuer Fragen.
1002 \renewcommand*{\thefrage}{\arabic{frage}.}
1003 \newboolean{nextfrage}
1004
1005 \makeatletter
1006
1007 %%% Neue zref-Liste frage = (type, text, anchor).
1008 \zref@newlist{frage}
1009 \zref@newprop{type}{f}
1010 \zref@newprop{text}{??}
1011 \zref@addprop{frage}{type}
1012 \zref@addprop{frage}{text}
1013 \zref@addprop{frage}{anchor}
1014
1015 %%% Fuegt eine neue Themenueberschrift ein.
1016 \newcommand*{\fragenthema}[1]{%
1017   \par
1018   \pagebreak[1]
1019   \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1020   \refstepcounter{cntfrage}
1021   \stepcounter{thema}
1022   \zref@setcurrent{type}{t}
1023   \zref@setcurrent{text}{\thethema~#1}
1024   \zref@labelbylist{frage:\thecntfrage}{frage}
1025   \noindent{\themenfont\thethema~#1\par}
1026 }
1027
1028 %%% Umgebung fuer eine Frage mit Antwort.
1029 \newenvironment{frageantwort}[1]{%
1030   \par
1031   \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1032   \refstepcounter{cntfrage}
1033   \stepcounter{frage}
1034   \zref@setcurrent{type}{f}
1035   \zref@setcurrent{text}{\thefrage~#1}
1036   \zref@labelbylist{frage:\thecntfrage}{frage}
1037   \noindent{\fragefont\thefrage~#1\par}
1038   \nobreak\noindent\ignorespaces
1039 }{%
1040   \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1041 }
1042
1043 %%% Zeige alle Fragen in sortierter Reihenfolge.
1044 \newcommand{\zeigefragen}{%
1045   \par
1046   \zref@refused{frage:1}
1047   \setcounter{cntfrage}{1}
1048   \setboolean{nextfrage}{true}
1049   \whiledo{\boolean{nextfrage}}{
1050     \vspace{.25\baselineskip plus .1\baselineskip minus .1\baselineskip}
1051     \ifthenelse{\equal{\zref@extract{frage:\thecntfrage}{type}}{f}}{% Frage
1052       \noindent%
1053       \begingroup%
1054         \fragefont%
1055         \hyperlink{\zref@extract{frage:\thecntfrage}{anchor}}{%
1056           \zref@extract{frage:\thecntfrage}{text}%
1057         }%
1058         \par
1059       \endgroup
1060     }{% Themenueberschrift
1061       \noindent%
1062       \begingroup%
1063         \themenfont%
1064         \zref@extract{frage:\thecntfrage}{text}%
1065         \par
1066       \endgroup
1067       \nobreak
1068     }
1069     \stepcounter{cntfrage}
1070     \zref@ifrefundefined{frage:\thecntfrage}{\setboolean{nextfrage}{false}}{}
1071   }
1072   \vspace{.5\baselineskip plus .1\baselineskip minus .1\baselineskip}
1073   \setcounter{cntfrage}{0}
1074   \setcounter{frage}{0}
1075 }
1076
1077
1078 \zeigefragen
1079
1080
1081 \fragenthema{Verwenden der Trennmuster}
1082
1083 \begin{frageantwort}{Die experimentellen Trennmuster waren in der
1084     \TeX-Verteilung bereits vorinstalliert.  Wie kann das Datum
1085     ermittelt werden, das Teil des Trennmusterbezeichners ist, wie in
1086     \autoref{sec:verwenden} erwähnt?}
1087   Die Trennmusterbezeichner werden in der Datei \Datei{language.dat}
1088   definiert, wo auch die Verbindung zu den Manteldateien hergestellt
1089   wird.  Da ein Teil der Trennmusterbezeichner bereits bekannt ist,
1090   \verb+german-x+, vgl. \autoref{tab:varietaeten}, kann die Datei
1091   \Datei{language.dat} danach durchsucht werden.  Zunächst muss der Ort
1092   der Datei mit Hilfe des Kommandos \lstinline[style=shell]{kpsewhich}
1093   ermittelt werden.  Es folgen die vollständigen Kommandos für
1094   unixähnliche Shells und die Windows-Kommandozeile \Datei{cmd.exe}.
1095   Achtung, bei den einfachen Anführungszeichen handelt es sich um
1096   Gravis ("`Backquotes"').
1097
1098   \begin{lstlisting}[style=shell, caption=Shell]
1099 grep -i german-x `kpsewhich language.dat`
1100   \end{lstlisting}
1101
1102   \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1103 for /F "usebackq" %f in (`kpsewhich language.dat`) do find /i "german-x" "%f"
1104   \end{lstlisting}
1105
1106   Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1107   abweichen):
1108
1109 \begin{lstlisting}
1110 german-x-2009-06-19 dehypht-x-2009-06-19.tex
1111 =german-x-latest
1112 ngerman-x-2009-06-19 dehyphn-x-2009-06-19.tex
1113 =ngerman-x-latest
1114 \end{lstlisting}
1115   Die gesuchten Trennmusterbezeichner befinden sich in der ersten Spalte
1116   und lauten in diesem Beispiel
1117   \lstinline[style=LaTeX]{german-x-2009-06-19} und
1118   \lstinline[style=LaTeX]{ngerman-x-2009-06-19}.  In der zweiten Spalte
1119   kann man die Namen der Manteldateien erkennen
1120   (vgl. \autoref{tab:dateien}).  Die mit einem Gleichheitszeichen
1121   beginnenden Zeilen definieren ein Synonym für den
1122   Trennmusterbezeichner der unmittelbar vorangehenden Zeile in der Datei
1123   \Datei{language.dat}.
1124 \end{frageantwort}
1125
1126
1127 \begin{frageantwort}{Wie kann die Version der experimentellen Muster
1128     ermittelt werden, die im Paket \texttt{hyph-utf8} enthalten sind?}
1129   Das Vorgehen ähnelt dem der vorherigen Antwort.  Zunächst wird der Ort
1130   einer bestimmten Datei ermittelt.  Diese wird dann nach einer
1131   hilfreichen Zeichenkette durchsucht.
1132
1133   \begin{lstlisting}[style=shell, caption=Shell]
1134 grep dehyph `kpsewhich hyph-de-1901.lic.txt`
1135   \end{lstlisting}
1136
1137   \begin{lstlisting}[style=shell, caption=\Datei{cmd.exe}]
1138 for /F "usebackq" %f in (`kpsewhich hyph-de-1901.lic.txt`) do find "dehyph" "%f"
1139   \end{lstlisting}
1140
1141   Die Ausgabe dieser Kommandos sieht etwa wie folgt aus (das Datum kann
1142   abweichen):
1143
1144 \begin{lstlisting}
1145 % dehypht-x-2011-06-01.pat
1146 \message{German Hyphenation Patterns (Traditional Orthography) `dehypht-x' 2011-
1147 06-01 (WL)}
1148 \end{lstlisting}
1149 \end{frageantwort}
1150
1151
1152 \fragenthema{Rechtschreibung}
1153
1154 \begin{frageantwort}{Verlag, Prüfer o.\,ä. bemängeln die Trennung
1155     der Trennmuster für die reformierte Rechtschreibung.  Zum Beispiel
1156     wird ">In-dus-trie"< getrennt, der Duden trennt jedoch
1157     ">In-dust-rie"<.}
1158   Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache
1159   lassen für viele Wörter mehrere Trennvarianten zu.  Die Trennmuster
1160   und ebenso Wörterverzeichnisse legen sich aus praktischen Gründen auf
1161   eine Trennvariante fest.  Sie können daher unterschiedliche Trennungen
1162   verwenden, ohne dass eine von beiden falsch ist.  Aus diesem Grund
1163   sind Wörterverzeichnisse nicht geeignet, eine bestimmte Trennung auf
1164   Richtigkeit zu prüfen.  Verbindlich sind einzig die amtlichen Regeln
1165   für die Rechtschreibung der deutschen Sprache~\cite{amtlRegeln:2006}.
1166   Häufig sind diese im Anhang eines Wörterbuchs abgedruckt.  Die von den
1167   Trennmustern befolgten Konventionen können \autoref{sec:trennregeln}
1168   entnommen werden.
1169
1170   Wenn Unsicherheit darüber herrscht, wie die Rechtschreibung geprüft
1171   wird, sollte dies frühzeitig geklärt werden.  Nicht jedem Redakteur
1172   oder Prüfer ist bewusst, dass der Duden seine normative Stellung mit
1173   der Rechtschreibreform~1996 eingebüßt hat.
1174 \end{frageantwort}
1175
1176
1177 \begin{frageantwort}{Gibt es dudenkonforme Trennmuster für die
1178     reformierte Rechtschreibung?}
1179   Zur Zeit nicht, es ist auch nicht geplant.  Dieses Projekt ist jedoch
1180   offen für Vorschläge und Mitarbeit.
1181 \end{frageantwort}
1182
1183
1184 \begin{frageantwort}{Weshalb werden noch Trennmuster für die
1185     traditionelle Rechtschreibung bereitgestellt?}
1186   Die amtlichen Regeln für die Rechtschreibung der deutschen Sprache in
1187   der Fassung von 2006 sind nur für öffentliche Einrichtungen und
1188   Behörden verbindlich.  Im privaten Schriftverkehr kann man wahlweise
1189   die traditionelle oder die reformierte Rechtschreibung verwenden.%
1190   \footnote{Oder auch keine von beiden.}
1191 %
1192   Daher erfreut sich die traditionelle Rechtschreibung weiterhin großer
1193   Beliebtheit.
1194
1195   Für Texte in gebrochener Schrift ist die traditionelle Rechtschreibung
1196   sogar vorzuziehen.
1197 \end{frageantwort}
1198
1199
1200 \begin{frageantwort}{Können Trennungen mit einer Silbenlänge von nur
1201     einem Buchstaben ermöglicht werden, zum Beispiel für den Satz in
1202     schmalen Kolumnen?}
1203   Mit diesen Trennmustern ist das nicht möglich, da die zugrundeliegende
1204   Wortliste solche Trennungen nicht enthält.  Die Abtrennung einzelner
1205   Vokale, zum Beispiel ">A-bend"<, war nur kurzzeitig zulässig; die
1206   entsprechende Regelung von 1996 wurde mit der Rechtschreibreform 2006
1207   wieder zurückgenommen.  Wird die Silbenmindestlänge für die
1208   Worttrennung auf eins verringert, können falsche Trennungen auftreten.
1209 \end{frageantwort}
1210
1211
1212 \fragenthema{Mitarbeit}
1213
1214 \begin{frageantwort}{Wie kann ich mich über dieses Projekt informieren?}
1215   Zentrale Anlaufstelle ist das Trennmuster-Wiki, welches sich momentan
1216   jedoch noch im Aufbau befindet.%
1217   \footnote{\url{http://projekte.dante.de/Trennmuster}}
1218 %
1219   Für Fragen und Hinweise kann nach Anmeldung die Mailingliste%
1220 %
1221   \footnote{\url{trennmuster@dante.de}};
1222 %
1223   oder alternativ die Usenetgruppe \Datei{de.comp.text.tex} genutzt
1224   werden.  Die folgenden Dateien enthalten weitergehende Informationen:
1225
1226   \begin{itemize}
1227   \item Neben der Dokumentation zu den Trennmustern enthält dieses Paket
1228     eine Projektbeschreibung (\Datei{projektbeschreibung.pdf}).
1229
1230   \item Die Datei \Datei{CHANGES} enthält bekannte, systematische Fehler
1231     der Trennmuster.
1232
1233   \item Das Entwicklerrepositorium enthält in der Datei
1234     \Datei{README.wortliste} eine Beschreibung des Formats der
1235     Wortliste.
1236
1237   \end{itemize}
1238 \end{frageantwort}
1239
1240
1241 \begin{frageantwort}{Wie kann ich helfen?}
1242   Die deutschsprachige Trennmustermannschaft ist eine offene Gruppe und
1243   benötigt dringend weitere Mithilfe.  Interessenten sind daher hoch
1244   willkommen!  Zum Mitmachen gibt es mehrere Möglichkeiten:
1245   \begin{itemize}
1246   \item Die einfachste ist, die experimentellen Trennmuster ausgiebig zu
1247     testen und Fehler zu melden (siehe \autoref{sec:trennfehler}).
1248
1249   \item Besonders hilfreich wäre Mitarbeit am Projekt.  Als Einstieg
1250     kann die (grobe) Aufgabenliste in der Projektbeschreibung dienen.
1251
1252     Obwohl schon experimentelle Trennmuster veröffentlicht wurden, steht
1253     dieses Projekt noch ziemlich am Anfang.  Ziel ist, die verwendete
1254     Wortliste von möglichst vielen Menschen in verteilter Arbeit auf
1255     Richtigkeit zu prüfen.  Bis dahin bleibt jedoch noch viel zu tun.
1256
1257   \item Mittelfristig -- nach Fertigstellung der Prüfmaske~-- kann auch
1258     durch systematische Durchsicht eines Teils der Wortliste geholfen
1259     werden.
1260
1261   \item Fragen, Hinweise und Ideen sind auf der Mailingliste immer
1262     willkommen!
1263   \end{itemize}
1264 \end{frageantwort}
1265
1266
1267 \begin{frageantwort}{Sollten Trennfehler einzeln oder gesammelt
1268     eingereicht werden?}
1269   Das ist egal.  Es sollten allerdings die folgenden Hinweise beim
1270   Einreichen von Fehlern beachtet werden:
1271
1272   \begin{description}\setkomafont{descriptionlabel}{\normalfont\itshape}
1273   \item[Aktualität] Wenn Sie ältere Trennmusterdateien verwenden, prüfen
1274     Sie zunächst, ob der Fehler auch mit aktuellen Trennmustern
1275     auftritt.  Die aktuellen Trennmuster sind im \Abk{ctan} im Paket
1276     \texttt{dehyph-exptl} oder im Dateibereich unter der
1277     Projekt-\Abk{url} erhältlich.  Im Repositorium befindet sich auch
1278     ein Makefile, mit dem jederzeit neue Trennmuster aus der aktuellen
1279     Wortliste erzeugt werden können.
1280
1281   \item[Informationen] In einem Fehlerbericht sollte für das betreffende
1282     Wort die richtige und bei einzelnen Worteinreichungen auch die
1283     falsche Trennung angegeben werden.  Außerdem die genaue Version der
1284     verwendeten Trennmuster (traditionelle oder reformierte
1285     Rechtschreibung, Datum der Trennmusterdatei).
1286
1287   \item[Listenformat] Es erleichtert die Korrektur, wenn
1288     Berichtigungsvorschläge in Form einer Liste eingereicht werden, die
1289     automatisch mit Skripten bearbeitet werden kann.  Die folgenden
1290     Konventionen sollten dabei eingehalten werden:
1291     \begin{itemize}
1292     \item Die Spalten werden mit einem Semikolon \verb+;+ getrennt.
1293     \item Die erste Spalte enthält das betreffende Wort in ungetrennter
1294       Form.
1295     \item Die zweite Spalte enthält das Wort in der Trennvariante nach
1296       traditioneller Rechtschreibung.
1297     \item Falls die Trennung nach reformierter Rechtschreibung davon
1298       abweicht, steht diese in der dritten Spalte.
1299     \item Ab der vierten Spalte \emph{können} weitere Trennvarianten
1300       folgen, etwa die falsche Trennung.  Eine kurze Erklärung sollte
1301       dann darauf eingehen.
1302     \item Unerwünschte Trennungen werden mit einem Punkt \verb+.+
1303       markiert.
1304     \item Anfang und Ende der Liste sollten klar erkennbar sein.
1305     \end{itemize}
1306     Eine Liste könnte beispielhaft so aussehen:
1307 \begin{lstlisting}[style=Text]
1308 sonnendurchfluteten;son-nen-durch-flu-te-ten
1309 Talentwässerung;Tal-ent.wäs-se-rung
1310 Fensterplatz;Fen-ster-platz;Fens-ter-platz
1311 \end{lstlisting}
1312     Dieses Format ist auch für einzeln eingereichte Korrekturen
1313     sinnvoll.
1314
1315   \item[Betreff] Der Betreff einer Fehlermeldung sollte aussagekräftig
1316     sein.  Daher sollten mehrere Trennfehler, sofern möglich, thematisch
1317     zusammengefasst werden.  Außerdem kann zur einfacheren Zuordnung das
1318     entsprechende Kriterium aus \autoref{sec:trennfehler} dem Betreff
1319     der E-Mail in eckigen Klammern vorangestellt werden, zum Beispiel:
1320 \begin{lstlisting}[style=Text]
1321 Betreff: [A] sonnendurchfluteten
1322 \end{lstlisting}
1323     für einen Trennfehler im Wortes \emph{sonnendurchfluteten}, der
1324     durch einen Fehler in der Wortliste hervorgerufen wird.
1325   \end{description}
1326 \end{frageantwort}
1327
1328
1329 \end{document}
1330
1331 %%% Local Variables:
1332 %%% mode: latex
1333 %%% TeX-PDF-mode: t
1334 %%% TeX-master: t
1335 %%% coding: iso-8859-15
1336 %%% End: