HTML filter: ignore <xml></xml> that Microsoft word generates..
commit2d2afc55e7f9df18a56ad3106631e4e985021ce0
authorSteffen Nurpmeso <steffen@sdaoden.eu>
Tue, 28 Jan 2020 15:43:31 +0000 (28 16:43 +0100)
committerSteffen Nurpmeso <steffen@sdaoden.eu>
Sat, 1 Feb 2020 22:41:15 +0000 (1 23:41 +0100)
tree3e50ae6d353ddd26f64d1bf3e2b45cb649b95628
parentd7473ac81de98f0ee1ab5c4f98e63069a194dc27
HTML filter: ignore <xml></xml> that Microsoft word generates..

Microsoft Word produces emails which make you shiver in disgust,
with lots of sections in <![endif]--><!--[if gte mso 9]>
conditionals, with <xml> blocks, tremendous amount of
<w:LsdException ../> tags, whatever this is, lots of styles, and
then <span>s with inline styles which override these for <p> with
class definitions.  What a mess.

Anyway, for these emails we yet would see elements with content
from within XML blocks, like, for example,

   <w:DocumentKind>DocumentEmail</w:DocumentKind>

resulting in output like

  [-- #1.2 1030/79034 text/html, base64, utf-8 --]

  120 Clean DocumentEmail 21 false false false DE X-NONE X-NONE

  Hi,

To avoid this, add <xml> to the list of elements we ignore.
And yes, these emails have a nifty size/content ratio.
src/mx/filter-html.c