[3.1.1] Fix Shift_JIS encoding wonkiness with yen symbols and whatnot
[htmlpurifier.git] / docs / ref-whatwg.txt
blob070d8e88dcbd03f90579fc4b0a5ce90250ed378f
2 Web Hypertext Application Technology Working Group
3     WHATWG
5 == HTML 5 ==
7 URL: http://www.whatwg.org/specs/web-apps/current-work/
9 HTML 5 defines a kaboodle of new elements and attributes, as well as
10 some well-defined, "quirks mode" HTML parsing.  Although WHATWG professes
11 to be targeted towards web applications, many of their semantic additions
12 would be quite useful in regular documents. Eventually, HTML
13 Purifier will need to audit their lists and figure out what changes need
14 to be made.  This process is complicated by the fact that the WHATWG
15 doesn't buy into W3C's modularization of XHTML 1.1: we may need
16 to remodularize HTML 5 (probably done by section name). No sense in
17 committing ourselves till the spec stabilizes, though.
19 More immediately speaking though, however, is the well-defined parsing
20 behavior that HTML 5 adds. While I have little interest in writing
21 another DirectLex parser, other parsers like ph5p 
22 <http://jero.net/lab/ph5p/> can be adapted to DOMLex to support much more
23 flexible HTML parsing (a cool feature I've seen is how they resolve
24 <b>bold<i>both</b>italic</i>).