1 // HtmlAgilityPack V1.0 - Simon Mourier <simon underscore mourier at hotmail dot com>
3 using System
.Collections
;
6 namespace HtmlAgilityPack
9 /// A utility class to replace special characters by entities and vice-versa.
10 /// Follows HTML 4.0 specification found at http://www.w3.org/TR/html4/sgml/entities.html
12 public class HtmlEntity
14 #region Static Members
16 private static readonly int _maxEntitySize
;
17 private static Hashtable _entityName
;
18 private static Hashtable _entityValue
;
21 /// A collection of entities indexed by name.
23 public static Hashtable EntityName
25 get { return _entityName; }
29 /// A collection of entities indexed by value.
31 public static Hashtable EntityValue
33 get { return _entityValue; }
42 _entityName
= new Hashtable();
43 _entityValue
= new Hashtable();
45 #region Entities Definition
47 _entityValue
.Add("nbsp", 160); // no-break space = non-breaking space, U+00A0 ISOnum
48 _entityName
.Add(160, "nbsp");
49 _entityValue
.Add("iexcl", 161); // inverted exclamation mark, U+00A1 ISOnum
50 _entityName
.Add(161, "iexcl");
51 _entityValue
.Add("cent", 162); // cent sign, U+00A2 ISOnum
52 _entityName
.Add(162, "cent");
53 _entityValue
.Add("pound", 163); // pound sign, U+00A3 ISOnum
54 _entityName
.Add(163, "pound");
55 _entityValue
.Add("curren", 164); // currency sign, U+00A4 ISOnum
56 _entityName
.Add(164, "curren");
57 _entityValue
.Add("yen", 165); // yen sign = yuan sign, U+00A5 ISOnum
58 _entityName
.Add(165, "yen");
59 _entityValue
.Add("brvbar", 166); // broken bar = broken vertical bar, U+00A6 ISOnum
60 _entityName
.Add(166, "brvbar");
61 _entityValue
.Add("sect", 167); // section sign, U+00A7 ISOnum
62 _entityName
.Add(167, "sect");
63 _entityValue
.Add("uml", 168); // diaeresis = spacing diaeresis, U+00A8 ISOdia
64 _entityName
.Add(168, "uml");
65 _entityValue
.Add("copy", 169); // copyright sign, U+00A9 ISOnum
66 _entityName
.Add(169, "copy");
67 _entityValue
.Add("ordf", 170); // feminine ordinal indicator, U+00AA ISOnum
68 _entityName
.Add(170, "ordf");
69 _entityValue
.Add("laquo", 171);
70 // left-pointing double angle quotation mark = left pointing guillemet, U+00AB ISOnum
71 _entityName
.Add(171, "laquo");
72 _entityValue
.Add("not", 172); // not sign, U+00AC ISOnum
73 _entityName
.Add(172, "not");
74 _entityValue
.Add("shy", 173); // soft hyphen = discretionary hyphen, U+00AD ISOnum
75 _entityName
.Add(173, "shy");
76 _entityValue
.Add("reg", 174); // registered sign = registered trade mark sign, U+00AE ISOnum
77 _entityName
.Add(174, "reg");
78 _entityValue
.Add("macr", 175); // macron = spacing macron = overline = APL overbar, U+00AF ISOdia
79 _entityName
.Add(175, "macr");
80 _entityValue
.Add("deg", 176); // degree sign, U+00B0 ISOnum
81 _entityName
.Add(176, "deg");
82 _entityValue
.Add("plusmn", 177); // plus-minus sign = plus-or-minus sign, U+00B1 ISOnum
83 _entityName
.Add(177, "plusmn");
84 _entityValue
.Add("sup2", 178); // superscript two = superscript digit two = squared, U+00B2 ISOnum
85 _entityName
.Add(178, "sup2");
86 _entityValue
.Add("sup3", 179); // superscript three = superscript digit three = cubed, U+00B3 ISOnum
87 _entityName
.Add(179, "sup3");
88 _entityValue
.Add("acute", 180); // acute accent = spacing acute, U+00B4 ISOdia
89 _entityName
.Add(180, "acute");
90 _entityValue
.Add("micro", 181); // micro sign, U+00B5 ISOnum
91 _entityName
.Add(181, "micro");
92 _entityValue
.Add("para", 182); // pilcrow sign = paragraph sign, U+00B6 ISOnum
93 _entityName
.Add(182, "para");
94 _entityValue
.Add("middot", 183); // middle dot = Georgian comma = Greek middle dot, U+00B7 ISOnum
95 _entityName
.Add(183, "middot");
96 _entityValue
.Add("cedil", 184); // cedilla = spacing cedilla, U+00B8 ISOdia
97 _entityName
.Add(184, "cedil");
98 _entityValue
.Add("sup1", 185); // superscript one = superscript digit one, U+00B9 ISOnum
99 _entityName
.Add(185, "sup1");
100 _entityValue
.Add("ordm", 186); // masculine ordinal indicator, U+00BA ISOnum
101 _entityName
.Add(186, "ordm");
102 _entityValue
.Add("raquo", 187);
103 // right-pointing double angle quotation mark = right pointing guillemet, U+00BB ISOnum
104 _entityName
.Add(187, "raquo");
105 _entityValue
.Add("frac14", 188); // vulgar fraction one quarter = fraction one quarter, U+00BC ISOnum
106 _entityName
.Add(188, "frac14");
107 _entityValue
.Add("frac12", 189); // vulgar fraction one half = fraction one half, U+00BD ISOnum
108 _entityName
.Add(189, "frac12");
109 _entityValue
.Add("frac34", 190); // vulgar fraction three quarters = fraction three quarters, U+00BE ISOnum
110 _entityName
.Add(190, "frac34");
111 _entityValue
.Add("iquest", 191); // inverted question mark = turned question mark, U+00BF ISOnum
112 _entityName
.Add(191, "iquest");
113 _entityValue
.Add("Agrave", 192);
114 // latin capital letter A with grave = latin capital letter A grave, U+00C0 ISOlat1
115 _entityName
.Add(192, "Agrave");
116 _entityValue
.Add("Aacute", 193); // latin capital letter A with acute, U+00C1 ISOlat1
117 _entityName
.Add(193, "Aacute");
118 _entityValue
.Add("Acirc", 194); // latin capital letter A with circumflex, U+00C2 ISOlat1
119 _entityName
.Add(194, "Acirc");
120 _entityValue
.Add("Atilde", 195); // latin capital letter A with tilde, U+00C3 ISOlat1
121 _entityName
.Add(195, "Atilde");
122 _entityValue
.Add("Auml", 196); // latin capital letter A with diaeresis, U+00C4 ISOlat1
123 _entityName
.Add(196, "Auml");
124 _entityValue
.Add("Aring", 197);
125 // latin capital letter A with ring above = latin capital letter A ring, U+00C5 ISOlat1
126 _entityName
.Add(197, "Aring");
127 _entityValue
.Add("AElig", 198); // latin capital letter AE = latin capital ligature AE, U+00C6 ISOlat1
128 _entityName
.Add(198, "AElig");
129 _entityValue
.Add("Ccedil", 199); // latin capital letter C with cedilla, U+00C7 ISOlat1
130 _entityName
.Add(199, "Ccedil");
131 _entityValue
.Add("Egrave", 200); // latin capital letter E with grave, U+00C8 ISOlat1
132 _entityName
.Add(200, "Egrave");
133 _entityValue
.Add("Eacute", 201); // latin capital letter E with acute, U+00C9 ISOlat1
134 _entityName
.Add(201, "Eacute");
135 _entityValue
.Add("Ecirc", 202); // latin capital letter E with circumflex, U+00CA ISOlat1
136 _entityName
.Add(202, "Ecirc");
137 _entityValue
.Add("Euml", 203); // latin capital letter E with diaeresis, U+00CB ISOlat1
138 _entityName
.Add(203, "Euml");
139 _entityValue
.Add("Igrave", 204); // latin capital letter I with grave, U+00CC ISOlat1
140 _entityName
.Add(204, "Igrave");
141 _entityValue
.Add("Iacute", 205); // latin capital letter I with acute, U+00CD ISOlat1
142 _entityName
.Add(205, "Iacute");
143 _entityValue
.Add("Icirc", 206); // latin capital letter I with circumflex, U+00CE ISOlat1
144 _entityName
.Add(206, "Icirc");
145 _entityValue
.Add("Iuml", 207); // latin capital letter I with diaeresis, U+00CF ISOlat1
146 _entityName
.Add(207, "Iuml");
147 _entityValue
.Add("ETH", 208); // latin capital letter ETH, U+00D0 ISOlat1
148 _entityName
.Add(208, "ETH");
149 _entityValue
.Add("Ntilde", 209); // latin capital letter N with tilde, U+00D1 ISOlat1
150 _entityName
.Add(209, "Ntilde");
151 _entityValue
.Add("Ograve", 210); // latin capital letter O with grave, U+00D2 ISOlat1
152 _entityName
.Add(210, "Ograve");
153 _entityValue
.Add("Oacute", 211); // latin capital letter O with acute, U+00D3 ISOlat1
154 _entityName
.Add(211, "Oacute");
155 _entityValue
.Add("Ocirc", 212); // latin capital letter O with circumflex, U+00D4 ISOlat1
156 _entityName
.Add(212, "Ocirc");
157 _entityValue
.Add("Otilde", 213); // latin capital letter O with tilde, U+00D5 ISOlat1
158 _entityName
.Add(213, "Otilde");
159 _entityValue
.Add("Ouml", 214); // latin capital letter O with diaeresis, U+00D6 ISOlat1
160 _entityName
.Add(214, "Ouml");
161 _entityValue
.Add("times", 215); // multiplication sign, U+00D7 ISOnum
162 _entityName
.Add(215, "times");
163 _entityValue
.Add("Oslash", 216);
164 // latin capital letter O with stroke = latin capital letter O slash, U+00D8 ISOlat1
165 _entityName
.Add(216, "Oslash");
166 _entityValue
.Add("Ugrave", 217); // latin capital letter U with grave, U+00D9 ISOlat1
167 _entityName
.Add(217, "Ugrave");
168 _entityValue
.Add("Uacute", 218); // latin capital letter U with acute, U+00DA ISOlat1
169 _entityName
.Add(218, "Uacute");
170 _entityValue
.Add("Ucirc", 219); // latin capital letter U with circumflex, U+00DB ISOlat1
171 _entityName
.Add(219, "Ucirc");
172 _entityValue
.Add("Uuml", 220); // latin capital letter U with diaeresis, U+00DC ISOlat1
173 _entityName
.Add(220, "Uuml");
174 _entityValue
.Add("Yacute", 221); // latin capital letter Y with acute, U+00DD ISOlat1
175 _entityName
.Add(221, "Yacute");
176 _entityValue
.Add("THORN", 222); // latin capital letter THORN, U+00DE ISOlat1
177 _entityName
.Add(222, "THORN");
178 _entityValue
.Add("szlig", 223); // latin small letter sharp s = ess-zed, U+00DF ISOlat1
179 _entityName
.Add(223, "szlig");
180 _entityValue
.Add("agrave", 224);
181 // latin small letter a with grave = latin small letter a grave, U+00E0 ISOlat1
182 _entityName
.Add(224, "agrave");
183 _entityValue
.Add("aacute", 225); // latin small letter a with acute, U+00E1 ISOlat1
184 _entityName
.Add(225, "aacute");
185 _entityValue
.Add("acirc", 226); // latin small letter a with circumflex, U+00E2 ISOlat1
186 _entityName
.Add(226, "acirc");
187 _entityValue
.Add("atilde", 227); // latin small letter a with tilde, U+00E3 ISOlat1
188 _entityName
.Add(227, "atilde");
189 _entityValue
.Add("auml", 228); // latin small letter a with diaeresis, U+00E4 ISOlat1
190 _entityName
.Add(228, "auml");
191 _entityValue
.Add("aring", 229);
192 // latin small letter a with ring above = latin small letter a ring, U+00E5 ISOlat1
193 _entityName
.Add(229, "aring");
194 _entityValue
.Add("aelig", 230); // latin small letter ae = latin small ligature ae, U+00E6 ISOlat1
195 _entityName
.Add(230, "aelig");
196 _entityValue
.Add("ccedil", 231); // latin small letter c with cedilla, U+00E7 ISOlat1
197 _entityName
.Add(231, "ccedil");
198 _entityValue
.Add("egrave", 232); // latin small letter e with grave, U+00E8 ISOlat1
199 _entityName
.Add(232, "egrave");
200 _entityValue
.Add("eacute", 233); // latin small letter e with acute, U+00E9 ISOlat1
201 _entityName
.Add(233, "eacute");
202 _entityValue
.Add("ecirc", 234); // latin small letter e with circumflex, U+00EA ISOlat1
203 _entityName
.Add(234, "ecirc");
204 _entityValue
.Add("euml", 235); // latin small letter e with diaeresis, U+00EB ISOlat1
205 _entityName
.Add(235, "euml");
206 _entityValue
.Add("igrave", 236); // latin small letter i with grave, U+00EC ISOlat1
207 _entityName
.Add(236, "igrave");
208 _entityValue
.Add("iacute", 237); // latin small letter i with acute, U+00ED ISOlat1
209 _entityName
.Add(237, "iacute");
210 _entityValue
.Add("icirc", 238); // latin small letter i with circumflex, U+00EE ISOlat1
211 _entityName
.Add(238, "icirc");
212 _entityValue
.Add("iuml", 239); // latin small letter i with diaeresis, U+00EF ISOlat1
213 _entityName
.Add(239, "iuml");
214 _entityValue
.Add("eth", 240); // latin small letter eth, U+00F0 ISOlat1
215 _entityName
.Add(240, "eth");
216 _entityValue
.Add("ntilde", 241); // latin small letter n with tilde, U+00F1 ISOlat1
217 _entityName
.Add(241, "ntilde");
218 _entityValue
.Add("ograve", 242); // latin small letter o with grave, U+00F2 ISOlat1
219 _entityName
.Add(242, "ograve");
220 _entityValue
.Add("oacute", 243); // latin small letter o with acute, U+00F3 ISOlat1
221 _entityName
.Add(243, "oacute");
222 _entityValue
.Add("ocirc", 244); // latin small letter o with circumflex, U+00F4 ISOlat1
223 _entityName
.Add(244, "ocirc");
224 _entityValue
.Add("otilde", 245); // latin small letter o with tilde, U+00F5 ISOlat1
225 _entityName
.Add(245, "otilde");
226 _entityValue
.Add("ouml", 246); // latin small letter o with diaeresis, U+00F6 ISOlat1
227 _entityName
.Add(246, "ouml");
228 _entityValue
.Add("divide", 247); // division sign, U+00F7 ISOnum
229 _entityName
.Add(247, "divide");
230 _entityValue
.Add("oslash", 248);
231 // latin small letter o with stroke, = latin small letter o slash, U+00F8 ISOlat1
232 _entityName
.Add(248, "oslash");
233 _entityValue
.Add("ugrave", 249); // latin small letter u with grave, U+00F9 ISOlat1
234 _entityName
.Add(249, "ugrave");
235 _entityValue
.Add("uacute", 250); // latin small letter u with acute, U+00FA ISOlat1
236 _entityName
.Add(250, "uacute");
237 _entityValue
.Add("ucirc", 251); // latin small letter u with circumflex, U+00FB ISOlat1
238 _entityName
.Add(251, "ucirc");
239 _entityValue
.Add("uuml", 252); // latin small letter u with diaeresis, U+00FC ISOlat1
240 _entityName
.Add(252, "uuml");
241 _entityValue
.Add("yacute", 253); // latin small letter y with acute, U+00FD ISOlat1
242 _entityName
.Add(253, "yacute");
243 _entityValue
.Add("thorn", 254); // latin small letter thorn, U+00FE ISOlat1
244 _entityName
.Add(254, "thorn");
245 _entityValue
.Add("yuml", 255); // latin small letter y with diaeresis, U+00FF ISOlat1
246 _entityName
.Add(255, "yuml");
247 _entityValue
.Add("fnof", 402); // latin small f with hook = function = florin, U+0192 ISOtech
248 _entityName
.Add(402, "fnof");
249 _entityValue
.Add("Alpha", 913); // greek capital letter alpha, U+0391
250 _entityName
.Add(913, "Alpha");
251 _entityValue
.Add("Beta", 914); // greek capital letter beta, U+0392
252 _entityName
.Add(914, "Beta");
253 _entityValue
.Add("Gamma", 915); // greek capital letter gamma, U+0393 ISOgrk3
254 _entityName
.Add(915, "Gamma");
255 _entityValue
.Add("Delta", 916); // greek capital letter delta, U+0394 ISOgrk3
256 _entityName
.Add(916, "Delta");
257 _entityValue
.Add("Epsilon", 917); // greek capital letter epsilon, U+0395
258 _entityName
.Add(917, "Epsilon");
259 _entityValue
.Add("Zeta", 918); // greek capital letter zeta, U+0396
260 _entityName
.Add(918, "Zeta");
261 _entityValue
.Add("Eta", 919); // greek capital letter eta, U+0397
262 _entityName
.Add(919, "Eta");
263 _entityValue
.Add("Theta", 920); // greek capital letter theta, U+0398 ISOgrk3
264 _entityName
.Add(920, "Theta");
265 _entityValue
.Add("Iota", 921); // greek capital letter iota, U+0399
266 _entityName
.Add(921, "Iota");
267 _entityValue
.Add("Kappa", 922); // greek capital letter kappa, U+039A
268 _entityName
.Add(922, "Kappa");
269 _entityValue
.Add("Lambda", 923); // greek capital letter lambda, U+039B ISOgrk3
270 _entityName
.Add(923, "Lambda");
271 _entityValue
.Add("Mu", 924); // greek capital letter mu, U+039C
272 _entityName
.Add(924, "Mu");
273 _entityValue
.Add("Nu", 925); // greek capital letter nu, U+039D
274 _entityName
.Add(925, "Nu");
275 _entityValue
.Add("Xi", 926); // greek capital letter xi, U+039E ISOgrk3
276 _entityName
.Add(926, "Xi");
277 _entityValue
.Add("Omicron", 927); // greek capital letter omicron, U+039F
278 _entityName
.Add(927, "Omicron");
279 _entityValue
.Add("Pi", 928); // greek capital letter pi, U+03A0 ISOgrk3
280 _entityName
.Add(928, "Pi");
281 _entityValue
.Add("Rho", 929); // greek capital letter rho, U+03A1
282 _entityName
.Add(929, "Rho");
283 _entityValue
.Add("Sigma", 931); // greek capital letter sigma, U+03A3 ISOgrk3
284 _entityName
.Add(931, "Sigma");
285 _entityValue
.Add("Tau", 932); // greek capital letter tau, U+03A4
286 _entityName
.Add(932, "Tau");
287 _entityValue
.Add("Upsilon", 933); // greek capital letter upsilon, U+03A5 ISOgrk3
288 _entityName
.Add(933, "Upsilon");
289 _entityValue
.Add("Phi", 934); // greek capital letter phi, U+03A6 ISOgrk3
290 _entityName
.Add(934, "Phi");
291 _entityValue
.Add("Chi", 935); // greek capital letter chi, U+03A7
292 _entityName
.Add(935, "Chi");
293 _entityValue
.Add("Psi", 936); // greek capital letter psi, U+03A8 ISOgrk3
294 _entityName
.Add(936, "Psi");
295 _entityValue
.Add("Omega", 937); // greek capital letter omega, U+03A9 ISOgrk3
296 _entityName
.Add(937, "Omega");
297 _entityValue
.Add("alpha", 945); // greek small letter alpha, U+03B1 ISOgrk3
298 _entityName
.Add(945, "alpha");
299 _entityValue
.Add("beta", 946); // greek small letter beta, U+03B2 ISOgrk3
300 _entityName
.Add(946, "beta");
301 _entityValue
.Add("gamma", 947); // greek small letter gamma, U+03B3 ISOgrk3
302 _entityName
.Add(947, "gamma");
303 _entityValue
.Add("delta", 948); // greek small letter delta, U+03B4 ISOgrk3
304 _entityName
.Add(948, "delta");
305 _entityValue
.Add("epsilon", 949); // greek small letter epsilon, U+03B5 ISOgrk3
306 _entityName
.Add(949, "epsilon");
307 _entityValue
.Add("zeta", 950); // greek small letter zeta, U+03B6 ISOgrk3
308 _entityName
.Add(950, "zeta");
309 _entityValue
.Add("eta", 951); // greek small letter eta, U+03B7 ISOgrk3
310 _entityName
.Add(951, "eta");
311 _entityValue
.Add("theta", 952); // greek small letter theta, U+03B8 ISOgrk3
312 _entityName
.Add(952, "theta");
313 _entityValue
.Add("iota", 953); // greek small letter iota, U+03B9 ISOgrk3
314 _entityName
.Add(953, "iota");
315 _entityValue
.Add("kappa", 954); // greek small letter kappa, U+03BA ISOgrk3
316 _entityName
.Add(954, "kappa");
317 _entityValue
.Add("lambda", 955); // greek small letter lambda, U+03BB ISOgrk3
318 _entityName
.Add(955, "lambda");
319 _entityValue
.Add("mu", 956); // greek small letter mu, U+03BC ISOgrk3
320 _entityName
.Add(956, "mu");
321 _entityValue
.Add("nu", 957); // greek small letter nu, U+03BD ISOgrk3
322 _entityName
.Add(957, "nu");
323 _entityValue
.Add("xi", 958); // greek small letter xi, U+03BE ISOgrk3
324 _entityName
.Add(958, "xi");
325 _entityValue
.Add("omicron", 959); // greek small letter omicron, U+03BF NEW
326 _entityName
.Add(959, "omicron");
327 _entityValue
.Add("pi", 960); // greek small letter pi, U+03C0 ISOgrk3
328 _entityName
.Add(960, "pi");
329 _entityValue
.Add("rho", 961); // greek small letter rho, U+03C1 ISOgrk3
330 _entityName
.Add(961, "rho");
331 _entityValue
.Add("sigmaf", 962); // greek small letter final sigma, U+03C2 ISOgrk3
332 _entityName
.Add(962, "sigmaf");
333 _entityValue
.Add("sigma", 963); // greek small letter sigma, U+03C3 ISOgrk3
334 _entityName
.Add(963, "sigma");
335 _entityValue
.Add("tau", 964); // greek small letter tau, U+03C4 ISOgrk3
336 _entityName
.Add(964, "tau");
337 _entityValue
.Add("upsilon", 965); // greek small letter upsilon, U+03C5 ISOgrk3
338 _entityName
.Add(965, "upsilon");
339 _entityValue
.Add("phi", 966); // greek small letter phi, U+03C6 ISOgrk3
340 _entityName
.Add(966, "phi");
341 _entityValue
.Add("chi", 967); // greek small letter chi, U+03C7 ISOgrk3
342 _entityName
.Add(967, "chi");
343 _entityValue
.Add("psi", 968); // greek small letter psi, U+03C8 ISOgrk3
344 _entityName
.Add(968, "psi");
345 _entityValue
.Add("omega", 969); // greek small letter omega, U+03C9 ISOgrk3
346 _entityName
.Add(969, "omega");
347 _entityValue
.Add("thetasym", 977); // greek small letter theta symbol, U+03D1 NEW
348 _entityName
.Add(977, "thetasym");
349 _entityValue
.Add("upsih", 978); // greek upsilon with hook symbol, U+03D2 NEW
350 _entityName
.Add(978, "upsih");
351 _entityValue
.Add("piv", 982); // greek pi symbol, U+03D6 ISOgrk3
352 _entityName
.Add(982, "piv");
353 _entityValue
.Add("bull", 8226); // bullet = black small circle, U+2022 ISOpub
354 _entityName
.Add(8226, "bull");
355 _entityValue
.Add("hellip", 8230); // horizontal ellipsis = three dot leader, U+2026 ISOpub
356 _entityName
.Add(8230, "hellip");
357 _entityValue
.Add("prime", 8242); // prime = minutes = feet, U+2032 ISOtech
358 _entityName
.Add(8242, "prime");
359 _entityValue
.Add("Prime", 8243); // double prime = seconds = inches, U+2033 ISOtech
360 _entityName
.Add(8243, "Prime");
361 _entityValue
.Add("oline", 8254); // overline = spacing overscore, U+203E NEW
362 _entityName
.Add(8254, "oline");
363 _entityValue
.Add("frasl", 8260); // fraction slash, U+2044 NEW
364 _entityName
.Add(8260, "frasl");
365 _entityValue
.Add("weierp", 8472); // script capital P = power set = Weierstrass p, U+2118 ISOamso
366 _entityName
.Add(8472, "weierp");
367 _entityValue
.Add("image", 8465); // blackletter capital I = imaginary part, U+2111 ISOamso
368 _entityName
.Add(8465, "image");
369 _entityValue
.Add("real", 8476); // blackletter capital R = real part symbol, U+211C ISOamso
370 _entityName
.Add(8476, "real");
371 _entityValue
.Add("trade", 8482); // trade mark sign, U+2122 ISOnum
372 _entityName
.Add(8482, "trade");
373 _entityValue
.Add("alefsym", 8501); // alef symbol = first transfinite cardinal, U+2135 NEW
374 _entityName
.Add(8501, "alefsym");
375 _entityValue
.Add("larr", 8592); // leftwards arrow, U+2190 ISOnum
376 _entityName
.Add(8592, "larr");
377 _entityValue
.Add("uarr", 8593); // upwards arrow, U+2191 ISOnum
378 _entityName
.Add(8593, "uarr");
379 _entityValue
.Add("rarr", 8594); // rightwards arrow, U+2192 ISOnum
380 _entityName
.Add(8594, "rarr");
381 _entityValue
.Add("darr", 8595); // downwards arrow, U+2193 ISOnum
382 _entityName
.Add(8595, "darr");
383 _entityValue
.Add("harr", 8596); // left right arrow, U+2194 ISOamsa
384 _entityName
.Add(8596, "harr");
385 _entityValue
.Add("crarr", 8629); // downwards arrow with corner leftwards = carriage return, U+21B5 NEW
386 _entityName
.Add(8629, "crarr");
387 _entityValue
.Add("lArr", 8656); // leftwards double arrow, U+21D0 ISOtech
388 _entityName
.Add(8656, "lArr");
389 _entityValue
.Add("uArr", 8657); // upwards double arrow, U+21D1 ISOamsa
390 _entityName
.Add(8657, "uArr");
391 _entityValue
.Add("rArr", 8658); // rightwards double arrow, U+21D2 ISOtech
392 _entityName
.Add(8658, "rArr");
393 _entityValue
.Add("dArr", 8659); // downwards double arrow, U+21D3 ISOamsa
394 _entityName
.Add(8659, "dArr");
395 _entityValue
.Add("hArr", 8660); // left right double arrow, U+21D4 ISOamsa
396 _entityName
.Add(8660, "hArr");
397 _entityValue
.Add("forall", 8704); // for all, U+2200 ISOtech
398 _entityName
.Add(8704, "forall");
399 _entityValue
.Add("part", 8706); // partial differential, U+2202 ISOtech
400 _entityName
.Add(8706, "part");
401 _entityValue
.Add("exist", 8707); // there exists, U+2203 ISOtech
402 _entityName
.Add(8707, "exist");
403 _entityValue
.Add("empty", 8709); // empty set = null set = diameter, U+2205 ISOamso
404 _entityName
.Add(8709, "empty");
405 _entityValue
.Add("nabla", 8711); // nabla = backward difference, U+2207 ISOtech
406 _entityName
.Add(8711, "nabla");
407 _entityValue
.Add("isin", 8712); // element of, U+2208 ISOtech
408 _entityName
.Add(8712, "isin");
409 _entityValue
.Add("notin", 8713); // not an element of, U+2209 ISOtech
410 _entityName
.Add(8713, "notin");
411 _entityValue
.Add("ni", 8715); // contains as member, U+220B ISOtech
412 _entityName
.Add(8715, "ni");
413 _entityValue
.Add("prod", 8719); // n-ary product = product sign, U+220F ISOamsb
414 _entityName
.Add(8719, "prod");
415 _entityValue
.Add("sum", 8721); // n-ary sumation, U+2211 ISOamsb
416 _entityName
.Add(8721, "sum");
417 _entityValue
.Add("minus", 8722); // minus sign, U+2212 ISOtech
418 _entityName
.Add(8722, "minus");
419 _entityValue
.Add("lowast", 8727); // asterisk operator, U+2217 ISOtech
420 _entityName
.Add(8727, "lowast");
421 _entityValue
.Add("radic", 8730); // square root = radical sign, U+221A ISOtech
422 _entityName
.Add(8730, "radic");
423 _entityValue
.Add("prop", 8733); // proportional to, U+221D ISOtech
424 _entityName
.Add(8733, "prop");
425 _entityValue
.Add("infin", 8734); // infinity, U+221E ISOtech
426 _entityName
.Add(8734, "infin");
427 _entityValue
.Add("ang", 8736); // angle, U+2220 ISOamso
428 _entityName
.Add(8736, "ang");
429 _entityValue
.Add("and", 8743); // logical and = wedge, U+2227 ISOtech
430 _entityName
.Add(8743, "and");
431 _entityValue
.Add("or", 8744); // logical or = vee, U+2228 ISOtech
432 _entityName
.Add(8744, "or");
433 _entityValue
.Add("cap", 8745); // intersection = cap, U+2229 ISOtech
434 _entityName
.Add(8745, "cap");
435 _entityValue
.Add("cup", 8746); // union = cup, U+222A ISOtech
436 _entityName
.Add(8746, "cup");
437 _entityValue
.Add("int", 8747); // integral, U+222B ISOtech
438 _entityName
.Add(8747, "int");
439 _entityValue
.Add("there4", 8756); // therefore, U+2234 ISOtech
440 _entityName
.Add(8756, "there4");
441 _entityValue
.Add("sim", 8764); // tilde operator = varies with = similar to, U+223C ISOtech
442 _entityName
.Add(8764, "sim");
443 _entityValue
.Add("cong", 8773); // approximately equal to, U+2245 ISOtech
444 _entityName
.Add(8773, "cong");
445 _entityValue
.Add("asymp", 8776); // almost equal to = asymptotic to, U+2248 ISOamsr
446 _entityName
.Add(8776, "asymp");
447 _entityValue
.Add("ne", 8800); // not equal to, U+2260 ISOtech
448 _entityName
.Add(8800, "ne");
449 _entityValue
.Add("equiv", 8801); // identical to, U+2261 ISOtech
450 _entityName
.Add(8801, "equiv");
451 _entityValue
.Add("le", 8804); // less-than or equal to, U+2264 ISOtech
452 _entityName
.Add(8804, "le");
453 _entityValue
.Add("ge", 8805); // greater-than or equal to, U+2265 ISOtech
454 _entityName
.Add(8805, "ge");
455 _entityValue
.Add("sub", 8834); // subset of, U+2282 ISOtech
456 _entityName
.Add(8834, "sub");
457 _entityValue
.Add("sup", 8835); // superset of, U+2283 ISOtech
458 _entityName
.Add(8835, "sup");
459 _entityValue
.Add("nsub", 8836); // not a subset of, U+2284 ISOamsn
460 _entityName
.Add(8836, "nsub");
461 _entityValue
.Add("sube", 8838); // subset of or equal to, U+2286 ISOtech
462 _entityName
.Add(8838, "sube");
463 _entityValue
.Add("supe", 8839); // superset of or equal to, U+2287 ISOtech
464 _entityName
.Add(8839, "supe");
465 _entityValue
.Add("oplus", 8853); // circled plus = direct sum, U+2295 ISOamsb
466 _entityName
.Add(8853, "oplus");
467 _entityValue
.Add("otimes", 8855); // circled times = vector product, U+2297 ISOamsb
468 _entityName
.Add(8855, "otimes");
469 _entityValue
.Add("perp", 8869); // up tack = orthogonal to = perpendicular, U+22A5 ISOtech
470 _entityName
.Add(8869, "perp");
471 _entityValue
.Add("sdot", 8901); // dot operator, U+22C5 ISOamsb
472 _entityName
.Add(8901, "sdot");
473 _entityValue
.Add("lceil", 8968); // left ceiling = apl upstile, U+2308 ISOamsc
474 _entityName
.Add(8968, "lceil");
475 _entityValue
.Add("rceil", 8969); // right ceiling, U+2309 ISOamsc
476 _entityName
.Add(8969, "rceil");
477 _entityValue
.Add("lfloor", 8970); // left floor = apl downstile, U+230A ISOamsc
478 _entityName
.Add(8970, "lfloor");
479 _entityValue
.Add("rfloor", 8971); // right floor, U+230B ISOamsc
480 _entityName
.Add(8971, "rfloor");
481 _entityValue
.Add("lang", 9001); // left-pointing angle bracket = bra, U+2329 ISOtech
482 _entityName
.Add(9001, "lang");
483 _entityValue
.Add("rang", 9002); // right-pointing angle bracket = ket, U+232A ISOtech
484 _entityName
.Add(9002, "rang");
485 _entityValue
.Add("loz", 9674); // lozenge, U+25CA ISOpub
486 _entityName
.Add(9674, "loz");
487 _entityValue
.Add("spades", 9824); // black spade suit, U+2660 ISOpub
488 _entityName
.Add(9824, "spades");
489 _entityValue
.Add("clubs", 9827); // black club suit = shamrock, U+2663 ISOpub
490 _entityName
.Add(9827, "clubs");
491 _entityValue
.Add("hearts", 9829); // black heart suit = valentine, U+2665 ISOpub
492 _entityName
.Add(9829, "hearts");
493 _entityValue
.Add("diams", 9830); // black diamond suit, U+2666 ISOpub
494 _entityName
.Add(9830, "diams");
495 _entityValue
.Add("quot", 34); // quotation mark = APL quote, U+0022 ISOnum
496 _entityName
.Add(34, "quot");
497 _entityValue
.Add("amp", 38); // ampersand, U+0026 ISOnum
498 _entityName
.Add(38, "amp");
499 _entityValue
.Add("lt", 60); // less-than sign, U+003C ISOnum
500 _entityName
.Add(60, "lt");
501 _entityValue
.Add("gt", 62); // greater-than sign, U+003E ISOnum
502 _entityName
.Add(62, "gt");
503 _entityValue
.Add("OElig", 338); // latin capital ligature OE, U+0152 ISOlat2
504 _entityName
.Add(338, "OElig");
505 _entityValue
.Add("oelig", 339); // latin small ligature oe, U+0153 ISOlat2
506 _entityName
.Add(339, "oelig");
507 _entityValue
.Add("Scaron", 352); // latin capital letter S with caron, U+0160 ISOlat2
508 _entityName
.Add(352, "Scaron");
509 _entityValue
.Add("scaron", 353); // latin small letter s with caron, U+0161 ISOlat2
510 _entityName
.Add(353, "scaron");
511 _entityValue
.Add("Yuml", 376); // latin capital letter Y with diaeresis, U+0178 ISOlat2
512 _entityName
.Add(376, "Yuml");
513 _entityValue
.Add("circ", 710); // modifier letter circumflex accent, U+02C6 ISOpub
514 _entityName
.Add(710, "circ");
515 _entityValue
.Add("tilde", 732); // small tilde, U+02DC ISOdia
516 _entityName
.Add(732, "tilde");
517 _entityValue
.Add("ensp", 8194); // en space, U+2002 ISOpub
518 _entityName
.Add(8194, "ensp");
519 _entityValue
.Add("emsp", 8195); // em space, U+2003 ISOpub
520 _entityName
.Add(8195, "emsp");
521 _entityValue
.Add("thinsp", 8201); // thin space, U+2009 ISOpub
522 _entityName
.Add(8201, "thinsp");
523 _entityValue
.Add("zwnj", 8204); // zero width non-joiner, U+200C NEW RFC 2070
524 _entityName
.Add(8204, "zwnj");
525 _entityValue
.Add("zwj", 8205); // zero width joiner, U+200D NEW RFC 2070
526 _entityName
.Add(8205, "zwj");
527 _entityValue
.Add("lrm", 8206); // left-to-right mark, U+200E NEW RFC 2070
528 _entityName
.Add(8206, "lrm");
529 _entityValue
.Add("rlm", 8207); // right-to-left mark, U+200F NEW RFC 2070
530 _entityName
.Add(8207, "rlm");
531 _entityValue
.Add("ndash", 8211); // en dash, U+2013 ISOpub
532 _entityName
.Add(8211, "ndash");
533 _entityValue
.Add("mdash", 8212); // em dash, U+2014 ISOpub
534 _entityName
.Add(8212, "mdash");
535 _entityValue
.Add("lsquo", 8216); // left single quotation mark, U+2018 ISOnum
536 _entityName
.Add(8216, "lsquo");
537 _entityValue
.Add("rsquo", 8217); // right single quotation mark, U+2019 ISOnum
538 _entityName
.Add(8217, "rsquo");
539 _entityValue
.Add("sbquo", 8218); // single low-9 quotation mark, U+201A NEW
540 _entityName
.Add(8218, "sbquo");
541 _entityValue
.Add("ldquo", 8220); // left double quotation mark, U+201C ISOnum
542 _entityName
.Add(8220, "ldquo");
543 _entityValue
.Add("rdquo", 8221); // right double quotation mark, U+201D ISOnum
544 _entityName
.Add(8221, "rdquo");
545 _entityValue
.Add("bdquo", 8222); // double low-9 quotation mark, U+201E NEW
546 _entityName
.Add(8222, "bdquo");
547 _entityValue
.Add("dagger", 8224); // dagger, U+2020 ISOpub
548 _entityName
.Add(8224, "dagger");
549 _entityValue
.Add("Dagger", 8225); // double dagger, U+2021 ISOpub
550 _entityName
.Add(8225, "Dagger");
551 _entityValue
.Add("permil", 8240); // per mille sign, U+2030 ISOtech
552 _entityName
.Add(8240, "permil");
553 _entityValue
.Add("lsaquo", 8249); // single left-pointing angle quotation mark, U+2039 ISO proposed
554 _entityName
.Add(8249, "lsaquo");
555 _entityValue
.Add("rsaquo", 8250); // single right-pointing angle quotation mark, U+203A ISO proposed
556 _entityName
.Add(8250, "rsaquo");
557 _entityValue
.Add("euro", 8364); // euro sign, U+20AC NEW
558 _entityName
.Add(8364, "euro");
560 _maxEntitySize
= 8 + 1; // we add the # char
571 #region Public Methods
574 /// Replace known entities by characters.
576 /// <param name="text">The source text.</param>
577 /// <returns>The result text.</returns>
578 public static string DeEntitize(string text
)
583 if (text
.Length
== 0)
586 StringBuilder sb
= new StringBuilder(text
.Length
);
587 ParseState state
= ParseState
.Text
;
588 StringBuilder entity
= new StringBuilder(10);
590 for (int i
= 0; i
< text
.Length
; i
++)
594 case ParseState
.Text
:
598 state
= ParseState
.EntityStart
;
607 case ParseState
.EntityStart
:
611 if (entity
.Length
== 0)
617 if (entity
[0] == '#')
619 string e
= entity
.ToString();
622 int code
= Convert
.ToInt32(e
.Substring(1, e
.Length
- 1));
623 sb
.Append(Convert
.ToChar(code
));
627 sb
.Append("&#" + e
+ ";");
634 object o
= _entityValue
[entity
.ToString()];
638 sb
.Append("&" + entity
+ ";");
644 sb
.Append(Convert
.ToChar(code
));
647 entity
.Remove(0, entity
.Length
);
649 state
= ParseState
.Text
;
653 // new entity start without end, it was not an entity...
654 sb
.Append("&" + entity
);
655 entity
.Remove(0, entity
.Length
);
659 entity
.Append(text
[i
]);
660 if (entity
.Length
> _maxEntitySize
)
662 // unknown stuff, just don't touch it
663 state
= ParseState
.Text
;
664 sb
.Append("&" + entity
);
665 entity
.Remove(0, entity
.Length
);
674 if (state
== ParseState
.EntityStart
)
676 sb
.Append("&" + entity
);
678 return sb
.ToString();
682 /// Clone and entitize an HtmlNode. This will affect attribute values and nodes' text. It will also entitize all child nodes.
684 /// <param name="node">The node to entitize.</param>
685 /// <returns>An entitized cloned node.</returns>
686 public static HtmlNode
Entitize(HtmlNode node
)
690 throw new ArgumentNullException("node");
692 HtmlNode result
= node
.CloneNode(true);
693 if (result
.HasAttributes
)
694 Entitize(result
.Attributes
);
696 if (result
.HasChildNodes
)
698 Entitize(result
.ChildNodes
);
702 if (result
.NodeType
== HtmlNodeType
.Text
)
704 ((HtmlTextNode
) result
).Text
= Entitize(((HtmlTextNode
) result
).Text
, true, true);
712 /// Replace characters above 127 by entities.
714 /// <param name="text">The source text.</param>
715 /// <returns>The result text.</returns>
716 public static string Entitize(string text
)
718 return Entitize(text
, true);
722 /// Replace characters above 127 by entities.
724 /// <param name="text">The source text.</param>
725 /// <param name="useNames">If set to false, the function will not use known entities name. Default is true.</param>
726 /// <returns>The result text.</returns>
727 public static string Entitize(string text
, bool useNames
)
729 return Entitize(text
, useNames
, false);
733 /// Replace characters above 127 by entities.
735 /// <param name="text">The source text.</param>
736 /// <param name="useNames">If set to false, the function will not use known entities name. Default is true.</param>
737 /// <param name="entitizeQuotAmpAndLtGt">If set to true, the [quote], [ampersand], [lower than] and [greather than] characters will be entitized.</param>
738 /// <returns>The result text</returns>
739 public static string Entitize(string text
, bool useNames
, bool entitizeQuotAmpAndLtGt
)
740 // _entityValue.Add("quot", 34); // quotation mark = APL quote, U+0022 ISOnum
741 // _entityName.Add(34, "quot");
742 // _entityValue.Add("amp", 38); // ampersand, U+0026 ISOnum
743 // _entityName.Add(38, "amp");
744 // _entityValue.Add("lt", 60); // less-than sign, U+003C ISOnum
745 // _entityName.Add(60, "lt");
746 // _entityValue.Add("gt", 62); // greater-than sign, U+003E ISOnum
747 // _entityName.Add(62, "gt");
752 if (text
.Length
== 0)
755 StringBuilder sb
= new StringBuilder(text
.Length
);
756 for (int i
= 0; i
< text
.Length
; i
++)
760 (entitizeQuotAmpAndLtGt
&& ((code
== 34) || (code
== 38) || (code
== 60) || (code
== 62))))
762 string entity
= _entityName
[code
] as string;
763 if ((entity
== null) || (!useNames
))
765 sb
.Append("&#" + code
+ ";");
769 sb
.Append("&" + entity
+ ";");
778 return sb
.ToString();
783 #region Private Methods
785 private static void Entitize(HtmlAttributeCollection collection
)
787 foreach (HtmlAttribute at
in collection
)
789 at
.Value
= Entitize(at
.Value
);
793 private static void Entitize(HtmlNodeCollection collection
)
795 foreach (HtmlNode node
in collection
)
797 if (node
.HasAttributes
)
798 Entitize(node
.Attributes
);
800 if (node
.HasChildNodes
)
802 Entitize(node
.ChildNodes
);
806 if (node
.NodeType
== HtmlNodeType
.Text
)
808 ((HtmlTextNode
) node
).Text
= Entitize(((HtmlTextNode
) node
).Text
, true, true);
816 #region Nested type: ParseState
818 private enum ParseState