glr2.cc: style: quoting changes
[bison.git] / TODO
blobf88a12d4901d2c680eb6a5142415b9ce581d5d8d
1 * Soon
2 ** glr
3 There is no test with "Parse on stack %ld rejected by rule %d" in it.
5 ** yyrline etc.
6 Clarify that rule numbers in the skeletons are 1-based.
8 ** Macros in C++
9 There are many macros that should obey api.prefix: YY_CPLUSPLUS, YY_MOVE,
10 etc.
12 ** YYDEBUG etc. in C++
13 Discourage the use of YYDEBUG in C++ (see thread with Jot).  Stop supporting
14 #define YYSTYPE by the user.
16 Add value_type as a synonym for semantic_type.
18 ** Asymmetries
19 Why are yylval and yylloc treated differently?
21     yystack.yyglrShift (create_state_set_index(0), 0, 0, yylval, &yylloc);
23 ** yyerrok in Java
24 And add tests in calc.at, to prepare work for D.
26 ** YYERROR and yynerrs
27 We are missing some cases.  Write a test case, and check all the skeletons.
29 ** Cex
30 *** Improve gnulib
31 Don't do this (counterexample.c):
33 // This is the fastest way to get the tail node from the gl_list API.
34 gl_list_node_t
35 list_get_end (gl_list_t list)
37   gl_list_node_t sentinel = gl_list_add_last (list, NULL);
38   gl_list_node_t res = gl_list_previous_node (list, sentinel);
39   gl_list_remove_node (list, sentinel);
40   return res;
43 *** Ambiguous rewriting
44 If the user is stupid enough to have equal rules, then the derivations are
45 harder to read:
47     Reduce/reduce conflict on tokens $end, "+", "⊕":
48         2 exp: exp "+" exp .
49         3 exp: exp "+" exp .
50       Example                  exp "+" exp •
51       First derivation         exp ::=[ exp "+" exp • ]
52       Example                  exp "+" exp •
53       Second derivation        exp ::=[ exp "+" exp • ]
55 Do we care about this?  In color, we use twice the same color here, but we
56 could try to use the same color for the same rule.
58 *** XML reports
59 Show the counterexamples.  This is going to be really hard and/or painful.
60 Unless we play it dumb (little structure).
62 ** Bistromathic
63 - How about not evaluating incomplete lines when the text is not finished
64   (as shells do).
66 ** Questions
67 *** Java
68 - Should i18n be part of the Lexer?  Currently it's a static method of
69   Lexer.
71 - is there a migration path that would allow to use TokenKinds in
72   yylex?
74 - define the tokens as an enum too.
76 - promote YYEOF rather than EOF.
78 ** YYerror
79 https://git.savannah.gnu.org/gitweb/?p=gettext.git;a=blob;f=gettext-runtime/intl/plural.y;h=a712255af4f2f739c93336d4ff6556d932a426a5;hb=HEAD
81 should be updated to not use YYERRCODE.  Returning an undef token is good
82 enough.
84 ** Java
85 *** calc.at
86 Stop hard-coding "Calc".  Adjust local.at (look for FIXME).
88 ** A dev warning for b4_
89 Maybe we should check for m4_ and b4_ leaking out of the m4 processing, as
90 Autoconf does.  It would have caught over-quotation issues.
92 ** doc
93 I feel it's ugly to use the GNU style to declare functions in the doc.  It
94 generates tons of white space in the page, and may contribute to bad page
95 breaks.
97 ** consistency
98 token vs terminal.
100 ** api.token.raw
101 The YYUNDEFTOK could be assigned a semantic value so that yyerror could be
102 used to report invalid lexemes.
104 ** push parsers
105 Consider deprecating impure push parsers.  They add a lot of complexity, for
106 a bad feature.  On the other hand, that would make it much harder to sit
107 push parsers on top of pull parser.  Which is currently not relevant, since
108 push parsers are measurably slower.
110 ** %define parse.error formatted
111 How about pushing Bistromathic's yyreport_syntax_error as another standard
112 way to generate the error message, and leave to the user the task of
113 providing the message formats?  Currently in bistro, it reads:
115     const char *
116     error_format_string (int argc)
117     {
118       switch (argc)
119         {
120         default: /* Avoid compiler warnings. */
121         case 0: return _("%@: syntax error");
122         case 1: return _("%@: syntax error: unexpected %u");
123           // TRANSLATORS: '%@' is a location in a file, '%u' is an
124           // "unexpected token", and '%0e', '%1e'... are expected tokens
125           // at this point.
126           //
127           // For instance on the expression "1 + * 2", you'd get
128           //
129           // 1.5: syntax error: expected - or ( or number or function or variable before *
130         case 2: return _("%@: syntax error: expected %0e before %u");
131         case 3: return _("%@: syntax error: expected %0e or %1e before %u");
132         case 4: return _("%@: syntax error: expected %0e or %1e or %2e before %u");
133         case 5: return _("%@: syntax error: expected %0e or %1e or %2e or %3e before %u");
134         case 6: return _("%@: syntax error: expected %0e or %1e or %2e or %3e or %4e before %u");
135         case 7: return _("%@: syntax error: expected %0e or %1e or %2e or %3e or %4e or %5e before %u");
136         case 8: return _("%@: syntax error: expected %0e or %1e or %2e or %3e or %4e or %5e or %6e before %u");
137         }
138     }
140 The message would have to be generated in a string, and pushed to yyerror.
141 Which will be a pain in the neck in yacc.c.
143 If we want to do that, we should think very carefully about the syntax of
144 the format string.
146 ** yyclearin does not invoke the lookahead token's %destructor
147 https://lists.gnu.org/r/bug-bison/2018-02/msg00000.html
148 Rici:
150 > Modifying yyclearin so that it calls yydestruct seems like the simplest
151 > solution to this issue, but it is conceivable that such a change would
152 > break programs which already perform some kind of workaround in order to
153 > destruct the lookahead symbol. So it might be necessary to use some kind of
154 > compatibility %define, or to create a new replacement macro with a
155 > different name such as yydiscardin.
157 > At a minimum, the fact that yyclearin does not invoke the %destructor
158 > should be highlighted in the documentation, since it is not at all obvious.
160 ** Issues in i18n
162 Les catégories d'avertissements incluent :
163   conflicts-sr      conflits S/R (activé par défaut)
164   conflicts-rr      conflits R/R (activé par défaut)
165   dangling-alias    l'alias chaîne n'est pas attaché à un symbole
166   deprecated        construction obsolète
167   empty-rule        règle vide sans %empty
168   midrule-values    valeurs de règle intermédiaire non définies ou inutilisées
169   precedence        priorité et associativité inutiles
170   yacc              incompatibilités avec POSIX Yacc
171   other             tous les autres avertissements (activé par défaut)
172   all               tous les avertissements sauf « dangling-alias » et « yacc »
173   no-CATEGORY       désactiver les avertissements dans CATEGORIE
174   none              désactiver tous les avertissements
175   error[=CATEGORY]  traiter les avertissements comme des erreurs
177 Line -1 and -3 should mention CATEGORIE, not CATEGORY.
179 * Bison 3.8
180 ** Rewrite glr.cc (currently glr2.cc)
181 *** Remove jumps
182 We can probably replace setjmp/longjmp with exceptions.  That would help
183 tremendously other languages such as D and Java that probably have no
184 similar feature.  If we remove jumps, we probably no longer need _Noreturn,
185 so simplify `b4_attribute_define([noreturn])` into `b4_attribute_define`.
187 After discussing with Valentin, it was decided that it's better to stay with
188 jumps, since in some places exceptions are ruled out from C++.
190 *** Coding style
191 Move to our coding conventions.  In particular names such as yy_glr_stack,
192 not yyGLRStack.
194 *** yydebug
195 It should be a member of the parser object, see lalr1.cc.  Let the parser
196 object decide what the debug stream is, rather than open coding std::cerr.
198 *** Avoid pointers
199 There are many places where pointers should be replaced with references.
200 Some occurrences were fixed, but now some have improper names:
202 -yygetToken (int *yycharp, ]b4_namespace_ref[::]b4_parser_class[& yyparser][]b4_pure_if([, glr_stack* yystackp])[]b4_user_formals[)
203 +yygetToken (int& yycharp, ]b4_namespace_ref[::]b4_parser_class[& yyparser][]b4_pure_if([, glr_stack* yystackp])[]b4_user_formals[)
205 yycharp is no longer a Pointer.  And yystackp should probably also be a reference.
207 *** parse.assert
208 Currently all the assertions are enabled.  Once we are confident in glr2.cc,
209 let parse.assert use the same approach as in lalr1.cc.
211 *** debug_stream
212 Stop using std::cerr everywhere.
214 *** glr.c
215 When glr2.cc fully replaces glr.cc, get rid of the glr.cc scaffolding in
216 glr.c.
218 * Chains
219 ** Unit rules / Injection rules (Akim Demaille)
220 Maybe we could expand unit rules (or "injections", see
221 https://homepages.cwi.nl/~daybuild/daily-books/syntax/2-sdf/sdf.html), i.e.,
222 transform
224         exp: arith | bool;
225         arith: exp '+' exp;
226         bool: exp '&' exp;
228 into
230         exp: exp '+' exp | exp '&' exp;
232 when there are no actions.  This can significantly speed up some grammars.
233 I can't find the papers.  In particular the book 'LR parsing: Theory and
234 Practice' is impossible to find, but according to 'Parsing Techniques: a
235 Practical Guide', it includes information about this issue.  Does anybody
236 have it?
238 ** clean up (Akim Demaille)
239 Do not work on these items now, as I (Akim) have branches with a lot of
240 changes in this area (hitting several files), and no desire to have to fix
241 conflicts.  Addressing these items will happen after my branches have been
242 merged.
244 *** lalr.c
245 Introduce a goto struct, and use it in place of from_state/to_state.
246 Rename states1 as path, length as pathlen.
247 Introduce inline functions for things such as nullable[*rp - ntokens]
248 where we need to map from symbol number to nterm number.
250 There are probably a significant part of the relations management that
251 should be migrated on top of a bitsetv.
253 *** closure
254 It should probably take a "state*" instead of two arguments.
256 *** traces
257 The "automaton" and "set" categories are not so useful.  We should probably
258 introduce lr(0) and lalr, just the way we have ielr categories.  The
259 "closure" function is too verbose, it should probably have its own category.
261 "set" can still be used for summarizing the important sets.  That would make
262 tests easy to maintain.
264 *** complain.*
265 Rename these guys as "diagnostics.*" (or "diagnose.*"), since that's the
266 name they have in GCC, clang, etc.  Likewise for the complain_* series of
267 functions.
269 *** ritem
270 states/nstates, rules/nrules, ..., ritem/nritems
271 Fix the latter.
273 *** m4: slot, type, type_tag
274 The meaning of type_tag varies depending on api.value.type.  We should avoid
275 that and using clear definitions with stable semantics.
277 * D programming language
278 There's a number of features that are missing, here sorted in _suggested_
279 order of implementation.
281 When copying code from other skeletons, keep the comments exactly as they
282 are.  Keep the same variable names.  If you change the wording in one place,
283 do it in the others too.  In other words: make sure to keep the
284 maintenance *simple* by avoiding any gratuitous difference.
286 ** CI
287 Check when gdc and ldc.
289 ** Token Constructors
290 It is possible to mix incorrectly kinds and values, and for instance:
292         return parser.Symbol (TokenKind.NUM, "Hello, World!\n");
294 attaches a string value to NUM kind (wrong, of course).  When
295 api.token.constructor is set, in C++, Bison generated "token constructors":
296 parser.make_NUM. parser.make_PLUS, parser.make_STRING, etc.  The previous
297 example becomes
299         return parser.make_NUM ("Hello, World!\n");
301 which would easily be caught by the type checker.
303 ** Push Parser
304 Add support for push parser.  Do not start a nice skeleton, just enhance the
305 current one to support push parsers.  This is going to be a tougher nut to
306 crack.
308 First, you need to understand well how the push parser is expected to work.
309 To this end:
310 - read the doc
311 - look at examples/c/pushcalc
312 - create an example of a Java push parser.
313 - have a look at the generated parser in Java, which has the advantage of
314   being already based on a parser object, instead of just a function.
316 The C case is harder to read, but it may help too.  Keep in mind that
317 because there's no object to maintain state, the C push parser uses some
318 struct (yypstate) to preserve this state.  We don't need this in D, the
319 parser object will suffice.
321 I think working directly on the skeleton to add push-parser support is not
322 the simplest path.  I suggest that you (1) transform a generated parser into
323 a push parser by hand, and then (2) transform lalr1.d to generate such a
324 parser.
326 Use `git commit` frequently to make sure you keep track of your progress.
328 *** (1.a) Prepare pull parser by hand
329 Copy again one of the D examples into say examples/d/pushcalc.  Also
330 check-in the generated parser to facilitate experimentation.
332 - find local variables of yyparse should become members of the parser object
333   (so that we preserve state from one call to the next).
335 - do it in your generated D parser.  We don't need an equivalent for
336   yypstate, because we already have it: that the parser object itself.
338 - have your *pull*-parser (i.e., the good old yy::parser::parse()) work
339   properly this way.  Write and run tests.  That's one of the reasons I
340   suggest using examples/d/calc as a starting point: it already has tests,
341   you can/should add more.
343 At this point you have a pull-parser which you prepared to turn into a
344 push-parser.
346 *** (1.b) Turn pull parser into push parser by hand
348 - look again at how push parsers are implemented in Java/C to see what needs
349   to change in yyparse so that the control is inverted: parse() will
350   be *given* the tokens, instead of having to call yylex itself.  When I say
351   "look at C", I think your best option are (i) yacc.c (look for b4_push_if)
352   and (ii) examples/c/pushcalc.
354 - rename parse() as push_parse(Symbol yyla) (or push_parse(TokenKind, Value,
355   Location)) that takes the symbol as argument.  That's the push parser we
356   are looking for.
358 - define a new parse() function which has the same signature as the usual
359   pull-parser, that repeatedly calls the push_parse function.  Something
360   like this:
362 int parse ()
364  int status = 0;
365  do {
366   status = this->push_parse (yylex());
367  } while (status == YYPUSH_MORE);
368  return status;
371 - show me that parser, so that we can validate the approach.
373 *** (2) Port that into the skeleton
374 - once we agree on the API of the push parser, implement it into lalr1.d.
375   You will probaby need help on this regard, but imitation, again, should
376   help.
378 - have example/d/pushcalc work properly and pass tests
380 - add tests in the "real" test suite.  Do that in tests/calc.at.  I can
381   help.
383 - document
385 ** GLR Parser
386 This is very ambitious.  That's the final boss.  There are currently no
387 "clean" implementation to get inspiration from.
389 glr.c is very clean but:
390 - is low-level C
391 - is a different skeleton from yacc.c
393 glr.cc is (currently) an ugly hack: a C++ shell around glr.c.  Valentin
394 Tolmer is currently rewriting glr.cc to be clean C++, but he is not
395 finished.  There will be a lot a common code between lalr1.cc and glr.cc, so
396 eventually I would like them to be fused into a single skeleton, supporting
397 both deterministic and generalized parsing.
399 It would be great for D to also support this.
401 The basic ideas of GLR are explained here:
403 https://www.codeproject.com/Articles/5259825/GLR-Parsing-in-Csharp-How-to-Use-The-Most-Powerful
405 * Better error messages
406 The users are not provided with enough tools to forge their error messages.
407 See for instance "Is there an option to change the message produced by
408 YYERROR_VERBOSE?" by Simon Sobisch, on bison-help.
410 See also
411 https://www.cs.tufts.edu/~nr/cs257/archive/clinton-jefferey/lr-error-messages.pdf
412 https://research.swtch.com/yyerror
413 http://gallium.inria.fr/~fpottier/publis/fpottier-reachability-cc2016.pdf
415 * Modernization
416 Fix data/skeletons/yacc.c so that it defines YYPTRDIFF_T properly for modern
417 and older C++ compilers.  Currently the code defaults to defining it to
418 'long' for non-GCC compilers, but it should use the proper C++ magic to
419 define it to the same type as the C ptrdiff_t type.
421 * Completion
422 Several features are not available in all the back-ends.
424 - push parsers: glr.c, glr.cc, lalr1.cc (not very difficult)
425 - token constructors: Java, C, D (a bit difficult)
426 - glr: D, Java (super difficult)
428 * Bugs
429 ** Autotest has quotation issues
430 tests/input.at:1730:AT_SETUP([%define errors])
434 $ ./tests/testsuite -l | grep errors | sed q
435   38: input.at:1730      errors
437 * Short term
438 ** Get rid of YYPRINT and b4_toknum
439 Besides yytoknum is wrong when api.token.raw is defined.
441 ** Better design for diagnostics
442 The current implementation of diagnostics is ad hoc, it grew organically.
443 It works as a series of calls to several functions, with dependency of the
444 latter calls on the former.  For instance:
446       complain (&sym->location,
447                 sym->content->status == needed ? complaint : Wother,
448                 _("symbol %s is used, but is not defined as a token"
449                   " and has no rules; did you mean %s?"),
450                 quote_n (0, sym->tag),
451                 quote_n (1, best->tag));
452       if (feature_flag & feature_caret)
453         location_caret_suggestion (sym->location, best->tag, stderr);
455 We should rewrite this in a more FP way:
457 1. build a rich structure that denotes the (complete) diagnostic.
458    "Complete" in the sense that it also contains the suggestions, the list
459    of possible matches, etc.
461 2. send this to the pretty-printing routine.  The diagnostic structure
462    should be sufficient so that we can generate all the 'format' of
463    diagnostics, including the fixits.
465 If properly done, this diagnostic module can be detached from Bison and be
466 put in gnulib.  It could be used, for instance, for errors caught by
467 xgettext.
469 There's certainly already something alike in GCC.  At least that's the
470 impression I get from reading the "-fdiagnostics-format=FORMAT" part of this
471 page:
473 https://gcc.gnu.org/onlinedocs/gcc/Diagnostic-Message-Formatting-Options.html
475 ** Graphviz display code thoughts
476 The code for the --graph option is over two files: print_graph, and
477 graphviz. This is because Bison used to also produce VCG graphs, but since
478 this is no longer true, maybe we could consider these files for fusion.
480 An other consideration worth noting is that print_graph.c (correct me if I
481 am wrong) should contain generic functions, whereas graphviz.c and other
482 potential files should contain just the specific code for that output
483 format. It will probably prove difficult to tell if the implementation is
484 actually generic whilst only having support for a single format, but it
485 would be nice to keep stuff a bit tidier: right now, the construction of the
486 bitset used to show reductions is in the graphviz-specific code, and on the
487 opposite side we have some use of \l, which is graphviz-specific, in what
488 should be generic code.
490 Little effort seems to have been given to factoring these files and their
491 print{,-xml} counterpart. We would very much like to re-use the pretty format
492 of states from .output for the graphs, etc.
494 Since graphviz dies on medium-to-big grammars, maybe consider an other tool?
496 ** push-parser
497 Check it too when checking the different kinds of parsers.  And be
498 sure to check that the initial-action is performed once per parsing.
500 ** m4 names
501 b4_shared_declarations is no longer what it is.  Make it
502 b4_parser_declaration for instance.
504 ** yychar in lalr1.cc
505 There is a large difference bw maint and master on the handling of
506 yychar (which was removed in lalr1.cc).  See what needs to be
507 back-ported.
510     /* User semantic actions sometimes alter yychar, and that requires
511        that yytoken be updated with the new translation.  We take the
512        approach of translating immediately before every use of yytoken.
513        One alternative is translating here after every semantic action,
514        but that translation would be missed if the semantic action
515        invokes YYABORT, YYACCEPT, or YYERROR immediately after altering
516        yychar.  In the case of YYABORT or YYACCEPT, an incorrect
517        destructor might then be invoked immediately.  In the case of
518        YYERROR, subsequent parser actions might lead to an incorrect
519        destructor call or verbose syntax error message before the
520        lookahead is translated.  */
522     /* Make sure we have latest lookahead translation.  See comments at
523        user semantic actions for why this is necessary.  */
524     yytoken = yytranslate_ (yychar);
527 ** Get rid of fake #lines [Bison: ...]
528 Possibly as simple as checking whether the column number is nonnegative.
530 I have seen messages like the following from GCC.
532 <built-in>:0: fatal error: opening dependency file .deps/libltdl/argz.Tpo: No such file or directory
535 ** Discuss about %printer/%destroy in the case of C++.
536 It would be very nice to provide the symbol classes with an operator<<
537 and a destructor.  Unfortunately the syntax we have chosen for
538 %destroy and %printer make them hard to reuse.  For instance, the user
539 is invited to write something like
541    %printer { debug_stream() << $$; } <my_type>;
543 which is hard to reuse elsewhere since it wants to use
544 "debug_stream()" to find the stream to use.  The same applies to
545 %destroy: we told the user she could use the members of the Parser
546 class in the printers/destructors, which is not good for an operator<<
547 since it is no longer bound to a particular parser, it's just a
548 (standalone symbol).
550 * Various
551 ** Rewrite glr.cc in C++ (Valentin Tolmer)
552 As a matter of fact, it would be very interesting to see how much we can
553 share between lalr1.cc and glr.cc.  Most of the skeletons should be common.
554 It would be a very nice source of inspiration for the other languages.
556 Valentin Tolmer is working on this.
558 * From lalr1.cc to yacc.c
559 ** Single stack
560 Merging the three stacks in lalr1.cc simplified the code, prompted for
561 other improvements and also made it faster (probably because memory
562 management is performed once instead of three times).  I suggest that
563 we do the same in yacc.c.
565 (Some time later): it's also very nice to have three stacks: it's more dense
566 as we don't lose bits to padding.  For instance the typical stack for states
567 will use 8 bits, while it is likely to consume 32 bits in a struct.
569 We need trustworthy benchmarks for Bison, for all our backends.  Akim has a
570 few things scattered around; we need to put them in the repo, and make them
571 more useful.
573 * Report
575 ** Figures
576 Some statistics about the grammar and the parser would be useful,
577 especially when asking the user to send some information about the
578 grammars she is working on.  We should probably also include some
579 information about the variables (I'm not sure for instance we even
580 specify what LR variant was used).
582 ** GLR
583 How would Paul like to display the conflicted actions?  In particular,
584 what when two reductions are possible on a given lookahead token, but one is
585 part of $default.  Should we make the two reductions explicit, or just
586 keep $default?  See the following point.
588 ** Disabled Reductions
589 See 'tests/conflicts.at (Defaulted Conflicted Reduction)', and decide
590 what we want to do.
592 ** Documentation
593 Extend with error productions.  The hard part will probably be finding
594 the right rule so that a single state does not exhibit too many yet
595 undocumented ''features''.  Maybe an empty action ought to be
596 presented too.  Shall we try to make a single grammar with all these
597 features, or should we have several very small grammars?
599 * Extensions
600 ** More languages?
601 Well, only if there is really some demand for it.
603 *** PHP
604 https://github.com/scfc/bison-php/blob/master/data/lalr1.php
606 *** Python
607 https://lists.gnu.org/r/bison-patches/2013-09/msg00000.html and following
609 ** Multiple start symbols
610 Would be very useful when parsing closely related languages.  The idea is to
611 declare several start symbols, for instance
613     %start stmt expr
614     %%
615     stmt: ...
616     expr: ...
618 and to generate parse(), parse_stmt() and parse_expr().  Technically, the
619 above grammar would be transformed into
621    %start yy_start
622    %token YY_START_STMT YY_START_EXPR
623    %%
624    yy_start: YY_START_STMT stmt | YY_START_EXPR expr
626 so that there are no new conflicts in the grammar (as would undoubtedly
627 happen with yy_start: stmt | expr).  Then adjust the skeletons so that this
628 initial token (YY_START_STMT, YY_START_EXPR) be shifted first in the
629 corresponding parse function.
631 *** Number of useless symbols
632 AT_TEST(
633 [[%start exp;
634 exp: exp;]],
635 [[input.y: warning: 2 nonterminals useless in grammar [-Wother]
636 input.y: warning: 2 rules useless in grammar [-Wother]
637 input.y:2.8-10: error: start symbol exp does not derive any sentence]])
639 We should say "1 nonterminal": the other one is $accept, which should not
640 participate in the count.
642 *** Tokens
643 Do we want to disallow terminal start symbols?  The limitation is not
644 technical.  Can it be useful to someone to "parse" a token?
646 ** %include
647 This is a popular demand.  We already made many changes in the parser that
648 should make this reasonably easy to implement.
650 Bruce Mardle <marblypup@yahoo.co.uk>
651 https://lists.gnu.org/archive/html/bison-patches/2015-09/msg00000.html
653 However, there are many other things to do before having such a feature,
654 because I don't want a % equivalent to #include (which we all learned to
655 hate).  I want something that builds "modules" of grammars, and assembles
656 them together, paying attention to keep separate bits separated, in pseudo
657 name spaces.
659 ** Push parsers
660 There is demand for push parsers in C++.
662 ** Generate code instead of tables
663 This is certainly quite a lot of work.  See
664 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.50.4539.
666 ** $-1
667 We should find a means to provide an access to values deep in the
668 stack.  For instance, instead of
670         baz: qux { $$ = $<foo>-1 + $<bar>0 + $1; }
672 we should be able to have:
674   foo($foo) bar($bar) baz($bar): qux($qux) { $baz = $foo + $bar + $qux; }
676 Or something like this.
678 ** %if and the like
679 It should be possible to have %if/%else/%endif.  The implementation is
680 not clear: should it be lexical or syntactic.  Vadim Maslow thinks it
681 must be in the scanner: we must not parse what is in a switched off
682 part of %if.  Akim Demaille thinks it should be in the parser, so as
683 to avoid falling into another CPP mistake.
685 (Later): I'm sure there's actually good case for this.  People who need that
686 feature can use m4/cpp on top of Bison.  I don't think it is worth the
687 trouble in Bison itself.
689 ** XML Output
690 There are couple of available extensions of Bison targeting some XML
691 output.  Some day we should consider including them.  One issue is
692 that they seem to be quite orthogonal to the parsing technique, and
693 seem to depend mostly on the possibility to have some code triggered
694 for each reduction.  As a matter of fact, such hooks could also be
695 used to generate the yydebug traces.  Some generic scheme probably
696 exists in there.
698 XML output for GNU Bison and gcc
699    http://www.cs.may.ie/~jpower/Research/bisonXML/
701 XML output for GNU Bison
702    http://yaxx.sourceforge.net/
704 * Coding system independence
705 Paul notes:
707         Currently Bison assumes 8-bit bytes (i.e. that UCHAR_MAX is
708         255).  It also assumes that the 8-bit character encoding is
709         the same for the invocation of 'bison' as it is for the
710         invocation of 'cc', but this is not necessarily true when
711         people run bison on an ASCII host and then use cc on an EBCDIC
712         host.  I don't think these topics are worth our time
713         addressing (unless we find a gung-ho volunteer for EBCDIC or
714         PDP-10 ports :-) but they should probably be documented
715         somewhere.
717         More importantly, Bison does not currently allow NUL bytes in
718         tokens, either via escapes (e.g., "x\0y") or via a NUL byte in
719         the source code.  This should get fixed.
721 * Broken options?
722 ** %token-table
723 ** Skeleton strategy
724 Must we keep %token-table?
726 * Precedence
728 ** Partial order
729 It is unfortunate that there is a total order for precedence.  It
730 makes it impossible to have modular precedence information.  We should
731 move to partial orders (sounds like series/parallel orders to me).
733 This is a prerequisite for modules.
735 * Pre and post actions.
736 From: Florian Krohm <florian@edamail.fishkill.ibm.com>
737 Subject: YYACT_EPILOGUE
738 To: bug-bison@gnu.org
739 X-Sent: 1 week, 4 days, 14 hours, 38 minutes, 11 seconds ago
741 The other day I had the need for explicitly building the parse tree. I
742 used %locations for that and defined YYLLOC_DEFAULT to call a function
743 that returns the tree node for the production. Easy. But I also needed
744 to assign the S-attribute to the tree node. That cannot be done in
745 YYLLOC_DEFAULT, because it is invoked before the action is executed.
746 The way I solved this was to define a macro YYACT_EPILOGUE that would
747 be invoked after the action. For reasons of symmetry I also added
748 YYACT_PROLOGUE. Although I had no use for that I can envision how it
749 might come in handy for debugging purposes.
750 All is needed is to add
752 #if YYLSP_NEEDED
753     YYACT_EPILOGUE (yyval, (yyvsp - yylen), yylen, yyloc, (yylsp - yylen));
754 #else
755     YYACT_EPILOGUE (yyval, (yyvsp - yylen), yylen);
756 #endif
758 at the proper place to bison.simple. Ditto for YYACT_PROLOGUE.
760 I was wondering what you think about adding YYACT_PROLOGUE/EPILOGUE
761 to bison. If you're interested, I'll work on a patch.
763 * Better graphics
764 Equip the parser with a means to create the (visual) parse tree.
767 -----
769 # LocalWords:  Cex gnulib gl Bistromathic TokenKinds yylex enum YYEOF EOF
770 # LocalWords:  YYerror gettext af hb YYERRCODE undef calc FIXME dev yyerror
771 # LocalWords:  Autoconf YYUNDEFTOK lexemes parsers Bistromathic's yyreport
772 # LocalWords:  const argc yacc yyclearin lookahead destructor Rici incluent
773 # LocalWords:  yydestruct yydiscardin catégories d'avertissements sr activé
774 # LocalWords:  conflits défaut rr l'alias chaîne n'est attaché un symbole
775 # LocalWords:  obsolète règle vide midrule valeurs de intermédiaire ou avec
776 # LocalWords:  définies inutilisées priorité associativité inutiles POSIX
777 # LocalWords:  incompatibilités tous les autres avertissements sauf dans rp
778 # LocalWords:  désactiver CATEGORIE traiter comme des erreurs glr Akim bool
779 # LocalWords:  Demaille arith lalr goto struct pathlen nullable ntokens lr
780 # LocalWords:  nterm bitsetv ielr ritem nstates nrules nritems yysymbol EQ
781 # LocalWords:  SymbolKind YYEMPTY YYUNDEF YYTNAME NUM yyntokens yytname sed
782 # LocalWords:  nonterminals yykind yycode YYNAMES yynames init getName conv
783 # LocalWords:  TokenKind ival yychar yylval yylexer Tolmer hoc
784 # LocalWords:  Sobisch YYPTRDIFF ptrdiff Autotest YYPRINT toknum yytoknum
785 # LocalWords:  sym Wother stderr FP fixits xgettext fdiagnostics Graphviz
786 # LocalWords:  graphviz VCG bitset xml bw maint yytoken YYABORT deps
787 # LocalWords:  YYACCEPT yytranslate nonnegative destructors yyerrlab repo
788 # LocalWords:  backends stmt expr yy Mardle baz qux Vadim Maslow CPP cpp
789 # LocalWords:  yydebug gcc UCHAR EBCDIC gung PDP NUL Pre Florian Krohm utf
790 # LocalWords:  YYACT YYLLOC YYLSP yyval yyvsp yylen yyloc yylsp endif
791 # LocalWords:  ispell american
793 Local Variables:
794 mode: outline
795 coding: utf-8
796 fill-column: 76
797 ispell-dictionary: "american"
798 End:
800 Copyright (C) 2001-2004, 2006, 2008-2015, 2018-2020 Free Software
801 Foundation, Inc.
803 This file is part of Bison, the GNU Compiler Compiler.
805 Permission is granted to copy, distribute and/or modify this document
806 under the terms of the GNU Free Documentation License, Version 1.3 or
807 any later version published by the Free Software Foundation; with no
808 Invariant Sections, with no Front-Cover Texts, and with no Back-Cover
809 Texts.  A copy of the license is included in the "GNU Free
810 Documentation License" file as part of this distribution.