TIKA-99: Support external parser programs
[tika.git] / CHANGES.txt
blobbc6f5b1fcd3532f07738a153fbdffd520c7c7a7e
1 Tika Change Log
3 Unreleased changes (0.2-incubating)
5 1.  TIKA-109 - WordParser fails on some Word files (Dave Meikle)
7 2.  TIKA-105 - Excel parser implementation based on POI's Event API
8                (Niall Pemberton)
10 3.  TIKA-116 - Streaming parser for OpenDocument files (Jukka Zitting)
12 4.  TIKA-117 - Drop JDOM and Jaxen dependencies (Jukka Zitting)
14 5.  TIKA-115 - Tika package with all the dependencies (Jukka Zitting)
16 6.  TIKA-97  - Tika GUI (Jukka Zitting)
18 7.  TIKA-96  - Tika CLI (Jukka Zitting)
20 8.  TIKA-112 - Use Commons IO 1.4 (Jukka Zitting)
22 9.  TIKA-126 - Add Parser.parse(InputStream, Metadata) for metadata extraction
23               (Jukka Zitting)
25 10. TIKA-127 - Add support for Visio files (Jukka Zitting)
27 11. TIKA-129 - node() support for the streaming XPath utility (Jukka Zitting)
29 12. TIKA-130 - self-or-descendant axis does not match self in streaming XPath
30                (Jukka Zitting)
32 13. TIKA-131 - Lazy XHTML prefix generation (Jukka Zitting)
34 14. TIKA-128 - HTML parser should produce XHTML SAX events (Jukka Zitting)
36 15. TIKA-133 - TeeContentHandler constructor should use varargs (Jukka Zitting)
38 16. TIKA-132 - Refactor Excel extractor to parse per sheet and add
39                hyperlink support (Niall Pemberton)
41 17. TIKA-134 - mvn package does not produce packages for bin/src
42                (Karl Heinz Marbaise)
44 18. TIKA-138 - Ignore HTML style and script content (Jukka Zitting)
46 19. TIKA-113 - Metadata (such as title) should not be part of content
47                (Jukka Zitting)
49 20. TIKA-139 - Add a composite parser (Jukka Zitting)
51 21. TIKA-142 - Include application/xhtml+xml as valid mime type for XMLParser
52                (mattmann)
54 22. TIKA-143 - Add ParsingReader (Jukka Zitting)
56 23. TIKA-144 - Upgrade nekohtml dependency (Jukka Zitting)
58 24. TIKA-145 - Separate NOTICEs and LICENSEs for binary and source packages
59                (Jukka Zitting)
61 25. TIKA-146 - Upgrade to POI 3.1 (Jukka Zitting)
63 26. TIKA-99 - Support external parser programs (Jukka Zitting)
65 Release 0.1-incubating - 12/27/2007
67 1. TIKA-5 - Port Metadata Framework from Nutch (mattmann)
69 2. TIKA-11 - Consolidate test classes into a src/test/java directory tree (mattmann)
71 3. TIKA-15 - Utils.print does not print a Content having no value (jukka)
73 4. TIKA-19 - org.apache.tika.TestParsers fails (bdelacretaz)
75 5. TIKA-16 - Issues with data files used for testing by TestParsers (bdelacretaz)
77 6. TIKA-14 - MimeTypeUtils.getMimeType() returns the default mime type for 
78              .odt (Open Office) file (bdelacretaz)
80 7. TIKA-12 - Add URL capability to MimeTypesUtils (jukka)
82 8. TIKA-13 - Fix obsolete package names in config.xml (siren)
84 9. TIKA-10 - Remove MimeInfoException catch clauses and import from TestParsers (siren)
86 10. TIKA-8 - Replaced the jmimeinfo dependency with a trivial mime type detector (jukka)
88 11. TIKA-7 - Added the Lius Lite code. Added missing dependencies to POM (jukka)
90 12. TIKA-18 - "Office" interface should be renamed "MSOffice" (mattmann)
92 13. TIKA-23 - Decouple Parser from ParserConfig (jukka)
94 14. TIKA-6 - Port Nutch (or better) MimeType detection system into Tika (J. Charron & mattmann)
96 15. TIKA-25 - Removed hardcoded reference to C:\oo.xml in OpenOfficeParser (K. Bennett & jukka)
98 16. TIKA-17 - Need to support URL's for input resources. (K. Bennett & mattmann)
100 17. TIKA-22 - Remove @author tags from the java source (mattmann)
102 18. TIKA-21 - Simplified configuration code (jukka)
104 19. TIKA-17 - Rename all "Lius" classes to be "Tika" classes (jukka)
106 20. TIKA-30 - Added utility constructors to TikaConfig (K. Bennett & jukka)
108 21. TIKA-28 - Rename config.xml to tika-config.xml or similar (mattmann)
110 22. TIKA-26 - Use Map<String, Content> instead of List<Content> (jukka)
112 23. TIKA-31 - protected Parser.parse(InputStream stream,
113               Iterable<Content> contents) (jukka & K. Bennett)
114               
115 24. TIKA-36 - A convenience method for getting a document's content's text 
116               would be helpful (K. Bennett & mattmann)
117   
118 25. TIKA-33 - Stateless parsers (jukka)
120 26. TIKA-38 - TXTParser adds a space to the content it reads from a file (K. Bennett & ridabenjelloun)
122 27. TIKA-35 - Extract MsOffice properties, use RereadableInputStream devloped by K. Bennett (ridabenjelloun & K. Bennett)
124 28. TIKA-39 - Excel parsing improvements (siren & ridabenjelloun)
126 29. TIKA-34 - Provide a method that will return a default configuration 
127               (TikaConfig) (K. Bennett & mattmann)
129 30. TIKA-42 - Content class needs (String, String, String) constructor (K. Bennett)
131 31. TIKA-43 - Parser interface (jukka)
133 32. TIKA-47 - Remove TikaLogger (jukka)
135 33. TIKA-46 - Use Metadata in Parser (jukka & mattmann)
137 34. TIKA-48 - Merge MS Extractors and Parsers (jukka)
139 35. TIKA-45 - RereadableInputStream needs to be able to read to
140               the end of the original stream on first rewind. (K. Bennett)
142 36. TIKA-41 - Resource files occur twice in jar file. (jukka)
144 37. TIKA-49 - Some files have old-style license headers, fixed (Robert Burrell Donkin & bdelacretaz)
146 38. TIKA-51 - Leftover temp files after running Tika tests, fixed (bdelacretaz)
148 39. TIKA-40 - Tika needs to support diverse character encodings (jukka)
150 40. TIKA-55 - ParseUtils.getParser() method variants should have consistent parameter orders
151               (K. Bennett)
153 41. TIKA-52 - RereadableInputStream needs to support not closing the input stream it wraps.
154               (K. Bennett via bdelacretaz)
156 42. TIKA-53 - XHTML SAX events from parsers (jukka)
158 43. TIKA-57 - Rename org.apache.tika.ms to org.apache.tika.parser.ms (jukka)
160 44. TIKA-62 - Use TikaConfig.getDefaultConfig() instead of a hardcoded
161               config path in TestParsers (jukka)
163 45. TIKA-58 - Replace jtidy html parser with nekohtml based parser (siren)
165 46. TIKA-60 - Rename Microsoft parser classes (jukka)
167 47. TIKA-63 - Avoid multiple passes over the input stream in Microsoft parsers
168               (jukka)
170 48. TIKA-66 - Use Java 5 features in org.apache.tika.mime (jukka)
172 49. TIKA-56 - Mime type detection fails with upper case file extensions such as "PDF"
173              (mattmann)
175 50. TIKA-65 - Add encode detection support for HTML parser (siren)
177 51. TIKA-68 - Add dummy parser classes to be used as sentinels (jukka)
179 52. TIKA-67 - Add an auto-detecting Parser implementation (jukka)
181 53. TIKA-70 - Better MIME information for the Open Document formats (jukka)
183 54. TIKA-71 - Remove ParserConfig and ParserFactory (jukka)
185 55. TIKA-83 - Create a org.apache.tika.sax package for SAX utilities (jukka)
187 56. TIKA-84 - Add MimeTypes.getMimeType(InputStream) (jukka)
189 57. TIKA-85 - Add glob patterns from the ASF svn:eol-style documentation (jukka)
191 58. TIKA-100 - Structured PDF parsing (jukka)
193 59. TIKA-101 - Improve site and build (mattmann)
195 60. TIKA-102 - Parser implementations loading a large amount of content
196                into a single String could be problematic (Niall Pemberton)
198 61. TIKA-107 - Remove use of assertions for argument checking (Niall Pemberton)
200 62. TIKA-104 - Add utility methods to throw IOException with the caused
201                intialized (jukka & Niall Pemberton)
203 63. TIKA-106 - Remove dependency on Jakarta ORO - use JDK 1.4 Regex
204                (Niall Pemberton)
206 64. TIKA-111 - Missing license headers (jukka)
208 65. TIKA-112 - XMLParser improvement (ridabenjelloun)