TIKA-99: Support external parser programs
[tika.git] / README.txt
blob700420684d64b5d1c788e38b98ab78775dcc3e3d
1 ===========================================================
2 Welcome to Apache Tika  <http://incubator.apache.org/tika/>
3 ===========================================================
5 Apache Tika is a toolkit for detecting and extracting metadata and
6 structured text content from various documents using existing parser
7 libraries. 
9 Apache Tika is an effort undergoing incubation at The Apache Software
10 Foundation (ASF), sponsored by the Apache Lucene PMC. Incubation is
11 required of all newly accepted projects until a further review indicates
12 that the infrastructure, communications, and decision making process have
13 stabilized in a manner consistent with other successful ASF projects.
14 While incubation status is not necessarily a reflection of the completeness
15 or stability of the code, it does indicate that the project has yet to be
16 fully endorsed by the ASF.
18 See http://incubator.apache.org/projects/tika.html for the current
19 incubation status of the Apache Tika project.
21 License (see also LICENSE.txt)
22 ==============================
24 Collective work: Copyright 2007-2008 The Apache Software Foundation.
26 Licensed to the Apache Software Foundation (ASF) under one or more
27 contributor license agreements.  See the NOTICE file distributed with
28 this work for additional information regarding copyright ownership.
29 The ASF licenses this file to You under the Apache License, Version 2.0
30 (the "License"); you may not use this file except in compliance with
31 the License.  You may obtain a copy of the License at
33      http://www.apache.org/licenses/LICENSE-2.0
35 Unless required by applicable law or agreed to in writing, software
36 distributed under the License is distributed on an "AS IS" BASIS,
37 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
38 See the License for the specific language governing permissions and
39 limitations under the License.
41 Apache Tika includes a number of subcomponents with separate copyright
42 notices and license terms. Your use of these subcomponents is subject to
43 the terms and conditions of the licenses listed in the LICENSE.txt file.
45 Export control
46 ==============
48 This distribution includes cryptographic software.  The country in  which
49 you currently reside may have restrictions on the import,  possession, use,
50 and/or re-export to another country, of encryption software.  BEFORE using
51 any encryption software, please  check your country's laws, regulations and
52 policies concerning the import, possession, or use, and re-export of
53 encryption software, to  see if this is permitted.  See
54 <http://www.wassenaar.org/> for more information.
56 The U.S. Government Department of Commerce, Bureau of Industry and
57 Security (BIS), has classified this software as Export Commodity Control
58 Number (ECCN) 5D002.C.1, which includes information security software using
59 or performing cryptographic functions with asymmetric algorithms.  The form
60 and manner of this Apache Software Foundation distribution makes it eligible
61 for export under the License Exception ENC Technology Software Unrestricted
62 (TSU) exception (see the BIS Export Administration Regulations, Section
63 740.13) for both object code and source code.
65 The following provides more details on the included cryptographic software:
67     Apache Tika uses the Bouncy Castle generic encryption libraries for
68     extracting text content and metadata from encrypted PDF files.
69     See http://www.bouncycastle.org/ for more details on Bouncy Castle.
71 Building Tika
72 =============
74 You can build the Tika sources using the Maven 2 build system. Execute the
75 following command in the Tika source directory to build the sources and
76 to install the resulting jar artifact in your local Maven repository:
78     mvn install
80 See the Maven web site at http://maven.apache.org/ for more instructions
81 and the latest Maven downloads. 
83 Mailing Lists
84 =============
86 Discussion about the Tika project takes place on the development mailing
87 list tika-dev@incubator.apache.org. The list is open to anyone and
88 publicly archived. You can subscribe the mailing list by sending a
89 message to tika-dev-subscribe@incubator.apache.org, and unsubscribe by
90 sending a message to tika-dev-unsubscribe@incubator.apache.org. To receive
91 more instructions, send a message to tika-dev-help@incubator.apache.org.
93 Issue Tracker
94 =============
96 If you encounter errors in Tika or want to suggest an improvement or
97 a new feature, please visit the Tika issue tracker at
98 https://issues.apache.org/jira/browse/TIKA. There you can also find the
99 latest information on known issues and recent bug fixes and enhancements.
101 Updating the Tika web site
102 ==========================
104 Here's how to update the live Tika website (http://incubator.apache.org/tika/)
106     1) Edit the content found in src/site
108     2) Run "mvn site" to generate the website pages
110     3) Check the new content at target/site/index.html
112     4) Checkout https://svn.apache.org/repos/asf/incubator/tika/site
113        and update the changed pages there
115     5) Commit your changes, both here and in the tika/site module
117     6) To activate the changes on the live website, login to 
118        people.apache.org and run:
120            umask 002; svn update /www/incubator.apache.org/tika
122     7) That directory is replicated to the live website every few hours,
123        so your changes can take some time to be live.
125 Easy and fun, isn't it? ;-)
127 This will get better once Tika graduates from the Incubator.