html2txt: Support for UTF-8
[urlwatch.git] / README
blob5fc21d03faf5308f6319c78574cc3076fa25dc33
1 URLWATCH README
2 ===============
4 ABOUT
5 -----
7 This is a simple URL watcher, designed to send you diffs of webpages as they
8 change. Ideal for watching web pages of university courses, so you always
9 know when lecture dates have changed or new tasks are online :)
12 DEPENDENCIES
13 ------------
15 This package requires the "concurrent.futures" module as included in Python
16 3.2. For Python versions < 3.2, you can install it using:
18     pip install futures
20 or download and install it manually from its project page at
22     http://code.google.com/p/pythonfutures/
25 QUICK START
26 -----------
28 1. Start "urlwatch"
29 2. Edit and rename the examples in ~/.urlwatch/
30 3. Add "urlwatch" to your crontab (crontab -e)
31 4. Receive change notifications via e-mail
32 5. Customize your hooks in ~/.urlwatch/lib/
35 FREQUENTLY ASKED QUESTIONS
36 --------------------------
38 Q: How do I add/remove URLs?
39 A: Edit ~/.urlwatch/urls.txt
41 Q: A page changes some content on every reload. How do I prevent urlwatch
42    from always displaying these changes?
43 A: Edit ~/.urlwatch/lib/hooks.py and implement your filters there. Examples
44    are included in the urlwatch source distribution.
46 Q: How do I configure urlwatch as a cron job?
47 A: Use "crontab -e" to add the command "urlwatch" to your crontab. Make sure
48    stdout of your cronjobs is mailed to you, so you also get the notifications.
50 Q: Is there an easy way to show changes of .ics files?
51 A: Indeed there is. See the example hooks.py file.
53 Q: What about badly-formed HTML (long lines, etc..)?
54 A: Use python-utidylib. See the example hooks.py file.
56 Q: Is there a way to make the output more human-readable?
57 Q: Is there a way to turn it into a diff of parsed HTML perhaps?
58 A: Of course. See the example hooks.py file -> use html2txt.html2text(data)
60 Q: Why do I get an error with URLs with spaces in them?
61 A: Please make sure to URL-encode the URLs properly. Use %20 for spaces.
63 Q: The website I want to watch requires a POST request. How do I send one?
64 A: Add the POST data in the same line, separated by a single space. The format
65    in urls.txt is: http://example.org/script.cgi value=5&q=search&button=Go
68 CONTACT
69 -------
71 Website: http://thp.io/2008/urlwatch/
72 E-Mail: m@thp.io
73 Jabber/XMPP: thp@jabber.org