Fixed #4764 -- Added reference to Locale middleware in middleware docs. Thanks, dan...
[django.git] / docs / unicode.txt
blob1ab255970cd527b7dd68cdaada9a05442064974c
1 ======================
2 Unicode data in Django
3 ======================
5 **New in Django development version**
7 Django natively supports Unicode data everywhere. Providing your database can
8 somehow store the data, you can safely pass around Unicode strings to
9 templates, models and the database.
11 This document tells you what you need to know if you're writing applications
12 that use data or templates that are encoded in something other than ASCII.
14 Creating the database
15 =====================
17 Make sure your database is configured to be able to store arbitrary string
18 data. Normally, this means giving it an encoding of UTF-8 or UTF-16. If you use
19 a more restrictive encoding -- for example, latin1 (iso8859-1) -- you won't be
20 able to store certain characters in the database, and information will be lost.
22  * MySQL users, refer to the `MySQL manual`_ (section 10.3.2 for MySQL 5.1) for
23    details on how to set or alter the database character set encoding.
25  * PostgreSQL users, refer to the `PostgreSQL manual`_ (section 21.2.2 in
26    PostgreSQL 8) for details on creating databases with the correct encoding.
28  * SQLite users, there is nothing you need to do. SQLite always uses UTF-8
29    for internal encoding.
31 .. _MySQL manual: http://www.mysql.org/doc/refman/5.1/en/charset-database.html
32 .. _PostgreSQL manual: http://www.postgresql.org/docs/8.2/static/multibyte.html#AEN24104
34 All of Django's database backends automatically convert Unicode strings into
35 the appropriate encoding for talking to the database. They also automatically
36 convert strings retrieved from the database into Python Unicode strings. You
37 don't even need to tell Django what encoding your database uses: that is
38 handled transparently.
40 For more, see the section "The database API" below.
42 General string handling
43 =======================
45 Whenever you use strings with Django -- e.g., in database lookups, template
46 rendering or anywhere else -- you have two choices for encoding those strings.
47 You can use Unicode strings, or you can use normal strings (sometimes called
48 "bytestrings") that are encoded using UTF-8.
50 .. admonition:: Warning
52     A bytestring does not carry any information with it about its encoding.
53     For that reason, we have to make an assumption, and Django assumes that all
54     bytestrings are in UTF-8.
56     If you pass a string to Django that has been encoded in some other format,
57     things will go wrong in interesting ways. Usually, Django will raise a
58     ``UnicodeDecodeError`` at some point.
60 If your code only uses ASCII data, it's safe to use your normal strings,
61 passing them around at will, because ASCII is a subset of UTF-8.
63 Don't be fooled into thinking that if your ``DEFAULT_CHARSET`` setting is set
64 to something other than ``'utf-8'`` you can use that other encoding in your
65 bytestrings! ``DEFAULT_CHARSET`` only applies to the strings generated as
66 the result of template rendering (and e-mail). Django will always assume UTF-8
67 encoding for internal bytestrings. The reason for this is that the
68 ``DEFAULT_CHARSET`` setting is not actually under your control (if you are the
69 application developer). It's under the control of the person installing and
70 using your application -- and if that person chooses a different setting, your
71 code must still continue to work. Ergo, it cannot rely on that setting.
73 In most cases when Django is dealing with strings, it will convert them to
74 Unicode strings before doing anything else. So, as a general rule, if you pass
75 in a bytestring, be prepared to receive a Unicode string back in the result.
77 Translated strings
78 ------------------
80 Aside from Unicode strings and bytestrings, there's a third type of string-like
81 object you may encounter when using Django. The framework's
82 internationalization features introduce the concept of a "lazy translation" --
83 a string that has been marked as translated but whose actual translation result
84 isn't determined until the object is used in a string. This feature is useful
85 in cases where the translation locale is unknown until the string is used, even
86 though the string might have originally been created when the code was first
87 imported.
89 Normally, you won't have to worry about lazy translations. Just be aware that
90 if you examine an object and it claims to be a
91 ``django.utils.functional.__proxy__`` object, it is a lazy translation.
92 Calling ``unicode()`` with the lazy translation as the argument will generate a
93 Unicode string in the current locale.
95 For more details about lazy translation objects, refer to the
96 internationalization_ documentation.
98 .. _internationalization: ../i18n/#lazy-translation
100 Useful utility functions
101 ------------------------
103 Because some string operations come up again and again, Django ships with a few
104 useful functions that should make working with Unicode and bytestring objects
105 a bit easier.
107 Conversion functions
108 ~~~~~~~~~~~~~~~~~~~~
110 The ``django.utils.encoding`` module contains a few functions that are handy
111 for converting back and forth between Unicode and bytestrings.
113     * ``smart_unicode(s, encoding='utf-8', errors='strict')`` converts its
114       input to a Unicode string. The ``encoding`` parameter specifies the input
115       encoding. (For example, Django uses this internally when processing form
116       input data, which might not be UTF-8 encoded.) The ``errors`` parameter
117       takes any of the values that are accepted by Python's ``unicode()``
118       function for its error handling.
120       If you pass ``smart_unicode()`` an object that has a ``__unicode__``
121       method, it will use that method to do the conversion.
123     * ``force_unicode(s, encoding='utf-8', errors='strict')`` is identical to
124       ``smart_unicode()`` in almost all cases. The difference is when the
125       first argument is a `lazy translation`_ instance. While
126       ``smart_unicode()`` preserves lazy translations, ``force_unicode()``
127       forces those objects to a Unicode string (causing the translation to
128       occur). Normally, you'll want to use ``smart_unicode()``. However,
129       ``force_unicode()`` is useful in template tags and filters that
130       absolutely *must* have a string to work with, not just something that can
131       be converted to a string.
133     * ``smart_str(s, encoding='utf-8', strings_only=False, errors='strict')``
134       is essentially the opposite of ``smart_unicode()``. It forces the first
135       argument to a bytestring. The ``strings_only`` parameter, if set to True,
136       will result in Python integers, booleans and ``None`` not being
137       converted to a string (they keep their original types). This is slightly
138       different semantics from Python's builtin ``str()`` function, but the
139       difference is needed in a few places within Django's internals.
141 Normally, you'll only need to use ``smart_unicode()``. Call it as early as
142 possible on any input data that might be either Unicode or a bytestring, and
143 from then on, you can treat the result as always being Unicode.
145 .. _lazy translation: ../i18n/#lazy-translation
147 URI and IRI handling
148 ~~~~~~~~~~~~~~~~~~~~
150 Web frameworks have to deal with URLs (which are a type of URI_). One
151 requirement of URLs is that they are encoded using only ASCII characters.
152 However, in an international environment, you might need to construct a
153 URL from an IRI_ -- very loosely speaking, a URI that can contain Unicode
154 characters. Quoting and converting an IRI to URI can be a little tricky, so
155 Django provides some assistance.
157     * The function ``django.utils.encoding.iri_to_uri()`` implements the
158       conversion from IRI to URI as required by the specification (`RFC
159       3987`_).
161     * The functions ``django.utils.http.urlquote()`` and
162       ``django.utils.http.urlquote_plus()`` are versions of Python's standard
163       ``urllib.quote()`` and ``urllib.quote_plus()`` that work with non-ASCII
164       characters. (The data is converted to UTF-8 prior to encoding.)
166 These two groups of functions have slightly different purposes, and it's
167 important to keep them straight. Normally, you would use ``urlquote()`` on the
168 individual portions of the IRI or URI path so that any reserved characters
169 such as '&' or '%' are correctly encoded. Then, you apply ``iri_to_uri()`` to
170 the full IRI and it converts any non-ASCII characters to the correct encoded
171 values.
173 .. note::
174     Technically, it isn't correct to say that ``iri_to_uri()`` implements the
175     full algorithm in the IRI specification. It doesn't (yet) perform the
176     international domain name encoding portion of the algorithm.
178 The ``iri_to_uri()`` function will not change ASCII characters that are
179 otherwise permitted in a URL. So, for example, the character '%' is not
180 further encoded when passed to ``iri_to_uri()``. This means you can pass a
181 full URL to this function and it will not mess up the query string or anything
182 like that.
184 An example might clarify things here::
186     >>> urlquote(u'Paris & Orléans')
187     u'Paris%20%26%20Orl%C3%A9ans'
188     >>> iri_to_uri(u'/favorites/François/%s' % urlquote(u'Paris & Orléans'))
189     '/favorites/Fran%C3%A7ois/Paris%20%26%20Orl%C3%A9ans'
191 If you look carefully, you can see that the portion that was generated by
192 ``urlquote()`` in the second example was not double-quoted when passed to
193 ``iri_to_uri()``. This is a very important and useful feature. It means that
194 you can construct your IRI without worrying about whether it contains
195 non-ASCII characters and then, right at the end, call ``iri_to_uri()`` on the
196 result.
198 The ``iri_to_uri()`` function is also idempotent, which means the following is
199 always true::
201     iri_to_uri(iri_to_uri(some_string)) = iri_to_uri(some_string)
203 So you can safely call it multiple times on the same IRI without risking
204 double-quoting problems.
206 .. _URI: http://www.ietf.org/rfc/rfc2396.txt
207 .. _IRI: http://www.ietf.org/rfc/rfc3987.txt
208 .. _RFC 3987: IRI_
210 Models
211 ======
213 Because all strings are returned from the database as Unicode strings, model
214 fields that are character based (CharField, TextField, URLField, etc) will
215 contain Unicode values when Django retrieves data from the database. This
216 is *always* the case, even if the data could fit into an ASCII bytestring.
218 You can pass in bytestrings when creating a model or populating a field, and
219 Django will convert it to Unicode when it needs to.
221 Choosing between ``__str__()`` and ``__unicode__()``
222 ----------------------------------------------------
224 One consequence of using Unicode by default is that you have to take some care
225 when printing data from the model.
227 In particular, rather than giving your model a ``__str__()`` method, we
228 recommended you implement a ``__unicode__()`` method. In the ``__unicode__()``
229 method, you can quite safely return the values of all your fields without
230 having to worry about whether they fit into a bytestring or not. (The way
231 Python works, the result of ``__str__()`` is *always* a bytestring, even if you
232 accidentally try to return a Unicode object).
234 You can still create a ``__str__()`` method on your models if you want, of
235 course, but you shouldn't need to do this unless you have a good reason.
236 Django's ``Model`` base class automatically provides a ``__str__()``
237 implementation that calls ``__unicode__()`` and encodes the result into UTF-8.
238 This means you'll normally only need to implement a ``__unicode__()`` method
239 and let Django handle the coercion to a bytestring when required.
241 Taking care in ``get_absolute_url()``
242 -------------------------------------
244 URLs can only contain ASCII characters. If you're constructing a URL from
245 pieces of data that might be non-ASCII, be careful to encode the results in a
246 way that is suitable for a URL. The ``django.db.models.permalink()`` decorator
247 handles this for you automatically.
249 If you're constructing a URL manually (i.e., *not* using the ``permalink()``
250 decorator), you'll need to take care of the encoding yourself. In this case,
251 use the ``iri_to_uri()`` and ``urlquote()`` functions that were documented
252 above_. For example::
254     from django.utils.encoding import iri_to_uri
255     from django.utils.http import urlquote
257     def get_absolute_url(self):
258         url = u'/person/%s/?x=0&y=0' % urlquote(self.location)
259         return iri_to_uri(url)
261 This function returns a correctly encoded URL even if ``self.location`` is
262 something like "Jack visited Paris & Orléans". (In fact, the ``iri_to_uri()``
263 call isn't strictly necessary in the above example, because all the
264 non-ASCII characters would have been removed in quoting in the first line.)
266 .. _above: `URI and IRI handling`_
268 The database API
269 ================
271 You can pass either Unicode strings or UTF-8 bytestrings as arguments to
272 ``filter()`` methods and the like in the database API. The following two
273 querysets are identical::
275     qs = People.objects.filter(name__contains=u'Å')
276     qs = People.objects.filter(name__contains='\xc3\85') # UTF-8 encoding of Å
278 Templates
279 =========
281 You can use either Unicode or bytestrings when creating templates manually::
283         from django.template import Template
284         t1 = Template('This is a bytestring template.')
285         t2 = Template(u'This is a Unicode template.')
287 But the common case is to read templates from the filesystem, and this creates
288 a slight complication: not all filesystems store their data encoded as UTF-8.
289 If your template files are not stored with a UTF-8 encoding, set the ``FILE_CHARSET``
290 setting to the encoding of the files on disk. When Django reads in a template
291 file, it will convert the data from this encoding to Unicode. (``FILE_CHARSET``
292 is set to ``'utf-8'`` by default.)
294 The ``DEFAULT_CHARSET`` setting controls the encoding of rendered templates.
295 This is set to UTF-8 by default.
297 Template tags and filters
298 -------------------------
300 A couple of tips to remember when writing your own template tags and filters:
302     * Always return Unicode strings from a template tag's ``render()`` method
303       and from template filters.
305     * Use ``force_unicode()`` in preference to ``smart_unicode()`` in these
306       places. Tag rendering and filter calls occur as the template is being
307       rendered, so there is no advantage to postponing the conversion of lazy
308       translation objects into strings. It's easier to work solely with Unicode
309       strings at that point.
311 E-mail
312 ======
314 Django's e-mail framework (in ``django.core.mail``) supports Unicode
315 transparently. You can use Unicode data in the message bodies and any headers.
316 However, you're still obligated to respect the requirements of the e-mail
317 specifications, so, for example, e-mail addresses should use only ASCII
318 characters.
320 The following code example demonstrates that everything except e-mail addresses
321 can be non-ASCII::
323     from django.core.mail import EmailMessage
325     subject = u'My visit to Sør-Trøndelag'
326     sender = u'Arnbjörg Ráðormsdóttir <arnbjorg@example.com>'
327     recipients = ['Fred <fred@example.com']
328     body = u'...'
329     EmailMessage(subject, body, sender, recipients).send()
331 Form submission
332 ===============
334 HTML form submission is a tricky area. There's no guarantee that the
335 submission will include encoding information, which means the framework might
336 have to guess at the encoding of submitted data.
338 Django adopts a "lazy" approach to decoding form data. The data in an
339 ``HttpRequest`` object is only decoded when you access it. In fact, most of
340 the data is not decoded at all. Only the ``HttpRequest.GET`` and
341 ``HttpRequest.POST`` data structures have any decoding applied to them. Those
342 two fields will return their members as Unicode data. All other attributes and
343 methods of ``HttpRequest`` return data exactly as it was submitted by the
344 client.
346 By default, the ``DEFAULT_CHARSET`` setting is used as the assumed encoding
347 for form data. If you need to change this for a particular form, you can set
348 the ``encoding`` attribute on an ``HttpRequest`` instance. For example::
350     def some_view(request):
351         # We know that the data must be encoded as KOI8-R (for some reason).
352         request.encoding = 'koi8-r'
353         ...
355 You can even change the encoding after having accessed ``request.GET`` or
356 ``request.POST``, and all subsequent accesses will use the new encoding.
358 Most developers won't need to worry about changing form encoding, but this is
359 a useful feature for applications that talk to legacy systems whose encoding
360 you cannot control.
362 Django does not decode the data of file uploads, because that data is normally
363 treated as collections of bytes, rather than strings. Any automatic decoding
364 there would alter the meaning of the stream of bytes.