console_codes.4, inode.7: srcfix
[man-pages.git] / man / man7 / socket.7
blob5b45e4cdf3dd0979dc3fd34f68608749bb62e7a2
1 '\" t
2 .\" SPDX-License-Identifier: Linux-man-pages-1-para
3 .\"
4 .\" This man page is Copyright (C) 1999 Andi Kleen <ak@muc.de>.
5 .\" and copyright (c) 1999 Matthew Wilcox.
6 .\"
7 .\" 2002-10-30, Michael Kerrisk, <mtk.manpages@gmail.com>
8 .\"     Added description of SO_ACCEPTCONN
9 .\" 2004-05-20, aeb, added SO_RCVTIMEO/SO_SNDTIMEO text.
10 .\" Modified, 27 May 2004, Michael Kerrisk <mtk.manpages@gmail.com>
11 .\"     Added notes on capability requirements
12 .\"     A few small grammar fixes
13 .\" 2010-06-13 Jan Engelhardt <jengelh@medozas.de>
14 .\"     Documented SO_DOMAIN and SO_PROTOCOL.
15 .\"
16 .\" FIXME
17 .\" The following are not yet documented:
18 .\"
19 .\" SO_PEERNAME (2.4?)
20 .\"     get only
21 .\"     Seems to do something similar to getpeername(), but then
22 .\"     why is it necessary / how does it differ?
23 .\"
24 .\" SO_TIMESTAMPING (2.6.30)
25 .\"     Documentation/networking/timestamping.txt
26 .\"     commit cb9eff097831007afb30d64373f29d99825d0068
27 .\"     Author: Patrick Ohly <patrick.ohly@intel.com>
28 .\"
29 .\"  SO_WIFI_STATUS (3.3)
30 .\"     commit 6e3e939f3b1bf8534b32ad09ff199d88800835a0
31 .\"     Author: Johannes Berg <johannes.berg@intel.com>
32 .\"     Also: SCM_WIFI_STATUS
33 .\"
34 .\" SO_NOFCS (3.4)
35 .\"     commit 3bdc0eba0b8b47797f4a76e377dd8360f317450f
36 .\"     Author: Ben Greear <greearb@candelatech.com>
37 .\"
38 .\"  SO_GET_FILTER (3.8)
39 .\"     commit a8fc92778080c845eaadc369a0ecf5699a03bef0
40 .\"     Author: Pavel Emelyanov <xemul@parallels.com>
41 .\"
42 .\" SO_MAX_PACING_RATE (3.13)
43 .\"     commit 62748f32d501f5d3712a7c372bbb92abc7c62bc7
44 .\"     Author: Eric Dumazet <edumazet@google.com>
45 .\"
46 .\" SO_BPF_EXTENSIONS (3.14)
47 .\"     commit ea02f9411d9faa3553ed09ce0ec9f00ceae9885e
48 .\"     Author: Michal Sekletar <msekleta@redhat.com>
49 .\"
50 .TH socket 7 (date) "Linux man-pages (unreleased)"
51 .SH NAME
52 socket \- Linux socket interface
53 .SH SYNOPSIS
54 .nf
55 .B #include <sys/socket.h>
57 .IB sockfd " = socket(int " socket_family ", int " socket_type ", int " protocol );
58 .fi
59 .SH DESCRIPTION
60 This manual page describes the Linux networking socket layer user
61 interface.
62 The BSD compatible sockets
63 are the uniform interface
64 between the user process and the network protocol stacks in the kernel.
65 The protocol modules are grouped into
66 .I protocol families
67 such as
68 .BR AF_INET ", " AF_IPX ", and " AF_PACKET ,
69 and
70 .I socket types
71 such as
72 .B SOCK_STREAM
74 .BR SOCK_DGRAM .
75 See
76 .BR socket (2)
77 for more information on families and types.
78 .SS Socket-layer functions
79 These functions are used by the user process to send or receive packets
80 and to do other socket operations.
81 For more information, see their respective manual pages.
83 .BR socket (2)
84 creates a socket,
85 .BR connect (2)
86 connects a socket to a remote socket address,
87 the
88 .BR bind (2)
89 function binds a socket to a local socket address,
90 .BR listen (2)
91 tells the socket that new connections shall be accepted, and
92 .BR accept (2)
93 is used to get a new socket with a new incoming connection.
94 .BR socketpair (2)
95 returns two connected anonymous sockets (implemented only for a few
96 local families like
97 .BR AF_UNIX )
99 .BR send (2),
100 .BR sendto (2),
102 .BR sendmsg (2)
103 send data over a socket, and
104 .BR recv (2),
105 .BR recvfrom (2),
106 .BR recvmsg (2)
107 receive data from a socket.
108 .BR poll (2)
110 .BR select (2)
111 wait for arriving data or a readiness to send data.
112 In addition, the standard I/O operations like
113 .BR write (2),
114 .BR writev (2),
115 .BR sendfile (2),
116 .BR read (2),
118 .BR readv (2)
119 can be used to read and write data.
121 .BR getsockname (2)
122 returns the local socket address and
123 .BR getpeername (2)
124 returns the remote socket address.
125 .BR getsockopt (2)
127 .BR setsockopt (2)
128 are used to set or get socket layer or protocol options.
129 .BR ioctl (2)
130 can be used to set or read some other options.
132 .BR close (2)
133 is used to close a socket.
134 .BR shutdown (2)
135 closes parts of a full-duplex socket connection.
137 Seeking, or calling
138 .BR pread (2)
140 .BR pwrite (2)
141 with a nonzero position is not supported on sockets.
143 It is possible to do nonblocking I/O on sockets by setting the
144 .B O_NONBLOCK
145 flag on a socket file descriptor using
146 .BR fcntl (2).
147 Then all operations that would block will (usually)
148 return with
149 .B EAGAIN
150 (operation should be retried later);
151 .BR connect (2)
152 will return
153 .B EINPROGRESS
154 error.
155 The user can then wait for various events via
156 .BR poll (2)
158 .BR select (2).
160 tab(:) allbox;
161 c s s
162 l l lx.
163 I/O events
164 Event:Poll flag:Occurrence
165 Read:POLLIN:T{
166 New data arrived.
168 Read:POLLIN:T{
169 A connection setup has been completed
170 (for connection-oriented sockets)
172 Read:POLLHUP:T{
173 A disconnection request has been initiated by the other end.
175 Read:POLLHUP:T{
176 A connection is broken (only for connection-oriented protocols).
177 When the socket is written
178 .B SIGPIPE
179 is also sent.
181 Write:POLLOUT:T{
182 Socket has enough send buffer space for writing new data.
184 Read/Write:T{
185 POLLIN |
187 POLLOUT
188 T}:T{
189 An outgoing
190 .BR connect (2)
191 finished.
193 Read/Write:POLLERR:T{
194 An asynchronous error occurred.
196 Read/Write:POLLHUP:T{
197 The other end has shut down one direction.
199 Exception:POLLPRI:T{
200 Urgent data arrived.
201 .B SIGURG
202 is sent then.
204 .\" FIXME . The following is not true currently:
205 .\" It is no I/O event when the connection
206 .\" is broken from the local end using
207 .\" .BR shutdown (2)
208 .\" or
209 .\" .BR close (2).
212 An alternative to
213 .BR poll (2)
215 .BR select (2)
216 is to let the kernel inform the application about events
217 via a
218 .B SIGIO
219 signal.
220 For that the
221 .B O_ASYNC
222 flag must be set on a socket file descriptor via
223 .BR fcntl (2)
224 and a valid signal handler for
225 .B SIGIO
226 must be installed via
227 .BR sigaction (2).
228 See the
229 .I Signals
230 discussion below.
231 .SS Socket address structures
232 Each socket domain has its own format for socket addresses,
233 with a domain-specific address structure.
234 Each of these structures begins with an
235 integer "family" field (typed as
236 .IR sa_family_t )
237 that indicates the type of the address structure.
238 This allows
239 the various system calls (e.g.,
240 .BR connect (2),
241 .BR bind (2),
242 .BR accept (2),
243 .BR getsockname (2),
244 .BR getpeername (2)),
245 which are generic to all socket domains,
246 to determine the domain of a particular socket address.
248 To allow any type of socket address to be passed to
249 interfaces in the sockets API,
250 the type
251 .I struct sockaddr
252 is defined.
253 The purpose of this type is purely to allow casting of
254 domain-specific socket address types to a "generic" type,
255 so as to avoid compiler warnings about type mismatches in
256 calls to the sockets API.
258 In addition, the sockets API provides the data type
259 .IR "struct sockaddr_storage".
260 This type
261 is suitable to accommodate all supported domain-specific socket
262 address structures; it is large enough and is aligned properly.
263 (In particular, it is large enough to hold
264 IPv6 socket addresses.)
265 The structure includes the following field, which can be used to identify
266 the type of socket address actually stored in the structure:
268 .in +4n
270     sa_family_t ss_family;
275 .I sockaddr_storage
276 structure is useful in programs that must handle socket addresses
277 in a generic way
278 (e.g., programs that must deal with both IPv4 and IPv6 socket addresses).
279 .SS Socket options
280 The socket options listed below can be set by using
281 .BR setsockopt (2)
282 and read with
283 .BR getsockopt (2)
284 with the socket level set to
285 .B SOL_SOCKET
286 for all sockets.
287 Unless otherwise noted,
288 .I optval
289 is a pointer to an
290 .IR int .
291 .\" FIXME .
292 .\" In the list below, the text used to describe argument types
293 .\" for each socket option should be more consistent
295 .\" SO_ACCEPTCONN is in POSIX.1-2001, and its origin is explained in
296 .\" W R Stevens, UNPv1
298 .B SO_ACCEPTCONN
299 Returns a value indicating whether or not this socket has been marked
300 to accept connections with
301 .BR listen (2).
302 The value 0 indicates that this is not a listening socket,
303 the value 1 indicates that this is a listening socket.
304 This socket option is read-only.
306 .BR SO_ATTACH_FILTER " (since Linux 2.2)"
308 .BR SO_ATTACH_BPF " (since Linux 3.19)"
309 Attach a classic BPF
310 .RB ( SO_ATTACH_FILTER )
311 or an extended BPF
312 .RB ( SO_ATTACH_BPF )
313 program to the socket for use as a filter of incoming packets.
314 A packet will be dropped if the filter program returns zero.
315 If the filter program returns a
316 nonzero value which is less than the packet's data length,
317 the packet will be truncated to the length returned.
318 If the value returned by the filter is greater than or equal to the
319 packet's data length, the packet is allowed to proceed unmodified.
321 The argument for
322 .B SO_ATTACH_FILTER
323 is a
324 .I sock_fprog
325 structure, defined in
326 .IR <linux/filter.h> :
328 .in +4n
330 struct sock_fprog {
331     unsigned short      len;
332     struct sock_filter *filter;
337 The argument for
338 .B SO_ATTACH_BPF
339 is a file descriptor returned by the
340 .BR bpf (2)
341 system call and must refer to a program of type
342 .BR BPF_PROG_TYPE_SOCKET_FILTER .
344 These options may be set multiple times for a given socket,
345 each time replacing the previous filter program.
346 The classic and extended versions may be called on the same socket,
347 but the previous filter will always be replaced such that a socket
348 never has more than one filter defined.
350 Both classic and extended BPF are explained in the kernel source file
351 .I Documentation/networking/filter.txt
353 .B SO_ATTACH_REUSEPORT_CBPF
355 .B SO_ATTACH_REUSEPORT_EBPF
356 For use with the
357 .B SO_REUSEPORT
358 option, these options allow the user to set a classic BPF
359 .RB ( SO_ATTACH_REUSEPORT_CBPF )
360 or an extended BPF
361 .RB ( SO_ATTACH_REUSEPORT_EBPF )
362 program which defines how packets are assigned to
363 the sockets in the reuseport group (that is, all sockets which have
364 .B SO_REUSEPORT
365 set and are using the same local address to receive packets).
367 The BPF program must return an index between 0 and N\-1 representing
368 the socket which should receive the packet
369 (where N is the number of sockets in the group).
370 If the BPF program returns an invalid index,
371 socket selection will fall back to the plain
372 .B SO_REUSEPORT
373 mechanism.
375 Sockets are numbered in the order in which they are added to the group
376 (that is, the order of
377 .BR bind (2)
378 calls for UDP sockets or the order of
379 .BR listen (2)
380 calls for TCP sockets).
381 New sockets added to a reuseport group will inherit the BPF program.
382 When a socket is removed from a reuseport group (via
383 .BR close (2)),
384 the last socket in the group will be moved into the closed socket's
385 position.
387 These options may be set repeatedly at any time on any socket in the group
388 to replace the current BPF program used by all sockets in the group.
390 .B SO_ATTACH_REUSEPORT_CBPF
391 takes the same argument type as
392 .B SO_ATTACH_FILTER
394 .B SO_ATTACH_REUSEPORT_EBPF
395 takes the same argument type as
396 .BR SO_ATTACH_BPF .
398 UDP support for this feature is available since Linux 4.5;
399 TCP support is available since Linux 4.6.
401 .B SO_BINDTODEVICE
402 Bind this socket to a particular device like \[lq]eth0\[rq],
403 as specified in the passed interface name.
404 If the
405 name is an empty string or the option length is zero, the socket device
406 binding is removed.
407 The passed option is a variable-length null-terminated
408 interface name string with the maximum size of
409 .BR IFNAMSIZ .
410 If a socket is bound to an interface,
411 only packets received from that particular interface are processed by the
412 socket.
413 Note that this works only for some socket types, particularly
414 .B AF_INET
415 sockets.
416 It is not supported for packet sockets (use normal
417 .BR bind (2)
418 there).
420 Before Linux 3.8,
421 this socket option could be set, but could not retrieved with
422 .BR getsockopt (2).
423 Since Linux 3.8, it is readable.
425 .I optlen
426 argument should contain the buffer size available
427 to receive the device name and is recommended to be
428 .B IFNAMSIZ
429 bytes.
430 The real device name length is reported back in the
431 .I optlen
432 argument.
434 .B SO_BROADCAST
435 Set or get the broadcast flag.
436 When enabled, datagram sockets are allowed to send
437 packets to a broadcast address.
438 This option has no effect on stream-oriented sockets.
440 .B SO_BSDCOMPAT
441 Enable BSD bug-to-bug compatibility.
442 This is used by the UDP protocol module in Linux 2.0 and 2.2.
443 If enabled, ICMP errors received for a UDP socket will not be passed
444 to the user program.
445 In later kernel versions, support for this option has been phased out:
446 Linux 2.4 silently ignores it, and Linux 2.6 generates a kernel warning
447 (printk()) if a program uses this option.
448 Linux 2.0 also enabled BSD bug-to-bug compatibility
449 options (random header changing, skipping of the broadcast flag) for raw
450 sockets with this option, but that was removed in Linux 2.2.
452 .B SO_DEBUG
453 Enable socket debugging.
454 Allowed only for processes with the
455 .B CAP_NET_ADMIN
456 capability or an effective user ID of 0.
458 .BR SO_DETACH_FILTER " (since Linux 2.2)"
460 .BR SO_DETACH_BPF " (since Linux 3.19)"
461 These two options, which are synonyms,
462 may be used to remove the classic or extended BPF
463 program attached to a socket with either
464 .B SO_ATTACH_FILTER
466 .BR SO_ATTACH_BPF .
467 The option value is ignored.
469 .BR SO_DOMAIN " (since Linux 2.6.32)"
470 Retrieves the socket domain as an integer, returning a value such as
471 .BR AF_INET6 .
473 .BR socket (2)
474 for details.
475 This socket option is read-only.
477 .B SO_ERROR
478 Get and clear the pending socket error.
479 This socket option is read-only.
480 Expects an integer.
482 .B SO_DONTROUTE
483 Don't send via a gateway, send only to directly connected hosts.
484 The same effect can be achieved by setting the
485 .B MSG_DONTROUTE
486 flag on a socket
487 .BR send (2)
488 operation.
489 Expects an integer boolean flag.
491 .BR SO_INCOMING_CPU " (gettable since Linux 3.19, settable since Linux 4.4)"
492 .\" getsockopt 2c8c56e15df3d4c2af3d656e44feb18789f75837
493 .\" setsockopt 70da268b569d32a9fddeea85dc18043de9d89f89
494 Sets or gets the CPU affinity of a socket.
495 Expects an integer flag.
497 .in +4n
499 int cpu = 1;
500 setsockopt(fd, SOL_SOCKET, SO_INCOMING_CPU, &cpu,
501            sizeof(cpu));
505 Because all of the packets for a single stream
506 (i.e., all packets for the same 4-tuple)
507 arrive on the single RX queue that is associated with a particular CPU,
508 the typical use case is to employ one listening process per RX queue,
509 with the incoming flow being handled by a listener
510 on the same CPU that is handling the RX queue.
511 This provides optimal NUMA behavior and keeps CPU caches hot.
513 .\" From an email conversation with Eric Dumazet:
514 .\" >> Note that setting the option is not supported if SO_REUSEPORT is used.
515 .\" >
516 .\" > Please define "not supported". Does this yield an API diagnostic?
517 .\" > If so, what is it?
518 .\" >
519 .\" >> Socket will be selected from an array, either by a hash or BPF program
520 .\" >> that has no access to this information.
521 .\" >
522 .\" > Sorry -- I'm lost here. How does this comment relate to the proposed
523 .\" > man page text above?
525 .\" Simply that :
527 .\" If an application uses both SO_INCOMING_CPU and SO_REUSEPORT, then
528 .\" SO_REUSEPORT logic, selecting the socket to receive the packet, ignores
529 .\" SO_INCOMING_CPU setting.
531 .BR SO_INCOMING_NAPI_ID " (gettable since Linux 4.12)"
532 .\" getsockopt 6d4339028b350efbf87c61e6d9e113e5373545c9
533 Returns a system-level unique ID called NAPI ID that is associated
534 with a RX queue on which the last packet associated with that
535 socket is received.
537 This can be used by an application to split the incoming flows among worker
538 threads based on the RX queue on which the packets associated with the
539 flows are received.
540 It allows each worker thread to be associated with
541 a NIC HW receive queue and service all the connection
542 requests received on that RX queue.
543 This mapping between an app thread and
544 a HW NIC queue streamlines the
545 flow of data from the NIC to the application.
547 .B SO_KEEPALIVE
548 Enable sending of keep-alive messages on connection-oriented sockets.
549 Expects an integer boolean flag.
551 .B SO_LINGER
552 Sets or gets the
553 .B SO_LINGER
554 option.
555 The argument is a
556 .I linger
557 structure.
559 .in +4n
561 struct linger {
562     int l_onoff;    /* linger active */
563     int l_linger;   /* how many seconds to linger for */
568 When enabled, a
569 .BR close (2)
571 .BR shutdown (2)
572 will not return until all queued messages for the socket have been
573 successfully sent or the linger timeout has been reached.
574 Otherwise,
575 the call returns immediately and the closing is done in the background.
576 When the socket is closed as part of
577 .BR exit (2),
578 it always lingers in the background.
580 .B SO_LOCK_FILTER
581 .\" commit d59577b6ffd313d0ab3be39cb1ab47e29bdc9182
582 When set, this option will prevent
583 changing the filters associated with the socket.
584 These filters include any set using the socket options
585 .BR SO_ATTACH_FILTER ,
586 .BR SO_ATTACH_BPF ,
587 .BR SO_ATTACH_REUSEPORT_CBPF ,
589 .BR SO_ATTACH_REUSEPORT_EBPF .
591 The typical use case is for a privileged process to set up a raw socket
592 (an operation that requires the
593 .B CAP_NET_RAW
594 capability), apply a restrictive filter, set the
595 .B SO_LOCK_FILTER
596 option,
597 and then either drop its privileges or pass the socket file descriptor
598 to an unprivileged process via a UNIX domain socket.
600 Once the
601 .B SO_LOCK_FILTER
602 option has been enabled, attempts to change or remove the filter
603 attached to a socket, or to disable the
604 .B SO_LOCK_FILTER
605 option will fail with the error
606 .BR EPERM .
608 .BR SO_MARK " (since Linux 2.6.25)"
609 .\" commit 4a19ec5800fc3bb64e2d87c4d9fdd9e636086fe0
610 .\" and    914a9ab386a288d0f22252fc268ecbc048cdcbd5
611 Set the mark for each packet sent through this socket
612 (similar to the netfilter MARK target but socket-based).
613 Changing the mark can be used for mark-based
614 routing without netfilter or for packet filtering.
615 Setting this option requires the
616 .B CAP_NET_ADMIN
618 .B CAP_NET_RAW
619 (since Linux 5.17) capability.
621 .B SO_OOBINLINE
622 If this option is enabled,
623 out-of-band data is directly placed into the receive data stream.
624 Otherwise, out-of-band data is passed only when the
625 .B MSG_OOB
626 flag is set during receiving.
627 .\" don't document it because it can do too much harm.
628 .\".B SO_NO_CHECK
629 .\"     The kernel has support for the SO_NO_CHECK socket
630 .\"     option (boolean: 0 == default, calculate checksum on xmit,
631 .\"     1 == do not calculate checksum on xmit).
632 .\" Additional note from Andi Kleen on SO_NO_CHECK (2010-08-30)
633 .\"     On Linux UDP checksums are essentially free and there's no reason
634 .\"     to turn them off and it would disable another safety line.
635 .\"     That is why I didn't document the option.
637 .B SO_PASSCRED
638 Enable or disable the receiving of the
639 .B SCM_CREDENTIALS
640 control message.
641 For more information, see
642 .BR unix (7).
644 .B SO_PASSSEC
645 Enable or disable the receiving of the
646 .B SCM_SECURITY
647 control message.
648 For more information, see
649 .BR unix (7).
651 .BR SO_PEEK_OFF " (since Linux 3.4)"
652 .\" commit ef64a54f6e558155b4f149bb10666b9e914b6c54
653 This option, which is currently supported only for
654 .BR unix (7)
655 sockets, sets the value of the "peek offset" for the
656 .BR recv (2)
657 system call when used with
658 .B MSG_PEEK
659 flag.
661 When this option is set to a negative value
662 (it is set to \-1 for all new sockets),
663 traditional behavior is provided:
664 .BR recv (2)
665 with the
666 .B MSG_PEEK
667 flag will peek data from the front of the queue.
669 When the option is set to a value greater than or equal to zero,
670 then the next peek at data queued in the socket will occur at
671 the byte offset specified by the option value.
672 At the same time, the "peek offset" will be
673 incremented by the number of bytes that were peeked from the queue,
674 so that a subsequent peek will return the next data in the queue.
676 If data is removed from the front of the queue via a call to
677 .BR recv (2)
678 (or similar) without the
679 .B MSG_PEEK
680 flag, the "peek offset" will be decreased by the number of bytes removed.
681 In other words, receiving data without the
682 .B MSG_PEEK
683 flag will cause the "peek offset" to be adjusted to maintain
684 the correct relative position in the queued data,
685 so that a subsequent peek will retrieve the data that would have been
686 retrieved had the data not been removed.
688 For datagram sockets, if the "peek offset" points to the middle of a packet,
689 the data returned will be marked with the
690 .B MSG_TRUNC
691 flag.
693 The following example serves to illustrate the use of
694 .BR SO_PEEK_OFF .
695 Suppose a stream socket has the following queued input data:
697 .in +4n
699 aabbccddeeff
703 The following sequence of
704 .BR recv (2)
705 calls would have the effect noted in the comments:
707 .in +4n
709 int ov = 4;                  // Set peek offset to 4
710 setsockopt(fd, SOL_SOCKET, SO_PEEK_OFF, &ov, sizeof(ov));
712 recv(fd, buf, 2, MSG_PEEK);  // Peeks "cc"; offset set to 6
713 recv(fd, buf, 2, MSG_PEEK);  // Peeks "dd"; offset set to 8
714 recv(fd, buf, 2, 0);         // Reads "aa"; offset set to 6
715 recv(fd, buf, 2, MSG_PEEK);  // Peeks "ee"; offset set to 8
719 .B SO_PEERCRED
720 Return the credentials of the peer process connected to this socket.
721 For further details, see
722 .BR unix (7).
724 .BR SO_PEERSEC " (since Linux 2.6.2)"
725 Return the security context of the peer socket connected to this socket.
726 For further details, see
727 .BR unix (7)
729 .BR ip (7).
731 .B SO_PRIORITY
732 Set the protocol-defined priority for all packets to be sent on
733 this socket.
734 Linux uses this value to order the networking queues:
735 packets with a higher priority may be processed first depending
736 on the selected device queueing discipline.
737 .\" For
738 .\" .BR ip (7),
739 .\" this also sets the IP type-of-service (TOS) field for outgoing packets.
740 Setting a priority outside the range 0 to 6 requires the
741 .B CAP_NET_ADMIN
742 capability.
744 .BR SO_PROTOCOL " (since Linux 2.6.32)"
745 Retrieves the socket protocol as an integer, returning a value such as
746 .BR IPPROTO_SCTP .
748 .BR socket (2)
749 for details.
750 This socket option is read-only.
752 .B SO_RCVBUF
753 Sets or gets the maximum socket receive buffer in bytes.
754 The kernel doubles this value (to allow space for bookkeeping overhead)
755 when it is set using
756 .\" Most (all?) other implementations do not do this -- MTK, Dec 05
757 .BR setsockopt (2),
758 and this doubled value is returned by
759 .BR getsockopt (2).
760 .\" The following thread on LMKL is quite informative:
761 .\" getsockopt/setsockopt with SO_RCVBUF and SO_SNDBUF "non-standard" behavior
762 .\" 17 July 2012
763 .\" http://thread.gmane.org/gmane.linux.kernel/1328935
764 The default value is set by the
765 .I /proc/sys/net/core/rmem_default
766 file, and the maximum allowed value is set by the
767 .I /proc/sys/net/core/rmem_max
768 file.
769 The minimum (doubled) value for this option is 256.
771 .BR SO_RCVBUFFORCE " (since Linux 2.6.14)"
772 Using this socket option, a privileged
773 .RB ( CAP_NET_ADMIN )
774 process can perform the same task as
775 .BR SO_RCVBUF ,
776 but the
777 .I rmem_max
778 limit can be overridden.
780 .B SO_RCVLOWAT
782 .B SO_SNDLOWAT
783 Specify the minimum number of bytes in the buffer until the socket layer
784 will pass the data to the protocol
785 .RB ( SO_SNDLOWAT )
786 or the user on receiving
787 .RB ( SO_RCVLOWAT ).
788 These two values are initialized to 1.
789 .B SO_SNDLOWAT
790 is not changeable on Linux
791 .RB ( setsockopt (2)
792 fails with the error
793 .BR ENOPROTOOPT ).
794 .B SO_RCVLOWAT
795 is changeable
796 only since Linux 2.4.
798 Before Linux 2.6.28
799 .\" Tested on kernel 2.6.14 -- mtk, 30 Nov 05
800 .BR select (2),
801 .BR poll (2),
803 .BR epoll (7)
804 did not respect the
805 .B SO_RCVLOWAT
806 setting on Linux,
807 and indicated a socket as readable when even a single byte of data
808 was available.
809 A subsequent read from the socket would then block until
810 .B SO_RCVLOWAT
811 bytes are available.
812 Since Linux 2.6.28,
813 .\" commit c7004482e8dcb7c3c72666395cfa98a216a4fb70
814 .BR select (2),
815 .BR poll (2),
817 .BR epoll (7)
818 indicate a socket as readable only if at least
819 .B SO_RCVLOWAT
820 bytes are available.
822 .B SO_RCVTIMEO
824 .B SO_SNDTIMEO
825 .\" Not implemented in Linux 2.0.
826 .\" Implemented in Linux 2.1.11 for getsockopt: always return a zero struct.
827 .\" Implemented in Linux 2.3.41 for setsockopt, and actually used.
828 Specify the receiving or sending timeouts until reporting an error.
829 The argument is a
830 .IR "struct timeval" .
831 If an input or output function blocks for this period of time, and
832 data has been sent or received, the return value of that function
833 will be the amount of data transferred; if no data has been transferred
834 and the timeout has been reached, then \-1 is returned with
835 .I errno
836 set to
837 .B EAGAIN
839 .BR EWOULDBLOCK ,
840 .\" in fact to EAGAIN
842 .B EINPROGRESS
843 (for
844 .BR connect (2))
845 just as if the socket was specified to be nonblocking.
846 If the timeout is set to zero (the default),
847 then the operation will never timeout.
848 Timeouts only have effect for system calls that perform socket I/O (e.g.,
849 .BR accept (2),
850 .BR connect (2),
851 .BR read (2),
852 .BR recvmsg (2),
853 .BR send (2),
854 .BR sendmsg (2));
855 timeouts have no effect for
856 .BR select (2),
857 .BR poll (2),
858 .BR epoll_wait (2),
859 and so on.
861 .B SO_REUSEADDR
862 .\"     commit c617f398edd4db2b8567a28e899a88f8f574798d
863 .\"     https://lwn.net/Articles/542629/
864 Indicates that the rules used in validating addresses supplied in a
865 .BR bind (2)
866 call should allow reuse of local addresses.
868 .B AF_INET
869 sockets this
870 means that a socket may bind, except when there
871 is an active listening socket bound to the address.
872 When the listening socket is bound to
873 .B INADDR_ANY
874 with a specific port then it is not possible
875 to bind to this port for any local address.
876 Argument is an integer boolean flag.
878 .BR SO_REUSEPORT " (since Linux 3.9)"
879 Permits multiple
880 .B AF_INET
882 .B AF_INET6
883 sockets to be bound to an identical socket address.
884 This option must be set on each socket (including the first socket)
885 prior to calling
886 .BR bind (2)
887 on the socket.
888 To prevent port hijacking,
889 all of the processes binding to the same address must have the same
890 effective UID.
891 This option can be employed with both TCP and UDP sockets.
893 For TCP sockets, this option allows
894 .BR accept (2)
895 load distribution in a multi-threaded server to be improved by
896 using a distinct listener socket for each thread.
897 This provides improved load distribution as compared
898 to traditional techniques such using a single
899 .BR accept (2)ing
900 thread that distributes connections,
901 or having multiple threads that compete to
902 .BR accept (2)
903 from the same socket.
905 For UDP sockets,
906 the use of this option can provide better distribution
907 of incoming datagrams to multiple processes (or threads) as compared
908 to the traditional technique of having multiple processes
909 compete to receive datagrams on the same socket.
911 .BR SO_RXQ_OVFL " (since Linux 2.6.33)"
912 .\" commit 3b885787ea4112eaa80945999ea0901bf742707f
913 Indicates that an unsigned 32-bit value ancillary message (cmsg)
914 should be attached to received skbs indicating
915 the number of packets dropped by the socket since its creation.
917 .BR SO_SELECT_ERR_QUEUE " (since Linux 3.10)"
918 .\"     commit 7d4c04fc170087119727119074e72445f2bb192b
919 .\"     Author: Keller, Jacob E <jacob.e.keller@intel.com>
920 When this option is set on a socket,
921 an error condition on a socket causes notification not only via the
922 .I exceptfds
923 set of
924 .BR select (2).
925 Similarly,
926 .BR poll (2)
927 also returns a
928 .B POLLPRI
929 whenever an
930 .B POLLERR
931 event is returned.
932 .\" It does not affect wake up.
934 Background: this option was added when waking up on an error condition
935 occurred only via the
936 .I readfds
938 .I writefds
939 sets of
940 .BR select (2).
941 The option was added to allow monitoring for error conditions via the
942 .I exceptfds
943 argument without simultaneously having to receive notifications (via
944 .IR readfds )
945 for regular data that can be read from the socket.
946 After changes in Linux 4.16,
947 .\" commit 6e5d58fdc9bedd0255a8
948 .\" ("skbuff: Fix not waking applications when errors are enqueued")
949 the use of this flag to achieve the desired notifications
950 is no longer necessary.
951 This option is nevertheless retained for backwards compatibility.
953 .B SO_SNDBUF
954 Sets or gets the maximum socket send buffer in bytes.
955 The kernel doubles this value (to allow space for bookkeeping overhead)
956 when it is set using
957 .\" Most (all?) other implementations do not do this -- MTK, Dec 05
958 .\" See also the comment to SO_RCVBUF (17 Jul 2012 LKML mail)
959 .BR setsockopt (2),
960 and this doubled value is returned by
961 .BR getsockopt (2).
962 The default value is set by the
963 .I /proc/sys/net/core/wmem_default
964 file and the maximum allowed value is set by the
965 .I /proc/sys/net/core/wmem_max
966 file.
967 The minimum (doubled) value for this option is 2048.
969 .BR SO_SNDBUFFORCE " (since Linux 2.6.14)"
970 Using this socket option, a privileged
971 .RB ( CAP_NET_ADMIN )
972 process can perform the same task as
973 .BR SO_SNDBUF ,
974 but the
975 .I wmem_max
976 limit can be overridden.
978 .B SO_TIMESTAMP
979 Enable or disable the receiving of the
980 .B SO_TIMESTAMP
981 control message.
982 The timestamp control message is sent with level
983 .B SOL_SOCKET
984 and a
985 .I cmsg_type
987 .BR SCM_TIMESTAMP .
989 .I cmsg_data
990 field is a
991 .I "struct timeval"
992 indicating the
993 reception time of the last packet passed to the user in this call.
995 .BR cmsg (3)
996 for details on control messages.
998 .BR SO_TIMESTAMPNS " (since Linux 2.6.22)"
999 .\" commit 92f37fd2ee805aa77925c1e64fd56088b46094fc
1000 Enable or disable the receiving of the
1001 .B SO_TIMESTAMPNS
1002 control message.
1003 The timestamp control message is sent with level
1004 .B SOL_SOCKET
1005 and a
1006 .I cmsg_type
1008 .BR SCM_TIMESTAMPNS .
1010 .I cmsg_data
1011 field is a
1012 .I "struct timespec"
1013 indicating the
1014 reception time of the last packet passed to the user in this call.
1015 The clock used for the timestamp is
1016 .BR CLOCK_REALTIME .
1018 .BR cmsg (3)
1019 for details on control messages.
1021 A socket cannot mix
1022 .B SO_TIMESTAMP
1024 .BR SO_TIMESTAMPNS :
1025 the two modes are mutually exclusive.
1027 .B SO_TYPE
1028 Gets the socket type as an integer (e.g.,
1029 .BR SOCK_STREAM ).
1030 This socket option is read-only.
1032 .BR SO_BUSY_POLL " (since Linux 3.11)"
1033 Sets the approximate time in microseconds to busy poll on a blocking receive
1034 when there is no data.
1035 Increasing this value requires
1036 .BR CAP_NET_ADMIN .
1037 The default for this option is controlled by the
1038 .I /proc/sys/net/core/busy_read
1039 file.
1041 The value in the
1042 .I /proc/sys/net/core/busy_poll
1043 file determines how long
1044 .BR select (2)
1046 .BR poll (2)
1047 will busy poll when they operate on sockets with
1048 .B SO_BUSY_POLL
1049 set and no events to report are found.
1051 In both cases,
1052 busy polling will only be done when the socket last received data
1053 from a network device that supports this option.
1055 While busy polling may improve latency of some applications,
1056 care must be taken when using it since this will increase
1057 both CPU utilization and power usage.
1058 .SS Signals
1059 When writing onto a connection-oriented socket that has been shut down
1060 (by the local or the remote end)
1061 .B SIGPIPE
1062 is sent to the writing process and
1063 .B EPIPE
1064 is returned.
1065 The signal is not sent when the write call
1066 specified the
1067 .B MSG_NOSIGNAL
1068 flag.
1070 When requested with the
1071 .B FIOSETOWN
1072 .BR fcntl (2)
1074 .B SIOCSPGRP
1075 .BR ioctl (2),
1076 .B SIGIO
1077 is sent when an I/O event occurs.
1078 It is possible to use
1079 .BR poll (2)
1081 .BR select (2)
1082 in the signal handler to find out which socket the event occurred on.
1083 An alternative (in Linux 2.2) is to set a real-time signal using the
1084 .B F_SETSIG
1085 .BR fcntl (2);
1086 the handler of the real time signal will be called with
1087 the file descriptor in the
1088 .I si_fd
1089 field of its
1090 .IR siginfo_t .
1092 .BR fcntl (2)
1093 for more information.
1095 Under some circumstances (e.g., multiple processes accessing a
1096 single socket), the condition that caused the
1097 .B SIGIO
1098 may have already disappeared when the process reacts to the signal.
1099 If this happens, the process should wait again because Linux
1100 will resend the signal later.
1101 .\" .SS Ancillary messages
1102 .SS /proc interfaces
1103 The core socket networking parameters can be accessed
1104 via files in the directory
1105 .IR /proc/sys/net/core/ .
1107 .I rmem_default
1108 contains the default setting in bytes of the socket receive buffer.
1110 .I rmem_max
1111 contains the maximum socket receive buffer size in bytes which a user may
1112 set by using the
1113 .B SO_RCVBUF
1114 socket option.
1116 .I wmem_default
1117 contains the default setting in bytes of the socket send buffer.
1119 .I wmem_max
1120 contains the maximum socket send buffer size in bytes which a user may
1121 set by using the
1122 .B SO_SNDBUF
1123 socket option.
1125 .I message_cost
1127 .I message_burst
1128 configure the token bucket filter used to load limit warning messages
1129 caused by external network events.
1131 .I netdev_max_backlog
1132 Maximum number of packets in the global input queue.
1134 .I optmem_max
1135 Maximum length of ancillary data and user control data like the iovecs
1136 per socket.
1137 .\" netdev_fastroute is not documented because it is experimental
1138 .SS Ioctls
1139 These operations can be accessed using
1140 .BR ioctl (2):
1142 .in +4n
1144 .IB error " = ioctl(" ip_socket ", " ioctl_type ", " &value_result ");"
1148 .B SIOCGSTAMP
1149 Return a
1150 .I struct timeval
1151 with the receive timestamp of the last packet passed to the user.
1152 This is useful for accurate round trip time measurements.
1154 .BR setitimer (2)
1155 for a description of
1156 .IR "struct timeval" .
1158 This ioctl should be used only if the socket options
1159 .B SO_TIMESTAMP
1161 .B SO_TIMESTAMPNS
1162 are not set on the socket.
1163 Otherwise, it returns the timestamp of the
1164 last packet that was received while
1165 .B SO_TIMESTAMP
1167 .B SO_TIMESTAMPNS
1168 were not set, or it fails if no such packet has been received,
1169 (i.e.,
1170 .BR ioctl (2)
1171 returns \-1 with
1172 .I errno
1173 set to
1174 .BR ENOENT ).
1176 .B SIOCSPGRP
1177 Set the process or process group that is to receive
1178 .B SIGIO
1180 .B SIGURG
1181 signals when I/O becomes possible or urgent data is available.
1182 The argument is a pointer to a
1183 .IR pid_t .
1184 For further details, see the description of
1185 .B F_SETOWN
1187 .BR fcntl (2).
1189 .B FIOASYNC
1190 Change the
1191 .B O_ASYNC
1192 flag to enable or disable asynchronous I/O mode of the socket.
1193 Asynchronous I/O mode means that the
1194 .B SIGIO
1195 signal or the signal set with
1196 .B F_SETSIG
1197 is raised when a new I/O event occurs.
1199 Argument is an integer boolean flag.
1200 (This operation is synonymous with the use of
1201 .BR fcntl (2)
1202 to set the
1203 .B O_ASYNC
1204 flag.)
1207 .B SIOCGPGRP
1208 Get the current process or process group that receives
1209 .B SIGIO
1211 .B SIGURG
1212 signals,
1213 or 0
1214 when none is set.
1216 Valid
1217 .BR fcntl (2)
1218 operations:
1220 .B FIOGETOWN
1221 The same as the
1222 .B SIOCGPGRP
1223 .BR ioctl (2).
1225 .B FIOSETOWN
1226 The same as the
1227 .B SIOCSPGRP
1228 .BR ioctl (2).
1229 .SH VERSIONS
1230 .B SO_BINDTODEVICE
1231 was introduced in Linux 2.0.30.
1232 .B SO_PASSCRED
1233 is new in Linux 2.2.
1235 .I /proc
1236 interfaces were introduced in Linux 2.2.
1237 .B SO_RCVTIMEO
1239 .B SO_SNDTIMEO
1240 are supported since Linux 2.3.41.
1241 Earlier, timeouts were fixed to
1242 a protocol-specific setting, and could not be read or written.
1243 .SH NOTES
1244 Linux assumes that half of the send/receive buffer is used for internal
1245 kernel structures; thus the values in the corresponding
1246 .I /proc
1247 files are twice what can be observed on the wire.
1249 Linux will allow port reuse only with the
1250 .B SO_REUSEADDR
1251 option
1252 when this option was set both in the previous program that performed a
1253 .BR bind (2)
1254 to the port and in the program that wants to reuse the port.
1255 This differs from some implementations (e.g., FreeBSD)
1256 where only the later program needs to set the
1257 .B SO_REUSEADDR
1258 option.
1259 Typically this difference is invisible, since, for example, a server
1260 program is designed to always set this option.
1261 .\" .SH AUTHORS
1262 .\" This man page was written by Andi Kleen.
1263 .SH SEE ALSO
1264 .BR wireshark (1),
1265 .BR bpf (2),
1266 .BR connect (2),
1267 .BR getsockopt (2),
1268 .BR setsockopt (2),
1269 .BR socket (2),
1270 .BR pcap (3),
1271 .BR address_families (7),
1272 .BR capabilities (7),
1273 .BR ddp (7),
1274 .BR ip (7),
1275 .BR ipv6 (7),
1276 .BR packet (7),
1277 .BR tcp (7),
1278 .BR udp (7),
1279 .BR unix (7),
1280 .BR tcpdump (8)