OSDN Git Service

Make destroying networks more robust.
[android-x86/system-netd.git] / server / RouteController.cpp
1 /*
2  * Copyright (C) 2014 The Android Open Source Project
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at
7  *
8  *      http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #include "RouteController.h"
18
19 #include "Fwmark.h"
20 #include "UidRanges.h"
21
22 #define LOG_TAG "Netd"
23 #include "log/log.h"
24 #include "logwrap/logwrap.h"
25 #include "resolv_netid.h"
26
27 #include <arpa/inet.h>
28 #include <fcntl.h>
29 #include <linux/fib_rules.h>
30 #include <map>
31 #include <net/if.h>
32 #include <sys/stat.h>
33
34 namespace {
35
36 // BEGIN CONSTANTS --------------------------------------------------------------------------------
37
38 const uint32_t RULE_PRIORITY_VPN_OVERRIDE_SYSTEM = 10000;
39 const uint32_t RULE_PRIORITY_VPN_OUTPUT_TO_LOCAL = 11000;
40 const uint32_t RULE_PRIORITY_SECURE_VPN          = 12000;
41 const uint32_t RULE_PRIORITY_EXPLICIT_NETWORK    = 13000;
42 const uint32_t RULE_PRIORITY_OUTPUT_INTERFACE    = 14000;
43 const uint32_t RULE_PRIORITY_LEGACY_SYSTEM       = 15000;
44 const uint32_t RULE_PRIORITY_LEGACY_NETWORK      = 16000;
45 const uint32_t RULE_PRIORITY_LOCAL_NETWORK       = 17000;
46 const uint32_t RULE_PRIORITY_TETHERING           = 18000;
47 const uint32_t RULE_PRIORITY_IMPLICIT_NETWORK    = 19000;
48 const uint32_t RULE_PRIORITY_BYPASSABLE_VPN      = 20000;
49 const uint32_t RULE_PRIORITY_VPN_FALLTHROUGH     = 21000;
50 const uint32_t RULE_PRIORITY_DEFAULT_NETWORK     = 22000;
51 const uint32_t RULE_PRIORITY_DIRECTLY_CONNECTED  = 23000;
52 const uint32_t RULE_PRIORITY_UNREACHABLE         = 32000;
53
54 const uint32_t ROUTE_TABLE_LOCAL_NETWORK  = 97;
55 const uint32_t ROUTE_TABLE_LEGACY_NETWORK = 98;
56 const uint32_t ROUTE_TABLE_LEGACY_SYSTEM  = 99;
57
58 const char* const ROUTE_TABLE_NAME_LOCAL_NETWORK  = "local_network";
59 const char* const ROUTE_TABLE_NAME_LEGACY_NETWORK = "legacy_network";
60 const char* const ROUTE_TABLE_NAME_LEGACY_SYSTEM  = "legacy_system";
61
62 const char* const ROUTE_TABLE_NAME_LOCAL = "local";
63 const char* const ROUTE_TABLE_NAME_MAIN  = "main";
64
65 // TODO: These values aren't defined by the Linux kernel, because our UID routing changes are not
66 // upstream (yet?), so we can't just pick them up from kernel headers. When (if?) the changes make
67 // it upstream, we'll remove this and rely on the kernel header values. For now, add a static assert
68 // that will warn us if upstream has given these values some other meaning.
69 const uint16_t FRA_UID_START = 18;
70 const uint16_t FRA_UID_END   = 19;
71 static_assert(FRA_UID_START > FRA_MAX,
72              "Android-specific FRA_UID_{START,END} values also assigned in Linux uapi. "
73              "Check that these values match what the kernel does and then update this assertion.");
74
75 const uint16_t NETLINK_REQUEST_FLAGS = NLM_F_REQUEST | NLM_F_ACK;
76 const uint16_t NETLINK_CREATE_REQUEST_FLAGS = NETLINK_REQUEST_FLAGS | NLM_F_CREATE | NLM_F_EXCL;
77
78 const sockaddr_nl NETLINK_ADDRESS = {AF_NETLINK, 0, 0, 0};
79
80 const uint8_t AF_FAMILIES[] = {AF_INET, AF_INET6};
81
82 const char* const IP_VERSIONS[] = {"-4", "-6"};
83
84 const uid_t UID_ROOT = 0;
85 const char* const IIF_NONE = NULL;
86 const char* const OIF_NONE = NULL;
87 const bool ACTION_ADD = true;
88 const bool ACTION_DEL = false;
89 const bool MODIFY_NON_UID_BASED_RULES = true;
90
91 const char* const RT_TABLES_PATH = "/data/misc/net/rt_tables";
92 const int RT_TABLES_FLAGS = O_CREAT | O_TRUNC | O_WRONLY | O_NOFOLLOW | O_CLOEXEC;
93 const mode_t RT_TABLES_MODE = S_IRUSR | S_IWUSR | S_IRGRP | S_IROTH;  // mode 0644, rw-r--r--
94
95 const unsigned ROUTE_FLUSH_ATTEMPTS = 2;
96
97 // Avoids "non-constant-expression cannot be narrowed from type 'unsigned int' to 'unsigned short'"
98 // warnings when using RTA_LENGTH(x) inside static initializers (even when x is already uint16_t).
99 constexpr uint16_t U16_RTA_LENGTH(uint16_t x) {
100     return RTA_LENGTH(x);
101 }
102
103 // These are practically const, but can't be declared so, because they are used to initialize
104 // non-const pointers ("void* iov_base") in iovec arrays.
105 rtattr FRATTR_PRIORITY  = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_PRIORITY };
106 rtattr FRATTR_TABLE     = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_TABLE };
107 rtattr FRATTR_FWMARK    = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_FWMARK };
108 rtattr FRATTR_FWMASK    = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_FWMASK };
109 rtattr FRATTR_UID_START = { U16_RTA_LENGTH(sizeof(uid_t)),    FRA_UID_START };
110 rtattr FRATTR_UID_END   = { U16_RTA_LENGTH(sizeof(uid_t)),    FRA_UID_END };
111
112 rtattr RTATTR_TABLE     = { U16_RTA_LENGTH(sizeof(uint32_t)), RTA_TABLE };
113 rtattr RTATTR_OIF       = { U16_RTA_LENGTH(sizeof(uint32_t)), RTA_OIF };
114
115 uint8_t PADDING_BUFFER[RTA_ALIGNTO] = {0, 0, 0, 0};
116
117 // END CONSTANTS ----------------------------------------------------------------------------------
118
119 // No locks needed because RouteController is accessed only from one thread (in CommandListener).
120 std::map<std::string, uint32_t> interfaceToTable;
121
122 uint32_t getRouteTableForInterface(const char* interface) {
123     uint32_t index = if_nametoindex(interface);
124     if (index) {
125         index += RouteController::ROUTE_TABLE_OFFSET_FROM_INDEX;
126         interfaceToTable[interface] = index;
127         return index;
128     }
129     // If the interface goes away if_nametoindex() will return 0 but we still need to know
130     // the index so we can remove the rules and routes.
131     auto iter = interfaceToTable.find(interface);
132     if (iter == interfaceToTable.end()) {
133         ALOGE("cannot find interface %s", interface);
134         return RT_TABLE_UNSPEC;
135     }
136     return iter->second;
137 }
138
139 void addTableName(uint32_t table, const std::string& name, std::string* contents) {
140     char tableString[UINT32_STRLEN];
141     snprintf(tableString, sizeof(tableString), "%u", table);
142     *contents += tableString;
143     *contents += " ";
144     *contents += name;
145     *contents += "\n";
146 }
147
148 // Doesn't return success/failure as the file is optional; it's okay if we fail to update it.
149 void updateTableNamesFile() {
150     std::string contents;
151
152     addTableName(RT_TABLE_LOCAL, ROUTE_TABLE_NAME_LOCAL, &contents);
153     addTableName(RT_TABLE_MAIN,  ROUTE_TABLE_NAME_MAIN,  &contents);
154
155     addTableName(ROUTE_TABLE_LOCAL_NETWORK,  ROUTE_TABLE_NAME_LOCAL_NETWORK,  &contents);
156     addTableName(ROUTE_TABLE_LEGACY_NETWORK, ROUTE_TABLE_NAME_LEGACY_NETWORK, &contents);
157     addTableName(ROUTE_TABLE_LEGACY_SYSTEM,  ROUTE_TABLE_NAME_LEGACY_SYSTEM,  &contents);
158
159     for (const auto& entry : interfaceToTable) {
160         addTableName(entry.second, entry.first, &contents);
161     }
162
163     int fd = open(RT_TABLES_PATH, RT_TABLES_FLAGS, RT_TABLES_MODE);
164     if (fd == -1) {
165         ALOGE("failed to create %s (%s)", RT_TABLES_PATH, strerror(errno));
166         return;
167     }
168     // File creation is affected by umask, so make sure the right mode bits are set.
169     if (fchmod(fd, RT_TABLES_MODE) == -1) {
170         ALOGE("failed to set mode 0%o on %s (%s)", RT_TABLES_MODE, RT_TABLES_PATH, strerror(errno));
171     }
172     ssize_t bytesWritten = write(fd, contents.data(), contents.size());
173     if (bytesWritten != static_cast<ssize_t>(contents.size())) {
174         ALOGE("failed to write to %s (%zd vs %zu bytes) (%s)", RT_TABLES_PATH, bytesWritten,
175               contents.size(), strerror(errno));
176     }
177     close(fd);
178 }
179
180 // Sends a netlink request and expects an ack.
181 // |iov| is an array of struct iovec that contains the netlink message payload.
182 // The netlink header is generated by this function based on |action| and |flags|.
183 // Returns -errno if there was an error or if the kernel reported an error.
184 WARN_UNUSED_RESULT int sendNetlinkRequest(uint16_t action, uint16_t flags, iovec* iov, int iovlen) {
185     nlmsghdr nlmsg = {
186         .nlmsg_type = action,
187         .nlmsg_flags = flags,
188     };
189     iov[0].iov_base = &nlmsg;
190     iov[0].iov_len = sizeof(nlmsg);
191     for (int i = 0; i < iovlen; ++i) {
192         nlmsg.nlmsg_len += iov[i].iov_len;
193     }
194
195     int ret;
196     struct {
197         nlmsghdr msg;
198         nlmsgerr err;
199     } response;
200
201     int sock = socket(AF_NETLINK, SOCK_DGRAM, NETLINK_ROUTE);
202     if (sock != -1 &&
203             connect(sock, reinterpret_cast<const sockaddr*>(&NETLINK_ADDRESS),
204                     sizeof(NETLINK_ADDRESS)) != -1 &&
205             writev(sock, iov, iovlen) != -1 &&
206             (ret = recv(sock, &response, sizeof(response), 0)) != -1) {
207         if (ret == sizeof(response)) {
208             ret = response.err.error;  // Netlink errors are negative errno.
209             if (ret) {
210                 ALOGE("netlink response contains error (%s)", strerror(-ret));
211             }
212         } else {
213             ALOGE("bad netlink response message size (%d != %zu)", ret, sizeof(response));
214             ret = -EBADMSG;
215         }
216     } else {
217         ALOGE("netlink socket/connect/writev/recv failed (%s)", strerror(errno));
218         ret = -errno;
219     }
220
221     if (sock != -1) {
222         close(sock);
223     }
224
225     return ret;
226 }
227
228 // Returns 0 on success or negative errno on failure.
229 int padInterfaceName(const char* input, char* name, size_t* length, uint16_t* padding) {
230     if (!input) {
231         *length = 0;
232         *padding = 0;
233         return 0;
234     }
235     *length = strlcpy(name, input, IFNAMSIZ) + 1;
236     if (*length > IFNAMSIZ) {
237         ALOGE("interface name too long (%zu > %u)", *length, IFNAMSIZ);
238         return -ENAMETOOLONG;
239     }
240     *padding = RTA_SPACE(*length) - RTA_LENGTH(*length);
241     return 0;
242 }
243
244 // Adds or removes a routing rule for IPv4 and IPv6.
245 //
246 // + If |table| is non-zero, the rule points at the specified routing table. Otherwise, the rule
247 //   returns ENETUNREACH.
248 // + If |mask| is non-zero, the rule matches the specified fwmark and mask. Otherwise, |fwmark| is
249 //   ignored.
250 // + If |iif| is non-NULL, the rule matches the specified incoming interface.
251 // + If |oif| is non-NULL, the rule matches the specified outgoing interface.
252 // + If |uidStart| and |uidEnd| are not INVALID_UID, the rule matches packets from UIDs in that
253 //   range (inclusive). Otherwise, the rule matches packets from all UIDs.
254 //
255 // Returns 0 on success or negative errno on failure.
256 WARN_UNUSED_RESULT int modifyIpRule(uint16_t action, uint32_t priority, uint32_t table,
257                                     uint32_t fwmark, uint32_t mask, const char* iif,
258                                     const char* oif, uid_t uidStart, uid_t uidEnd) {
259     // Ensure that if you set a bit in the fwmark, it's not being ignored by the mask.
260     if (fwmark & ~mask) {
261         ALOGE("mask 0x%x does not select all the bits set in fwmark 0x%x", mask, fwmark);
262         return -ERANGE;
263     }
264
265     // Interface names must include exactly one terminating NULL and be properly padded, or older
266     // kernels will refuse to delete rules.
267     char iifName[IFNAMSIZ], oifName[IFNAMSIZ];
268     size_t iifLength, oifLength;
269     uint16_t iifPadding, oifPadding;
270     if (int ret = padInterfaceName(iif, iifName, &iifLength, &iifPadding)) {
271         return ret;
272     }
273     if (int ret = padInterfaceName(oif, oifName, &oifLength, &oifPadding)) {
274         return ret;
275     }
276
277     // Either both start and end UID must be specified, or neither.
278     if ((uidStart == INVALID_UID) != (uidEnd == INVALID_UID)) {
279         ALOGE("incompatible start and end UIDs (%u vs %u)", uidStart, uidEnd);
280         return -EUSERS;
281     }
282     bool isUidRule = (uidStart != INVALID_UID);
283
284     // Assemble a rule request and put it in an array of iovec structures.
285     fib_rule_hdr rule = {
286         .action = static_cast<uint8_t>(table != RT_TABLE_UNSPEC ? FR_ACT_TO_TBL :
287                                                                   FR_ACT_UNREACHABLE),
288     };
289
290     rtattr fraIifName = { U16_RTA_LENGTH(iifLength), FRA_IIFNAME };
291     rtattr fraOifName = { U16_RTA_LENGTH(oifLength), FRA_OIFNAME };
292
293     iovec iov[] = {
294         { NULL,              0 },
295         { &rule,             sizeof(rule) },
296         { &FRATTR_PRIORITY,  sizeof(FRATTR_PRIORITY) },
297         { &priority,         sizeof(priority) },
298         { &FRATTR_TABLE,     table != RT_TABLE_UNSPEC ? sizeof(FRATTR_TABLE) : 0 },
299         { &table,            table != RT_TABLE_UNSPEC ? sizeof(table) : 0 },
300         { &FRATTR_FWMARK,    mask ? sizeof(FRATTR_FWMARK) : 0 },
301         { &fwmark,           mask ? sizeof(fwmark) : 0 },
302         { &FRATTR_FWMASK,    mask ? sizeof(FRATTR_FWMASK) : 0 },
303         { &mask,             mask ? sizeof(mask) : 0 },
304         { &FRATTR_UID_START, isUidRule ? sizeof(FRATTR_UID_START) : 0 },
305         { &uidStart,         isUidRule ? sizeof(uidStart) : 0 },
306         { &FRATTR_UID_END,   isUidRule ? sizeof(FRATTR_UID_END) : 0 },
307         { &uidEnd,           isUidRule ? sizeof(uidEnd) : 0 },
308         { &fraIifName,       iif != IIF_NONE ? sizeof(fraIifName) : 0 },
309         { iifName,           iifLength },
310         { PADDING_BUFFER,    iifPadding },
311         { &fraOifName,       oif != OIF_NONE ? sizeof(fraOifName) : 0 },
312         { oifName,           oifLength },
313         { PADDING_BUFFER,    oifPadding },
314     };
315
316     uint16_t flags = (action == RTM_NEWRULE) ? NETLINK_CREATE_REQUEST_FLAGS : NETLINK_REQUEST_FLAGS;
317     for (size_t i = 0; i < ARRAY_SIZE(AF_FAMILIES); ++i) {
318         rule.family = AF_FAMILIES[i];
319         if (int ret = sendNetlinkRequest(action, flags, iov, ARRAY_SIZE(iov))) {
320             return ret;
321         }
322     }
323
324     return 0;
325 }
326
327 WARN_UNUSED_RESULT int modifyIpRule(uint16_t action, uint32_t priority, uint32_t table,
328                                     uint32_t fwmark, uint32_t mask) {
329     return modifyIpRule(action, priority, table, fwmark, mask, IIF_NONE, OIF_NONE, INVALID_UID,
330                         INVALID_UID);
331 }
332
333 // Adds or deletes an IPv4 or IPv6 route.
334 // Returns 0 on success or negative errno on failure.
335 WARN_UNUSED_RESULT int modifyIpRoute(uint16_t action, uint32_t table, const char* interface,
336                                      const char* destination, const char* nexthop) {
337     // At least the destination must be non-null.
338     if (!destination) {
339         ALOGE("null destination");
340         return -EFAULT;
341     }
342
343     // Parse the prefix.
344     uint8_t rawAddress[sizeof(in6_addr)];
345     uint8_t family;
346     uint8_t prefixLength;
347     int rawLength = parsePrefix(destination, &family, rawAddress, sizeof(rawAddress),
348                                 &prefixLength);
349     if (rawLength < 0) {
350         ALOGE("parsePrefix failed for destination %s (%s)", destination, strerror(-rawLength));
351         return rawLength;
352     }
353
354     if (static_cast<size_t>(rawLength) > sizeof(rawAddress)) {
355         ALOGE("impossible! address too long (%d vs %zu)", rawLength, sizeof(rawAddress));
356         return -ENOBUFS;  // Cannot happen; parsePrefix only supports IPv4 and IPv6.
357     }
358
359     uint8_t type = RTN_UNICAST;
360     uint32_t ifindex;
361     uint8_t rawNexthop[sizeof(in6_addr)];
362
363     if (nexthop && !strcmp(nexthop, "unreachable")) {
364         type = RTN_UNREACHABLE;
365         // 'interface' is likely non-NULL, as the caller (modifyRoute()) likely used it to lookup
366         // the table number. But it's an error to specify an interface ("dev ...") or a nexthop for
367         // unreachable routes, so nuke them. (IPv6 allows them to be specified; IPv4 doesn't.)
368         interface = OIF_NONE;
369         nexthop = NULL;
370     } else {
371         // If an interface was specified, find the ifindex.
372         if (interface != OIF_NONE) {
373             ifindex = if_nametoindex(interface);
374             if (!ifindex) {
375                 ALOGE("cannot find interface %s", interface);
376                 return -ENODEV;
377             }
378         }
379
380         // If a nexthop was specified, parse it as the same family as the prefix.
381         if (nexthop && inet_pton(family, nexthop, rawNexthop) <= 0) {
382             ALOGE("inet_pton failed for nexthop %s", nexthop);
383             return -EINVAL;
384         }
385     }
386
387     // Assemble a rtmsg and put it in an array of iovec structures.
388     rtmsg route = {
389         .rtm_protocol = RTPROT_STATIC,
390         .rtm_type = type,
391         .rtm_family = family,
392         .rtm_dst_len = prefixLength,
393         .rtm_scope = static_cast<uint8_t>(nexthop ? RT_SCOPE_UNIVERSE : RT_SCOPE_LINK),
394     };
395
396     rtattr rtaDst     = { U16_RTA_LENGTH(rawLength), RTA_DST };
397     rtattr rtaGateway = { U16_RTA_LENGTH(rawLength), RTA_GATEWAY };
398
399     iovec iov[] = {
400         { NULL,          0 },
401         { &route,        sizeof(route) },
402         { &RTATTR_TABLE, sizeof(RTATTR_TABLE) },
403         { &table,        sizeof(table) },
404         { &rtaDst,       sizeof(rtaDst) },
405         { rawAddress,    static_cast<size_t>(rawLength) },
406         { &RTATTR_OIF,   interface != OIF_NONE ? sizeof(RTATTR_OIF) : 0 },
407         { &ifindex,      interface != OIF_NONE ? sizeof(ifindex) : 0 },
408         { &rtaGateway,   nexthop ? sizeof(rtaGateway) : 0 },
409         { rawNexthop,    nexthop ? static_cast<size_t>(rawLength) : 0 },
410     };
411
412     uint16_t flags = (action == RTM_NEWROUTE) ? NETLINK_CREATE_REQUEST_FLAGS :
413                                                 NETLINK_REQUEST_FLAGS;
414     return sendNetlinkRequest(action, flags, iov, ARRAY_SIZE(iov));
415 }
416
417 // An iptables rule to mark incoming packets on a network with the netId of the network.
418 //
419 // This is so that the kernel can:
420 // + Use the right fwmark for (and thus correctly route) replies (e.g.: TCP RST, ICMP errors, ping
421 //   replies, SYN-ACKs, etc).
422 // + Mark sockets that accept connections from this interface so that the connection stays on the
423 //   same interface.
424 WARN_UNUSED_RESULT int modifyIncomingPacketMark(unsigned netId, const char* interface,
425                                                 Permission permission, bool add) {
426     Fwmark fwmark;
427
428     fwmark.netId = netId;
429     fwmark.explicitlySelected = true;
430     fwmark.protectedFromVpn = true;
431     fwmark.permission = permission;
432
433     char markString[UINT32_HEX_STRLEN];
434     snprintf(markString, sizeof(markString), "0x%x", fwmark.intValue);
435
436     if (execIptables(V4V6, "-t", "mangle", add ? "-A" : "-D", "INPUT", "-i", interface, "-j",
437                      "MARK", "--set-mark", markString, NULL)) {
438         ALOGE("failed to change iptables rule that sets incoming packet mark");
439         return -EREMOTEIO;
440     }
441
442     return 0;
443 }
444
445 // A rule to route responses to the local network forwarded via the VPN.
446 //
447 // When a VPN is in effect, packets from the local network to upstream networks are forwarded into
448 // the VPN's tunnel interface. When the VPN forwards the responses, they emerge out of the tunnel.
449 WARN_UNUSED_RESULT int modifyVpnOutputToLocalRule(const char* vpnInterface, bool add) {
450     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_VPN_OUTPUT_TO_LOCAL,
451                         ROUTE_TABLE_LOCAL_NETWORK, MARK_UNSET, MARK_UNSET, vpnInterface, OIF_NONE,
452                         INVALID_UID, INVALID_UID);
453 }
454
455 // A rule to route all traffic from a given set of UIDs to go over the VPN.
456 //
457 // Notice that this rule doesn't use the netId. I.e., no matter what netId the user's socket may
458 // have, if they are subject to this VPN, their traffic has to go through it. Allows the traffic to
459 // bypass the VPN if the protectedFromVpn bit is set.
460 WARN_UNUSED_RESULT int modifyVpnUidRangeRule(uint32_t table, uid_t uidStart, uid_t uidEnd,
461                                              bool secure, bool add) {
462     Fwmark fwmark;
463     Fwmark mask;
464
465     fwmark.protectedFromVpn = false;
466     mask.protectedFromVpn = true;
467
468     uint32_t priority;
469
470     if (secure) {
471         priority = RULE_PRIORITY_SECURE_VPN;
472     } else {
473         priority = RULE_PRIORITY_BYPASSABLE_VPN;
474
475         fwmark.explicitlySelected = false;
476         mask.explicitlySelected = true;
477     }
478
479     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, priority, table, fwmark.intValue,
480                         mask.intValue, IIF_NONE, OIF_NONE, uidStart, uidEnd);
481 }
482
483 // A rule to allow system apps to send traffic over this VPN even if they are not part of the target
484 // set of UIDs.
485 //
486 // This is needed for DnsProxyListener to correctly resolve a request for a user who is in the
487 // target set, but where the DnsProxyListener itself is not.
488 WARN_UNUSED_RESULT int modifyVpnSystemPermissionRule(unsigned netId, uint32_t table, bool secure,
489                                                      bool add) {
490     Fwmark fwmark;
491     Fwmark mask;
492
493     fwmark.netId = netId;
494     mask.netId = FWMARK_NET_ID_MASK;
495
496     fwmark.permission = PERMISSION_SYSTEM;
497     mask.permission = PERMISSION_SYSTEM;
498
499     uint32_t priority = secure ? RULE_PRIORITY_SECURE_VPN : RULE_PRIORITY_BYPASSABLE_VPN;
500
501     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, priority, table, fwmark.intValue,
502                         mask.intValue);
503 }
504
505 // A rule to route traffic based on an explicitly chosen network.
506 //
507 // Supports apps that use the multinetwork APIs to restrict their traffic to a network.
508 //
509 // Even though we check permissions at the time we set a netId into the fwmark of a socket, we need
510 // to check it again in the rules here, because a network's permissions may have been updated via
511 // modifyNetworkPermission().
512 WARN_UNUSED_RESULT int modifyExplicitNetworkRule(unsigned netId, uint32_t table,
513                                                  Permission permission, uid_t uidStart,
514                                                  uid_t uidEnd, bool add) {
515     Fwmark fwmark;
516     Fwmark mask;
517
518     fwmark.netId = netId;
519     mask.netId = FWMARK_NET_ID_MASK;
520
521     fwmark.explicitlySelected = true;
522     mask.explicitlySelected = true;
523
524     fwmark.permission = permission;
525     mask.permission = permission;
526
527     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_EXPLICIT_NETWORK, table,
528                         fwmark.intValue, mask.intValue, IIF_NONE, OIF_NONE, uidStart, uidEnd);
529 }
530
531 // A rule to route traffic based on a chosen outgoing interface.
532 //
533 // Supports apps that use SO_BINDTODEVICE or IP_PKTINFO options and the kernel that already knows
534 // the outgoing interface (typically for link-local communications).
535 WARN_UNUSED_RESULT int modifyOutputInterfaceRule(const char* interface, uint32_t table,
536                                                  Permission permission, uid_t uidStart,
537                                                  uid_t uidEnd, bool add) {
538     Fwmark fwmark;
539     Fwmark mask;
540
541     fwmark.permission = permission;
542     mask.permission = permission;
543
544     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_OUTPUT_INTERFACE, table,
545                         fwmark.intValue, mask.intValue, IIF_NONE, interface, uidStart, uidEnd);
546 }
547
548 // A rule to route traffic based on the chosen network.
549 //
550 // This is for sockets that have not explicitly requested a particular network, but have been
551 // bound to one when they called connect(). This ensures that sockets connected on a particular
552 // network stay on that network even if the default network changes.
553 WARN_UNUSED_RESULT int modifyImplicitNetworkRule(unsigned netId, uint32_t table,
554                                                  Permission permission, bool add) {
555     Fwmark fwmark;
556     Fwmark mask;
557
558     fwmark.netId = netId;
559     mask.netId = FWMARK_NET_ID_MASK;
560
561     fwmark.explicitlySelected = false;
562     mask.explicitlySelected = true;
563
564     fwmark.permission = permission;
565     mask.permission = permission;
566
567     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_IMPLICIT_NETWORK, table,
568                         fwmark.intValue, mask.intValue);
569 }
570
571 // A rule to enable split tunnel VPNs.
572 //
573 // If a packet with a VPN's netId doesn't find a route in the VPN's routing table, it's allowed to
574 // go over the default network, provided it wasn't explicitly restricted to the VPN and has the
575 // permissions required by the default network.
576 WARN_UNUSED_RESULT int modifyVpnFallthroughRule(uint16_t action, unsigned vpnNetId,
577                                                 const char* physicalInterface,
578                                                 Permission permission) {
579     uint32_t table = getRouteTableForInterface(physicalInterface);
580     if (table == RT_TABLE_UNSPEC) {
581         return -ESRCH;
582     }
583
584     Fwmark fwmark;
585     Fwmark mask;
586
587     fwmark.netId = vpnNetId;
588     mask.netId = FWMARK_NET_ID_MASK;
589
590     fwmark.explicitlySelected = false;
591     mask.explicitlySelected = true;
592
593     fwmark.permission = permission;
594     mask.permission = permission;
595
596     return modifyIpRule(action, RULE_PRIORITY_VPN_FALLTHROUGH, table, fwmark.intValue,
597                         mask.intValue);
598 }
599
600 // Add rules to allow legacy routes added through the requestRouteToHost() API.
601 WARN_UNUSED_RESULT int addLegacyRouteRules() {
602     Fwmark fwmark;
603     Fwmark mask;
604
605     fwmark.explicitlySelected = false;
606     mask.explicitlySelected = true;
607
608     // Rules to allow legacy routes to override the default network.
609     if (int ret = modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_LEGACY_SYSTEM, ROUTE_TABLE_LEGACY_SYSTEM,
610                                fwmark.intValue, mask.intValue)) {
611         return ret;
612     }
613     if (int ret = modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_LEGACY_NETWORK,
614                                ROUTE_TABLE_LEGACY_NETWORK, fwmark.intValue, mask.intValue)) {
615         return ret;
616     }
617
618     fwmark.permission = PERMISSION_SYSTEM;
619     mask.permission = PERMISSION_SYSTEM;
620
621     // A rule to allow legacy routes from system apps to override VPNs.
622     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_VPN_OVERRIDE_SYSTEM, ROUTE_TABLE_LEGACY_SYSTEM,
623                         fwmark.intValue, mask.intValue);
624 }
625
626 // Add rules to lookup the local network when specified explicitly or otherwise.
627 WARN_UNUSED_RESULT int addLocalNetworkRules(unsigned localNetId) {
628     if (int ret = modifyExplicitNetworkRule(localNetId, ROUTE_TABLE_LOCAL_NETWORK, PERMISSION_NONE,
629                                             INVALID_UID, INVALID_UID, ACTION_ADD)) {
630         return ret;
631     }
632
633     Fwmark fwmark;
634     Fwmark mask;
635
636     fwmark.explicitlySelected = false;
637     mask.explicitlySelected = true;
638
639     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_LOCAL_NETWORK, ROUTE_TABLE_LOCAL_NETWORK,
640                         fwmark.intValue, mask.intValue);
641 }
642
643 // Add a new rule to look up the 'main' table, with the same selectors as the "default network"
644 // rule, but with a lower priority. We will never create routes in the main table; it should only be
645 // used for directly-connected routes implicitly created by the kernel when adding IP addresses.
646 // This is necessary, for example, when adding a route through a directly-connected gateway: in
647 // order to add the route, there must already be a directly-connected route that covers the gateway.
648 WARN_UNUSED_RESULT int addDirectlyConnectedRule() {
649     Fwmark fwmark;
650     Fwmark mask;
651
652     fwmark.netId = NETID_UNSET;
653     mask.netId = FWMARK_NET_ID_MASK;
654
655     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_DIRECTLY_CONNECTED, RT_TABLE_MAIN,
656                         fwmark.intValue, mask.intValue, IIF_NONE, OIF_NONE, UID_ROOT, UID_ROOT);
657 }
658
659 // Add an explicit unreachable rule close to the end of the prioriy list to make it clear that
660 // relying on the kernel-default "from all lookup main" rule at priority 32766 is not intended
661 // behaviour. We do flush the kernel-default rules at startup, but having an explicit unreachable
662 // rule will hopefully make things even clearer.
663 WARN_UNUSED_RESULT int addUnreachableRule() {
664     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_UNREACHABLE, RT_TABLE_UNSPEC, MARK_UNSET,
665                         MARK_UNSET);
666 }
667
668 WARN_UNUSED_RESULT int modifyLocalNetwork(unsigned netId, const char* interface, bool add) {
669     if (int ret = modifyIncomingPacketMark(netId, interface, PERMISSION_NONE, add)) {
670         return ret;
671     }
672     return modifyOutputInterfaceRule(interface, ROUTE_TABLE_LOCAL_NETWORK, PERMISSION_NONE,
673                                      INVALID_UID, INVALID_UID, add);
674 }
675
676 WARN_UNUSED_RESULT int modifyPhysicalNetwork(unsigned netId, const char* interface,
677                                              Permission permission, bool add) {
678     uint32_t table = getRouteTableForInterface(interface);
679     if (table == RT_TABLE_UNSPEC) {
680         return -ESRCH;
681     }
682
683     if (int ret = modifyIncomingPacketMark(netId, interface, permission, add)) {
684         return ret;
685     }
686     if (int ret = modifyExplicitNetworkRule(netId, table, permission, INVALID_UID, INVALID_UID,
687                                             add)) {
688         return ret;
689     }
690     if (int ret = modifyOutputInterfaceRule(interface, table, permission, INVALID_UID, INVALID_UID,
691                                             add)) {
692         return ret;
693     }
694     return modifyImplicitNetworkRule(netId, table, permission, add);
695 }
696
697 WARN_UNUSED_RESULT int modifyVirtualNetwork(unsigned netId, const char* interface,
698                                             const UidRanges& uidRanges, bool secure, bool add,
699                                             bool modifyNonUidBasedRules) {
700     uint32_t table = getRouteTableForInterface(interface);
701     if (table == RT_TABLE_UNSPEC) {
702         return -ESRCH;
703     }
704
705     for (const UidRanges::Range& range : uidRanges.getRanges()) {
706         if (int ret = modifyVpnUidRangeRule(table, range.first, range.second, secure, add)) {
707             return ret;
708         }
709         if (int ret = modifyExplicitNetworkRule(netId, table, PERMISSION_NONE, range.first,
710                                                 range.second, add)) {
711             return ret;
712         }
713         if (int ret = modifyOutputInterfaceRule(interface, table, PERMISSION_NONE, range.first,
714                                                 range.second, add)) {
715             return ret;
716         }
717     }
718
719     if (modifyNonUidBasedRules) {
720         if (int ret = modifyIncomingPacketMark(netId, interface, PERMISSION_NONE, add)) {
721             return ret;
722         }
723         if (int ret = modifyVpnOutputToLocalRule(interface, add)) {
724             return ret;
725         }
726         if (int ret = modifyVpnSystemPermissionRule(netId, table, secure, add)) {
727             return ret;
728         }
729         return modifyExplicitNetworkRule(netId, table, PERMISSION_NONE, UID_ROOT, UID_ROOT, add);
730     }
731
732     return 0;
733 }
734
735 WARN_UNUSED_RESULT int modifyDefaultNetwork(uint16_t action, const char* interface,
736                                             Permission permission) {
737     uint32_t table = getRouteTableForInterface(interface);
738     if (table == RT_TABLE_UNSPEC) {
739         return -ESRCH;
740     }
741
742     Fwmark fwmark;
743     Fwmark mask;
744
745     fwmark.netId = NETID_UNSET;
746     mask.netId = FWMARK_NET_ID_MASK;
747
748     fwmark.permission = permission;
749     mask.permission = permission;
750
751     return modifyIpRule(action, RULE_PRIORITY_DEFAULT_NETWORK, table, fwmark.intValue,
752                         mask.intValue);
753 }
754
755 WARN_UNUSED_RESULT int modifyTetheredNetwork(uint16_t action, const char* inputInterface,
756                                              const char* outputInterface) {
757     uint32_t table = getRouteTableForInterface(outputInterface);
758     if (table == RT_TABLE_UNSPEC) {
759         return -ESRCH;
760     }
761
762     return modifyIpRule(action, RULE_PRIORITY_TETHERING, table, MARK_UNSET, MARK_UNSET,
763                         inputInterface, OIF_NONE, INVALID_UID, INVALID_UID);
764 }
765
766 // Returns 0 on success or negative errno on failure.
767 WARN_UNUSED_RESULT int flushRules() {
768     for (size_t i = 0; i < ARRAY_SIZE(IP_VERSIONS); ++i) {
769         const char* argv[] = {
770             IP_PATH,
771             IP_VERSIONS[i],
772             "rule",
773             "flush",
774         };
775         if (android_fork_execvp(ARRAY_SIZE(argv), const_cast<char**>(argv), NULL, false, false)) {
776             ALOGE("failed to flush rules");
777             return -EREMOTEIO;
778         }
779     }
780     return 0;
781 }
782
783 // Adds or removes an IPv4 or IPv6 route to the specified table and, if it's a directly-connected
784 // route, to the main table as well.
785 // Returns 0 on success or negative errno on failure.
786 WARN_UNUSED_RESULT int modifyRoute(uint16_t action, const char* interface, const char* destination,
787                                    const char* nexthop, RouteController::TableType tableType) {
788     uint32_t table;
789     switch (tableType) {
790         case RouteController::INTERFACE: {
791             table = getRouteTableForInterface(interface);
792             if (table == RT_TABLE_UNSPEC) {
793                 return -ESRCH;
794             }
795             break;
796         }
797         case RouteController::LOCAL_NETWORK: {
798             table = ROUTE_TABLE_LOCAL_NETWORK;
799             break;
800         }
801         case RouteController::LEGACY_NETWORK: {
802             table = ROUTE_TABLE_LEGACY_NETWORK;
803             break;
804         }
805         case RouteController::LEGACY_SYSTEM: {
806             table = ROUTE_TABLE_LEGACY_SYSTEM;
807             break;
808         }
809     }
810
811     int ret = modifyIpRoute(action, table, interface, destination, nexthop);
812     // We allow apps to call requestRouteToHost() multiple times with the same route, so ignore
813     // EEXIST failures when adding routes to legacy tables.
814     if (ret && !(action == RTM_NEWROUTE && ret == -EEXIST &&
815                  (tableType == RouteController::LEGACY_NETWORK ||
816                   tableType == RouteController::LEGACY_SYSTEM))) {
817         return ret;
818     }
819
820     return 0;
821 }
822
823 // Returns 0 on success or negative errno on failure.
824 WARN_UNUSED_RESULT int flushRoutes(const char* interface) {
825     uint32_t table = getRouteTableForInterface(interface);
826     if (table == RT_TABLE_UNSPEC) {
827         return -ESRCH;
828     }
829
830     char tableString[UINT32_STRLEN];
831     snprintf(tableString, sizeof(tableString), "%u", table);
832
833     int ret = 0;
834     for (size_t i = 0; i < ARRAY_SIZE(IP_VERSIONS); ++i) {
835         const char* argv[] = {
836             IP_PATH,
837             IP_VERSIONS[i],
838             "route",
839             "flush",
840             "table",
841             tableString,
842         };
843
844         // A flush works by dumping routes and deleting each route as it's returned, and it can
845         // fail if something else deletes the route between the dump and the delete. This can
846         // happen, for example, if an interface goes down while we're trying to flush its routes.
847         // So try multiple times and only return an error if the last attempt fails.
848         //
849         // TODO: replace this with our own netlink code.
850         unsigned attempts = 0;
851         int err;
852         do {
853             err = android_fork_execvp(ARRAY_SIZE(argv), const_cast<char**>(argv),
854                                       NULL, false, false);
855             ++attempts;
856         } while (err != 0 && attempts < ROUTE_FLUSH_ATTEMPTS);
857         if (err) {
858             ALOGE("failed to flush %s routes in table %s after %d attempts",
859                   IP_VERSIONS[i], tableString, attempts);
860             ret = -EREMOTEIO;
861         }
862     }
863
864     // If we failed to flush routes, the caller may elect to keep this interface around, so keep
865     // track of its name.
866     if (!ret) {
867         interfaceToTable.erase(interface);
868     }
869
870     return ret;
871 }
872
873 }  // namespace
874
875 int RouteController::Init(unsigned localNetId) {
876     if (int ret = flushRules()) {
877         return ret;
878     }
879     if (int ret = addLegacyRouteRules()) {
880         return ret;
881     }
882     if (int ret = addLocalNetworkRules(localNetId)) {
883         return ret;
884     }
885     if (int ret = addDirectlyConnectedRule()) {
886         return ret;
887     }
888     if (int ret = addUnreachableRule()) {
889         return ret;
890     }
891     updateTableNamesFile();
892     return 0;
893 }
894
895 int RouteController::addInterfaceToLocalNetwork(unsigned netId, const char* interface) {
896     return modifyLocalNetwork(netId, interface, ACTION_ADD);
897 }
898
899 int RouteController::removeInterfaceFromLocalNetwork(unsigned netId, const char* interface) {
900     return modifyLocalNetwork(netId, interface, ACTION_DEL);
901 }
902
903 int RouteController::addInterfaceToPhysicalNetwork(unsigned netId, const char* interface,
904                                                    Permission permission) {
905     if (int ret = modifyPhysicalNetwork(netId, interface, permission, ACTION_ADD)) {
906         return ret;
907     }
908     updateTableNamesFile();
909     return 0;
910 }
911
912 int RouteController::removeInterfaceFromPhysicalNetwork(unsigned netId, const char* interface,
913                                                         Permission permission) {
914     if (int ret = modifyPhysicalNetwork(netId, interface, permission, ACTION_DEL)) {
915         return ret;
916     }
917     if (int ret = flushRoutes(interface)) {
918         return ret;
919     }
920     updateTableNamesFile();
921     return 0;
922 }
923
924 int RouteController::addInterfaceToVirtualNetwork(unsigned netId, const char* interface,
925                                                   bool secure, const UidRanges& uidRanges) {
926     if (int ret = modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_ADD,
927                                        MODIFY_NON_UID_BASED_RULES)) {
928         return ret;
929     }
930     updateTableNamesFile();
931     return 0;
932 }
933
934 int RouteController::removeInterfaceFromVirtualNetwork(unsigned netId, const char* interface,
935                                                        bool secure, const UidRanges& uidRanges) {
936     if (int ret = modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_DEL,
937                                        MODIFY_NON_UID_BASED_RULES)) {
938         return ret;
939     }
940     if (int ret = flushRoutes(interface)) {
941         return ret;
942     }
943     updateTableNamesFile();
944     return 0;
945 }
946
947 int RouteController::modifyPhysicalNetworkPermission(unsigned netId, const char* interface,
948                                                      Permission oldPermission,
949                                                      Permission newPermission) {
950     // Add the new rules before deleting the old ones, to avoid race conditions.
951     if (int ret = modifyPhysicalNetwork(netId, interface, newPermission, ACTION_ADD)) {
952         return ret;
953     }
954     return modifyPhysicalNetwork(netId, interface, oldPermission, ACTION_DEL);
955 }
956
957 int RouteController::addUsersToVirtualNetwork(unsigned netId, const char* interface, bool secure,
958                                               const UidRanges& uidRanges) {
959     return modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_ADD,
960                                 !MODIFY_NON_UID_BASED_RULES);
961 }
962
963 int RouteController::removeUsersFromVirtualNetwork(unsigned netId, const char* interface,
964                                                    bool secure, const UidRanges& uidRanges) {
965     return modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_DEL,
966                                 !MODIFY_NON_UID_BASED_RULES);
967 }
968
969 int RouteController::addInterfaceToDefaultNetwork(const char* interface, Permission permission) {
970     return modifyDefaultNetwork(RTM_NEWRULE, interface, permission);
971 }
972
973 int RouteController::removeInterfaceFromDefaultNetwork(const char* interface,
974                                                        Permission permission) {
975     return modifyDefaultNetwork(RTM_DELRULE, interface, permission);
976 }
977
978 int RouteController::addRoute(const char* interface, const char* destination, const char* nexthop,
979                               TableType tableType) {
980     return modifyRoute(RTM_NEWROUTE, interface, destination, nexthop, tableType);
981 }
982
983 int RouteController::removeRoute(const char* interface, const char* destination,
984                                  const char* nexthop, TableType tableType) {
985     return modifyRoute(RTM_DELROUTE, interface, destination, nexthop, tableType);
986 }
987
988 int RouteController::enableTethering(const char* inputInterface, const char* outputInterface) {
989     return modifyTetheredNetwork(RTM_NEWRULE, inputInterface, outputInterface);
990 }
991
992 int RouteController::disableTethering(const char* inputInterface, const char* outputInterface) {
993     return modifyTetheredNetwork(RTM_DELRULE, inputInterface, outputInterface);
994 }
995
996 int RouteController::addVirtualNetworkFallthrough(unsigned vpnNetId, const char* physicalInterface,
997                                                   Permission permission) {
998     return modifyVpnFallthroughRule(RTM_NEWRULE, vpnNetId, physicalInterface, permission);
999 }
1000
1001 int RouteController::removeVirtualNetworkFallthrough(unsigned vpnNetId,
1002                                                      const char* physicalInterface,
1003                                                      Permission permission) {
1004     return modifyVpnFallthroughRule(RTM_DELRULE, vpnNetId, physicalInterface, permission);
1005 }