OSDN Git Service

am f48d6abf: Merge "Switch writing to <utils/file.h>."
[android-x86/system-netd.git] / server / RouteController.cpp
1 /*
2  * Copyright (C) 2014 The Android Open Source Project
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at
7  *
8  *      http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #include "RouteController.h"
18
19 #include <arpa/inet.h>
20 #include <errno.h>
21 #include <fcntl.h>
22 #include <linux/fib_rules.h>
23 #include <net/if.h>
24 #include <sys/stat.h>
25
26 #include <private/android_filesystem_config.h>
27
28 #include <map>
29
30 #include "Fwmark.h"
31 #include "UidRanges.h"
32
33 #define LOG_TAG "Netd"
34 #include "log/log.h"
35 #include "logwrap/logwrap.h"
36 #include "utils/file.h"
37 #include "resolv_netid.h"
38
39 namespace {
40
41 // BEGIN CONSTANTS --------------------------------------------------------------------------------
42
43 const uint32_t RULE_PRIORITY_VPN_OVERRIDE_SYSTEM = 10000;
44 const uint32_t RULE_PRIORITY_VPN_OUTPUT_TO_LOCAL = 11000;
45 const uint32_t RULE_PRIORITY_SECURE_VPN          = 12000;
46 const uint32_t RULE_PRIORITY_EXPLICIT_NETWORK    = 13000;
47 const uint32_t RULE_PRIORITY_OUTPUT_INTERFACE    = 14000;
48 const uint32_t RULE_PRIORITY_LEGACY_SYSTEM       = 15000;
49 const uint32_t RULE_PRIORITY_LEGACY_NETWORK      = 16000;
50 const uint32_t RULE_PRIORITY_LOCAL_NETWORK       = 17000;
51 const uint32_t RULE_PRIORITY_TETHERING           = 18000;
52 const uint32_t RULE_PRIORITY_IMPLICIT_NETWORK    = 19000;
53 const uint32_t RULE_PRIORITY_BYPASSABLE_VPN      = 20000;
54 const uint32_t RULE_PRIORITY_VPN_FALLTHROUGH     = 21000;
55 const uint32_t RULE_PRIORITY_DEFAULT_NETWORK     = 22000;
56 const uint32_t RULE_PRIORITY_DIRECTLY_CONNECTED  = 23000;
57 const uint32_t RULE_PRIORITY_UNREACHABLE         = 32000;
58
59 const uint32_t ROUTE_TABLE_LOCAL_NETWORK  = 97;
60 const uint32_t ROUTE_TABLE_LEGACY_NETWORK = 98;
61 const uint32_t ROUTE_TABLE_LEGACY_SYSTEM  = 99;
62
63 const char* const ROUTE_TABLE_NAME_LOCAL_NETWORK  = "local_network";
64 const char* const ROUTE_TABLE_NAME_LEGACY_NETWORK = "legacy_network";
65 const char* const ROUTE_TABLE_NAME_LEGACY_SYSTEM  = "legacy_system";
66
67 const char* const ROUTE_TABLE_NAME_LOCAL = "local";
68 const char* const ROUTE_TABLE_NAME_MAIN  = "main";
69
70 // TODO: These values aren't defined by the Linux kernel, because our UID routing changes are not
71 // upstream (yet?), so we can't just pick them up from kernel headers. When (if?) the changes make
72 // it upstream, we'll remove this and rely on the kernel header values. For now, add a static assert
73 // that will warn us if upstream has given these values some other meaning.
74 const uint16_t FRA_UID_START = 18;
75 const uint16_t FRA_UID_END   = 19;
76 static_assert(FRA_UID_START > FRA_MAX,
77              "Android-specific FRA_UID_{START,END} values also assigned in Linux uapi. "
78              "Check that these values match what the kernel does and then update this assertion.");
79
80 const uint16_t NETLINK_REQUEST_FLAGS = NLM_F_REQUEST | NLM_F_ACK;
81 const uint16_t NETLINK_CREATE_REQUEST_FLAGS = NETLINK_REQUEST_FLAGS | NLM_F_CREATE | NLM_F_EXCL;
82
83 const sockaddr_nl NETLINK_ADDRESS = {AF_NETLINK, 0, 0, 0};
84
85 const uint8_t AF_FAMILIES[] = {AF_INET, AF_INET6};
86
87 const char* const IP_VERSIONS[] = {"-4", "-6"};
88
89 const uid_t UID_ROOT = 0;
90 const char* const IIF_NONE = NULL;
91 const char* const OIF_NONE = NULL;
92 const bool ACTION_ADD = true;
93 const bool ACTION_DEL = false;
94 const bool MODIFY_NON_UID_BASED_RULES = true;
95
96 const char* const RT_TABLES_PATH = "/data/misc/net/rt_tables";
97 const mode_t RT_TABLES_MODE = S_IRUSR | S_IWUSR | S_IRGRP | S_IROTH;  // mode 0644, rw-r--r--
98
99 const unsigned ROUTE_FLUSH_ATTEMPTS = 2;
100
101 // Avoids "non-constant-expression cannot be narrowed from type 'unsigned int' to 'unsigned short'"
102 // warnings when using RTA_LENGTH(x) inside static initializers (even when x is already uint16_t).
103 constexpr uint16_t U16_RTA_LENGTH(uint16_t x) {
104     return RTA_LENGTH(x);
105 }
106
107 // These are practically const, but can't be declared so, because they are used to initialize
108 // non-const pointers ("void* iov_base") in iovec arrays.
109 rtattr FRATTR_PRIORITY  = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_PRIORITY };
110 rtattr FRATTR_TABLE     = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_TABLE };
111 rtattr FRATTR_FWMARK    = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_FWMARK };
112 rtattr FRATTR_FWMASK    = { U16_RTA_LENGTH(sizeof(uint32_t)), FRA_FWMASK };
113 rtattr FRATTR_UID_START = { U16_RTA_LENGTH(sizeof(uid_t)),    FRA_UID_START };
114 rtattr FRATTR_UID_END   = { U16_RTA_LENGTH(sizeof(uid_t)),    FRA_UID_END };
115
116 rtattr RTATTR_TABLE     = { U16_RTA_LENGTH(sizeof(uint32_t)), RTA_TABLE };
117 rtattr RTATTR_OIF       = { U16_RTA_LENGTH(sizeof(uint32_t)), RTA_OIF };
118
119 uint8_t PADDING_BUFFER[RTA_ALIGNTO] = {0, 0, 0, 0};
120
121 // END CONSTANTS ----------------------------------------------------------------------------------
122
123 // No locks needed because RouteController is accessed only from one thread (in CommandListener).
124 std::map<std::string, uint32_t> interfaceToTable;
125
126 uint32_t getRouteTableForInterface(const char* interface) {
127     uint32_t index = if_nametoindex(interface);
128     if (index) {
129         index += RouteController::ROUTE_TABLE_OFFSET_FROM_INDEX;
130         interfaceToTable[interface] = index;
131         return index;
132     }
133     // If the interface goes away if_nametoindex() will return 0 but we still need to know
134     // the index so we can remove the rules and routes.
135     auto iter = interfaceToTable.find(interface);
136     if (iter == interfaceToTable.end()) {
137         ALOGE("cannot find interface %s", interface);
138         return RT_TABLE_UNSPEC;
139     }
140     return iter->second;
141 }
142
143 void addTableName(uint32_t table, const std::string& name, std::string* contents) {
144     char tableString[UINT32_STRLEN];
145     snprintf(tableString, sizeof(tableString), "%u", table);
146     *contents += tableString;
147     *contents += " ";
148     *contents += name;
149     *contents += "\n";
150 }
151
152 // Doesn't return success/failure as the file is optional; it's okay if we fail to update it.
153 void updateTableNamesFile() {
154     std::string contents;
155
156     addTableName(RT_TABLE_LOCAL, ROUTE_TABLE_NAME_LOCAL, &contents);
157     addTableName(RT_TABLE_MAIN,  ROUTE_TABLE_NAME_MAIN,  &contents);
158
159     addTableName(ROUTE_TABLE_LOCAL_NETWORK,  ROUTE_TABLE_NAME_LOCAL_NETWORK,  &contents);
160     addTableName(ROUTE_TABLE_LEGACY_NETWORK, ROUTE_TABLE_NAME_LEGACY_NETWORK, &contents);
161     addTableName(ROUTE_TABLE_LEGACY_SYSTEM,  ROUTE_TABLE_NAME_LEGACY_SYSTEM,  &contents);
162
163     for (const auto& entry : interfaceToTable) {
164         addTableName(entry.second, entry.first, &contents);
165     }
166
167     if (!android::WriteStringToFile(contents, RT_TABLES_PATH, RT_TABLES_MODE, AID_SYSTEM, AID_WIFI)) {
168         ALOGE("failed to write to %s (%s)", RT_TABLES_PATH, strerror(errno));
169         return;
170     }
171 }
172
173 // Sends a netlink request and expects an ack.
174 // |iov| is an array of struct iovec that contains the netlink message payload.
175 // The netlink header is generated by this function based on |action| and |flags|.
176 // Returns -errno if there was an error or if the kernel reported an error.
177 WARN_UNUSED_RESULT int sendNetlinkRequest(uint16_t action, uint16_t flags, iovec* iov, int iovlen) {
178     nlmsghdr nlmsg = {
179         .nlmsg_type = action,
180         .nlmsg_flags = flags,
181     };
182     iov[0].iov_base = &nlmsg;
183     iov[0].iov_len = sizeof(nlmsg);
184     for (int i = 0; i < iovlen; ++i) {
185         nlmsg.nlmsg_len += iov[i].iov_len;
186     }
187
188     int ret;
189     struct {
190         nlmsghdr msg;
191         nlmsgerr err;
192     } response;
193
194     int sock = socket(AF_NETLINK, SOCK_DGRAM | SOCK_CLOEXEC, NETLINK_ROUTE);
195     if (sock != -1 &&
196             connect(sock, reinterpret_cast<const sockaddr*>(&NETLINK_ADDRESS),
197                     sizeof(NETLINK_ADDRESS)) != -1 &&
198             writev(sock, iov, iovlen) != -1 &&
199             (ret = recv(sock, &response, sizeof(response), 0)) != -1) {
200         if (ret == sizeof(response)) {
201             ret = response.err.error;  // Netlink errors are negative errno.
202             if (ret) {
203                 ALOGE("netlink response contains error (%s)", strerror(-ret));
204             }
205         } else {
206             ALOGE("bad netlink response message size (%d != %zu)", ret, sizeof(response));
207             ret = -EBADMSG;
208         }
209     } else {
210         ALOGE("netlink socket/connect/writev/recv failed (%s)", strerror(errno));
211         ret = -errno;
212     }
213
214     if (sock != -1) {
215         close(sock);
216     }
217
218     return ret;
219 }
220
221 // Returns 0 on success or negative errno on failure.
222 int padInterfaceName(const char* input, char* name, size_t* length, uint16_t* padding) {
223     if (!input) {
224         *length = 0;
225         *padding = 0;
226         return 0;
227     }
228     *length = strlcpy(name, input, IFNAMSIZ) + 1;
229     if (*length > IFNAMSIZ) {
230         ALOGE("interface name too long (%zu > %u)", *length, IFNAMSIZ);
231         return -ENAMETOOLONG;
232     }
233     *padding = RTA_SPACE(*length) - RTA_LENGTH(*length);
234     return 0;
235 }
236
237 // Adds or removes a routing rule for IPv4 and IPv6.
238 //
239 // + If |table| is non-zero, the rule points at the specified routing table. Otherwise, the rule
240 //   returns ENETUNREACH.
241 // + If |mask| is non-zero, the rule matches the specified fwmark and mask. Otherwise, |fwmark| is
242 //   ignored.
243 // + If |iif| is non-NULL, the rule matches the specified incoming interface.
244 // + If |oif| is non-NULL, the rule matches the specified outgoing interface.
245 // + If |uidStart| and |uidEnd| are not INVALID_UID, the rule matches packets from UIDs in that
246 //   range (inclusive). Otherwise, the rule matches packets from all UIDs.
247 //
248 // Returns 0 on success or negative errno on failure.
249 WARN_UNUSED_RESULT int modifyIpRule(uint16_t action, uint32_t priority, uint32_t table,
250                                     uint32_t fwmark, uint32_t mask, const char* iif,
251                                     const char* oif, uid_t uidStart, uid_t uidEnd) {
252     // Ensure that if you set a bit in the fwmark, it's not being ignored by the mask.
253     if (fwmark & ~mask) {
254         ALOGE("mask 0x%x does not select all the bits set in fwmark 0x%x", mask, fwmark);
255         return -ERANGE;
256     }
257
258     // Interface names must include exactly one terminating NULL and be properly padded, or older
259     // kernels will refuse to delete rules.
260     char iifName[IFNAMSIZ], oifName[IFNAMSIZ];
261     size_t iifLength, oifLength;
262     uint16_t iifPadding, oifPadding;
263     if (int ret = padInterfaceName(iif, iifName, &iifLength, &iifPadding)) {
264         return ret;
265     }
266     if (int ret = padInterfaceName(oif, oifName, &oifLength, &oifPadding)) {
267         return ret;
268     }
269
270     // Either both start and end UID must be specified, or neither.
271     if ((uidStart == INVALID_UID) != (uidEnd == INVALID_UID)) {
272         ALOGE("incompatible start and end UIDs (%u vs %u)", uidStart, uidEnd);
273         return -EUSERS;
274     }
275     bool isUidRule = (uidStart != INVALID_UID);
276
277     // Assemble a rule request and put it in an array of iovec structures.
278     fib_rule_hdr rule = {
279         .action = static_cast<uint8_t>(table != RT_TABLE_UNSPEC ? FR_ACT_TO_TBL :
280                                                                   FR_ACT_UNREACHABLE),
281     };
282
283     rtattr fraIifName = { U16_RTA_LENGTH(iifLength), FRA_IIFNAME };
284     rtattr fraOifName = { U16_RTA_LENGTH(oifLength), FRA_OIFNAME };
285
286     iovec iov[] = {
287         { NULL,              0 },
288         { &rule,             sizeof(rule) },
289         { &FRATTR_PRIORITY,  sizeof(FRATTR_PRIORITY) },
290         { &priority,         sizeof(priority) },
291         { &FRATTR_TABLE,     table != RT_TABLE_UNSPEC ? sizeof(FRATTR_TABLE) : 0 },
292         { &table,            table != RT_TABLE_UNSPEC ? sizeof(table) : 0 },
293         { &FRATTR_FWMARK,    mask ? sizeof(FRATTR_FWMARK) : 0 },
294         { &fwmark,           mask ? sizeof(fwmark) : 0 },
295         { &FRATTR_FWMASK,    mask ? sizeof(FRATTR_FWMASK) : 0 },
296         { &mask,             mask ? sizeof(mask) : 0 },
297         { &FRATTR_UID_START, isUidRule ? sizeof(FRATTR_UID_START) : 0 },
298         { &uidStart,         isUidRule ? sizeof(uidStart) : 0 },
299         { &FRATTR_UID_END,   isUidRule ? sizeof(FRATTR_UID_END) : 0 },
300         { &uidEnd,           isUidRule ? sizeof(uidEnd) : 0 },
301         { &fraIifName,       iif != IIF_NONE ? sizeof(fraIifName) : 0 },
302         { iifName,           iifLength },
303         { PADDING_BUFFER,    iifPadding },
304         { &fraOifName,       oif != OIF_NONE ? sizeof(fraOifName) : 0 },
305         { oifName,           oifLength },
306         { PADDING_BUFFER,    oifPadding },
307     };
308
309     uint16_t flags = (action == RTM_NEWRULE) ? NETLINK_CREATE_REQUEST_FLAGS : NETLINK_REQUEST_FLAGS;
310     for (size_t i = 0; i < ARRAY_SIZE(AF_FAMILIES); ++i) {
311         rule.family = AF_FAMILIES[i];
312         if (int ret = sendNetlinkRequest(action, flags, iov, ARRAY_SIZE(iov))) {
313             return ret;
314         }
315     }
316
317     return 0;
318 }
319
320 WARN_UNUSED_RESULT int modifyIpRule(uint16_t action, uint32_t priority, uint32_t table,
321                                     uint32_t fwmark, uint32_t mask) {
322     return modifyIpRule(action, priority, table, fwmark, mask, IIF_NONE, OIF_NONE, INVALID_UID,
323                         INVALID_UID);
324 }
325
326 // Adds or deletes an IPv4 or IPv6 route.
327 // Returns 0 on success or negative errno on failure.
328 WARN_UNUSED_RESULT int modifyIpRoute(uint16_t action, uint32_t table, const char* interface,
329                                      const char* destination, const char* nexthop) {
330     // At least the destination must be non-null.
331     if (!destination) {
332         ALOGE("null destination");
333         return -EFAULT;
334     }
335
336     // Parse the prefix.
337     uint8_t rawAddress[sizeof(in6_addr)];
338     uint8_t family;
339     uint8_t prefixLength;
340     int rawLength = parsePrefix(destination, &family, rawAddress, sizeof(rawAddress),
341                                 &prefixLength);
342     if (rawLength < 0) {
343         ALOGE("parsePrefix failed for destination %s (%s)", destination, strerror(-rawLength));
344         return rawLength;
345     }
346
347     if (static_cast<size_t>(rawLength) > sizeof(rawAddress)) {
348         ALOGE("impossible! address too long (%d vs %zu)", rawLength, sizeof(rawAddress));
349         return -ENOBUFS;  // Cannot happen; parsePrefix only supports IPv4 and IPv6.
350     }
351
352     uint8_t type = RTN_UNICAST;
353     uint32_t ifindex;
354     uint8_t rawNexthop[sizeof(in6_addr)];
355
356     if (nexthop && !strcmp(nexthop, "unreachable")) {
357         type = RTN_UNREACHABLE;
358         // 'interface' is likely non-NULL, as the caller (modifyRoute()) likely used it to lookup
359         // the table number. But it's an error to specify an interface ("dev ...") or a nexthop for
360         // unreachable routes, so nuke them. (IPv6 allows them to be specified; IPv4 doesn't.)
361         interface = OIF_NONE;
362         nexthop = NULL;
363     } else if (nexthop && !strcmp(nexthop, "throw")) {
364         type = RTN_THROW;
365         interface = OIF_NONE;
366         nexthop = NULL;
367     } else {
368         // If an interface was specified, find the ifindex.
369         if (interface != OIF_NONE) {
370             ifindex = if_nametoindex(interface);
371             if (!ifindex) {
372                 ALOGE("cannot find interface %s", interface);
373                 return -ENODEV;
374             }
375         }
376
377         // If a nexthop was specified, parse it as the same family as the prefix.
378         if (nexthop && inet_pton(family, nexthop, rawNexthop) <= 0) {
379             ALOGE("inet_pton failed for nexthop %s", nexthop);
380             return -EINVAL;
381         }
382     }
383
384     // Assemble a rtmsg and put it in an array of iovec structures.
385     rtmsg route = {
386         .rtm_protocol = RTPROT_STATIC,
387         .rtm_type = type,
388         .rtm_family = family,
389         .rtm_dst_len = prefixLength,
390         .rtm_scope = static_cast<uint8_t>(nexthop ? RT_SCOPE_UNIVERSE : RT_SCOPE_LINK),
391     };
392
393     rtattr rtaDst     = { U16_RTA_LENGTH(rawLength), RTA_DST };
394     rtattr rtaGateway = { U16_RTA_LENGTH(rawLength), RTA_GATEWAY };
395
396     iovec iov[] = {
397         { NULL,          0 },
398         { &route,        sizeof(route) },
399         { &RTATTR_TABLE, sizeof(RTATTR_TABLE) },
400         { &table,        sizeof(table) },
401         { &rtaDst,       sizeof(rtaDst) },
402         { rawAddress,    static_cast<size_t>(rawLength) },
403         { &RTATTR_OIF,   interface != OIF_NONE ? sizeof(RTATTR_OIF) : 0 },
404         { &ifindex,      interface != OIF_NONE ? sizeof(ifindex) : 0 },
405         { &rtaGateway,   nexthop ? sizeof(rtaGateway) : 0 },
406         { rawNexthop,    nexthop ? static_cast<size_t>(rawLength) : 0 },
407     };
408
409     uint16_t flags = (action == RTM_NEWROUTE) ? NETLINK_CREATE_REQUEST_FLAGS :
410                                                 NETLINK_REQUEST_FLAGS;
411     return sendNetlinkRequest(action, flags, iov, ARRAY_SIZE(iov));
412 }
413
414 // An iptables rule to mark incoming packets on a network with the netId of the network.
415 //
416 // This is so that the kernel can:
417 // + Use the right fwmark for (and thus correctly route) replies (e.g.: TCP RST, ICMP errors, ping
418 //   replies, SYN-ACKs, etc).
419 // + Mark sockets that accept connections from this interface so that the connection stays on the
420 //   same interface.
421 WARN_UNUSED_RESULT int modifyIncomingPacketMark(unsigned netId, const char* interface,
422                                                 Permission permission, bool add) {
423     Fwmark fwmark;
424
425     fwmark.netId = netId;
426     fwmark.explicitlySelected = true;
427     fwmark.protectedFromVpn = true;
428     fwmark.permission = permission;
429
430     char markString[UINT32_HEX_STRLEN];
431     snprintf(markString, sizeof(markString), "0x%x", fwmark.intValue);
432
433     if (execIptables(V4V6, "-t", "mangle", add ? "-A" : "-D", "INPUT", "-i", interface, "-j",
434                      "MARK", "--set-mark", markString, NULL)) {
435         ALOGE("failed to change iptables rule that sets incoming packet mark");
436         return -EREMOTEIO;
437     }
438
439     return 0;
440 }
441
442 // A rule to route responses to the local network forwarded via the VPN.
443 //
444 // When a VPN is in effect, packets from the local network to upstream networks are forwarded into
445 // the VPN's tunnel interface. When the VPN forwards the responses, they emerge out of the tunnel.
446 WARN_UNUSED_RESULT int modifyVpnOutputToLocalRule(const char* vpnInterface, bool add) {
447     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_VPN_OUTPUT_TO_LOCAL,
448                         ROUTE_TABLE_LOCAL_NETWORK, MARK_UNSET, MARK_UNSET, vpnInterface, OIF_NONE,
449                         INVALID_UID, INVALID_UID);
450 }
451
452 // A rule to route all traffic from a given set of UIDs to go over the VPN.
453 //
454 // Notice that this rule doesn't use the netId. I.e., no matter what netId the user's socket may
455 // have, if they are subject to this VPN, their traffic has to go through it. Allows the traffic to
456 // bypass the VPN if the protectedFromVpn bit is set.
457 WARN_UNUSED_RESULT int modifyVpnUidRangeRule(uint32_t table, uid_t uidStart, uid_t uidEnd,
458                                              bool secure, bool add) {
459     Fwmark fwmark;
460     Fwmark mask;
461
462     fwmark.protectedFromVpn = false;
463     mask.protectedFromVpn = true;
464
465     uint32_t priority;
466
467     if (secure) {
468         priority = RULE_PRIORITY_SECURE_VPN;
469     } else {
470         priority = RULE_PRIORITY_BYPASSABLE_VPN;
471
472         fwmark.explicitlySelected = false;
473         mask.explicitlySelected = true;
474     }
475
476     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, priority, table, fwmark.intValue,
477                         mask.intValue, IIF_NONE, OIF_NONE, uidStart, uidEnd);
478 }
479
480 // A rule to allow system apps to send traffic over this VPN even if they are not part of the target
481 // set of UIDs.
482 //
483 // This is needed for DnsProxyListener to correctly resolve a request for a user who is in the
484 // target set, but where the DnsProxyListener itself is not.
485 WARN_UNUSED_RESULT int modifyVpnSystemPermissionRule(unsigned netId, uint32_t table, bool secure,
486                                                      bool add) {
487     Fwmark fwmark;
488     Fwmark mask;
489
490     fwmark.netId = netId;
491     mask.netId = FWMARK_NET_ID_MASK;
492
493     fwmark.permission = PERMISSION_SYSTEM;
494     mask.permission = PERMISSION_SYSTEM;
495
496     uint32_t priority = secure ? RULE_PRIORITY_SECURE_VPN : RULE_PRIORITY_BYPASSABLE_VPN;
497
498     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, priority, table, fwmark.intValue,
499                         mask.intValue);
500 }
501
502 // A rule to route traffic based on an explicitly chosen network.
503 //
504 // Supports apps that use the multinetwork APIs to restrict their traffic to a network.
505 //
506 // Even though we check permissions at the time we set a netId into the fwmark of a socket, we need
507 // to check it again in the rules here, because a network's permissions may have been updated via
508 // modifyNetworkPermission().
509 WARN_UNUSED_RESULT int modifyExplicitNetworkRule(unsigned netId, uint32_t table,
510                                                  Permission permission, uid_t uidStart,
511                                                  uid_t uidEnd, bool add) {
512     Fwmark fwmark;
513     Fwmark mask;
514
515     fwmark.netId = netId;
516     mask.netId = FWMARK_NET_ID_MASK;
517
518     fwmark.explicitlySelected = true;
519     mask.explicitlySelected = true;
520
521     fwmark.permission = permission;
522     mask.permission = permission;
523
524     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_EXPLICIT_NETWORK, table,
525                         fwmark.intValue, mask.intValue, IIF_NONE, OIF_NONE, uidStart, uidEnd);
526 }
527
528 // A rule to route traffic based on a chosen outgoing interface.
529 //
530 // Supports apps that use SO_BINDTODEVICE or IP_PKTINFO options and the kernel that already knows
531 // the outgoing interface (typically for link-local communications).
532 WARN_UNUSED_RESULT int modifyOutputInterfaceRule(const char* interface, uint32_t table,
533                                                  Permission permission, uid_t uidStart,
534                                                  uid_t uidEnd, bool add) {
535     Fwmark fwmark;
536     Fwmark mask;
537
538     fwmark.permission = permission;
539     mask.permission = permission;
540
541     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_OUTPUT_INTERFACE, table,
542                         fwmark.intValue, mask.intValue, IIF_NONE, interface, uidStart, uidEnd);
543 }
544
545 // A rule to route traffic based on the chosen network.
546 //
547 // This is for sockets that have not explicitly requested a particular network, but have been
548 // bound to one when they called connect(). This ensures that sockets connected on a particular
549 // network stay on that network even if the default network changes.
550 WARN_UNUSED_RESULT int modifyImplicitNetworkRule(unsigned netId, uint32_t table,
551                                                  Permission permission, bool add) {
552     Fwmark fwmark;
553     Fwmark mask;
554
555     fwmark.netId = netId;
556     mask.netId = FWMARK_NET_ID_MASK;
557
558     fwmark.explicitlySelected = false;
559     mask.explicitlySelected = true;
560
561     fwmark.permission = permission;
562     mask.permission = permission;
563
564     return modifyIpRule(add ? RTM_NEWRULE : RTM_DELRULE, RULE_PRIORITY_IMPLICIT_NETWORK, table,
565                         fwmark.intValue, mask.intValue);
566 }
567
568 // A rule to enable split tunnel VPNs.
569 //
570 // If a packet with a VPN's netId doesn't find a route in the VPN's routing table, it's allowed to
571 // go over the default network, provided it wasn't explicitly restricted to the VPN and has the
572 // permissions required by the default network.
573 WARN_UNUSED_RESULT int modifyVpnFallthroughRule(uint16_t action, unsigned vpnNetId,
574                                                 const char* physicalInterface,
575                                                 Permission permission) {
576     uint32_t table = getRouteTableForInterface(physicalInterface);
577     if (table == RT_TABLE_UNSPEC) {
578         return -ESRCH;
579     }
580
581     Fwmark fwmark;
582     Fwmark mask;
583
584     fwmark.netId = vpnNetId;
585     mask.netId = FWMARK_NET_ID_MASK;
586
587     fwmark.explicitlySelected = false;
588     mask.explicitlySelected = true;
589
590     fwmark.permission = permission;
591     mask.permission = permission;
592
593     return modifyIpRule(action, RULE_PRIORITY_VPN_FALLTHROUGH, table, fwmark.intValue,
594                         mask.intValue);
595 }
596
597 // Add rules to allow legacy routes added through the requestRouteToHost() API.
598 WARN_UNUSED_RESULT int addLegacyRouteRules() {
599     Fwmark fwmark;
600     Fwmark mask;
601
602     fwmark.explicitlySelected = false;
603     mask.explicitlySelected = true;
604
605     // Rules to allow legacy routes to override the default network.
606     if (int ret = modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_LEGACY_SYSTEM, ROUTE_TABLE_LEGACY_SYSTEM,
607                                fwmark.intValue, mask.intValue)) {
608         return ret;
609     }
610     if (int ret = modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_LEGACY_NETWORK,
611                                ROUTE_TABLE_LEGACY_NETWORK, fwmark.intValue, mask.intValue)) {
612         return ret;
613     }
614
615     fwmark.permission = PERMISSION_SYSTEM;
616     mask.permission = PERMISSION_SYSTEM;
617
618     // A rule to allow legacy routes from system apps to override VPNs.
619     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_VPN_OVERRIDE_SYSTEM, ROUTE_TABLE_LEGACY_SYSTEM,
620                         fwmark.intValue, mask.intValue);
621 }
622
623 // Add rules to lookup the local network when specified explicitly or otherwise.
624 WARN_UNUSED_RESULT int addLocalNetworkRules(unsigned localNetId) {
625     if (int ret = modifyExplicitNetworkRule(localNetId, ROUTE_TABLE_LOCAL_NETWORK, PERMISSION_NONE,
626                                             INVALID_UID, INVALID_UID, ACTION_ADD)) {
627         return ret;
628     }
629
630     Fwmark fwmark;
631     Fwmark mask;
632
633     fwmark.explicitlySelected = false;
634     mask.explicitlySelected = true;
635
636     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_LOCAL_NETWORK, ROUTE_TABLE_LOCAL_NETWORK,
637                         fwmark.intValue, mask.intValue);
638 }
639
640 // Add a new rule to look up the 'main' table, with the same selectors as the "default network"
641 // rule, but with a lower priority. We will never create routes in the main table; it should only be
642 // used for directly-connected routes implicitly created by the kernel when adding IP addresses.
643 // This is necessary, for example, when adding a route through a directly-connected gateway: in
644 // order to add the route, there must already be a directly-connected route that covers the gateway.
645 WARN_UNUSED_RESULT int addDirectlyConnectedRule() {
646     Fwmark fwmark;
647     Fwmark mask;
648
649     fwmark.netId = NETID_UNSET;
650     mask.netId = FWMARK_NET_ID_MASK;
651
652     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_DIRECTLY_CONNECTED, RT_TABLE_MAIN,
653                         fwmark.intValue, mask.intValue, IIF_NONE, OIF_NONE, UID_ROOT, UID_ROOT);
654 }
655
656 // Add an explicit unreachable rule close to the end of the prioriy list to make it clear that
657 // relying on the kernel-default "from all lookup main" rule at priority 32766 is not intended
658 // behaviour. We do flush the kernel-default rules at startup, but having an explicit unreachable
659 // rule will hopefully make things even clearer.
660 WARN_UNUSED_RESULT int addUnreachableRule() {
661     return modifyIpRule(RTM_NEWRULE, RULE_PRIORITY_UNREACHABLE, RT_TABLE_UNSPEC, MARK_UNSET,
662                         MARK_UNSET);
663 }
664
665 WARN_UNUSED_RESULT int modifyLocalNetwork(unsigned netId, const char* interface, bool add) {
666     if (int ret = modifyIncomingPacketMark(netId, interface, PERMISSION_NONE, add)) {
667         return ret;
668     }
669     return modifyOutputInterfaceRule(interface, ROUTE_TABLE_LOCAL_NETWORK, PERMISSION_NONE,
670                                      INVALID_UID, INVALID_UID, add);
671 }
672
673 WARN_UNUSED_RESULT int modifyPhysicalNetwork(unsigned netId, const char* interface,
674                                              Permission permission, bool add) {
675     uint32_t table = getRouteTableForInterface(interface);
676     if (table == RT_TABLE_UNSPEC) {
677         return -ESRCH;
678     }
679
680     if (int ret = modifyIncomingPacketMark(netId, interface, permission, add)) {
681         return ret;
682     }
683     if (int ret = modifyExplicitNetworkRule(netId, table, permission, INVALID_UID, INVALID_UID,
684                                             add)) {
685         return ret;
686     }
687     if (int ret = modifyOutputInterfaceRule(interface, table, permission, INVALID_UID, INVALID_UID,
688                                             add)) {
689         return ret;
690     }
691     return modifyImplicitNetworkRule(netId, table, permission, add);
692 }
693
694 WARN_UNUSED_RESULT int modifyVirtualNetwork(unsigned netId, const char* interface,
695                                             const UidRanges& uidRanges, bool secure, bool add,
696                                             bool modifyNonUidBasedRules) {
697     uint32_t table = getRouteTableForInterface(interface);
698     if (table == RT_TABLE_UNSPEC) {
699         return -ESRCH;
700     }
701
702     for (const UidRanges::Range& range : uidRanges.getRanges()) {
703         if (int ret = modifyVpnUidRangeRule(table, range.first, range.second, secure, add)) {
704             return ret;
705         }
706         if (int ret = modifyExplicitNetworkRule(netId, table, PERMISSION_NONE, range.first,
707                                                 range.second, add)) {
708             return ret;
709         }
710         if (int ret = modifyOutputInterfaceRule(interface, table, PERMISSION_NONE, range.first,
711                                                 range.second, add)) {
712             return ret;
713         }
714     }
715
716     if (modifyNonUidBasedRules) {
717         if (int ret = modifyIncomingPacketMark(netId, interface, PERMISSION_NONE, add)) {
718             return ret;
719         }
720         if (int ret = modifyVpnOutputToLocalRule(interface, add)) {
721             return ret;
722         }
723         if (int ret = modifyVpnSystemPermissionRule(netId, table, secure, add)) {
724             return ret;
725         }
726         return modifyExplicitNetworkRule(netId, table, PERMISSION_NONE, UID_ROOT, UID_ROOT, add);
727     }
728
729     return 0;
730 }
731
732 WARN_UNUSED_RESULT int modifyDefaultNetwork(uint16_t action, const char* interface,
733                                             Permission permission) {
734     uint32_t table = getRouteTableForInterface(interface);
735     if (table == RT_TABLE_UNSPEC) {
736         return -ESRCH;
737     }
738
739     Fwmark fwmark;
740     Fwmark mask;
741
742     fwmark.netId = NETID_UNSET;
743     mask.netId = FWMARK_NET_ID_MASK;
744
745     fwmark.permission = permission;
746     mask.permission = permission;
747
748     return modifyIpRule(action, RULE_PRIORITY_DEFAULT_NETWORK, table, fwmark.intValue,
749                         mask.intValue);
750 }
751
752 WARN_UNUSED_RESULT int modifyTetheredNetwork(uint16_t action, const char* inputInterface,
753                                              const char* outputInterface) {
754     uint32_t table = getRouteTableForInterface(outputInterface);
755     if (table == RT_TABLE_UNSPEC) {
756         return -ESRCH;
757     }
758
759     return modifyIpRule(action, RULE_PRIORITY_TETHERING, table, MARK_UNSET, MARK_UNSET,
760                         inputInterface, OIF_NONE, INVALID_UID, INVALID_UID);
761 }
762
763 // Returns 0 on success or negative errno on failure.
764 WARN_UNUSED_RESULT int flushRules() {
765     for (size_t i = 0; i < ARRAY_SIZE(IP_VERSIONS); ++i) {
766         const char* argv[] = {
767             IP_PATH,
768             IP_VERSIONS[i],
769             "rule",
770             "flush",
771         };
772         if (android_fork_execvp(ARRAY_SIZE(argv), const_cast<char**>(argv), NULL, false, false)) {
773             ALOGE("failed to flush rules");
774             return -EREMOTEIO;
775         }
776     }
777     return 0;
778 }
779
780 // Adds or removes an IPv4 or IPv6 route to the specified table and, if it's a directly-connected
781 // route, to the main table as well.
782 // Returns 0 on success or negative errno on failure.
783 WARN_UNUSED_RESULT int modifyRoute(uint16_t action, const char* interface, const char* destination,
784                                    const char* nexthop, RouteController::TableType tableType) {
785     uint32_t table;
786     switch (tableType) {
787         case RouteController::INTERFACE: {
788             table = getRouteTableForInterface(interface);
789             if (table == RT_TABLE_UNSPEC) {
790                 return -ESRCH;
791             }
792             break;
793         }
794         case RouteController::LOCAL_NETWORK: {
795             table = ROUTE_TABLE_LOCAL_NETWORK;
796             break;
797         }
798         case RouteController::LEGACY_NETWORK: {
799             table = ROUTE_TABLE_LEGACY_NETWORK;
800             break;
801         }
802         case RouteController::LEGACY_SYSTEM: {
803             table = ROUTE_TABLE_LEGACY_SYSTEM;
804             break;
805         }
806     }
807
808     int ret = modifyIpRoute(action, table, interface, destination, nexthop);
809     // Trying to add a route that already exists shouldn't cause an error.
810     if (ret && !(action == RTM_NEWROUTE && ret == -EEXIST)) {
811         return ret;
812     }
813
814     return 0;
815 }
816
817 // Returns 0 on success or negative errno on failure.
818 WARN_UNUSED_RESULT int flushRoutes(const char* interface) {
819     uint32_t table = getRouteTableForInterface(interface);
820     if (table == RT_TABLE_UNSPEC) {
821         return -ESRCH;
822     }
823
824     char tableString[UINT32_STRLEN];
825     snprintf(tableString, sizeof(tableString), "%u", table);
826
827     int ret = 0;
828     for (size_t i = 0; i < ARRAY_SIZE(IP_VERSIONS); ++i) {
829         const char* argv[] = {
830             IP_PATH,
831             IP_VERSIONS[i],
832             "route",
833             "flush",
834             "table",
835             tableString,
836         };
837
838         // A flush works by dumping routes and deleting each route as it's returned, and it can
839         // fail if something else deletes the route between the dump and the delete. This can
840         // happen, for example, if an interface goes down while we're trying to flush its routes.
841         // So try multiple times and only return an error if the last attempt fails.
842         //
843         // TODO: replace this with our own netlink code.
844         unsigned attempts = 0;
845         int err;
846         do {
847             err = android_fork_execvp(ARRAY_SIZE(argv), const_cast<char**>(argv),
848                                       NULL, false, false);
849             ++attempts;
850         } while (err != 0 && attempts < ROUTE_FLUSH_ATTEMPTS);
851         if (err) {
852             ALOGE("failed to flush %s routes in table %s after %d attempts",
853                   IP_VERSIONS[i], tableString, attempts);
854             ret = -EREMOTEIO;
855         }
856     }
857
858     // If we failed to flush routes, the caller may elect to keep this interface around, so keep
859     // track of its name.
860     if (!ret) {
861         interfaceToTable.erase(interface);
862     }
863
864     return ret;
865 }
866
867 }  // namespace
868
869 int RouteController::Init(unsigned localNetId) {
870     if (int ret = flushRules()) {
871         return ret;
872     }
873     if (int ret = addLegacyRouteRules()) {
874         return ret;
875     }
876     if (int ret = addLocalNetworkRules(localNetId)) {
877         return ret;
878     }
879     if (int ret = addDirectlyConnectedRule()) {
880         return ret;
881     }
882     if (int ret = addUnreachableRule()) {
883         return ret;
884     }
885     updateTableNamesFile();
886     return 0;
887 }
888
889 int RouteController::addInterfaceToLocalNetwork(unsigned netId, const char* interface) {
890     return modifyLocalNetwork(netId, interface, ACTION_ADD);
891 }
892
893 int RouteController::removeInterfaceFromLocalNetwork(unsigned netId, const char* interface) {
894     return modifyLocalNetwork(netId, interface, ACTION_DEL);
895 }
896
897 int RouteController::addInterfaceToPhysicalNetwork(unsigned netId, const char* interface,
898                                                    Permission permission) {
899     if (int ret = modifyPhysicalNetwork(netId, interface, permission, ACTION_ADD)) {
900         return ret;
901     }
902     updateTableNamesFile();
903     return 0;
904 }
905
906 int RouteController::removeInterfaceFromPhysicalNetwork(unsigned netId, const char* interface,
907                                                         Permission permission) {
908     if (int ret = modifyPhysicalNetwork(netId, interface, permission, ACTION_DEL)) {
909         return ret;
910     }
911     if (int ret = flushRoutes(interface)) {
912         return ret;
913     }
914     updateTableNamesFile();
915     return 0;
916 }
917
918 int RouteController::addInterfaceToVirtualNetwork(unsigned netId, const char* interface,
919                                                   bool secure, const UidRanges& uidRanges) {
920     if (int ret = modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_ADD,
921                                        MODIFY_NON_UID_BASED_RULES)) {
922         return ret;
923     }
924     updateTableNamesFile();
925     return 0;
926 }
927
928 int RouteController::removeInterfaceFromVirtualNetwork(unsigned netId, const char* interface,
929                                                        bool secure, const UidRanges& uidRanges) {
930     if (int ret = modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_DEL,
931                                        MODIFY_NON_UID_BASED_RULES)) {
932         return ret;
933     }
934     if (int ret = flushRoutes(interface)) {
935         return ret;
936     }
937     updateTableNamesFile();
938     return 0;
939 }
940
941 int RouteController::modifyPhysicalNetworkPermission(unsigned netId, const char* interface,
942                                                      Permission oldPermission,
943                                                      Permission newPermission) {
944     // Add the new rules before deleting the old ones, to avoid race conditions.
945     if (int ret = modifyPhysicalNetwork(netId, interface, newPermission, ACTION_ADD)) {
946         return ret;
947     }
948     return modifyPhysicalNetwork(netId, interface, oldPermission, ACTION_DEL);
949 }
950
951 int RouteController::addUsersToVirtualNetwork(unsigned netId, const char* interface, bool secure,
952                                               const UidRanges& uidRanges) {
953     return modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_ADD,
954                                 !MODIFY_NON_UID_BASED_RULES);
955 }
956
957 int RouteController::removeUsersFromVirtualNetwork(unsigned netId, const char* interface,
958                                                    bool secure, const UidRanges& uidRanges) {
959     return modifyVirtualNetwork(netId, interface, uidRanges, secure, ACTION_DEL,
960                                 !MODIFY_NON_UID_BASED_RULES);
961 }
962
963 int RouteController::addInterfaceToDefaultNetwork(const char* interface, Permission permission) {
964     return modifyDefaultNetwork(RTM_NEWRULE, interface, permission);
965 }
966
967 int RouteController::removeInterfaceFromDefaultNetwork(const char* interface,
968                                                        Permission permission) {
969     return modifyDefaultNetwork(RTM_DELRULE, interface, permission);
970 }
971
972 int RouteController::addRoute(const char* interface, const char* destination, const char* nexthop,
973                               TableType tableType) {
974     return modifyRoute(RTM_NEWROUTE, interface, destination, nexthop, tableType);
975 }
976
977 int RouteController::removeRoute(const char* interface, const char* destination,
978                                  const char* nexthop, TableType tableType) {
979     return modifyRoute(RTM_DELROUTE, interface, destination, nexthop, tableType);
980 }
981
982 int RouteController::enableTethering(const char* inputInterface, const char* outputInterface) {
983     return modifyTetheredNetwork(RTM_NEWRULE, inputInterface, outputInterface);
984 }
985
986 int RouteController::disableTethering(const char* inputInterface, const char* outputInterface) {
987     return modifyTetheredNetwork(RTM_DELRULE, inputInterface, outputInterface);
988 }
989
990 int RouteController::addVirtualNetworkFallthrough(unsigned vpnNetId, const char* physicalInterface,
991                                                   Permission permission) {
992     return modifyVpnFallthroughRule(RTM_NEWRULE, vpnNetId, physicalInterface, permission);
993 }
994
995 int RouteController::removeVirtualNetworkFallthrough(unsigned vpnNetId,
996                                                      const char* physicalInterface,
997                                                      Permission permission) {
998     return modifyVpnFallthroughRule(RTM_DELRULE, vpnNetId, physicalInterface, permission);
999 }