推荐-Linux Namespace的一点理解

    下文的原文来自: http://blog.csdn.net/preterhuman_peak/article/details/40857117
    原文写的非常好,下文中大部分文字描述来自原文,我仅做了一点理解性的插图和实验部分。

    由于本人水平有限,无法做到面面俱到,下文所写均为我全部所知,简略之处必是我涉足尚浅之处。还请观者多给意见,我十分愿意弥补不足。

LinuxNamespace简图.png

采用Namespace的方式
1.全局资源通过命名空间来抽象,将各种全局资源放入容器中,实现隔离,但在容器外将不能为这些全局资源提供唯一性的ID.
2.本质上,命名空间建立了系统的不同视图. 【注:命名空间就是一个容器.】
3.此前的每一项全局资源都必须包装到容器数据结构中,只有资源和包含资源的命名空间构成的二元组仍然是全局唯一的。
4.隔离可让容器间毫无关系,也允许容器间进行适度共享。
5. Chroot就是一种简单的容器隔离机制。

       命名空间的实现需要两个部分:每个子系统的命名空间结构,将此前所有的全局组件包装到命名空间中;将给定进程关联到所属各个命名空间的机制。图 2说明了具体情形。

<nsproxy.h>
struct nsproxy {
       atomic_t count;
       struct uts_namespace *uts_ns;
       struct ipc_namespace *ipc_ns;
       struct mnt_namespace *mnt_ns;
       struct pid_namespace *pid_ns;
       struct user_namespace *user_ns;
       struct net *net_ns;
};

PID Namespace

        PIDNamespace简图.png    

    当调用clone时,设定了CLONE_NEWPID,就会创建一个新的PID Namespace,clone出来的新进程将成为Namespace里的第一个进程。一个PID Namespace为进程提供了一个独立的PID环境,PID Namespace内的PID将从1开始,在Namespace内调用fork,vfork或clone都将产生一个在该Namespace内独立的PID。新创建的Namespace里的第一个进程在该Namespace内的PID将为1,就像一个独立的系统里的init进程一样。该Namespace内的孤儿进程都将以该进程为父进程,当该进程被结束时,该Namespace内所有的进程都会被结束。PID Namespace是层次性,新创建的Namespace将会是创建该Namespace的进程属于的Namespace的子Namespace。子Namespace中的进程对于父Namespace是可见的,一个进程将拥有不止一个PID,而是在所在的Namespace以及所有直系祖先Namespace中都将有一个PID。系统启动时,内核将创建一个默认的PID Namespace,该Namespace是所有以后创建的Namespace的祖先,因此系统所有的进程在该Namespace都是可见的。

IPC Namespace

    当调用clone时,设定了CLONE_NEWIPC,就会创建一个新的IPC Namespace,clone出来的进程将成为Namespace里的第一个进程。一个IPC Namespace有一组System V IPC objects 标识符构成,这标识符有IPC相关的系统调用创建。在一个IPC Namespace里面创建的IPC object对该Namespace内的所有进程可见,但是对其他Namespace不可见,这样就使得不同Namespace之间的进程不能直接通信,就像是在不同的系统里一样。当一个IPC Namespace被销毁,该Namespace内的所有IPC object会被内核自动销毁。

    PID Namespace和IPC Namespace可以组合起来一起使用,只需在调用clone时,同时指定CLONE_NEWPID和CLONE_NEWIPC,这样新创建的Namespace既是一个独立的PID空间又是一个独立的IPC空间。不同Namespace的进程彼此不可见,也不能互相通信,这样就实现了进程间的隔离。
注:
<1> IPC
       IPC(Inter-Process Communication)是共享"命名管道"的资源,它是为了让进程间通信而开放的命名管道,通过提供可信任的用户名和口令,连接双方可以建立安全的通道并以此通道进行加密数据的交换,从而实现对远程计算机的访问。IPC是NT/2000的一项新功能,它有一个特点,即在同一时间内,两个IP之间只允许建立一个连接。
          IPC原理简图.png

<2> System V
    System V和POSIX类似,但POSIX是专注于Linux系统设计的标准化.而System V和BSD则是UNIX设计标准化的一种范本.
    System V它是AT&T公司开发的UNIX系统,是UNIX众多版本中的一种,AT&T共发行了4个版本,System V4是最成功的,它采用SysV初始化脚本(/etc/init.d)来控制启停系统,System V Interface Definition(SVID)是SystemV如何工作的标准定义.

mount Namespace

    当调用clone时,设定了CLONE_NEWNS,就会创建一个新的mount Namespace。每个进程都存在于一个mount Namespace里面,mount Namespace为进程提供了一个文件层次视图。如果不设定这个flag,子进程和父进程将共享一个mount Namespace,其后子进程调用mount或umount将会影响到所有该Namespace内的进程。如果子进程在一个独立的mount Namespace里面,就可以调用mount或umount建立一份新的文件层次视图。该flag配合pivot_root系统调用,可以为进程创建一个独立的目录空间。

Network Namespace

    当调用clone时,设定了CLONE_NEWNET,就会创建一个新的Network Namespace。一个Network Namespace为进程提供了一个完全独立的网络协议栈的视图。包括网络设备接口,IPv4和IPv6协议栈,IP路由表,防火墙规则,sockets等等。一个Network Namespace提供了一份独立的网络环境,就跟一个独立的系统一样。一个物理设备只能存在于一个Network Namespace中,可以从一个Namespace移动另一个Namespace中。虚拟网络设备(virtual network device)提供了一种类似管道的抽象,可以在不同的Namespace之间建立隧道。利用虚拟化网络设备,可以建立到其他Namespace中的物理设备的桥接。当一个Network Namespace被销毁时,物理设备会被自动移回init Network Namespace,即系统最开始的Namespace。

UTS Namespace

    当调用clone时,设定了CLONE_NEWUTS,就会创建一个新的UTS Namespace。一个UTS Namespace就是一组被uname返回的标识符。新的UTS Namespace中的标识符通过复制调用进程所属的Namespace的标识符来初始化。Clone出来的进程可以通过相关系统调用改变这些标识符,比如调用sethostname来改变该Namespace的hostname。这一改变对该Namespace内的所有进程可见。CLONE_NEWUTS和CLONE_NEWNET一起使用,可以虚拟出一个有独立主机名和网络空间的环境,就跟网络上一台独立的主机一样。

    以上所有clone flag都可以一起使用,为进程提供了一个独立的运行环境。LXC正是通过clone时设定这些flag,为进程创建一个有独立PID,IPC,FS,Network,UTS空间的container。一个container就是一个虚拟的运行环境,对container里的进程是透明的,它会以为自己是直接在一个系统上运行的。一个container就像传统虚拟化技术里面的一台安装了OS的虚拟机,但是开销更小,部署更为便捷。

    Linux Namespaces机制本身就是为了实现 container based virtualizaiton开发的。它提供了一套轻量级、高效率的系统资源隔离方案,远比传统的虚拟化技术开销小,不过它也不是完美的,它为内核的开发带来了更多的复杂性,它在隔离性和容错性上跟传统的虚拟化技术比也还有差距。

下面对Network Namespace在进行实践介绍:
测试拓扑:

        NetworkNamespace拓扑图.png

创建基本环境:

   (1) 创建虚拟设备:

               
   (2) 创建虚拟接口并用虚拟网线将其连接:

   (3) 将虚拟接口绑定到各虚拟设备上:

   (4) 为虚拟接口配置IP并启动接口

   (5) 连通性测试

   (6) 在虚拟Server和Client上添加默认路由:

   (7) 为虚拟Router添加静态路由

   (8) 进一步测试SNAT.

   (9) 清理测试环境

原创文章,作者:Wn1m,如若转载,请注明出处:/13656

评论列表(1条)

  • stanley
    stanley 2016-03-28 23:21

    图很专业,绘图对于加深理解非常有效

联系我们

400-080-6560

在线咨询:点击这里给我发消息

邮件:1823388528@qq.com

工作时间:周一至周五,9:30-18:30,节假日同时也值班

友情链接:万达主管QQ  万达娱乐直属  万达娱乐招商  万达招商QQ  guoqibee.com  万达娱乐主管QQ  万达注册  万达招商  万达娱乐开户  万达娱乐注册