显示标签为“程序即数据”的博文。显示所有博文
显示标签为“程序即数据”的博文。显示所有博文

2016年6月1日星期三

command line as OS

典型场景是:服务器远程登陆,只有命令行界面,此时不得不用命令行工具处理日常工作任务,所以就用,边用边查手册,用久了所以熟悉

日常任务有:
  • 文件上传、下载。一般来说就是sz,rz,wget,curl,scp等。
    • for循环wget,分分钟多进程下载。
    • wget -c 分分钟断点续传。
  • 压缩、解压。所以得会用tar,zip等命令。我一开始的时候,问一个老手tar cvzf,tar xvzf后面一排参数啥意思,老手说:”早就忘记了,天天都这么用“。所以我认为它和一个按钮一个菜单没什么区别,命令行参数的选项和参数一般是经常用就熟悉,久不用就容易忘记,此时复查是正常的事情。顺便吐槽下windows下7z的菜单里直接解压tar.gz要解压两次真是麻烦事,命令行当然可以一次搞定。
  • 目录和文件的创建、移除、拷贝、移动。基本命令是:mkdir,rm,mv等。这是最基本的常规操作了,一般来说需要注意的有:
    • 非空目录的移除,
    • 递归删除时拼接路径的安全隐患(递归删除根目录就一点都不好玩了)
    • 删除时文件被占用
      • 如果可能只是短时被占用,可以sleep几十毫秒再删,重试n次退出。
    • 考虑采用”删除xxx.old, 移动xxx到xxx.old, 拷贝yyy到xxx“的方式代替”直接删除xxx,移动yyy到xxx“的方案、
    • 文件系统
      • 理解硬盘驱动,冗余磁盘阵列,inode,文件和目录,缓存策略等。
  • 文本显示、查找、替换、统计。在命令行下分析程序的日志,必备的技能就是文本操作。基本的命令有cat,tail,less,head,grep,sed,awk,wc,xargs等,这组命令行基本要通过管道来配合使用。我个人觉的awk的设计有点古老,awk的脚本我是一点都不觉得写起来流畅和爽快,sed的稍微好点,但也一般。如果是在windows下,这种流式过滤的工作,我是宁可开个LinqPAD写Linq来做,其实很多时候写脚本我都实际上觉的用正式点的高级语言做会更好。很多shell脚本写的人天马行空,别人读起来就不好玩了,毕竟写shell的人不写注释,遍地意大利面条。吐槽归吐槽,现实上我们不得不妥协,该用还得用。毕竟一切数据都可以输出成文本,所以文本的流式分析是基本技能。
    • 我认为这组命令的组合使用能让人体会到管道的好处。管道让多进程之间的流式操作流畅进行。顺便我认为shell的一个特点是,它天生是多进程程序,一个shell里随便一堆命令就是多进程操作,可能很多人写着的时候并没有意识到这点哦。进一步,多主机之间ssh授权后,shell里的ssh远程命令的组织又天生带有点分布式属性,也许这能带来一些启发。
      • ssh 信任就是非对称加密。
        • A机留私钥; B机在.ssh目录放公钥,在.ssh/authorized_keys里填上公钥内容。
        • 则A机执行ssh user@B cmd 的时候,B机会用公钥和A机之间建立ssh连接,然后执行命令。
          • git 的客户端向git的仓库之间建立ssh授权也是这个过程,实际上任何依赖于ssh建立授权的都是这个过程。
          • 这实际上是一种“反连”协议,思考下私钥在哪里就知道了。
    • 理解管道的另一个要素是,需要理解fork,vfork、clone,exec;需要理解标准输入输出。fork之后,在exec子进程之前重定向父进程的标准输出,重定向子进程的标准输入,这样它们就被流式串在一起。
      • 好吧,被awk粉丝吐槽了:D
  • 文本编辑。
    • vi基本技能。shell下编辑文本只能用这个了,我认为vi或者vim里最重要的技能就三个:导航、查找、替换,带着这个思维去记忆那些命令会明确很多。我觉的任何一个程序的核心功能就几个,每个核心功能的核心命令也就几个,其他的就按需查用即可。~~
      • 理解模式的概念,同样的键盘按钮,在不同vim模式下,操作代表不同的语义。想象一下相机是如何由有限的几个按钮做到多组不同功能的支持。
        • 我认为快捷键并不是vim/emacs之类的最大特点,任何一个支持快捷键的编辑器,你都可以通过熟练掌握常见的快捷键使得操作快捷高效,比如notepad、visual studio、word等,理解这点有助于我们看清事实,驾驭工具。
  • 资源监控。输出的信息都可以配合grep等使用,比如ps aux|grep processname.
    • 任务管理器型:vmstat, top, htop,
    • 进程:ps
      • cpu的虚拟化。
      • 理解OS对process的调度:Scheduling (computing)
        • FIFO,SJF,STCF,RR,MLFQ
        • 理解os调度process的话,再去看协程,用户态协程需要自己做调度:)
        • IO密集和CPU密集?
    • 磁盘:du, iotop, iostat
    • 文件句柄:lsof
      • 比如查看一个进程打开的文件描述符,反向查看哪些进程打开了某个文件。
    • 内存
      • 物理内存的虚拟化(进程的内存分布,内部浪费和外部浪费),分页,页错误。
  • 调试和Hook。开发的话会需要调试程序和Hook程序等。
    • 通过ulimit -c unlimited让程序崩溃时产生coredump,然后用gdb调试,看崩溃堆栈,变量、单步等,这是gdb的常规操作。linux下开发必备技能了。ulimit 还可以限制其他资源,比如-n限制文件句柄个数,-s限制堆栈大小等,具体查文档。
    • 系统调用、堆栈等的Hook:strace,dtrace、pstack等,这组算是lowlevel的神器,在很多时候能起到一针见血的效果。
      • 顺便,可以理解下系统调用的原理,中断的实现原理,这样你在使用strace监控一个程序的系统调用的时候,脑子里会有更清晰的思路。系统调用并不是一个简单的函数调用这件事么..
        • Things UNIX can do atomically 多进程之间可以对文件和文件夹加锁
          • 说起锁,想起Dijkstra,锁、信号量、等并发编程同步的机制最早都是他搞清楚的。
            • 什么是”原子“的,在CS里,这是一个及其重要的概念。
            • 锁应该保护的是数据还是行为?
            • 锁的尽量局部化。
        • 感兴趣?:Operating Systems: Three Easy Pieces
    • export LD_LIBRARY_PATH=$PWD;
      • 理解系统查找共享库的搜索路径顺序。
    • readelf: 都说了任何东西都可以输出成文本来看了,看个依赖库路径还是容易的。
    • perf

      "Have a C program and want to know which functions it's spending the most time in? perf is a sampling profiler for Linux that can tell you that." (这个我还没用过)

    • Linux debugging tools I love
  • 网络。
    • tcpdump抓包是一定要掌握的,抓tcp、udp包是必备的技能。输出pcap格式文件也是要的。如果是有图形界面的话,wireshake在windows和linux下都能用,如果是windows上还可以用microsoft networkmonitor。说实话,我觉的microsoft networkmonitor做的比wireshake好用。
      • 一个tcp连接,三次握手、四次挥手;建立在tcp连接之上的http连接,http request包在什么时候发,seq号是怎样变动的;诸如此类,都可以在这个地方查看。
        • 为什么要三次握手。syn、ack、ackack,它们是原子不可分的么,在更复杂的协议里,一个syn,一个ack、一个ackack本身可能就是一组子协议三者中任何一个环节被打破(Break),都会导致握手失败
          • P2P打洞的原理
            • NAT,限ip,限port,限ip和port,随机ip和port
          • DNS的原理,host,
            • DNS污染
            • gethostbyname不能ipv6,getaddressinfo会卡死,自己写全异步dns协议去解析。
        • 为什么要四次挥手。自己设计流式协议的话,如果你不需要这种Feature,就可以暴力Close了。
          • 知其然,知其所以然。
        • Http协议说到底是一个Tcp协议,这点很重要。
        • 协议森林:协议森林 - Vamei
          • 拥塞控制算法,根据历史数据记录估算未来数据,这是一种学习(统计)
            • Deep Learning,NN
      • 一台机子有多个网卡(ifconfig),或者单网卡,多ip,绑定到0.0.0.0的时候,收发包是怎样的情况?
      • 理解tcp和udp的区别
        • 拆开ip包头,tcp和udp包头,以及做checksum校验的拟包头,理解协议包是如何被Stack的。
          • 话说最早我想当然认为tcp包头里面才是ip包包头,然而事实上这个鸡蛋黄是上层的包头在下层协议包的包体里。不知道是否有同类人有过这种直觉的错觉。
      • windows版本:WinDump - Home
    • nc命令用来探测主机之间的tcp端口或者udp端口是否联通。
    • netstat查看tcp和udp连接情况。
    • iptable的配置,配置tcp、udp端口啥的都要用到。
    • iptraf: 实时网络监控,比如监控某个网卡上的Ip包流量。
      • 估算吞吐量,延迟等。
  • 数据库操作。命令行下,操作mysql和sqlite是常见的事情,这个基本就是常规的sql操作语句。
    • 将数据库dump出SQL文本格式,到别的机子上导入什么的。。
      • 以前有个人打开了这么一份文本,惊讶说:“哇,谁写的SQL创建代码,这么整洁,连注释啥的都很规整...”
    • 理解关系型数据库的范式,事务,一致性。
      • 理解B+树、Block。
      • 基于行存储Block的数据库,基于列存储Block的数据库,各自的优缺点
        • 局部性原理,行Block存储是行记录读写偏好,列的则是部分字段读写偏好
          • trad off,没有最好,只有最合适
    • NoSQL的也操作一些。
      • Map-Reduce,这都已经烂大街了,实际上我不认为会操作和使用NoSQL的数据库就可以,熟练操作一组API本身只需要多次练习就可以达到,不具有门槛。理解系统背后的设计优点,以及其所不能解决的问题才够(有很多领域,都存在不可能三角
        • 以思考”原子“的组件为线,朝着做减法的思维去思考,而不要一味的加功能,堆积木。
      • Apache系列。。
        • 不过积木长什么样子,还是要看看,但并非高大上就神马。
  • 版本管理等
    • svn、git,这个本来就要会的,只是很多人用图形界面的工具多了后,可能命令行使用并不熟悉,但是在Linux shell下,这也算基本技能。
      • 理解“围绕数据结构设计接口”,git是关于commit的链表的数据结构的一组api。
  • 元数据分布式同步,ZoopKeeper
  • 其他选择
    • 更现代的shell:fish
    • 更好的http请求:httpie
  • windows上的使用
    • cygwin太大了,可以选用下面的组合,这样在windows的命令行下也可以使用上述大部分命令行。还是有很多便利的。
  • 手册类:the art of command line,BUT,并不是所有命令在所有环境下都能用。

2014年3月10日星期一

探索那些不常见的控制流(3)

[关键字]
goto, goto with parameters, stack, stackless, continuation

[参考资料]

http://c2.com/cgi/wiki?ContinuationsAreGotos
http://c2.com/cgi/wiki?ContinuationsInCee
http://c2.com/cgi/wiki?SingleUseContinuation

[正文]

这是一个不常见控制流的系列,把参考资料优先放在头部也是不常见的。

最早我们接触编程语言里的的goto,然后我们被告知不要使用goto,使用goto会破坏结构化程序设计。我记得第一次学计算数学的《计算线性代数》、《数值分析》等计算数学入门课程时,我们书上很多算法都是用为代码形式给出,这类算法很多都是迭代型的,只有迭代收敛或超时超出迭代次数就退出。用编程语言的写法,如果没有提供循环这种特性,就只能用1、1、label+goto是实现迭代;2、递归做法。所以递归当然可以完成迭代的任务,这是另一回事。所以goto我们是很熟悉的。实际上if-else-then、while、for、call-function都可以用goto做到。只是由于直接使用goto会导致代码及其难读和不可维护,所以才出现结构程序设计。但即使如此,大部分语言都保留了goto的能力以备不时之需。

我觉得非计算机系的人学语言挺亏的,就像非数学系的人学高等数学很亏一样(当然后面可以弥补,但如果一开始就从正确的入口进去,何必走弯路?)。之所以这么说,是因为数学分析会先把极限的概念、episode-xigema收敛证明法讲解的非常透彻,然后基于这个坚实的概念再往上学微积分,这样学微积分,如果你想剖丁解牛,你就有机会分解下层抽象去做推理,这也解释了另一个软件术语的含义「抽象泄漏法则」,你不得不透过抽象背后的逻辑去理解事物的本质。编程也是这样的,C语言的函数调用直接从汇编的层面看,函数调用栈是一个非常重要的概念,这样能理解函数调用的栈顶保存,参数传递顺序,函数返回前的清空函数栈、恢复上层函数栈顶等动作。从而对函数调用开销有直观的理解,并且也容易去区分和理解栈上变量、堆上变量之间生命周期的区别,并且对寄存器有直观的理解。

<未完待续,这节不好写,慢慢来>








2014年3月8日星期六

探索那些不常见的控制流(2)

尾(巴)递归,尾调用优化,尾递归优化
tailrecursion, tailcall optimization and tailreursion eliminate

最早学scheme的时候就玩过尾递归(tailrecursion),不过当时只是在形式上玩了下,也大概理解尾递归可以让编译器重用函数调用栈,而不会导致函数调用栈溢出发生,同时模糊的说这种写法可以和迭代的效率相当。我们一群人学scheme的时候,只是皮毛的把SICP的前2章的内容和题目看掉、做掉。那段时间我狂看C++的那些书籍,学STL我就直接硬着头皮大致看掉《STL源码剖析》(我才发现要学一个东西未必要按部就班从Prime开始,直接跳过Prime书籍直接看深入一点的书籍也是大有好处的,不用先非常熟悉使用,过了很久之后才想起来去看下源码,才发现之前很多用法实际上多绕了很多弯路,MFC没用过,但我看过《MFC深入浅出》前几章,大概知道那些繁杂的要点在哪,这样就不会心里有惧怕感。);学模板我就看了《The C++ Template》这书,这样就对那些特化、偏特化、typename,template template class,编译时多态(元编程,MetaProgram)等概念有比Prime系统性的一些了解,后面还粗略看了《Morden C++ Template》,知道boost和loki;学C++运行时多态,我看了《Internal C++ Object Model》,这样就知道了class对象的内存分布,也就是虚函数表是最重要的,对象的构造、析构等也与内存分布息息相关,而且虽然不学COM,但知道COM要做ABI也是要知道C++的内存分布的,《COM本质论》前几章也在讲这个。SICP的习题都是一环扣一环,后面的习题直接给予前面的习题来继续做,这样我印象很深的是,抽象是如何被一步步封装起来的,对于每道习题,只要之前习题已经搭建的那些抽象(函数)是坚实的,就可以被用来组合新的抽象,这样我对于「任何软件问题都可以通过添加抽象层解决」这句话就有深入一点的理解,并且印象深刻。scheme由于概念简洁,function是一等公民,所以你会一直专注在解决问题本上上,而不用像C++那样一个又一个特性让你话费大把时间去学习和积累。函数式编程一些重要的概念:惰性求值、无副作用、无状态、不变性等基本概念都深入到我脑子里,以后我用其他语言的时候会不断重新发现这些概念。

想起来之前的那些事就顺便多写了这些,最近开始系统性重新学习和发现那些以前有些清晰有些模糊的概念:tailrecursion, tailcalloptimization, tailrecursioneliminate, continuation passing style, call-with-current-continuation,closure,coroutine,concept, constraint template arguments, lambda, recursion function等等。我想一边把这些编程语言相关的外在概念都梳理一遍,同时系统性学习编译原理、类型理论,再结合实战研究编程语言的实现,希望把这个角落清扫一遍。

恩,本系列以小步迭代方式进行。本节实际上是从下面页面的代码片段拿过来注释了下尾巴递归的概念。

http://c2.com/cgi/wiki?TailRecursion

#include <stdio.h>
#include <stdlib.h>
/**
 *非尾巴递归,return的时候需要做调用自己和一次乘法
 */
int factorial0(int n) {
    if (n == 0) return 1;
    return n * factorial0(n - 1);
}
/**
 *尾巴递归,return的时候只做一件事:递归调用自己
 */
int factorialimpl(int n, int accumulator) {
 if (n == 0) return accumulator;
 return factorialimpl(n - 1, n * accumulator);
}
int factorial1(int n) {
    return factorialimpl(n, 1);
}
/**
 *如果编译器能够识别并为尾巴递归做优化,则尾巴递归
 *等价于如下代码,不需要反复进入和退出嵌套的调用栈
 */
int factorial2(int n, int accumulator) {
 beginning:
 if (n == 0) return accumulator;
 else {
   accumulator *= n;
   n -= 1;
   goto beginning;
 }
}
/**
 *因此,尾巴递归的性能将和下面的迭代等价
 */
int factorial3(int n, int accumulator) {
    while (n != 0) {
      accumulator *= n;
      n -= 1;
    }
    return accumulator;
}

/**
 *这就是尾巴递归的故事,用C语言描述
 */
int main(){
 return 0;
}

上面的c代码演示了什么是尾巴递归,尾巴递归必须在函数返回前只做一件事,那就是递归调用自己。尾巴递归调用的重点在于递归调用返回到上一层调用栈的时候,上一层调用栈并不需要利用这个返回值做点什么事(否则,上层调用栈就必须保留栈上下文),而是直接返回给上上层调用栈。那么对于一定要对递归调用结果「做点什么事」的需求来说,就必须把要参与「做点什么事」的那些数据和函数传递给下层调用栈,比如这个例子里通过accumulator把结果传递给递归调用函数。

那么尾巴递归调用就保证了在尾巴递归的时候不需要保留上层函数调用栈上下文。所以如果编译器能识别尾巴递归调用,则可以对尾巴递归调用做「tailrecursion eliminate」,也就是例中的示意代码。消除了递归调用,从而把递归变成迭代。但这个前提是编译器会帮你做这件事,否则就算你写的代码是尾巴递归调用,但编译器不做「tailrecursion eliminate」的话,则没有这些福利。scheme、lua等语言都有对尾巴递归调用做消除。

进一步的,如果一个函数调用虽然不是经典的「tailrecursion」,但是在return之前只做一件事,就是调用某个其他子过程。则上层函数调用栈也不需要保存,则这个时候编译器可以做「tailcall optimization」,也就是尾调用优化。我们来下下例子:

http://c2.com/cgi/wiki?TailCallOptimization

/**
 *进一步的,尾调用优化
 */
int bar(int a){
     printf("bar called with arg %d\n", a);
     return a * a;
}
int foo(int b){
     return bar(b * b);//函数返回前只做一件事,调用只过程,并且把b*b的结果传入到子过程
}

/**
 *然而,这个例子里,foo的栈如果被优化掉,则a的生命周期
 *被破坏,所以用栈上变量a是不安全的。
 */
int bar(int *b){
     return *b * 10;
}
int foo(){
     int a = 5;
     return bar(&a);
}





2014年3月2日星期日

探索那些不常见的控制流(1)

http://coolshell.cn/articles/10975.html
这篇文章介绍了一个“蝇量级” C 语言协程库的实现。

里面使用宏封装了下,不过我不喜欢宏,觉得宏把简单的东西隐藏而不可见。因为我并不会真正直接用这些宏,只是为了搞清楚如何在C里实现yiled,去掉宏之后,我们可以很清晰的看懂代码的结构和流程。

下面的代码从http://www.chiark.greenend.org.uk/~sgtatham/coroutine.h解析:

#include <stdio.h>
#include <stdlib.h>

/**
 *单线程coroutine,不可重入
 */
int function(void){
static int i,state = 0;
switch(state){
case 0:
for(i=0;i<10;i++){
state = 1;
return i;
case 1:;
}
}
}

/**
 *多线程coroutine,可重入
 */
typedef void* ccr_context_handle;
typedef struct tag_ccr_context{
int state;
int i;
}ccr_context;

int ascending(ccr_context_handle* ccr_context_handle_pointer) {
ccr_context* this = (ccr_context*)*ccr_context_handle_pointer;
if(!this){
this = malloc(sizeof(ccr_context));
*ccr_context_handle_pointer = this;
this->state = 0;
}
if(this){
switch(this->state){
case 0:;
for (this->i=0;this->i<10; this->i++) {
this->state = 1;
return this->i;
case 1:;
}
}
free(*ccr_context_handle_pointer);
*ccr_context_handle_pointer = 0;
return -1;
}
}

/**
 *C测试代码
 */
int main(){
printf("\n");
int i=0;
for(i=0;i<10;i++){
printf("%d",function());
}
printf("\n");

ccr_context_handle handle = 0;
do {
int ret = ascending(&handle);
if(ret!=-1){
printf("%d",ret);
}
}while(handle);
printf("\n");

return 0;
}

当我继续搜索,上述代码在这个页面出现:
http://www.chiark.greenend.org.uk/~sgtatham/coroutines.html
这个页面里描述了在C语言里做coroutine。以及一个典型的生产者消费者模型。在C里面做协程并不轻松,底下更本质的原因是因为C语言里对continuation的支持很低阶,什么是continuation我们会在后面的节里给出。