(文件系统学习四) 文件读写指针的移动

今天继续学习有关文件系统知识。

lseek系统调用用来移动文件读写指针的位置,在shell下输入“man 2 lseek”可获取其函数原型。

其函数原型为:

每一个已打开的文件都有一个读写位置,当打开文件时通常读写位置是指向文件开头,若是以添加的方式打开文件(调用open函数时使用了O_APPEND),则读写位置会指向文件尾。当调用read()或write()时,读写位置会随之增加,lseek()便用来控制文件的读写位置。参数fd为已打开的文件描述符,参数offset为根据参数whence来移动读写位置的位移数。参数whence有以下三种取值。

  • SEEK_SET从文件开始处计算偏移量,文件指针到文件开始处的距离为offset.
  • SEEK_CUR 从文件指针的当前位置开始计算偏移量,文件指针值等于当前指针值加上offset值,offset值允许取负值.
  • SEEK_END 从文件结尾处开始计算偏移量,文件指针值等于当前指针值加上offset的值,offset值允许取负值。

由于历史原因,新旧值之间的对应关系如下表所示:

lseek允许文件指针的值设置到文件结束符(EOF)之后,但这样做并不改变文件的大小。如果使用write对EOF之后的位置写入了数据,之前的EOF处与后面的写入的数据之间将会存在一个间隔,此时,如果使用read读取这个间隔的数据,得到的数据为0.

当调用成功时返回当前的读写位置,也就是距离文件开始处多少个字节。若有错误则返回-1,error会存放错误代码。

一下是lseek的几种常用方法。

  • 将文件读写指针移动到文件开头:

  • 将文件读写指针移动到文件结尾:

  • 获取文件读取指针当前的位置(相对与文件开头的偏移):

注意:有些设备(设备文件)不能使用lseek。Linux系统不允许lseek()对tty设备进行操作,此项操作会使得lseek()返回错误代码ESPIPE。

下面将举例说明文件读写和文件读写指针的移动操作过程。

程序说明:

程序中首先在当前目录下创建了文件test.c,注意open的参数,O_RDWR|O_CREAT|O_TRUNC表示以可读可写方式创建一个文件,若该文件名存在,则覆盖,然后使用write系统调用,向新创建的文件内写入数据。函数my_read先测试由参数fd传入的文件描述符对应的文件长度,然后读出全部数据最后打印出来。

__LINE__是预编译内置宏,表示行数,类似的宏还有__TIME__、__FUNCTION__、__FILE__等,分别表示时间、函数名、文件名,程序调用时在适当的位置加入这些提示,对定位错误很有帮助。

程序执行完,查看test.c文件的内容如下:

从结果可以看出,因为lseek移动到超出EOF,在两个“Hello World!”之间多出了以“\0”填充的间隔。

今天对文件系统的学习就到这吧。(未完待续)

(文件系统学习三) 文件的读写

今天继续学习文件系统,今天要看的时文件的读写。

1.read函数

read系统调用用来从打开的文件中读取数据,在Shell中输入“man 2 read”可获取其函数原型。

其函数原型如下:

该函数中各参数的含义是:从文件描述符fd所指向的文件中读取count个字节的数据到buf所指向的缓存中。若参数count为零,则read()不会读取数据,只返回0.返回值表示实际读取的字节数;如果返回零,则表示已经到达文件尾或者是没有可读取的数据,此外文件读写指针会随读取到的字节移动。如果read()顺利返回实际读到的字节数,最好能将返回值与参数count做比较,若返回的字节数比要求的字节数少,则有可能读到了文件尾部或者read()被信号中断了读取过程,或者是其他原因。当有错误发生时则返回-1,错误代码存在error中。

2.write函数

write系统调用用来将数据写入已打开的文件中,在Shell中输入“man 2 write”可获取该函数原型。

其函数原型如下:

该函数中各参数的含义是:将buf所指向的缓冲区中的count个字节数据写入到由文件描述符所fd指向的文件中。当然,文件读写指针也会随之移动。如果调用成功,write()会返回写入的字节数。当有错误发生时则返回-1,将错误代码获存入error中。

关于文件读写的举例将在下一篇学习笔记中,与文件读写指针一块举例。

(未完待续)

(进程学习三)调用 fork 时,打开的文件会发生什么情况?

今天继续学习进程,今天研究的是:调用 fork 时,打开的文件会发生什么情况?

当某个进程复制它自身时,内核生成所有打开的文件描述符的副本。文件描述符是指向打开的文件或设备的整数,并用于执行读取和写入。如果在调用 fork 前,某个程序已经打开了一个文件,如果两个进程都尝试执行读取或写入,会发生什么情况呢?一个进程会改写另一个进程中的数据吗?是否会读取该文件的两个副本?清单 5 对此进行了研究,它打开两个文件——一个文件用于读取,另一个文件用于写入——并让父进程和子进程同时执行读取和写入。

清单 5. 同时对同一文件执行读取和写入的两个进程

其中infile文件中的内容为:

编译,运行的结果:

清单5 是用于打开文件的简单程序,并派生 (fork) 为父进程和子进程。每个进程从同一文件描述符(它只是一个包含数字 1 至 8的文本文件)执行读取操作,并连同 PID 一起打印所读取的内容。在读取一行之后,将 PID 写到输出文件。当输入文件中没有其他字符可供读取时,循环结束。

清单5 的输出表明,当一个进程从该文件读取时,两个进程的文件指针都在移动。同样地,当向某个文件写入时,下一个字符被写到文件结尾。这是非常有意义的,因为内核跟踪打开文件的信息。文件描述符只不过是进程的标识符。

您可能还知道,标准输出(屏幕)也是一个文件描述符。此文件描述符在 fork 调用期间被复制,这就是两个进程都能对屏幕执行写入操作的原因。

(未完待续)

(文件系统学习二) 文件的创建、打开与关闭

昨天实现了自己的mychmod(详见:点击此处),首先申明一下,本系列文件系统的学习全部都是基于Linux的,并不是标准C所实现的文件的创建,打开与关闭。

1.open函数

open系统调用用来打开或创建一个文件,在Shell中输入"man 2 open"可获得该函数原型:

其中第一个参数pathname是要打开或要创建的含路径的文件名,第二个参数flags表示打开文件的方式。

  • O_RDONLY:以只读方式打开文件。

  • O_WRONLY:以只写方式打开文件。

  • O_RDWR:以可读可写的方式打开文件。

这3种打开方式是互斥的,不能同时以两种或三种方式打开文件,但是他们可以分别与下列标志进行或运算。

  • O_CREAT:若文件不存在则自动建立该文件,只有在此时,才需要用到第三个参数mode,以说明新文件的存取权限。

  • O_EXCL:如果O_CREAT也被设置,只指令回去检查文件是否存在。文件若不存在则创建该文件,若文件存在则将导致打开文件出错。

  • O_TRUNC:若文件存在并且以可写的方式打开时,此标志会将文件长度清为0,即原文件中保存的数据将丢失,但文件的属性不变。

  • O_APPEND:所写入的数据会以追加的方式加入到文件后面。

  • O_SYNC:以同步的方式打开文件,任何对文件的修改会阻塞知道物理磁盘上的数据同步以后才返回。

  • O_NOFOLLOW:如果参数pathname所指的文件为一符号链接,则会令文件打开失败,Linux内核版本在2.1.126以上才有这个标志。

  • O_DIRECTORY:如果pathname所指的文件并非一目录,则会令打开文件失败,Linux内核版本在2.1.1126以上才有这个标志。

  • O_NONBLOCK或ONDELAY:以非阻塞的方式打开文件,对于open及随后的对该文件的操作,都会立即返回。

成功调用open函数会返回一个文件描述符,若有错误则返回-1,并把错误代码赋给error.

2.creat函数

文件的创建可以通过creat系统调用来实现,在Shell中输入“man 2 creat”可获取该函数原型:

其中第一个参数pathname是要打开或要创建的含路径的文件名,如果pathname指向的文件不存在则创建一个新的文件,如pathname指向的文件存在则原文件将被新文件覆盖,第二个mode参数与open函数一样。creat相当与这样使用open:

成功调用creat会返回一个文件描述符,若有错误发生则返回-1,并把错误代码返回给error.

注:creat只能以只写的方式打开创建的文件,creat无法创建设备文件,设备文件的创建要使用mknod函数。

3.close函数

close系统调用用来关闭一个已经打开的文件,在Shell中输入“man 2 close”可获取该函数原型:

close函数只有一个参数,此参数表示要关闭的文件的描述符。该文件描述符由open或creat函数得到。当close调用成功,返回值为0,发生错误时返回值为-1,并将错误代码返回给error.

注:close函数调用成功时并不保证数据能全部写回硬盘。

用户程序也可以不必调用close函数关闭已打开的文件,因为在进程结束时,内核会自动关闭所有已打开的文件,但是一般最好还是显示的调用一下close函数。

下面的附上我的my_creat函数:

上面的程序使用open系统调用在当前目录下创建一个名为dubin.c的文件,且新文件的存取权限为当前用户与用户组可读可写。

可见,第一次成功的创建了dubin.c这个这个文件,且权限也符合我们的要求,下面再执行一次这个程序看看会出现什么情况.

这是因为在调用open时设置了O_CREAT和O_EXCL标志,则O_EXCL标志存在时,open调用失败,系统将错误代码设置成EEXIST,表示文件已经存在。

而对于creat而言,对于已经存在的文件它会用新的文件将其覆盖。

(文件系统学习一)我的chmod

今天操作系统上机,突然就想把Linux C编程实战重新看一遍,当然从文件系统着手,把my_chmod这个程序重新敲了一遍收获不少呀。

在进行程序设计时,可以通过chmod/fchmod函数对文件访问权限进行修改,在Shell下输入man 2 chmod 可查看chmod/fchmod的函数原型,如下:

chmod/fchmod的区别在于chmod以文件名作为第一个参数,fchmod以文件描述符作为第一个参数。参数mod主要有一下几种组合。


以下为我的chmod函数,my_chmod.c

在程序中,权限更改成功返回0,失败返回-1,错误代码存于系统预定义变量errno中。

上面的程序中,atoi这个函数调用是将字符串转换成整型,例如:atoi("777")的返回值为整型的777.对于chmod函数,第二个参数一般用上面列出来的宏之间取或运算。

对于这个程序,Linux C编程实战中的取mode值的方法可能比较高效,附关键代码:

这节课的学习就到这吧。(未完待续)

(进程学习二)使用 exec 系列系统调用

继续上一篇内容(进程学习一 使用 fork 系统调用)的学习:

现在您已经了解了复制某个进程的方法,下面让我们研究如何运行一个不同的进程。fork 只是进程机制中的一半。exec 系列系统调用运行实际的程序。

清单 4. 通过将 fork 与 exec 配合使用来运行不同的程序

清单4 中的代码首先定义一个数组,其中第一个元素是要执行的二进制文件的路径,其余元素充当命令行参数。根据手册页的描述,该数组以 Null 结尾。在从 fork 系统调用返回以后,将指示子进程执行 (execv) 新的二进制文件。

execv 调用首先取得一个指向要运行的二进制文件名称的指针,然后取得一个指向您前面声明的参数数组的指针。该数组的第一个元素实际上是二进制文件的名称,因此参数实际上是从第二个元素开始的。请注意,该子进程一直没有从 execv 调用返回。这表明正在运行的进程已被新进程所替换。

还存在其他执行 (exec) 某个进程的系统调用,它们的区别在于接受参数的方式和是否需要传递环境变量。execv(2) 是替换当前映像的较简单方法之一,因为它不需要关于环境的信息,并且它使用以 Null 结尾的数组。其他选项包括 execl(2)(它单独接受各个参数)或 execvp(2)(它也接受一个以 Null 结尾的环境变量数组)。使问题复杂化的是,并非所有操作系统都支持所有变体。关于使用哪一种变体的决定取决于平台、编码风格和是否需要定义任何环境变量。

(未完待续)

(进程学习一)使用 fork 系统调用

最近几天一直在学习(复习)有关进程方面的东西,重新把进程看了一遍,收获真的很大,使我对进程又有了更新的一层认识,下面就我今天学习的有关进程的知识总结一下。

今天看的是IBM的developer文档之:Unix进程揭秘.

分配给系统管理员的许多工作之一是确保用户的程序正确运行。因为系统上存在其他并发运行的程序,所以此任务变得更加复杂。由于种种原因,这些程序可能会失败、挂起或行为异常。在构建更可靠的系统时,了解 UNIX® 环境如何创建、管理和销毁这些作业是至关重要的步骤。

开发人员还必须积极了解内核如何管理进程,因为与系统的其他部分和睦相处的应用程序会占用更少的资源,并且不会频繁地给系统管理员带来麻烦。由于导致僵死进程(将在稍后对其进行描述)而频繁重新启动的应用程序明显是不可取的。对控制进程的 UNIX 系统调用的了解可以使开发人员编写能够在后台自动运行的软件,而不是需要一个始终保持在用户屏幕上的终端会话。

管理这些程序的基本构件就是进程。进程是赋予某个由操作系统执行的程序的名称。如果您熟悉 ps 命令,则您应该熟悉进程清单,如清单 1 所示。

清单1.ps的输出

前三列对这里的讨论非常重要。第一列列出用于运行该进程的用户身份,第二列列出进程的 ID,第三列列出该进程的父进程 ID。最后一列是进程的描述,通常是所运行的二进制文件的名称。每个进程都被分配一个标识符,称为进程标识符(Process Identifier,PID)。进程还有父进程,在大多数情况下就是启动它的进程的 PID。

父 PID (PPID) 的存在意味着这是一个由别的进程创建的进程。最初创建进程的原始进程名为 init,它始终被赋予 PID 1。init 是将在内核启动时启动的第一个实际进程。启动系统的其余部分是 init 的工作。init 和其他具有 PPID 0 的进程属于内核。

使用 fork 系统调用

fork(2) 系统调用创建一个新进程。清单 2 显示了一个简单 C 代码片段中使用的 fork。

清单 2. 简单的 fork(2) 用法

fork1.c 中的代码不过就是发出 fork 调用,并通过一个 printf 调用来打印整数结果。虽然只发出了一个调用,但是打印了两次输出。这是因为在 fork 调用中创建了一个新进程。现在有两个单独的进程在从该调用返回结果。这通常被描述为“调用一次,返回两次”。

fork 返回的值非常有趣。其中一个返回 0;另一个返回一个非零值。获得 0 的进程称为子进程,非零结果属于原始进程,即父进程。您将使用返回值来确定哪个是父进程,哪个是子进程。由于两个进程都在同一空间中继续运行,唯一有实际意义的区别是从 fork 返回的值。

0 和非零返回值的基本原理在于,子进程始终可以通过 getppid(2) 调用来找出其父进程是谁,但是父进程要找出它的所有子进程却很困难。因此,要告诉父进程关于其新的子进程的信息,而子进程可在需要时查找其父进程。

考虑到 fork 的返回值,现在该代码可以检查确定它是父进程还是子进程,并进行相应的操作。清单3 显示了一个基于 fork 的结果来打印不同输出的程序。

清单 3. 更完整的 fork 用法示例

清单 3 在每个步骤打印出 PID,并且该代码检查从 fork 返回的值来确定哪个进程是父进程,哪个进程是子进程。对所打印的 PID 进行比较,可以看到原始进程是父进程 (PID 12145),并且子进程 (PID 12146) 知道其父进程是谁。请注意子进程如何通过 getppid 来知道其父进程以及父进程如何使用 fork 来定位其子进程。

(未完待续)