Unix与DOS(包括Windos)是不同类型的操作系统。由于其内部架构的不同,这导致他们之间的文件难以相互兼容。如现在有一个文本文件,内容如下:

 

  如果这是一个Unix格式下的文件,在Windows操作系统下就不会正常显示。很有可能在Windows操作系统下打开的时候,其三行内容会再同一行中显示。所以如果企业中同时存在有Unix操作系统与微软操作系统的时候,那么就需要考虑如何提高文件的兼容性问题。不但要能够显示文件的内容,而且文件的格式也需要保存下来,如分行等等。今天笔者就跟大家来探讨一下这个问题。

第一,如何进行文件转换:

  一、Unix文件与Dos文件的主要差异。

DOS/Windows和Linux/Unix的文件换行回车格式不同,基于DOS/Windows
的文本文件在每一行末尾有一个CR(回车)和LF(换行),而UNIX
文本只有一个换行。

  在实际工作中,系统工程师经常需要在Unix操作系统与Windows操作系统之间共享文件。但是由于他们的格式存在一定的差异,故兼容性不是很高。了解他们格式的具体差异,是解决这个兼容性问题的前提。其实他们的差异很少,只是在一个分号控制符上有点差异。例如笔者现在分别在Unix操作系统与Windows操作系统下建立一个test文件。然后利用od
–bc test(Unix操作系统下的文件)与od -bc
test.test(微软操作系统下的文本文件)这两个命令来显示这两个文件,那么他们的差异也就一览无余了。

1,把Dos/Windows下的文件移至Linux/Unix系统

  test1

虽然很多程序不在乎DOS/Windows 格式的CR/LF
文本文件,但是有几个程序却在乎–
最著名的是bash,只要一遇到回车,它就会出问题。以下sed
调用将把DOS/Windows 格式的文本转换成可信赖的UNIX 格式:

  test2

$ sed -e ‘s/.$//’ mydos.txt > myunix.txt

  unix test

该脚本的工作原理很简单:替代规则表达式与一行的最末字符匹配,而该字符恰好就是回车。我们用空字符替换它,从而将其从输出中彻底删除。如果使用该脚本并注意到已经删除了输出中每行的最末字符,那么,您就指定了已经是UNIX
格式的文本文件。也就没必要那样做了!

  微软操作系统下的文件(如记事本文件),行的结束符都要用两个字符表示,即为\r与\n。但是Unix操作系统下的文件,行的结束符则只用一个字符表示,即\n.\r与\n两个字符的八进制值分别为015与012,\r与\n是转义字符的表示方法。利用od
–bc命令就可以用八进制显示结果。如果要把Dos文件格式转换为Unix文件格式,则需要把每行后面一个多于的\n符号去掉。相反,如果要把Unix文件转换为微软操作系统支持的格式,则需要在每行后面加入\n符号。这个原理虽然简单,但是操作起来却有一定的难度。如果内容少的话,那么手工更改也没有多少工作量。但是如果一个文件有数百行、上千行,那么手工更改的话可不是一个好主意。为此需要借助一定的工具或者命令,来实现这个自动转换的功能。

2,把Linux/UNIX 文本移至Windows 系统,使用以下脚本执行必需的格式转换:

  利用od
–bc命令可以以八进制的形式显示结果。在实际工作中,八进制对于系统工程师来说,具有很大的实用价值。为什么呢?这要从八进制的运算机制开始说起。所谓八进制,就是其基数为8,基数值可以取0、1、2、3、4、5、6、7共8个值,逢八进一。
八进制与十进制运算规则一样。那么为什么要用八进制多此一举呢?实际上,八进制的引用,主要是为了书写和表示方便,因为二进制表示位数比较长。例如数字10
用二进制表示为(、10000000000,共有11个数字。用八进制表示为8。更重要的是,由于二进制与八进制存在在一种对等关系,每三位二进制与一位八进制数完全对等。所以二进制和八进制在运算上无区别,而十进制不具备这一优点。而最重要的是,因为操作系统中都是采用二进制来表示的。而由于二进制与十进制存在完全对等的关系,所以系统工程师在有时更倾向于采用八进制来显示结果。为此系统工程师如果要提高自己的业务水平,那么就需要多多去了解一下八进制的显示格式与运算逻辑。

$ sed -e ‘s/$/\r/’ myunix.txt > mydos.txt

金沙城中心赌场 1

在该脚本中,’$’ 规则表达式将与行的末尾匹配,而’\r’ 告诉sed
在其之前插入一个回车。在换行之前插入回车,立即,每一行就以CR/LF
结束。请注意,仅当使用GNU sed 3.02.80 或以后的版本时,才会用CR
替换’\r’。

 

第二,文件编码

1,查看文件编码

可以在VI中使用:set fileencoding来查看当前文件的编码

 

2,利用iconv命令进行文件内容编码转换

用法:iconv [选项…] [文件…]

 

有如下选项可用:

 

输入/输出格式规范:

-f, –from-code=名称 原始文本编码

-t, –to-code=名称 输出编码

 

例子:

iconv -f gb2312 -t utf-8 aaa.txt >bbb.txt

这个命令读取aaa.txt文件,从gb2312编码转换为utf-8编码,其输出定向到bbb.txt文件。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图