你好,我是SheepChef。
世界人口统计学中,在Z世代(1997—2012)出生的人被称为数字土著(Digital Natives)。世界范围内,Z世代的成员花在数字设备上的时间比先前世代多,阅读时间则相对减少,这对他们的注意力持续时间、学业成就,以及未来的经济贡献有显著的影响。
作为Z世代的一份子,你我都会在互联网世界中留下很多足迹。小到你发在QQ空间里的一张照片,大到新闻头条,历史事件,它们都会成为互联网的记忆。
那么,在这广阔的赛博世界里,你该如何守护独属自己的一亩三分田?这篇文章将带你了解,你该如何保存你的赛博数据遗产,让你的子孙后代都能有幸领略先人的优雅网络生活。
存储介质
存储介质是你数据的实体,不论是硬碟还是闪存,乃至更复古的DVD,CD,磁带——你的数据就寄托在它们上面。如果它们哪一天被毁了,你的数据也就没了。
不论是你的照片还是视频,抑或是文章,在存储介质上都被会表示成二进制,然后按照分区表和文件表,对数据进行归集,索引,组成一个个文件簇,分区(卷),最后填满整个介质。
重点是,这些存储介质究竟能把你的数据保持多久?哪种存储介质拥有金刚不坏之身?
闪存
闪存(Flash Drive),是当今最常用的存储介质类型,被广泛用于各种单片机、固态硬盘、USB大容量可移动存储设备、手机存储芯片、SD卡等。
闪存分为几种 —— E(E)PROMs,NOR和NAND。这里不去讨论它们都有什么用,你只需要知道,绝大多数的U盘和固态硬盘用的是NAND闪存就好。
闪存芯片如何存储你的数据?说得简单点,靠的是一个个存储单元,好像一个个小房间,能够困住一定数量的电子。有电子的房间可以表示1,没有电子的房间就是0,这样就能表示二进制数据了。
但闪存芯片有个致命的问题 —— 量子隧穿效应。如果你的闪存芯片长时间不通电,那么其中的电子便会逐渐穿出房间,导致数据丢失。一般来说,普通SSD如果超过2年不上电,便会出现严重数据损坏,必须格式化后重新使用。
即使规律性地通电,闪存存储单元也会随着你擦写数据而逐渐老化,控制电子进出的隔膜变得不那么有效率,最后无法让电子从房间中出来,导致存储单元损坏。所以你在买U盘或者固态硬盘的时候,厂商必须写明总写入量,即所有存储单元的理论擦写寿命之和。
综上所述,闪存芯片的寿命通常不超过5年。虽然它是读写速度最快的存储介质,但是在长久保存数据这一方面,它并不是最好的选择。
磁盘
磁盘(Hard Disk),又称硬碟、机械硬盘,是固态硬盘普及之前存储数据的主要方式,由于它比较廉价,现在广泛用于数据中心和组建独立硬盘冗余阵列(RAID),部分家用电脑也在继续使用它。
磁盘,顾名思义,数据被存在一张圆形的金属碟片上。一张碟片被划分为若干个磁道,磁道又被划分为若干个扇区。扇区是磁盘上数据的最小单位,其大小通常是512字节。
单张磁碟(CMR)的最高容量目前是3TB,你在市面上看见的超大容量(6~20TB)的硬盘通常是叠瓦盘,分为叠加碟片(多为氦气盘)和叠加磁道(SMR)两种,前者是往硬盘内叠加多个碟片来扩充容量,后者是通过重叠磁道,缩小磁道占用面积来扩充容量。
磁碟的表面涂有磁性物质,这些磁性物质用来记录二进制数据。因为正反两面都可涂上磁性物质,故一张磁碟可能会有两个盘面。机械硬盘内部的“指针”,由磁臂和磁头构成。磁头通常位于磁盘上0.1~0.3mm处,用来读写数据;磁臂则用来带动磁头,确保磁头位于正确的磁道上。
磁盘用磁性来记录数据,因此数据的保存时间通常更久,一般是10~30年。但磁盘使用了更多的机械部件,随着这些机械部件的老化,读写速度会显著变慢。
机械硬盘怕水、怕震动、怕撞击、怕突然断电——震动和撞击可能导致磁头碰到盘面,导致盘面被刮坏;突然断电则会导致磁头突然缩回,同样可能损坏盘面,还可能损坏磁臂。
综上所述,在正确使用的前提下,一张机械硬盘能够把你的数据保存约15年。
光碟
光碟(Optical Disc),是在1990年代中期时开始普及的一种存储介质,它比机械硬盘更廉价,现在被广泛用于音乐专辑和硬碟的发行,许多数据中心也使用光碟来储存冷数据。
目前,光碟有三种主要规格,即CD(Compact Disc)、DVD(Digital Video Disc)、和BD(Blu-ray Dick)。通俗地讲,分别叫音乐光碟,视频光碟,蓝光光碟。
三种规格的光碟容量各不相同,一张CD通常能够保存700~800MB的数据,一张DVD能存4GB数据,一张BD则能存最多25GB数据。因此,CD用来存储和分发音乐专辑,DVD/BD则用来存储高清电影和数据。
光碟的存储主要仰仗若干层光敏涂料,在高能激光照射时,这层光敏涂料会被刻蚀出凹槽,这样就能表示二进制的数据了。CD光盘还有纠错机制,通常采用里得-所罗门编码,进一步延长了其寿命。
一张光碟的寿命通常能达到30~50年,在保存条件良好的时候,甚至能超过一个世纪。因此,光碟被许多组织青睐,用于制作各种时间胶囊和文明档案。
著名的光碟
当今世界,预期寿命最长的光碟之一是罗塞塔圆盘,由今日永存基金会管理。它由不易氧化、熔点为1453℃的镍金属制成。
碟片正面是阅读说明,用世界上使用人数最多的8种语言写着:这是一个在公元2016年收集的1000多种人类的文字的档案,放大100倍,可以看到1000多页的文档。
阅读说明的字体以人眼可见的大小开始,然后呈螺旋状盘旋向内,越来越小,吸引人们一窥究竟。
背面使用激光镌刻了用1000多种文字书写的文档,包括用327种文字书写的《世界人权宣言》序言和719种文字汇编的核心词汇表,需要使用配套的高倍放大镜才能看清。
另一张“最孤独”的光碟,则是著名的旅行者金唱片。
旅行者金唱片是一张于1977年随两艘旅行者探测器被发射到太空的唱片。唱片内收录了用以表述地球上各种文化及生命的声音及图像,希望会被宇宙中其他外星高智慧生物发现。
唱片上刻录了116幅图片和各种自然界的声音,来自不同文化的歌曲,用59种不同的语言讲的问候语,以及来自时任美国总统吉米·卡特及当时的联合国秘书长库尔特·瓦尔德海姆的讯息。
旅行者一号探测器在40000年后才会靠近最接近的一颗恒星,因此探测器被捕获的可能性不大。
磁带
磁带(Magnetic Tape),是一种古老的数据存储介质,日常生活中的磁带通常指卡式磁带,只能用来录音。而现代数据中心的磁带阵列则采用LTO(Linear Tape-Open,开放磁带组织)标准磁带,分为九代,最新一代的单位容量可达18TB。本节内容所述“磁带”都指LTO磁带。
一盘磁带中有长达数百米,宽12.65 毫米的磁带介质,卷绕在一个轴上。
磁带机从磁带盒中提取磁带,并将其盘绕在磁带机中的第二个轴上。当磁带在轴之间移动时,磁带机便可以通过磁头向磁带中读取或写入数据。
现代信息工业中,多用数十个磁带机和数千个磁带盒组成磁带库,用来大量存取冷数据,用于数据归档。LTO磁带并没有普及给大众使用,所以LTO磁带机通常十分昂贵,而磁带本身则相对廉价。
磁带盘的单位容量可达18TB,读写寿命目前没有定论,在100~1000~10000次的范围内都有说法。磁带机的装载寿命也因设备而异,大多集中在20000~100000次范围内。
在合适的环境下,磁带盘本身可以保存超过50年,理论寿命无上限,实现真正意义上的数据“隔代传承”。
胶卷
胶卷(Film),是一种用于记录图像的成像介质,也是一种摄影耗材。虽然本来用作摄影,胶卷在现代也发展出了新用途——数据存档。
你或许没听说过北极世界档案馆(Arctic World Archive),但如果你在2020年前就开始使用Github,那么你对它的一个数据存储计划应该并不陌生——把开源项目刻在胶卷上,存到北极圈内的一个废弃矿井中。
Github 挑选了截至2020年共计21TB大小的最热门开源项目库,全部存储在186卷由Piql开发的光学胶片中。所有文件最后都转换成二维码格式进行存储,它们看似普通的二维码,但每帧包含约880万像素,每卷可运行约1公里。胶卷储存在北极世界档案馆的钢壁容器中,埋在地下250米处。
胶卷采用涂有卤化银的聚酯纤维制作,这种材料最大的特点是性能稳定,寿命长。最初设计时,技术人员预计其使用寿命为500年,模拟显示它可以将代码保存约1000年,即使核战争爆发,它仍然能在世界毁灭之后,留下人类文明的火种。
数据归档
现在我们搞清楚了,你的数据究竟该存在什么东西上面。
但是你该怎么按照一定的次序来归档数据,便于未来的后代查找呢?在归档完毕后,你又该如何将数据打包写入介质中?如何确保数据尽可能保存得久一些呢?
目录,分类与索引
但凡看过书,都知道书的正文前有目录(Catalogue),方便我们查找对应的章节。如果书太多了,那么就需要分类(Category)和索引(Index),把具有类似属性的书,类似属性的章节和文段归类在一起,便于查找。
分类和索引需要有一定的依据,比如时间、作者、内容标签等。合适的索引依据能够让检索事半功倍,不合适的索引依据则会平添烦恼。
假设你要去图书馆查找孔子的某本著作,但你发现这个图书馆的目录是按创作时间编订的,那么你就得先搞清楚孔子是什么年代的人,然后依次进行查找,这样做显然效率很低。但如果图书管理员把所有孔子的著作都给放到了一起,那么对你而言,查找就很方便。
对于一般互联网用户而言,最常见的归类方式仍然是时间,因为我们在互联网上产生的数据十分杂乱无章,没有显著的规律,用时间来归类是最简单方便的方法。
当然,如果你的数据有其他的规律,也可以自行编订其他分类依据。
元数据
元数据(Metadata),即”描述数据的数据”,是一群数据,其内容提供了有关于另一群数据的信息。这么说可能有点抽象,我们不妨将其理解为数据的摘要,好比一本书的副标题。
元数据需要是自描述的——其包含了自身与其他数据相关的描述信息,不需要其他的配置文件或者额外信息来描述。说人话就是,元数据要直接让人/机器看懂,不能仰仗别的东西再次予以描述,禁止套娃。
一般来说,元数据里记载了所描述数据的标签,时间,来源等信息,最重要的是记录数据的查找路径——比如索引编号,偏移量等等。
格式
格式(Format),又称文件类型,是指电脑为了存储信息而使用的对信息的特殊编码方式。
对于文件归档来说,文件类型的选择以存取效率高,兼容性强,广泛使用为标准。常见的文件归档格式有zip、tar、rar、7z、xz、iso等。这些文件格式自从互联网时代之初就被广泛应用,这样就不会“有得存,没得读”,确保你的数据遗产在若干年后仍然可以被轻松查阅。
文件格式其实大有文章可做,细节放在下一个部分。
纠错和压缩
数据的自纠错能力是数据归档持久性的重要保证,压缩则能够提升存档的效率。
里德-所罗门编码
里德-所罗门编码(Reed-solomon codes),是一种前向错误更正的信道编码,对由校正过采样数据所产生的有效多项式。编码过程首先在多个点上对这些多项式求冗余,然后将其传输或者存储。对多项式的这种超出必要值得采样使得多项式超定(过限定)。当接收器正确的收到足够的点后,它就可以恢复原来的多项式,即使接收到的多项式有损。
你日常生活中随处可见的QR码(Quick-Response Code),便使用了里德-所罗门编码,这样在QR码图片受到少量污损时,无需更换也能读取出数据。
现今唯一支持里德-所罗门编码纠错的计算机文件归档格式是RAR,但Winrar是专有软件,如果你不想使用它,可以考虑将文件刻成CD光盘,或者使用Parchive(PAR)。
CD光盘一般使用CIRC 编码(交叉交错里德-所罗门编码)进行纠错,除了增加二维纠错编码外,还将源数据打散,根据一定的规则进行扰频和交错编码,使数据相互交叉交错,这样一来用户数据的错误将很难连续起来,从而进一步提高纠错的能力。
Parchive(Parity Volume Set Specification, 奇偶卷集规范软件,PAR) 是一个开源软件,允许你用里德-所罗门编码单独生成一个文件的校验档案,校验档案独立于原文件存在。由于易用性不佳且操作繁琐,Parchive较少被使用,当前互联网用户多使用RAR自带的恢复记录功能。
LZ77/78、DEFLATE、bzip2 、LZMA1/2 和 Zstandard
无损数据压缩(Lossless Compression),是指资料经过压缩后,还能完全恢复到压缩前的原样。本节的标题中列出了最常见的7个无损压缩算法。
LZ77 与 LZ78 是以色列计算机科学家亚伯拉罕·蓝波与杰可布·立夫在1977年以及1978年发表之论文中的两个无损数据压缩算法。这两个算法是大多数LZ算法变体以及其它一些压缩算法的基础。
DEFLATE 算法也许听说过的人不多,但相信许多人见过.zip格式的压缩包——DEFLATE算法被用于压缩zip格式文件,是最常用的压缩算法之一,同时使用了LZ77算法与哈夫曼编码(Huffman Coding)。它最初是由美国程序员菲尔·卡茨(Phil Katz)为他的软件所设计的,后来被RFC 1951标准化。
bzip2 是程序员Julian Seward开发并按照GNU协议发布的压缩算法,比传统的gzip或者ZIP的压缩效率更高,但是压缩速度较慢。
LZMA 与 LZMA2 (Lempel–Ziv–Markov chain algorithm),是2001年以来得到发展的压缩算法,被用于压缩7z格式和xz格式。LZMA使用类似于LZ77的字典编码机制,一般情况下压缩率比bzip2高,用于压缩的字典文件大小可达4GB。LZMA2则基于LZMA,支持多线程压缩/解压缩,也支持压缩数据和未压缩数据的混合打包。
Zstandard 是由Facebook程序员Yann Collet开发的一个无损数据压缩算法,于2016年8月31日发布。Zstandard的压缩比类似于DEFLATE,但更快速。它的压缩级别可以调节,从负5级(最快)到22级(最慢但压缩比最小),支持多线程压缩和解压缩。现今,Zstandard被数据公司广泛用于数据归档。
固实压缩
固实压缩(Solid compression)是一种特殊的压缩方式,它把压缩文件中的全部文件都当成一个连续数据流来看待。目前只有两种归档文件格式支持固实压缩——rar和7z。
固实压缩可减小压缩比,特别是在压缩文件中存在大量小文件的时候,但更新已存在的固实压缩文件时速度较慢,压缩速度也较慢。
此外,如果压缩文件受到轻微损坏,文件损坏部分之后的一些数据——甚至所有数据——可能无法读取,而在非固实压缩格式中,通常只有一个文件不可用,后续文件通常仍然可以正常读取。
互联网存档项目
如果你既不想花钱买磁带机和光盘,也不想占用自己硬盘里宝贵的空间,那么你可以试试把你的数据提交到专门的互联网存档项目中,他们会帮你储存数据。
Internet Archive (IA)
互联网档案馆(Internet Archive, IA)由Alexa创始人布鲁斯特·卡利于1996年创办,总部位于加利福尼亚州旧金山的列治文区。
该网站提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。
迄至2021年2月,网站存储了7280 亿个网页、3800万本书和文本、1400 万个录音(包括 240,000 场现场音乐会)、700 万个视频(包括 200 万个电视新闻节目)、400 万张图片、790,000 个软件程序。
如果你想保存某个网页,可以直接向互联网档案馆时光机(Internet Archive Wayback Machine)提交页面的链接——但是注意,该网站已经被GFW屏蔽,你需要科学上网。
除了保存网页,如果你想将你自己的作品发布到公有领域且使其在档案馆网站上长期可阅,可以联系互联网档案馆的工作人员。
Archive.is
Archive.is,是一个私人资助的网页存档网站,数据中心位于法国的北部-加来海峡(Nord-Pas-de-Calais)。有别于互联网档案馆的主动性网页爬虫,Archive.is每次只捕捉网站的一个页面,所以不遵守“Robots排除标准”。
如果你想保存某个网页,可以直接向它提交页面的链接——但是注意,该网站已经被GFW屏蔽,你需要科学上网。
Save The Web Project
如果你喜欢只身参与到存档项目中,成为一名万维网存档爱好者(Web Archivist) —— 除了去互联网档案馆圣地巡礼,你还可以加入这个小型公益社团,学习更多的深入知识,拯救处于危机之中的数据。
鸣谢和结语
作为Z世代的一份子,你我都会在互联网世界中留下许许多多的数据。
我们是互联网历史的见证者,与此同时,也是创造者和记述者。网上的站点和人们来来去去,自互联网发明以来,绝大多数网站都已经倒闭,你我有幸能看见的只是其中的一小部分。
都说互联网有记忆,愿记忆长存。
在此感谢yzqzss和Save The Web Project为本文的撰写提供帮助。
封面图片 ©圣三一学院图书馆
温馨提示:互联网有记忆,但是 wayback machine 的快照在中国不能作为法律依据
你还好意思提 wayback machine。。。
你自己的网站以前的快照怎么不见啦?
别以为我不知道你网站以前挂过什么学习资料。
杂鱼杂鱼杂鱼~~~
任何邪恶,终将绳之以法!
和蔼m(>ʌ<)=B