DNA数字化信息存储

【背景】

随着数字信息持续积累,需要更高密度、更长期的存储解决方案,而DNA 具备保存大量信息的能力,结构紧凑易于长期保存。 DNA储存是非常密集的,理论最大值显示DNA的每个核苷酸(nt)可以编码2字节,ssDNA可以编码455字节,1 g DNA不到指尖上一滴露珠的大小,却能存储700TB的数据,相当于233个3TB的硬盘。 与大多数数字存储介质不同,DNA存储不限于平面结构,可经常读取,即使在劣化等非理想条件下也可以保存几千年。 DNA的生物学本质为其提供了“读”和“写”的酶,确保了它的可读标准。利用二进制或三进制码为依托的DNA存储技术正在飞速发展,可以覆盖英文、数字、中文和标点符号等多种字符类型,应用广泛。

【研究思路】

  1. 将一本包含53,426个单词,11张JPG格式的图片和1个JavaScript程序的html编码转换为5.27M的二进制码;
  2. 将二进制编码转化为碱基序列(A,C=0;T,G=1),共54,898条寡核苷酸链(159nt),每条链包括96nt的数据块,同时链接22nt的通用引物用于扩增和测序和19nt地址信息序列。一个句子的12字节部分转换为二进制编码(蓝色),与19字节条码链接在一起(红色),表示该位置开始编码(图1);
  3. 全部5.27M的文本包含了54,898条寡核苷酸,利用寡核苷酸合成仪合成人工DNA;
  4. 寡核苷酸片段经NGS测序,检验序列中保存的条形码和实际测序的编码数据是否一致,再将测序结果根据还原为原来的文本。

【结果】

合成的DNA序列经测序检验后5.27M的误差只有10字节。

【结论】

采用DNA存储的5个优势:

  1. 每个字节编码一个碱基(A,C=0;T,G=1),这种编码方式可以避免难“读”和“写”的序列,比如说高GC含量、重复序列及二级结构;
  2. 通过将字节分流到具有编码地址的数据块中,可以解决超长DNA结构在现阶段的组装难点;
  3. 对每个单个寡核苷酸的许多拷贝数都进行了合成、存储和测序,由于合成和测序中的错误很少一致,每个分子的拷贝可以用于校正其他拷贝中的错误;
  4. 通过体外合成的方式避免体内克隆等稳定性问题;
  5. 利用下一代DNA合成和测序技术,可实现大量信息编码和解码,比第一代编码成本低十万倍。

参考文献
Church, G.M., Y. Gao and S. Kosuri, Next-generation digital information storage in DNA. Science, 2012. 337(6102): p. 1628.