6 月 16 日消息,美国宇航局喷气推进实验室(JPL)数据科学家为推进 DARPA 安全文档(SafeDocs)计划,宣布创建全球最大的 PDF 文档库,用于恶意软件研究。
PDF 是便携式文档格式的缩写,是一种复杂的文件类型,可以包含图像,电影文件,交互式表单,3D 模型等等。
JPL 表示此前已收集了 800 万个 PDF 文件,完整的数据集总计约为 8 TB,使其成为同类中最大的公开可用语料库。JPL 通过和非营利组织 PDF 协会合作,开发多种工具来应对网络在线威胁。
翻译 JPL 数据科学家 Tim Allison 的内容如下:
PDF 格式用途广泛,合同、法律文档、3D 工程设计等都会用到。但 PDF 格式也很复杂,能以不同形式隐藏恶意代码。
为了应对 PDF 的这些和其他挑战,需要从互联网上收集大量真实世界的 PDF 样本,为软件专家创建一个共享的,免费可用的资源。