Video thumbnail

    如何命名文件 - Jennifer Bryan

    Valuable insights

    1.建立统一的文件命名规范: 采用一致的文件命名规范能有效减少决策时间,并使文件在后续计算处理中更易于操作,提高工作效率和数据管理质量。

    2.文件名应同时支持机器和人类读取: 理想的文件名应同时具备机器可读性(便于脚本处理)和人类可读性(便于人工理解),并能以有用的方式自动排序,优化数据管理效率。

    3.巧用分隔符与“Slug”概念: 使用下划线作为字段分隔符,连字符分隔字段内单词,并借鉴网页“slug”概念,使文件名直观反映内容,增强可读性和结构性。

    4.规范日期和数字格式: 日期应严格遵循ISO 8601标准(年-月-日),数字需进行左侧补零,确保文件在按字母数字顺序排序时,也能保持逻辑或时间上的正确性。

    5.文件命名以“未来自己”为中心: 文件命名应以方便未来的自己为指导原则,确保即使在压力下也能快速理解文件内容和结构,提高项目协作和维护效率。

    模式匹配(Globbing)

    文件命名的一个基本目标是实现机器可读性,从而能够通过程序对文件进行操作。最基础的文件识别方法之一是使用模式匹配(globbing)。通过定义简单的模式,可以轻松地筛选和隔离符合特定规则的文件,这对于自动化文件处理流程至关重要。一个良好的文件命名约定将使这种模式匹配操作变得更加高效和直观,避免了手动筛选的繁琐与错误,为后续复杂的数据处理奠定基础。

    正则表达式的应用

    除了简单的模式匹配,更复杂的自动化操作通常需要从文件名中提取结构化数据,这正是正则表达式发挥作用的场景。通过编写特定的正则表达式,开发者可以精确地解析文件名中的各个组成部分,并将其转换为可用的数据。例如,可以将一系列文件名转化为数据框,便于后续的数据分析和处理。这种方法大大提高了数据提取的效率和准确性,尤其是在处理大量具有相似命名模式的文件时。

    命名约定与分隔符

    在文件名中,合理使用分隔符是实现机器可读性的关键。通常建议使用下划线(`_`)来分隔文件名的不同字段,例如项目名称、日期和版本号。而对于字段内部的单词,则应使用连字符(`-`)进行分隔,例如“data-analysis-report”。这种约定尤其适用于包含日期的字段,因为日期通常以连字符分隔年、月、日(例如 2023-10-26),使得日期字段在视觉上更清晰,也便于正则表达式识别和提取。这一原则的根本目标是使文件命名易于“未来的你”理解和操作,即便是半夜三点面对紧急项目,也能迅速理解文件内容。

    使文件命名更易于机器通过模式匹配和正则表达式进行定位,并有意识地使用分隔符,是实现机器可读性的核心。
    • 可使用全局模式(Glob patterns)轻松定位。
    • 可使用正则表达式精确提取内部数据。
    • 有意图地使用分隔符,如下划线和连字符,以明确字段边界。

    采纳“Slug”命名法

    “Slug”这一概念源自网络世界,通常指URL中简洁且能反映页面内容的短语。将此概念应用于文件命名,意味着一个好的文件名应该能够直观地揭示文件的内容或目的。采纳“slug”命名法能够显著提高文件的人类可读性,让使用者无需打开文件即可大致了解其用途。例如,一个名为“project-report-2023-final.pdf”的文件,其名称本身就包含了项目、类型、年份和状态等关键信息,这比“doc123.pdf”这样的通用名称更具价值,尤其是在项目后期或团队协作中,能够大大节省理解文件的时间成本。

    实现人类可读性与文件排序

    人类可读性是文件命名的另一个重要支柱,它使得人们能够轻松地从文件名中推断文件的内容或用途。一个好的文件命名方案不仅应支持人工识别,还应考虑到文件在文件系统中的自然排序方式。默认情况下,文件通常按字母数字顺序排序,因此,设计文件名时必须考虑到这种默认行为。例如,在文件名开头加入日期或左侧补零的数字,可以确保文件能够按时间顺序或逻辑顺序正确排列,如“01_data-collection.py”在“10_analysis.py”之前,而不是因为“1”的排序在“10”之前而导致混乱。这对于管理项目流程、记录工作进度或维护临时脚本至关重要,确保了文件的组织性和可追溯性。

    日期格式标准化

    在任何与数据相关的上下文中,日期格式的标准化至关重要。强烈建议所有日期都遵循ISO 8601标准,即“年-月-日”(YYYY-MM-DD)的格式。这种格式确保了日期在任何系统和地域下都能被正确地理解和排序,避免了因不同国家和地区日期习惯(如月-日-年或日-月-年)而导致的混淆。例如,2023-10-26 明确表示2023年10月26日,无论使用者身处何地,都能一目了然。这种统一性对于数据共享、国际协作以及自动化脚本处理都具有决定性的意义。

    • 在文件名开头添加日期(遵循ISO 8601标准:YYYY-MM-DD),确保按时间顺序排序。
    • 对于数字序列,进行左侧补零(如01, 02, ..., 10),避免数字排序混乱。
    • 在日期/数字之后,接一个描述性强且信息丰富的“slug”,直观反映文件内容。

    Useful links

    These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.

    Tidyverse R Packages
    Jennifer Bryan file naming slides
    ISO 8601 Date Format Standard
    This article was AI generated. It may contain errors and should be verified with the original source.
    VideoToWordsClarifyTube

    © 2025 ClarifyTube. All rights reserved.