git软件内部是怎样运行的

Table of Contents

接上篇[[20250109-探索一下git的运行机制]],了解完git的运行机制之后,我意识到我了解的是git软件上层的运行机制,而不是git软件本身的运行机制,于是又有了这篇文章

一、关键组件解密

(一).git 目录:核心存储库

在使用 Git 进行版本控制时,执行 git init 命令后,项目根目录下会生成一个.git 目录,它宛如一个神秘的宝库,收纳着 Git 仓库的所有关键信息,是 Git 运行的根基所在。

进入.git 目录,各类文件和子目录琳琅满目。其中,config 文件是项目定制的 “说明书”,详细记录着项目专属的 Git 配置详情,像是用户名、邮箱、远程仓库地址等,让 Git 能精准适配项目需求;description 文件则像是项目的 “宣传海报”,为 GitWeb 等工具提供简洁有力的项目描述,让人能快速了解项目主旨。

hooks 目录更像是一个个隐藏的 “机关”,存放着各种 Git 钩子脚本,既有预定义的模板,又允许用户根据需求自定义,在代码提交、推送等关键节点发挥触发作用,实现自动化流程管控;而 info 目录里的 exclude 文件,如同一张 “过滤网”,配置不希望被 Git 追踪的文件或目录,功能类似.gitignore 文件,确保版本控制聚焦关键内容。

HEAD 文件是当前工作分支的 “指南针”,时刻指向正在工作的分支,精准定位;refs 目录则是分支、标签等引用的 “存储柜”,像 heads 子目录存放本地分支指针,tags 子目录保存标签指针,让你轻松管理项目分支与版本;objects 目录作为 Git 仓库的 “数据心脏”,存储着各类对象,后续会详细拆解。这些组件相互协作,构成 Git 强大版本控制能力的坚实基石。

(二)Git 对象:数据基石

Git 对象是 Git 仓库的原子单位,犹如精密齿轮组,彼此啮合驱动 Git 精准运行,主要有 Blob、Tree、Commit 三种类型,它们层层嵌套、紧密关联,共同勾勒出项目的版本演进蓝图。

1. Blob:文件内容的忠实承载

Blob 对象是 Git 存储文件内容的最小单元,类似文件的 “克隆体”。当向 Git 仓库添加文件,如创建或修改一个文本文件时,Git 会为其生成 Blob 对象。它摒弃文件名、权限等额外信息,仅聚焦文件内容,通过 SHA - 1 算法生成唯一哈希值作为标识。

假设有个项目包含多个版本的 readme.txt 文件,初始版本内容为 “项目简介”,后续更新为 “项目详细说明”。Git 会分别为两个版本生成不同 Blob 对象,各自哈希值独一无二。即便文件名相同,内容有丝毫变动,哈希值也会全然不同,这恰似为每个文件版本打造专属 “指纹”,让 Git 能敏锐察觉文件变化,实现精准版本控制。

2. Tree:目录结构的快照大师

Tree 对象宛如一位 “建筑师”,精心构建并记录提交时的目录结构。它将目录视为 “蓝图”,把其中的文件及子目录组织得井井有条,每个文件对应 Blob 对象,子目录对应下级 Tree 对象,并附上文件权限、类型等关键元数据,最后经哈希计算生成唯一标识。

以一个包含 src、docs 目录及若干文件的项目为例,提交时 Git 生成 Tree 对象,精准记录目录层级与文件布局:src 目录下的文件对应特定 Blob 对象,拥有相应权限;docs 目录同理,层层嵌套。这就像为项目瞬间定格,形成清晰的结构 “快照”,完整呈现项目特定时刻的组织形态。

3. Commit:版本演进的记录者

Commit 对象好似一位严谨的 “史官”,忠实记录项目的每个关键节点。它不仅存储提交时的元数据,如作者、提交时间、提交消息,还包含指向项目根目录 Tree 对象的指针,指明当时的完整项目结构;同时,除首次提交外,都存有父提交指针,串联起版本更迭脉络,编织成有向无环图,完整回溯项目历程。

二、上层命令探秘

在 Git 的命令体系里,有着清晰的分层架构。日常使用的如 git add、git commit、git branch 等属于上层命令,它们设计得十分 “亲民”,参数简洁、输出易懂,旨在满足开发者日常高效操作需求;而底层命令则像精密机械的 “零件”,虽不直接面向日常操作,却为上层命令筑牢根基,掌控着 Git 底层核心逻辑,二者紧密协同,驱动 Git 顺畅运行。

像探究 Git 内部机制时,底层命令 git hash-object、cat-file 就大显身手。git hash-object 能将任意数据转化为 Git 对象存储,并生成唯一哈希标识,犹如为数据打造 “身份证”;cat-file 则似 “透视镜”,依据哈希值精准洞察 Git 对象内容与类型,助我们深入剖析 Git 运行细节,解锁版本控制底层奥秘。

git add 做了什么

执行 git add 命令时,表面看是将工作区文件送进暂存区,实则底层暗流涌动。它先调用 git hash-object -w,像一位 “压缩大师”,把文件内容压缩成二进制数据,存储到.git/objects 目录,同时算出 40 位 SHA - 1 哈希值作为文件名,此为 Blob 对象诞生过程;接着 git update-index –add –cacheinfo 登场,它如同 “记录员”,把文件相关信息,如文件名、权限、Blob 对象哈希值记录到暂存区,让 Git 精准知晓文件变动,为后续提交铺垫,确保版本控制精准、可靠。

git commit 做了什么

git commit 是项目版本演进的关键 “里程碑”。背后是 git write-tree 和 git commit-tree 两大底层命令携手发力。git write-tree 宛如 “快照工匠”,依据暂存区信息构建 Tree 对象,精准记录目录结构与文件关联,为项目当前状态定格;git commit-tree 则似 “历史书写者”,将 Tree 对象、作者信息、提交时间、提交说明等封装成 Commit 对象,融入版本历史长河,且通过父提交指针串联过往,形成完整可溯链条,忠实承载项目迭代轨迹。

git branch 做了什么

git branch 用于创建、管理分支,看似轻巧,底层却蕴含巧思。执行 git branch new_branch 时,Git 内部以 git update-ref refs/heads/new_branch 为 “指引”,在 refs/heads 目录下创建新指针文件,指向当前 Commit 对象,这好比在项目发展路径上开辟新岔路;切换分支时,git checkout new_branch 指令驱使 Git 用 git symbolic-ref HEAD refs/heads/new_branch 更新 HEAD 指针,让工作区、暂存区迅速同步至新分支状态,实现不同开发路径自由穿梭,助力并行开发与功能探索。

三、常见的底层命令及其含义

git hash-object

  • 含义:用于计算并返回 Git 对象(如文件内容、目录树等)的哈希值,该哈希值是 Git 识别和存储对象的关键标识。Git 中几乎所有的数据存储和检索都依赖于这种哈希算法生成的唯一标识符。
  • 用途示例:当你向 Git 仓库添加一个新文件时,Git 首先会使用 git hash-object 计算文件内容的哈希值,以此来确定这个文件在仓库中的唯一性。比如,你创建了一个名为 example.txt 的文件,内容为“Hello Git”,运行 git hash-object example.txt,就会得到一个代表该文件内容的哈希值,像 83baae61804e65cc73a720077a720077a720077a 这样一串很长的字符(实际哈希值因内容而异)。

git cat-file

  • 含义:可以查看 Git 对象的内容,根据给定的对象哈希值或对象类型,它能显示对应的 Blob(文件内容)、Tree(目录结构)、Commit(提交信息)等详细信息。这是深入探究 Git 内部存储结构的有力工具。
  • 用途示例:已知一个提交的哈希值,想要查看该提交的详细信息,包括作者、提交时间、提交说明以及所涉及的文件变更等,就可以运行 git cat-file -p [提交哈希值]。例如,git cat-file -p 5f423a123456789abcdef,它会以清晰的格式输出该提交对应的详细元数据及文件变更树状结构,帮助你了解那次特定的版本演进。

git update-index

  • 含义:主要用于更新暂存区的信息,它能够修改暂存区中文件的状态,比如标记文件为已修改、已删除或新增等状态,是连接工作区和暂存区操作的重要命令。
  • 用途示例:在工作区对文件进行了修改后,使用 git update-index --add [文件名] 可以将修改后的文件标记添加到暂存区,准备后续提交。若不小心误操作删除了暂存区的某个文件记录,通过 git update-index --force-remove [文件名] 能纠正暂存区状态,使其与实际情况相符。

git write-tree

  • 含义:将暂存区的状态转换为一个 Tree 对象并写入 Git 仓库,这个 Tree 对象代表了当时项目目录结构及文件状态的一个快照,是构建版本历史的关键步骤。
  • 用途示例:当你在暂存区精心整理好一系列文件的修改、新增、删除等状态准备提交时,git write-tree 就发挥作用了,它把当前暂存区内容固化成一个 Tree 结构存储起来,后续 git commit 操作会基于这个 Tree 生成对应的 Commit 对象,完成一次完整的版本记录。

git read-tree

  • 含义:与 git write-tree 相反,它能够读取一个 Tree 对象,并将其内容反映到暂存区,实现从仓库历史版本中提取特定目录结构和文件状态到当前暂存区,方便对比、恢复等操作。
  • 用途示例:假如你发现项目在某个历史版本中的文件布局和内容是你当下需要参考或恢复的,首先通过查找获取那个版本对应的 Tree 对象哈希值,然后运行 git read-tree [Tree 哈希值],就能让暂存区瞬间切换到当时的状态,便于查看差异或进行有针对性的恢复工作。

git rev-parse

  • 含义:这个命令用于解析各种Git引用(如分支名、标签名、提交哈希等),并返回一个唯一的哈希值。它可以帮助你确定一个引用最终指向的提交对象的哈希值。例如,你可以用它来确定一个分支名称对应的提交哈希,或者解析像HEAD这样的特殊引用。
  • 用途示例:如果想知道当前分支所指向的提交的哈希值,可以运行git rev-parse HEAD。这在脚本编写或者需要精确引用某个提交时非常有用,比如在自动化部署脚本中,通过这个命令来确保总是使用特定的提交版本进行部署。

git ls - files

  • 含义:用于列出当前工作区或暂存区中的文件。它可以根据不同的参数,显示工作目录中的所有文件、暂存区中的文件或者两者之间的差异文件等信息。这有助于你了解哪些文件被Git跟踪,以及它们的状态。
  • 用途示例:当你不确定哪些文件已经被添加到暂存区或者哪些文件还没有被跟踪时,可以使用git ls - files。例如,运行git ls - files -s可以显示暂存区中文件的模式、对象哈希和阶段号等详细信息,方便你检查暂存区的状态。

git diff - -cached

  • 含义:用于查看暂存区和上一次提交之间的差异。它可以帮助你在提交之前检查已经添加到暂存区的修改是否符合预期,相当于对即将提交的内容进行最后的审核。
  • 用途示例:在执行git commit之前,运行git diff --cached来查看你使用git add添加到暂存区的文件修改内容。这样可以避免将不必要的或者错误的修改提交到仓库中,确保每次提交的内容都是经过仔细检查的。

git checkout - - [file]

  • 含义:底层实现上涉及到文件状态的切换。它用于撤销工作区中指定文件的修改,将文件恢复到最近一次提交或者最近一次添加到暂存区时的状态。
  • 用途示例:如果在工作区对某个文件进行了修改,但是后来发现这些修改是错误的或者不需要的,就可以使用git checkout -- [file]来恢复文件的原始状态。例如,你不小心修改了index.html文件,运行git checkout -- index.html就可以将其恢复到之前的状态。

git commit - tree [tree - hash]

  • 含义:用于创建一个新的提交对象,但是需要手动指定一个Tree对象的哈希值作为参数。这是一种比较底层的创建提交的方式,通常在一些复杂的Git操作或者脚本编写中使用。
  • 用途示例:在构建自定义的Git工作流程或者编写与Git集成的工具时,可能需要手动创建提交。通过git write - tree生成Tree对象的哈希值后,使用git commit - tree [tree - hash]来创建一个新的提交,同时可以通过标准输入提供提交的作者、提交者和提交消息等信息。

git pack - objects

  • 含义:是Git用于将对象打包的命令。在Git仓库中,为了节省空间和提高效率,会将多个对象(如Blob、Tree、Commit)打包成一个二进制文件,这个过程就是由git pack - objects来完成的。打包后的对象更便于存储和传输。
  • 用途示例:当你想手动控制对象的打包过程(虽然Git通常会自动处理),比如在优化仓库存储或者准备将仓库内容传输到其他地方时,可以使用git pack - objects。不过这个命令通常在比较复杂的仓库维护场景下使用,并且需要对Git对象存储机制有较深的理解。

git unpack - objects

  • 含义:与git pack - objects相反,用于解包已经打包的Git对象。当你从其他地方获取了打包后的Git对象(如通过克隆仓库或者获取打包文件),需要将这些对象解包才能在本地仓库中正常使用。
  • 用途示例:如果从一个备份文件或者其他来源获取了打包的Git对象,在本地仓库中使用这些对象之前,需要使用git unpack - objects来解包。不过在日常的Git使用中,这个命令很少会被直接使用,因为Git在克隆或者拉取仓库等操作时通常会自动完成解包过程。

git prune - packed

  • 含义:用于清理已经被打包但不再被引用的Git对象。在Git仓库的生命周期中,对象可能会因为各种原因(如历史版本的删除、分支的合并等)不再被引用,这些对象虽然被打包了,但占用了一定的存储空间,git prune - packed可以将它们清理掉。
  • 用途示例:在长期维护的大型Git仓库中,为了节省磁盘空间,可以定期运行git prune - packed来清理无用的打包对象。不过在运行这个命令之前,需要确保对仓库的操作历史有足够的了解,因为一旦清理,这些对象就无法恢复了。

git gc

  • 含义:与git prune相比,功能更全面,主要是对 Git 仓库进行整体的垃圾回收和优化。它会清理那些不再被引用的对象,包括提交(Commit)、树(Tree)、二进制大对象(Blob)等各种 Git 对象。同时,git gc 还会对剩余的有用对象进行打包,将多个对象组合成更紧凑的格式存储,以减少磁盘空间占用并提高访问效率。
  • 用途示例:例如,当你删除了一个分支,分支上的提交对象如果没有被其他分支引用,git gc 能够识别并清理这些对象。

更多Git底层命令详细文档,参考官方网站:https://git-scm.com/docs

最近刷到很多关于NAS的文章,有关于系统fnOS的,还有关于硬件绿联的,明天了解一下