【Python入门】9.文件读写

最新推荐文章于 2026-06-20 12:35:31 发布

原创最新推荐文章于 2026-06-20 12:35:31 发布 · 736 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python

Python入门专栏收录该内容

16 篇文章

订阅专栏

Python 文件读写完全指南（从基础到进阶）

文件读写是 Python 最核心的基础功能之一，用于实现数据持久化（将内存中的数据保存到磁盘，或从磁盘读取数据到内存）。本文将系统梳理文件读写的核心逻辑、基础用法、进阶技巧和常见坑，适合零基础学习者循序渐进掌握。

一、核心逻辑：文件操作的“三步曲”

所有文件操作都遵循固定流程，缺一不可（除非用上下文管理器自动处理）：

打开文件：用 open() 函数建立内存与磁盘文件的连接，返回一个「文件对象」（也称文件句柄）；
操作文件：通过文件对象的方法执行读（读取文件内容）或写（写入数据到文件）；
关闭文件：用 close() 方法断开连接，释放系统资源（必须执行，否则可能导致数据丢失或资源泄露）。

类比：打开文件 = 打开笔记本，操作文件 = 写字/读字，关闭文件 = 合上笔记本。

二、基础准备：文件路径与打开模式

在操作文件前，必须明确两个关键信息：文件路径（找到文件）和打开模式（指定操作类型）。

1. 文件路径（找到目标文件）

文件路径是文件在磁盘上的位置，分为两种：

类型	定义	示例（Windows/macOS/Linux）
绝对路径	从磁盘根目录开始的完整路径	Windows：`C:\Users\XXX\test.txt`；macOS：`/Users/XXX/test.txt`
相对路径	相对于当前代码文件所在目录的路径	同目录：`test.txt`；上一级目录：`../test.txt`；子目录：`data/test.txt`

路径分隔符注意事项：

Windows 用反斜杠 \，macOS/Linux 用正斜杠 /；
Python 中推荐用正斜杠 /（跨平台兼容），或用原始字符串（前缀 r）避免反斜杠转义（如 r"C:\Users\XXX\test.txt"）。

2. 打开模式（指定操作类型）

open() 函数的第二个参数 mode 决定文件的操作权限，核心模式如下（最常用标红）：

模式	核心含义	是否创建新文件	是否覆盖原有内容	文件指针位置
`r`	只读（默认模式）	否（文件不存在报错）	-	文件开头
`w`	只写（文本模式）	是（文件不存在则创建）	是（清空原有内容）	文件开头
`a`	追加写（文本模式）	是（文件不存在则创建）	否（在文件末尾追加）	文件末尾
`x`	独占写（文本模式）	是（文件不存在则创建）	否（文件存在报错）	文件开头
`r+`	读写（文本模式）	否（文件不存在报错）	否（覆盖光标后内容）	文件开头
`w+`	读写（文本模式）	是（文件不存在则创建）	是（清空原有内容）	文件开头
`a+`	读写（文本模式）	是（文件不存在则创建）	否（只能追加写）	文件末尾
`rb`	只读（二进制模式）	否（文件不存在报错）	-	文件开头
`wb`	只写（二进制模式）	是（文件不存在则创建）	是（清空原有内容）	文件开头

关键说明：

文本模式（默认，不加 b）：读写字符串，自动处理换行符（\n 适配不同系统），需指定编码（如 utf-8）；
二进制模式（加 b）：读写字节流（bytes 类型），用于处理图片、视频、压缩包等非文本文件，不能指定编码；
慎用 w 模式：会直接清空原有文件内容，误操作可能导致数据丢失！

三、基础操作：文本文件读写（核心重点）

文本文件是最常用的文件类型（如 .txt、.csv、.py 等），下面分「读文件」和「写文件」详细讲解，推荐优先使用上下文管理器 with 语句（自动关闭文件，避免遗忘 close()）。

1. 读文件（从磁盘读数据到内存）

核心函数：open() + 文件对象的读方法（read()/readline()/readlines()）。

方式1：基础写法（需手动关闭文件）

# 1. 打开文件（绝对路径/相对路径，只读模式，指定编码）
file = open("test.txt", mode="r", encoding="utf-8")  # encoding 必指定，避免中文乱码

# 2. 读取文件内容
content = file.read()  # 读取全部内容，返回字符串
# content = file.read(10)  # 读取前10个字符
# content = file.readline()  # 读取一行内容（包括换行符\n）
# content = file.readlines()  # 读取所有行，返回列表（每行是一个元素，含\n）

# 3. 关闭文件（必须执行！）
file.close()

# 打印结果
print(content)

方式2：推荐写法（with 上下文管理器）

with 语句会在代码块结束后自动关闭文件，即使出现异常也能保证资源释放，是 Python 官方推荐的最佳实践：

# 格式：with open(路径, 模式, 编码) as 变量名:
with open("test.txt", "r", encoding="utf-8") as file:
    # 方法1：读取全部内容（小文件适用）
    content1 = file.read()
    print("read() 读取全部：", content1)

with open("test.txt", "r", encoding="utf-8") as file:
    # 方法2：逐行读取（大文件适用，节省内存）
    for line in file:  # 文件对象本身是可迭代对象，逐行迭代
        print("逐行读取：", line.strip())  # strip() 去除换行符和空格

with open("test.txt", "r", encoding="utf-8") as file:
    # 方法3：读取所有行到列表（便于后续处理）
    lines = file.readlines()
    print("readlines() 读取：", lines)  # 输出：['第一行\n', '第二行\n', '第三行']
    # 处理列表（去除换行符）
    lines = [line.strip() for line in lines]
    print("处理后：", lines)  # 输出：['第一行', '第二行', '第三行']

三种读方法对比（选对才高效）：

方法	功能	适用场景	优点	缺点
`read()`	读取全部内容（或指定长度）	小文件（几MB内）	代码简洁，一次性获取	大文件占用内存过多
`readline()`	逐行读取，每次读1行	大文件，需逐行处理	内存占用少	需循环多次，效率一般
`for line in file`	逐行迭代文件对象（推荐）	所有文件，尤其大文件	内存占用最少，效率最高	无
`readlines()`	读取所有行到列表	需多次访问行数据（如排序）	可随机访问行	大文件占用内存过多

2. 写文件（从内存写数据到磁盘）

核心函数：open() + 文件对象的写方法（write()/writelines()）。

关键注意：

写文件必须用「写模式」（w/a/x/w+/a+）；
write() 接收字符串，writelines() 接收字符串列表（不会自动加换行符，需手动添加 \n）；
写完后需确保数据写入磁盘：可调用 flush() 强制刷新（close() 会自动调用 flush()）。

示例1：覆盖写（`w` 模式）

# with 语句自动关闭文件
with open("output.txt", "w", encoding="utf-8") as file:
    # 方法1：写入单个字符串
    file.write("Hello Python!\n")  # \n 是换行符
    file.write("文件读写很简单～\n")
    
    # 方法2：写入字符串列表（writelines 不自动加换行）
    lines = ["第一行内容", "第二行内容", "第三行内容"]
    file.writelines([line + "\n" for line in lines])  # 手动加\n

运行后 output.txt 内容：

Hello Python!
文件读写很简单～
第一行内容
第二行内容
第三行内容

示例2：追加写（`a` 模式）

a 模式不会清空原有内容，只在文件末尾添加新数据：

with open("output.txt", "a", encoding="utf-8") as file:
    file.write("这是追加的内容～\n")

运行后 output.txt 末尾会新增一行：这是追加的内容～

示例3：独占写（`x` 模式）

x 模式确保文件不存在时才创建，避免误覆盖已有文件（文件存在则报错）：

try:
    with open("new_file.txt", "x", encoding="utf-8") as file:
        file.write("独占模式创建的文件")
except FileExistsError:
    print("文件已存在，不能重复创建！")

四、路径处理：跨平台兼容（进阶必备）

手动拼接路径容易出现跨平台兼容问题（如 Windows 的 \ 和 macOS 的 /），Python 提供两个模块解决：os.path（传统）和 pathlib（Python3.4+ 推荐，面向对象）。

1. pathlib 模块（推荐）

pathlib 用面向对象的方式处理路径，语法简洁，跨平台自动适配分隔符：

from pathlib import Path

# 1. 创建路径对象
current_dir = Path()  # 当前目录
file_path = Path("data") / "test.txt"  # 拼接路径（用 / 运算符，无需关心系统）
abs_path = file_path.resolve()  # 获取绝对路径

print("相对路径：", file_path)
print("绝对路径：", abs_path)

# 2. 检查路径是否存在
print("文件是否存在：", file_path.exists())
print("是否是文件：", file_path.is_file())
print("是否是目录：", file_path.is_dir())

# 3. 读取文件（pathlib 直接支持读写，更简洁）
if file_path.exists():
    # 读文件
    content = file_path.read_text(encoding="utf-8")  # 等价于 open(..., "r").read()
    print("文件内容：", content)
    
    # 写文件
    file_path.write_text("pathlib 写入的内容～\n", encoding="utf-8")  # 等价于 open(..., "w").write()

# 4. 创建目录（递归创建多级目录）
Path("data/new_dir").mkdir(parents=True, exist_ok=True)  # parents=True 递归创建，exist_ok=True 忽略已存在

2. os.path 模块（传统方式）

os.path 是传统路径处理模块，通过函数拼接路径，语法较繁琐：

import os

# 拼接路径
file_path = os.path.join("data", "test.txt")  # 跨平台拼接（推荐）
abs_path = os.path.abspath(file_path)  # 获取绝对路径

# 检查路径
print(os.path.exists(file_path))  # 是否存在
print(os.path.isfile(file_path))  # 是否是文件

# 读取文件（仍需配合 open()）
if os.path.isfile(file_path):
    with open(file_path, "r", encoding="utf-8") as f:
        print(f.read())

总结：

新代码优先用 pathlib：语法简洁、面向对象、跨平台友好；
维护老项目时可能用到 os.path：了解即可。

五、进阶技巧：二进制文件与编码处理

1. 二进制文件读写（图片、视频等）

非文本文件（如 .png、.mp4、.zip）需用「二进制模式」（加 b），读写字节流（bytes 类型）：

# 示例：复制一张图片（读二进制 + 写二进制）
with open("input.png", "rb") as src_file:  # rb：二进制只读
    bytes_data = src_file.read()  # 读取字节流（bytes 类型）

with open("output.png", "wb") as dst_file:  # wb：二进制只写
    dst_file.write(bytes_data)  # 写入字节流

print("图片复制完成！")

关键注意：

二进制模式下，read() 返回 bytes 而非字符串，write() 仅接收 bytes；
不能指定 encoding 参数（否则报错）。

2. 编码处理（解决中文乱码）

中文乱码的核心原因：文件的编码格式与读取时指定的编码不一致。

常见编码格式：

utf-8：全球通用，推荐默认使用（Python 3 源码、大多数文件的默认编码）；
gbk：Windows 系统默认中文编码（如记事本保存的文件）；
gb2312：GBK 的子集，仅支持简体中文。

解决乱码的方法：

明确文件的编码格式（如记事本保存时选择「UTF-8」）；
读取时指定对应的编码：

# 读取 GBK 编码的文件
with open("gbk_file.txt", "r", encoding="gbk") as f:
    content = f.read()

# 写入 GBK 编码的文件
with open("gbk_file.txt", "w", encoding="gbk") as f:
    f.write("中文内容")

处理编码错误：

如果不确定文件编码，可通过 errors 参数忽略或替换错误字符：

# errors="ignore"：忽略编码错误（可能丢失部分内容）
# errors="replace"：用 � 替换错误字符（推荐）
with open("unknown_encoding.txt", "r", encoding="utf-8", errors="replace") as f:
    content = f.read()

六、高级操作：文件指针与大文件处理

1. 文件指针（控制读写位置）

文件指针是当前读写的位置标记，可通过 tell() 查看位置，seek() 移动位置（单位：字节）：

with open("test.txt", "r+", encoding="utf-8") as f:
    print("初始位置：", f.tell())  # 0（文件开头）
    
    f.read(5)  # 读取前5个字符
    print("读取5个字符后位置：", f.tell())  # 5
    
    f.seek(0)  # 移动到文件开头（偏移量0，默认从文件开头计算）
    print("seek(0) 后位置：", f.tell())  # 0
    
    f.seek(3, 1)  # 从当前位置向后移动3字节（模式1：相对当前位置）
    f.seek(-5, 2)  # 从文件末尾向前移动5字节（模式2：相对文件末尾）

`seek(offset, whence)` 参数说明：

offset：偏移量（正数向后移，负数向前移）；
whence：基准位置（0=文件开头，1=当前位置，2=文件末尾），默认0。

2. 大文件处理（避免内存溢出）

处理超大文件（如几十GB的日志文件）时，不能用 read() 或 readlines()（会加载整个文件到内存），推荐两种方式：

方式1：逐行迭代（文本文件）

# 逐行读取，内存占用仅一行数据
with open("large_log.txt", "r", encoding="utf-8") as f:
    for line in f:
        # 处理每行数据（如统计关键词）
        if "error" in line.lower():
            print("错误日志：", line.strip())

方式2：分块读取（二进制文件/超大文本）

# 分块读取，每次读 1024*1024 字节（1MB）
chunk_size = 1024 * 1024  # 1MB/块
with open("large_file.bin", "rb") as src, open("copy.bin", "wb") as dst:
    while True:
        chunk = src.read(chunk_size)  # 读取一块
        if not chunk:  # 读取到末尾（返回空bytes）
            break
        dst.write(chunk)  # 写入一块

七、实用场景：文件操作常见需求

1. 统计文件行数/字数

# 统计行数
with open("test.txt", "r", encoding="utf-8") as f:
    line_count = len(f.readlines())
print("文件行数：", line_count)

# 统计字数（不含空格和换行）
with open("test.txt", "r", encoding="utf-8") as f:
    content = f.read().replace(" ", "").replace("\n", "")
    char_count = len(content)
print("文件字数：", char_count)

2. 批量修改文件名

from pathlib import Path

# 批量给目录下的 .txt 文件加前缀 "new_"
dir_path = Path("data")
for file in dir_path.glob("*.txt"):  # 匹配所有 .txt 文件
    new_name = "new_" + file.name  # 新文件名
    file.rename(dir_path / new_name)  # 重命名
print("批量重命名完成！")

3. 读取 CSV 文件（简单版）

CSV 是逗号分隔的文本文件，可直接用文件读写处理（复杂场景推荐 csv 模块）：

with open("data.csv", "r", encoding="utf-8") as f:
    for line in f:
        # 按逗号分割数据（处理中文时需确保编码正确）
        data = line.strip().split(",")
        print("CSV 行数据：", data)