【Python入门】9.文件读写

Python 文件读写完全指南(从基础到进阶)

文件读写是 Python 最核心的基础功能之一,用于实现数据持久化(将内存中的数据保存到磁盘,或从磁盘读取数据到内存)。本文将系统梳理文件读写的核心逻辑、基础用法、进阶技巧和常见坑,适合零基础学习者循序渐进掌握。

一、核心逻辑:文件操作的“三步曲”

所有文件操作都遵循固定流程,缺一不可(除非用上下文管理器自动处理):

  1. 打开文件:用 open() 函数建立内存与磁盘文件的连接,返回一个「文件对象」(也称文件句柄);
  2. 操作文件:通过文件对象的方法执行读(读取文件内容)或写(写入数据到文件);
  3. 关闭文件:用 close() 方法断开连接,释放系统资源(必须执行,否则可能导致数据丢失或资源泄露)。

类比:打开文件 = 打开笔记本,操作文件 = 写字/读字,关闭文件 = 合上笔记本。

二、基础准备:文件路径与打开模式

在操作文件前,必须明确两个关键信息:文件路径(找到文件)和打开模式(指定操作类型)。

1. 文件路径(找到目标文件)

文件路径是文件在磁盘上的位置,分为两种:

类型定义示例(Windows/macOS/Linux)
绝对路径从磁盘根目录开始的完整路径Windows:C:\Users\XXX\test.txt;macOS:/Users/XXX/test.txt
相对路径相对于当前代码文件所在目录的路径同目录:test.txt;上一级目录:../test.txt;子目录:data/test.txt
路径分隔符注意事项:
  • Windows 用反斜杠 \,macOS/Linux 用正斜杠 /
  • Python 中推荐用正斜杠 /(跨平台兼容),或用原始字符串(前缀 r)避免反斜杠转义(如 r"C:\Users\XXX\test.txt")。

2. 打开模式(指定操作类型)

open() 函数的第二个参数 mode 决定文件的操作权限,核心模式如下(最常用标红):

模式核心含义是否创建新文件是否覆盖原有内容文件指针位置
r只读(默认模式)否(文件不存在报错)-文件开头
w只写(文本模式)是(文件不存在则创建)是(清空原有内容)文件开头
a追加写(文本模式)是(文件不存在则创建)否(在文件末尾追加)文件末尾
x独占写(文本模式)是(文件不存在则创建)否(文件存在报错)文件开头
r+读写(文本模式)否(文件不存在报错)否(覆盖光标后内容)文件开头
w+读写(文本模式)是(文件不存在则创建)是(清空原有内容)文件开头
a+读写(文本模式)是(文件不存在则创建)否(只能追加写)文件末尾
rb只读(二进制模式)否(文件不存在报错)-文件开头
wb只写(二进制模式)是(文件不存在则创建)是(清空原有内容)文件开头
关键说明:
  • 文本模式(默认,不加 b):读写字符串,自动处理换行符(\n 适配不同系统),需指定编码(如 utf-8);
  • 二进制模式(加 b):读写字节流(bytes 类型),用于处理图片、视频、压缩包等非文本文件,不能指定编码
  • 慎用 w 模式:会直接清空原有文件内容,误操作可能导致数据丢失!

三、基础操作:文本文件读写(核心重点)

文本文件是最常用的文件类型(如 .txt.csv.py 等),下面分「读文件」和「写文件」详细讲解,推荐优先使用上下文管理器 with 语句(自动关闭文件,避免遗忘 close())。

1. 读文件(从磁盘读数据到内存)

核心函数:open() + 文件对象的读方法(read()/readline()/readlines())。

方式1:基础写法(需手动关闭文件)
# 1. 打开文件(绝对路径/相对路径,只读模式,指定编码)
file = open("test.txt", mode="r", encoding="utf-8")  # encoding 必指定,避免中文乱码

# 2. 读取文件内容
content = file.read()  # 读取全部内容,返回字符串
# content = file.read(10)  # 读取前10个字符
# content = file.readline()  # 读取一行内容(包括换行符\n)
# content = file.readlines()  # 读取所有行,返回列表(每行是一个元素,含\n)

# 3. 关闭文件(必须执行!)
file.close()

# 打印结果
print(content)
方式2:推荐写法(with 上下文管理器)

with 语句会在代码块结束后自动关闭文件,即使出现异常也能保证资源释放,是 Python 官方推荐的最佳实践:

# 格式:with open(路径, 模式, 编码) as 变量名:
with open("test.txt", "r", encoding="utf-8") as file:
    # 方法1:读取全部内容(小文件适用)
    content1 = file.read()
    print("read() 读取全部:", content1)

with open("test.txt", "r", encoding="utf-8") as file:
    # 方法2:逐行读取(大文件适用,节省内存)
    for line in file:  # 文件对象本身是可迭代对象,逐行迭代
        print("逐行读取:", line.strip())  # strip() 去除换行符和空格

with open("test.txt", "r", encoding="utf-8") as file:
    # 方法3:读取所有行到列表(便于后续处理)
    lines = file.readlines()
    print("readlines() 读取:", lines)  # 输出:['第一行\n', '第二行\n', '第三行']
    # 处理列表(去除换行符)
    lines = [line.strip() for line in lines]
    print("处理后:", lines)  # 输出:['第一行', '第二行', '第三行']
三种读方法对比(选对才高效):
方法功能适用场景优点缺点
read()读取全部内容(或指定长度)小文件(几MB内)代码简洁,一次性获取大文件占用内存过多
readline()逐行读取,每次读1行大文件,需逐行处理内存占用少需循环多次,效率一般
for line in file逐行迭代文件对象(推荐)所有文件,尤其大文件内存占用最少,效率最高
readlines()读取所有行到列表需多次访问行数据(如排序)可随机访问行大文件占用内存过多

2. 写文件(从内存写数据到磁盘)

核心函数:open() + 文件对象的写方法(write()/writelines())。

关键注意:
  • 写文件必须用「写模式」(w/a/x/w+/a+);
  • write() 接收字符串,writelines() 接收字符串列表(不会自动加换行符,需手动添加 \n);
  • 写完后需确保数据写入磁盘:可调用 flush() 强制刷新(close() 会自动调用 flush())。
示例1:覆盖写(w 模式)
# with 语句自动关闭文件
with open("output.txt", "w", encoding="utf-8") as file:
    # 方法1:写入单个字符串
    file.write("Hello Python!\n")  # \n 是换行符
    file.write("文件读写很简单~\n")
    
    # 方法2:写入字符串列表(writelines 不自动加换行)
    lines = ["第一行内容", "第二行内容", "第三行内容"]
    file.writelines([line + "\n" for line in lines])  # 手动加\n

运行后 output.txt 内容:

Hello Python!
文件读写很简单~
第一行内容
第二行内容
第三行内容
示例2:追加写(a 模式)

a 模式不会清空原有内容,只在文件末尾添加新数据:

with open("output.txt", "a", encoding="utf-8") as file:
    file.write("这是追加的内容~\n")

运行后 output.txt 末尾会新增一行:这是追加的内容~

示例3:独占写(x 模式)

x 模式确保文件不存在时才创建,避免误覆盖已有文件(文件存在则报错):

try:
    with open("new_file.txt", "x", encoding="utf-8") as file:
        file.write("独占模式创建的文件")
except FileExistsError:
    print("文件已存在,不能重复创建!")

四、路径处理:跨平台兼容(进阶必备)

手动拼接路径容易出现跨平台兼容问题(如 Windows 的 \ 和 macOS 的 /),Python 提供两个模块解决:os.path(传统)和 pathlib(Python3.4+ 推荐,面向对象)。

1. pathlib 模块(推荐)

pathlib 用面向对象的方式处理路径,语法简洁,跨平台自动适配分隔符:

from pathlib import Path

# 1. 创建路径对象
current_dir = Path()  # 当前目录
file_path = Path("data") / "test.txt"  # 拼接路径(用 / 运算符,无需关心系统)
abs_path = file_path.resolve()  # 获取绝对路径

print("相对路径:", file_path)
print("绝对路径:", abs_path)

# 2. 检查路径是否存在
print("文件是否存在:", file_path.exists())
print("是否是文件:", file_path.is_file())
print("是否是目录:", file_path.is_dir())

# 3. 读取文件(pathlib 直接支持读写,更简洁)
if file_path.exists():
    # 读文件
    content = file_path.read_text(encoding="utf-8")  # 等价于 open(..., "r").read()
    print("文件内容:", content)
    
    # 写文件
    file_path.write_text("pathlib 写入的内容~\n", encoding="utf-8")  # 等价于 open(..., "w").write()

# 4. 创建目录(递归创建多级目录)
Path("data/new_dir").mkdir(parents=True, exist_ok=True)  # parents=True 递归创建,exist_ok=True 忽略已存在

2. os.path 模块(传统方式)

os.path 是传统路径处理模块,通过函数拼接路径,语法较繁琐:

import os

# 拼接路径
file_path = os.path.join("data", "test.txt")  # 跨平台拼接(推荐)
abs_path = os.path.abspath(file_path)  # 获取绝对路径

# 检查路径
print(os.path.exists(file_path))  # 是否存在
print(os.path.isfile(file_path))  # 是否是文件

# 读取文件(仍需配合 open())
if os.path.isfile(file_path):
    with open(file_path, "r", encoding="utf-8") as f:
        print(f.read())
总结:
  • 新代码优先用 pathlib:语法简洁、面向对象、跨平台友好;
  • 维护老项目时可能用到 os.path:了解即可。

五、进阶技巧:二进制文件与编码处理

1. 二进制文件读写(图片、视频等)

非文本文件(如 .png.mp4.zip)需用「二进制模式」(加 b),读写字节流(bytes 类型):

# 示例:复制一张图片(读二进制 + 写二进制)
with open("input.png", "rb") as src_file:  # rb:二进制只读
    bytes_data = src_file.read()  # 读取字节流(bytes 类型)

with open("output.png", "wb") as dst_file:  # wb:二进制只写
    dst_file.write(bytes_data)  # 写入字节流

print("图片复制完成!")
关键注意:
  • 二进制模式下,read() 返回 bytes 而非字符串,write() 仅接收 bytes
  • 不能指定 encoding 参数(否则报错)。

2. 编码处理(解决中文乱码)

中文乱码的核心原因:文件的编码格式与读取时指定的编码不一致

常见编码格式:
  • utf-8:全球通用,推荐默认使用(Python 3 源码、大多数文件的默认编码);
  • gbk:Windows 系统默认中文编码(如记事本保存的文件);
  • gb2312:GBK 的子集,仅支持简体中文。
解决乱码的方法:
  1. 明确文件的编码格式(如记事本保存时选择「UTF-8」);
  2. 读取时指定对应的编码:
# 读取 GBK 编码的文件
with open("gbk_file.txt", "r", encoding="gbk") as f:
    content = f.read()

# 写入 GBK 编码的文件
with open("gbk_file.txt", "w", encoding="gbk") as f:
    f.write("中文内容")
处理编码错误:

如果不确定文件编码,可通过 errors 参数忽略或替换错误字符:

# errors="ignore":忽略编码错误(可能丢失部分内容)
# errors="replace":用 � 替换错误字符(推荐)
with open("unknown_encoding.txt", "r", encoding="utf-8", errors="replace") as f:
    content = f.read()

六、高级操作:文件指针与大文件处理

1. 文件指针(控制读写位置)

文件指针是当前读写的位置标记,可通过 tell() 查看位置,seek() 移动位置(单位:字节):

with open("test.txt", "r+", encoding="utf-8") as f:
    print("初始位置:", f.tell())  # 0(文件开头)
    
    f.read(5)  # 读取前5个字符
    print("读取5个字符后位置:", f.tell())  # 5
    
    f.seek(0)  # 移动到文件开头(偏移量0,默认从文件开头计算)
    print("seek(0) 后位置:", f.tell())  # 0
    
    f.seek(3, 1)  # 从当前位置向后移动3字节(模式1:相对当前位置)
    f.seek(-5, 2)  # 从文件末尾向前移动5字节(模式2:相对文件末尾)
seek(offset, whence) 参数说明:
  • offset:偏移量(正数向后移,负数向前移);
  • whence:基准位置(0=文件开头,1=当前位置,2=文件末尾),默认0。

2. 大文件处理(避免内存溢出)

处理超大文件(如几十GB的日志文件)时,不能用 read()readlines()(会加载整个文件到内存),推荐两种方式:

方式1:逐行迭代(文本文件)
# 逐行读取,内存占用仅一行数据
with open("large_log.txt", "r", encoding="utf-8") as f:
    for line in f:
        # 处理每行数据(如统计关键词)
        if "error" in line.lower():
            print("错误日志:", line.strip())
方式2:分块读取(二进制文件/超大文本)
# 分块读取,每次读 1024*1024 字节(1MB)
chunk_size = 1024 * 1024  # 1MB/块
with open("large_file.bin", "rb") as src, open("copy.bin", "wb") as dst:
    while True:
        chunk = src.read(chunk_size)  # 读取一块
        if not chunk:  # 读取到末尾(返回空bytes)
            break
        dst.write(chunk)  # 写入一块

七、实用场景:文件操作常见需求

1. 统计文件行数/字数

# 统计行数
with open("test.txt", "r", encoding="utf-8") as f:
    line_count = len(f.readlines())
print("文件行数:", line_count)

# 统计字数(不含空格和换行)
with open("test.txt", "r", encoding="utf-8") as f:
    content = f.read().replace(" ", "").replace("\n", "")
    char_count = len(content)
print("文件字数:", char_count)

2. 批量修改文件名

from pathlib import Path

# 批量给目录下的 .txt 文件加前缀 "new_"
dir_path = Path("data")
for file in dir_path.glob("*.txt"):  # 匹配所有 .txt 文件
    new_name = "new_" + file.name  # 新文件名
    file.rename(dir_path / new_name)  # 重命名
print("批量重命名完成!")

3. 读取 CSV 文件(简单版)

CSV 是逗号分隔的文本文件,可直接用文件读写处理(复杂场景推荐 csv 模块):

with open("data.csv", "r", encoding="utf-8") as f:
    for line in f:
        # 按逗号分割数据(处理中文时需确保编码正确)
        data = line.strip().split(",")
        print("CSV 行数据:", data)

八、常见坑与避坑指南

  1. 忘记关闭文件:用 with 语句替代手动 open()+close()
  2. 中文乱码:读写时明确指定 encoding="utf-8"(或文件实际编码);
  3. 路径错误:用 pathlib 拼接路径,避免手动写死分隔符;
  4. 覆盖文件:慎用 w 模式,重要文件用 x 模式创建,或先备份;
  5. 大文件内存溢出:用逐行迭代或分块读取,拒绝 read()/readlines()
  6. 二进制模式指定编码:二进制模式(rb/wb)不能加 encoding 参数,否则报错。

九、学习总结与练习

核心知识点回顾:

  1. 文件操作三步曲:打开(open())→ 操作(读/写)→ 关闭(close());
  2. 推荐用法:with 上下文管理器(自动关闭文件);
  3. 路径处理:优先 pathlib,跨平台友好;
  4. 编码:默认 utf-8,中文文件需匹配编码;
  5. 大文件:逐行/分块读取,避免内存溢出。

练习题目(巩固所学):

  1. 读取一个文本文件,统计其中某个关键词出现的次数;
  2. 编写程序,将一个文件夹下的所有 .txt 文件合并为一个文件;
  3. 复制一个视频文件(用二进制模式分块读取,避免内存占用过多);
  4. 批量修改指定目录下的文件后缀(如 .jpg 改为 .png)。

通过以上内容,你已经掌握了 Python 文件读写的全部核心知识,足以应对日常开发中的绝大多数场景。多动手练习不同场景,就能熟练运用!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值