Python 文件读写完全指南(从基础到进阶)
文件读写是 Python 最核心的基础功能之一,用于实现数据持久化(将内存中的数据保存到磁盘,或从磁盘读取数据到内存)。本文将系统梳理文件读写的核心逻辑、基础用法、进阶技巧和常见坑,适合零基础学习者循序渐进掌握。
一、核心逻辑:文件操作的“三步曲”
所有文件操作都遵循固定流程,缺一不可(除非用上下文管理器自动处理):
- 打开文件:用
open()函数建立内存与磁盘文件的连接,返回一个「文件对象」(也称文件句柄); - 操作文件:通过文件对象的方法执行读(读取文件内容)或写(写入数据到文件);
- 关闭文件:用
close()方法断开连接,释放系统资源(必须执行,否则可能导致数据丢失或资源泄露)。
类比:打开文件 = 打开笔记本,操作文件 = 写字/读字,关闭文件 = 合上笔记本。
二、基础准备:文件路径与打开模式
在操作文件前,必须明确两个关键信息:文件路径(找到文件)和打开模式(指定操作类型)。
1. 文件路径(找到目标文件)
文件路径是文件在磁盘上的位置,分为两种:
| 类型 | 定义 | 示例(Windows/macOS/Linux) |
|---|---|---|
| 绝对路径 | 从磁盘根目录开始的完整路径 | Windows:C:\Users\XXX\test.txt;macOS:/Users/XXX/test.txt |
| 相对路径 | 相对于当前代码文件所在目录的路径 | 同目录:test.txt;上一级目录:../test.txt;子目录:data/test.txt |
路径分隔符注意事项:
- Windows 用反斜杠
\,macOS/Linux 用正斜杠/; - Python 中推荐用正斜杠
/(跨平台兼容),或用原始字符串(前缀r)避免反斜杠转义(如r"C:\Users\XXX\test.txt")。
2. 打开模式(指定操作类型)
open() 函数的第二个参数 mode 决定文件的操作权限,核心模式如下(最常用标红):
| 模式 | 核心含义 | 是否创建新文件 | 是否覆盖原有内容 | 文件指针位置 |
|---|---|---|---|---|
r | 只读(默认模式) | 否(文件不存在报错) | - | 文件开头 |
w | 只写(文本模式) | 是(文件不存在则创建) | 是(清空原有内容) | 文件开头 |
a | 追加写(文本模式) | 是(文件不存在则创建) | 否(在文件末尾追加) | 文件末尾 |
x | 独占写(文本模式) | 是(文件不存在则创建) | 否(文件存在报错) | 文件开头 |
r+ | 读写(文本模式) | 否(文件不存在报错) | 否(覆盖光标后内容) | 文件开头 |
w+ | 读写(文本模式) | 是(文件不存在则创建) | 是(清空原有内容) | 文件开头 |
a+ | 读写(文本模式) | 是(文件不存在则创建) | 否(只能追加写) | 文件末尾 |
rb | 只读(二进制模式) | 否(文件不存在报错) | - | 文件开头 |
wb | 只写(二进制模式) | 是(文件不存在则创建) | 是(清空原有内容) | 文件开头 |
关键说明:
- 文本模式(默认,不加
b):读写字符串,自动处理换行符(\n适配不同系统),需指定编码(如utf-8); - 二进制模式(加
b):读写字节流(bytes类型),用于处理图片、视频、压缩包等非文本文件,不能指定编码; - 慎用
w模式:会直接清空原有文件内容,误操作可能导致数据丢失!
三、基础操作:文本文件读写(核心重点)
文本文件是最常用的文件类型(如 .txt、.csv、.py 等),下面分「读文件」和「写文件」详细讲解,推荐优先使用上下文管理器 with 语句(自动关闭文件,避免遗忘 close())。
1. 读文件(从磁盘读数据到内存)
核心函数:open() + 文件对象的读方法(read()/readline()/readlines())。
方式1:基础写法(需手动关闭文件)
# 1. 打开文件(绝对路径/相对路径,只读模式,指定编码)
file = open("test.txt", mode="r", encoding="utf-8") # encoding 必指定,避免中文乱码
# 2. 读取文件内容
content = file.read() # 读取全部内容,返回字符串
# content = file.read(10) # 读取前10个字符
# content = file.readline() # 读取一行内容(包括换行符\n)
# content = file.readlines() # 读取所有行,返回列表(每行是一个元素,含\n)
# 3. 关闭文件(必须执行!)
file.close()
# 打印结果
print(content)
方式2:推荐写法(with 上下文管理器)
with 语句会在代码块结束后自动关闭文件,即使出现异常也能保证资源释放,是 Python 官方推荐的最佳实践:
# 格式:with open(路径, 模式, 编码) as 变量名:
with open("test.txt", "r", encoding="utf-8") as file:
# 方法1:读取全部内容(小文件适用)
content1 = file.read()
print("read() 读取全部:", content1)
with open("test.txt", "r", encoding="utf-8") as file:
# 方法2:逐行读取(大文件适用,节省内存)
for line in file: # 文件对象本身是可迭代对象,逐行迭代
print("逐行读取:", line.strip()) # strip() 去除换行符和空格
with open("test.txt", "r", encoding="utf-8") as file:
# 方法3:读取所有行到列表(便于后续处理)
lines = file.readlines()
print("readlines() 读取:", lines) # 输出:['第一行\n', '第二行\n', '第三行']
# 处理列表(去除换行符)
lines = [line.strip() for line in lines]
print("处理后:", lines) # 输出:['第一行', '第二行', '第三行']
三种读方法对比(选对才高效):
| 方法 | 功能 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|---|
read() | 读取全部内容(或指定长度) | 小文件(几MB内) | 代码简洁,一次性获取 | 大文件占用内存过多 |
readline() | 逐行读取,每次读1行 | 大文件,需逐行处理 | 内存占用少 | 需循环多次,效率一般 |
for line in file | 逐行迭代文件对象(推荐) | 所有文件,尤其大文件 | 内存占用最少,效率最高 | 无 |
readlines() | 读取所有行到列表 | 需多次访问行数据(如排序) | 可随机访问行 | 大文件占用内存过多 |
2. 写文件(从内存写数据到磁盘)
核心函数:open() + 文件对象的写方法(write()/writelines())。
关键注意:
- 写文件必须用「写模式」(
w/a/x/w+/a+); write()接收字符串,writelines()接收字符串列表(不会自动加换行符,需手动添加\n);- 写完后需确保数据写入磁盘:可调用
flush()强制刷新(close()会自动调用flush())。
示例1:覆盖写(w 模式)
# with 语句自动关闭文件
with open("output.txt", "w", encoding="utf-8") as file:
# 方法1:写入单个字符串
file.write("Hello Python!\n") # \n 是换行符
file.write("文件读写很简单~\n")
# 方法2:写入字符串列表(writelines 不自动加换行)
lines = ["第一行内容", "第二行内容", "第三行内容"]
file.writelines([line + "\n" for line in lines]) # 手动加\n
运行后 output.txt 内容:
Hello Python!
文件读写很简单~
第一行内容
第二行内容
第三行内容
示例2:追加写(a 模式)
a 模式不会清空原有内容,只在文件末尾添加新数据:
with open("output.txt", "a", encoding="utf-8") as file:
file.write("这是追加的内容~\n")
运行后 output.txt 末尾会新增一行:这是追加的内容~
示例3:独占写(x 模式)
x 模式确保文件不存在时才创建,避免误覆盖已有文件(文件存在则报错):
try:
with open("new_file.txt", "x", encoding="utf-8") as file:
file.write("独占模式创建的文件")
except FileExistsError:
print("文件已存在,不能重复创建!")
四、路径处理:跨平台兼容(进阶必备)
手动拼接路径容易出现跨平台兼容问题(如 Windows 的 \ 和 macOS 的 /),Python 提供两个模块解决:os.path(传统)和 pathlib(Python3.4+ 推荐,面向对象)。
1. pathlib 模块(推荐)
pathlib 用面向对象的方式处理路径,语法简洁,跨平台自动适配分隔符:
from pathlib import Path
# 1. 创建路径对象
current_dir = Path() # 当前目录
file_path = Path("data") / "test.txt" # 拼接路径(用 / 运算符,无需关心系统)
abs_path = file_path.resolve() # 获取绝对路径
print("相对路径:", file_path)
print("绝对路径:", abs_path)
# 2. 检查路径是否存在
print("文件是否存在:", file_path.exists())
print("是否是文件:", file_path.is_file())
print("是否是目录:", file_path.is_dir())
# 3. 读取文件(pathlib 直接支持读写,更简洁)
if file_path.exists():
# 读文件
content = file_path.read_text(encoding="utf-8") # 等价于 open(..., "r").read()
print("文件内容:", content)
# 写文件
file_path.write_text("pathlib 写入的内容~\n", encoding="utf-8") # 等价于 open(..., "w").write()
# 4. 创建目录(递归创建多级目录)
Path("data/new_dir").mkdir(parents=True, exist_ok=True) # parents=True 递归创建,exist_ok=True 忽略已存在
2. os.path 模块(传统方式)
os.path 是传统路径处理模块,通过函数拼接路径,语法较繁琐:
import os
# 拼接路径
file_path = os.path.join("data", "test.txt") # 跨平台拼接(推荐)
abs_path = os.path.abspath(file_path) # 获取绝对路径
# 检查路径
print(os.path.exists(file_path)) # 是否存在
print(os.path.isfile(file_path)) # 是否是文件
# 读取文件(仍需配合 open())
if os.path.isfile(file_path):
with open(file_path, "r", encoding="utf-8") as f:
print(f.read())
总结:
- 新代码优先用
pathlib:语法简洁、面向对象、跨平台友好; - 维护老项目时可能用到
os.path:了解即可。
五、进阶技巧:二进制文件与编码处理
1. 二进制文件读写(图片、视频等)
非文本文件(如 .png、.mp4、.zip)需用「二进制模式」(加 b),读写字节流(bytes 类型):
# 示例:复制一张图片(读二进制 + 写二进制)
with open("input.png", "rb") as src_file: # rb:二进制只读
bytes_data = src_file.read() # 读取字节流(bytes 类型)
with open("output.png", "wb") as dst_file: # wb:二进制只写
dst_file.write(bytes_data) # 写入字节流
print("图片复制完成!")
关键注意:
- 二进制模式下,
read()返回bytes而非字符串,write()仅接收bytes; - 不能指定
encoding参数(否则报错)。
2. 编码处理(解决中文乱码)
中文乱码的核心原因:文件的编码格式与读取时指定的编码不一致。
常见编码格式:
utf-8:全球通用,推荐默认使用(Python 3 源码、大多数文件的默认编码);gbk:Windows 系统默认中文编码(如记事本保存的文件);gb2312:GBK 的子集,仅支持简体中文。
解决乱码的方法:
- 明确文件的编码格式(如记事本保存时选择「UTF-8」);
- 读取时指定对应的编码:
# 读取 GBK 编码的文件
with open("gbk_file.txt", "r", encoding="gbk") as f:
content = f.read()
# 写入 GBK 编码的文件
with open("gbk_file.txt", "w", encoding="gbk") as f:
f.write("中文内容")
处理编码错误:
如果不确定文件编码,可通过 errors 参数忽略或替换错误字符:
# errors="ignore":忽略编码错误(可能丢失部分内容)
# errors="replace":用 � 替换错误字符(推荐)
with open("unknown_encoding.txt", "r", encoding="utf-8", errors="replace") as f:
content = f.read()
六、高级操作:文件指针与大文件处理
1. 文件指针(控制读写位置)
文件指针是当前读写的位置标记,可通过 tell() 查看位置,seek() 移动位置(单位:字节):
with open("test.txt", "r+", encoding="utf-8") as f:
print("初始位置:", f.tell()) # 0(文件开头)
f.read(5) # 读取前5个字符
print("读取5个字符后位置:", f.tell()) # 5
f.seek(0) # 移动到文件开头(偏移量0,默认从文件开头计算)
print("seek(0) 后位置:", f.tell()) # 0
f.seek(3, 1) # 从当前位置向后移动3字节(模式1:相对当前位置)
f.seek(-5, 2) # 从文件末尾向前移动5字节(模式2:相对文件末尾)
seek(offset, whence) 参数说明:
offset:偏移量(正数向后移,负数向前移);whence:基准位置(0=文件开头,1=当前位置,2=文件末尾),默认0。
2. 大文件处理(避免内存溢出)
处理超大文件(如几十GB的日志文件)时,不能用 read() 或 readlines()(会加载整个文件到内存),推荐两种方式:
方式1:逐行迭代(文本文件)
# 逐行读取,内存占用仅一行数据
with open("large_log.txt", "r", encoding="utf-8") as f:
for line in f:
# 处理每行数据(如统计关键词)
if "error" in line.lower():
print("错误日志:", line.strip())
方式2:分块读取(二进制文件/超大文本)
# 分块读取,每次读 1024*1024 字节(1MB)
chunk_size = 1024 * 1024 # 1MB/块
with open("large_file.bin", "rb") as src, open("copy.bin", "wb") as dst:
while True:
chunk = src.read(chunk_size) # 读取一块
if not chunk: # 读取到末尾(返回空bytes)
break
dst.write(chunk) # 写入一块
七、实用场景:文件操作常见需求
1. 统计文件行数/字数
# 统计行数
with open("test.txt", "r", encoding="utf-8") as f:
line_count = len(f.readlines())
print("文件行数:", line_count)
# 统计字数(不含空格和换行)
with open("test.txt", "r", encoding="utf-8") as f:
content = f.read().replace(" ", "").replace("\n", "")
char_count = len(content)
print("文件字数:", char_count)
2. 批量修改文件名
from pathlib import Path
# 批量给目录下的 .txt 文件加前缀 "new_"
dir_path = Path("data")
for file in dir_path.glob("*.txt"): # 匹配所有 .txt 文件
new_name = "new_" + file.name # 新文件名
file.rename(dir_path / new_name) # 重命名
print("批量重命名完成!")
3. 读取 CSV 文件(简单版)
CSV 是逗号分隔的文本文件,可直接用文件读写处理(复杂场景推荐 csv 模块):
with open("data.csv", "r", encoding="utf-8") as f:
for line in f:
# 按逗号分割数据(处理中文时需确保编码正确)
data = line.strip().split(",")
print("CSV 行数据:", data)
八、常见坑与避坑指南
- 忘记关闭文件:用
with语句替代手动open()+close(); - 中文乱码:读写时明确指定
encoding="utf-8"(或文件实际编码); - 路径错误:用
pathlib拼接路径,避免手动写死分隔符; - 覆盖文件:慎用
w模式,重要文件用x模式创建,或先备份; - 大文件内存溢出:用逐行迭代或分块读取,拒绝
read()/readlines(); - 二进制模式指定编码:二进制模式(
rb/wb)不能加encoding参数,否则报错。
九、学习总结与练习
核心知识点回顾:
- 文件操作三步曲:打开(
open())→ 操作(读/写)→ 关闭(close()); - 推荐用法:
with上下文管理器(自动关闭文件); - 路径处理:优先
pathlib,跨平台友好; - 编码:默认
utf-8,中文文件需匹配编码; - 大文件:逐行/分块读取,避免内存溢出。
练习题目(巩固所学):
- 读取一个文本文件,统计其中某个关键词出现的次数;
- 编写程序,将一个文件夹下的所有
.txt文件合并为一个文件; - 复制一个视频文件(用二进制模式分块读取,避免内存占用过多);
- 批量修改指定目录下的文件后缀(如
.jpg改为.png)。
通过以上内容,你已经掌握了 Python 文件读写的全部核心知识,足以应对日常开发中的绝大多数场景。多动手练习不同场景,就能熟练运用!
4037

被折叠的 条评论
为什么被折叠?



