2025年山东大学软件学院创新项目实训博客(一)

最新推荐文章于 2025-06-01 17:08:26 发布

原创最新推荐文章于 2025-06-01 17:08:26 发布 · 1.5k 阅读

42 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#团队开发

软件简介：

法律文书专家系统是一个 Web 应用，提供法律文书摘要提取、法律预测报告生成和法律考试问题答疑三大核心功能。用户需要登录或注册后，进入主页面选择所需功能，进行相应的操作。

软件用户群体：

律师：需要快速提取法律文书摘要，提高办案效率。

法务人员：需要根据案件输入生成法律预测报告，辅助决策。

法学生：需要练习法律考试题，获取答案与解析。

用户真实功能：

法律文书摘要：

对话框输入，实时显示摘要。
批量文件上传，TXT形式导出摘要

法律预测报告生成：

用户输入案件信息，生成预测报告
预测报告以PDF的形式导出。

法律考试问题答疑：

用户输入问题，生成答案。
生成答案解析。

用户管理：

用户登录/注册。

软件流程图：

模型训练集数据：

法律文书摘要生成

功能介绍：系统支持用户上传的多篇法律文书生成对应的文书摘要并下载。
数据来源：训练数据来自于CAIL2020中国法律智能技术评测数据集(简称cail)以及caselaw dataset(简称caselaw)。

Cail数据集：
训练集、验证集、测试集来自于司法大数据院提供的法院裁判文书，约10000篇裁判文书以及对应的司法摘要。

数据集格式为：

训练数据集：

id：样本唯一标识符。
summary：样本的摘要内容。
text：裁判文书裁切出来的句子包含sentence（句子）字段，label（句子重要度）字段。
测试数据集不包含summary和text中的label字段。

数据集大小88.3MB

数据集地址：工作台 - Heywhale.com

Caselaw数据集：
此数据集包括伊利诺伊州（I.L.）以文本和 XML 格式发布的所有美国判例法。

数据集格式为：

id: 案件的唯一标识符（例如：2747110）。
name: 案件的全称
casebody: 判决正文部分，包含以下子字段：

status: 数据状态（例如：ok）。
data: 判决正文的详细内容，包含以下子字段：
opinions: 法院意见，包含以下子字段：
type: 意见类型（例如：majority，表示多数意见）。
text: 意见正文（即法院的详细分析和裁决）。
head_matter: 案件的基本信息摘要。

数据集大小2.38GB

数据集地址：Caselaw Dataset (Illinois) | Kaggle

法律预测报告

功能介绍：用户可上传法律文书，系统将基于大模型智能分析案件内容，生成专业的法律预测报告。报告涵盖罪名预测、相关法条推荐及刑期预测，为法律从业者提供智能化、数据驱动的案件评估支持。

数据来源：本项目使用CAIL2018数据集，数据集是来自“中国裁判文书网”公开的刑事法律文书，数据集共包括268万刑法法律文书，共涉及202条罪名，183条法条，刑期长短包括0-25年、无期、死刑。CAIL2018-Small包括19.6万份文书样例，直接在该网站发布，包括15万训练集，1.6万验证集和3万测试集。CAIL2018-Large数据集，包括150万文书样例。剩余90万份文书将作为第一阶段的测试数据CAIL2018-Large-test。

数据集格式为：

fact: 事实描述
meta: 标注信息，标注信息中包括:
- criminals: 被告(数据中均只含一个被告)
- punish_of_money: 罚款(单位：元)
- accusation: 罪名
- relevant_articles: 相关法条
- term_of_imprisonment: 刑期
  刑期格式(单位：月)
  - death_penalty: 是否死刑
  - life_imprisonment: 是否无期
  - imprisonment: 有期徒刑刑期

数据集大小303MB

数据集地址：https://github.com/china-ai-law-challenge/CAIL2018?tab=readme-ov-file

法律问题答疑

功能介绍：通过上传法律考试相关的习题，大预言模型根据问题给出正确答案并对答案做出解释。

数据来源：本项目使用JEC-QA数据集以及CJRC中国司法阅读理解数据集。JEC-QA 是从中国国家司法考试收集的 LQA（法律问答）数据集，它总共包含 26,365 道选择题和多选题。该数据集的任务是使用问题和相关文章预测答案；中国司法阅读理解 （CJRC）数据集包含大约 10K 文档和近 50K 个带答案的问题。这些文件来自判决文件，问题由法律专家注释。

前者给出的主要数据结构是answer（本题答案）、option_list(本题选项)、statement(题干描述)

数据集地址： https://github.com/china-ai-law-challenge/CAIL2018

后者给出的主要数据结构式context(案例内容)、question(针对案例提出的问题)、supporting_facts(回答问题的依据)再利用DeepSeek的自然语言处理能力解析这些信息，生成较为合理的试题分析。

数据集地址：https://github.com/china-ai-law-challenge/CAIL2019

数据集总大小为：130MB