2025年山东大学软件学院创新项目实训博客(一)

软件简介:

法律文书专家系统是一个 Web 应用,提供法律文书摘要提取、法律预测报告生成和法律考试问题答疑三大核心功能。用户需要登录或注册后,进入主页面选择所需功能,进行相应的操作。

软件用户群体:

律师:需要快速提取法律文书摘要,提高办案效率。

法务人员:需要根据案件输入生成法律预测报告,辅助决策。

法学生:需要练习法律考试题,获取答案与解析。

用户真实功能:

  • 法律文书摘要:

  1. 对话框输入,实时显示摘要。
  2. 批量文件上传,TXT形式导出摘要
  • 法律预测报告生成:

  1. 用户输入案件信息,生成预测报告
  2. 预测报告以PDF的形式导出。
  • 法律考试问题答疑:

  1. 用户输入问题,生成答案。
  2. 生成答案解析。
  • 用户管理:

     用户登录/注册。

软件流程图:

模型训练集数据:

  • 法律文书摘要生成

功能介绍:系统支持用户上传的多篇法律文书生成对应的文书摘要并下载。
数据来源:训练数据来自于CAIL2020中国法律智能技术评测数据集(简称cail)以及caselaw dataset(简称caselaw)

Cail数据集:
训练集、验证集、测试集来自于司法大数据院提供的法院裁判文书,约10000裁判文书以及对应的司法摘要。

数据集格式为:

训练数据集:

  1. id:样本唯一标识符。
  2. summary:样本的摘要内容。
  3. text:裁判文书裁切出来的句子包含sentence(句子)字段,label(句子重要度)字段。
  4. 测试数据集不包含summary和text中的label字段。

数据集大小88.3MB

数据集地址:工作台 - Heywhale.com

Caselaw数据集:
此数据集包括伊利诺伊州 (I.L.) 以文本和 XML 格式发布的所有美国判例法。

数据集格式为:

  1. id: 案件的唯一标识符(例如:2747110)。
  2. name: 案件的全称
  3. casebody: 判决正文部分,包含以下子字段:
  1. status: 数据状态(例如:ok)。
  2. data: 判决正文的详细内容,包含以下子字段:
  3. opinions: 法院意见,包含以下子字段:
  4. type: 意见类型(例如:majority,表示多数意见)。
  5. text: 意见正文(即法院的详细分析和裁决)。
  6. head_matter: 案件的基本信息摘要。

数据集大小2.38GB

数据集地址:Caselaw Dataset (Illinois) | Kaggle

  • 法律预测报告

功能介绍:用户可上传法律文书,系统将基于大模型智能分析案件内容,生成专业的法律预测报告。报告涵盖罪名预测、相关法条推荐及刑期预测,为法律从业者提供智能化、数据驱动的案件评估支持。

数据来源:本项目使用CAIL2018数据集,数据集是来自“中国裁判文书网”公开的刑事法律文书,数据集共包括268万刑法法律文书,共涉及202条罪名,183条法条,刑期长短包括0-25年、无期、死刑。CAIL2018-Small包括19.6份文书样例,直接在该网站发布,包括15训练集,1.6验证集和3测试集。CAIL2018-Large数据集,包括150文书样例。剩余90份文书将作为第一阶段的测试数据CAIL2018-Large-test。

数据集格式为:

  • fact: 事实描述
  • meta: 标注信息,标注信息中包括:
    • criminals: 被告(数据中均只含一个被告)
    • punish_of_money: 罚款(单位:元)
    • accusation: 罪名
    • relevant_articles: 相关法条
    • term_of_imprisonment: 刑期
      刑期格式(单位:月)
      • death_penalty: 是否死刑
      • life_imprisonment: 是否无期
      • imprisonment: 有期徒刑刑期

数据集大小303MB

数据集地址:https://github.com/china-ai-law-challenge/CAIL2018?tab=readme-ov-file

  • 法律问题答疑

功能介绍:通过上传法律考试相关的习题,大预言模型根据问题给出正确答案并对答案做出解释。

数据来源:本项目使用JEC-QA数据集以及CJRC中国司法阅读理解数据集。JEC-QA 是从中国国家司法考试收集的 LQA(法律问答)数据集,它总共包含 26,365 道选择题和多选题。该数据集的任务是使用问题和相关文章预测答案;中国司法阅读理解 (CJRC 数据集包含大约 10K 文档和近 50K 个带答案的问题。这些文件来自判决文件,问题由法律专家注释。

前者给出的主要数据结构是answer(本题答案)、option_list(本题选项)、statement(题干描述)

数据集地址: https://github.com/china-ai-law-challenge/CAIL2018

后者给出的主要数据结构式context(案例内容)、question(针对案例提出的问题)、supporting_facts(回答问题的依据)再利用DeepSeek的自然语言处理能力解析这些信息,生成较为合理的试题分析。

数据集地址:https://github.com/china-ai-law-challenge/CAIL2019

数据集总大小为:130MB

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值