软件简介:
法律文书专家系统是一个 Web 应用,提供法律文书摘要提取、法律预测报告生成和法律考试问题答疑三大核心功能。用户需要登录或注册后,进入主页面选择所需功能,进行相应的操作。
软件用户群体:
律师:需要快速提取法律文书摘要,提高办案效率。
法务人员:需要根据案件输入生成法律预测报告,辅助决策。
法学生:需要练习法律考试题,获取答案与解析。
用户真实功能:
-
法律文书摘要:
- 对话框输入,实时显示摘要。
- 批量文件上传,TXT形式导出摘要
-
法律预测报告生成:
- 用户输入案件信息,生成预测报告
- 预测报告以PDF的形式导出。
-
法律考试问题答疑:
- 用户输入问题,生成答案。
- 生成答案解析。
-
用户管理:
用户登录/注册。
软件流程图:

模型训练集数据:
-
法律文书摘要生成
功能介绍:系统支持用户上传的多篇法律文书生成对应的文书摘要并下载。
数据来源:训练数据来自于CAIL2020中国法律智能技术评测数据集(简称cail)以及caselaw dataset(简称caselaw)。
Cail数据集:
训练集、验证集、测试集来自于司法大数据院提供的法院裁判文书,约10000篇裁判文书以及对应的司法摘要。
数据集格式为:
训练数据集:
- id:样本唯一标识符。
- summary:样本的摘要内容。
- text:裁判文书裁切出来的句子包含sentence(句子)字段,label(句子重要度)字段。
- 测试数据集不包含summary和text中的label字段。
数据集大小88.3MB
数据集地址:工作台 - Heywhale.com
Caselaw数据集:
此数据集包括伊利诺伊州 (I.L.) 以文本和 XML 格式发布的所有美国判例法。
数据集格式为:
- id: 案件的唯一标识符(例如:2747110)。
- name: 案件的全称
- casebody: 判决正文部分,包含以下子字段:
- status: 数据状态(例如:ok)。
- data: 判决正文的详细内容,包含以下子字段:
- opinions: 法院意见,包含以下子字段:
- type: 意见类型(例如:majority,表示多数意见)。
- text: 意见正文(即法院的详细分析和裁决)。
- head_matter: 案件的基本信息摘要。
数据集大小2.38GB
数据集地址:Caselaw Dataset (Illinois) | Kaggle
- 法律预测报告
功能介绍:用户可上传法律文书,系统将基于大模型智能分析案件内容,生成专业的法律预测报告。报告涵盖罪名预测、相关法条推荐及刑期预测,为法律从业者提供智能化、数据驱动的案件评估支持。
数据来源:本项目使用CAIL2018数据集,数据集是来自“中国裁判文书网”公开的刑事法律文书,数据集共包括268万刑法法律文书,共涉及202条罪名,183条法条,刑期长短包括0-25年、无期、死刑。CAIL2018-Small包括19.6万份文书样例,直接在该网站发布,包括15万训练集,1.6万验证集和3万测试集。CAIL2018-Large数据集,包括150万文书样例。剩余90万份文书将作为第一阶段的测试数据CAIL2018-Large-test。
数据集格式为:
- fact: 事实描述
- meta: 标注信息,标注信息中包括:
- criminals: 被告(数据中均只含一个被告)
- punish_of_money: 罚款(单位:元)
- accusation: 罪名
- relevant_articles: 相关法条
- term_of_imprisonment: 刑期
刑期格式(单位:月)- death_penalty: 是否死刑
- life_imprisonment: 是否无期
- imprisonment: 有期徒刑刑期
数据集大小303MB
数据集地址:https://github.com/china-ai-law-challenge/CAIL2018?tab=readme-ov-file
- 法律问题答疑
功能介绍:通过上传法律考试相关的习题,大预言模型根据问题给出正确答案并对答案做出解释。
数据来源:本项目使用JEC-QA数据集以及CJRC中国司法阅读理解数据集。JEC-QA 是从中国国家司法考试收集的 LQA(法律问答)数据集,它总共包含 26,365 道选择题和多选题。该数据集的任务是使用问题和相关文章预测答案;中国司法阅读理解 (CJRC) 数据集包含大约 10K 文档和近 50K 个带答案的问题。这些文件来自判决文件,问题由法律专家注释。
前者给出的主要数据结构是answer(本题答案)、option_list(本题选项)、statement(题干描述)
数据集地址: https://github.com/china-ai-law-challenge/CAIL2018
后者给出的主要数据结构式context(案例内容)、question(针对案例提出的问题)、supporting_facts(回答问题的依据)再利用DeepSeek的自然语言处理能力解析这些信息,生成较为合理的试题分析。
数据集地址:https://github.com/china-ai-law-challenge/CAIL2019
数据集总大小为:130MB
2137

被折叠的 条评论
为什么被折叠?



