标签归档:大数据

裁判文书与大数据

(本文亦发于“无讼阅读”)

一、背景

大数据的概念早已被炒作了一轮又一轮,大数据看上去可以对任何行业产生助力,对法律行业来说也不例外。长期以来,法律行业都有着较高的门槛,法学教育的成本、司法考试的难度、法律职业开始阶段的清贫以及法律的高度专业化让无数人望而却步。通过对裁判文书的分析,或许可以让法律行业变得相对简单一些,让法律职业更加透明。

裁判文书是法律行业中最为宝贵的司法资源,且具备作为大数据被分析的条件。根据《人民法院工作年度报告(2014)》,截至2014年底,全国各级人民法院共在中国裁判文书网上传裁判文书5,691,450篇,虽然百万级别的数量可能尚不足以作为大数据的门槛,但这个数字会毫无悬念地逐年递增。

image

2014年上网裁判文书案件类型分布情况,来源:《人民法院工作年度报告(2014)》

因为裁判文书都是由文字组成,不涉及图片、视频或其他形式的数据,故数以百万份的裁判文书从存储空间的大小上来讲并不会是一个特别惊人的数字,但肯定会对检索的准确性造成一定的困扰。

image

2014年不同层级法院裁判文书上网总体情况,来源:《人民法院工作年度报告(2014)》

对于裁判文书,仅从案件大的类型及审理法院上进行分析统计只是简单的利用,在裁判文书中蕴藏着更加值得去挖掘的资源。 继续阅读