陈祚松,左黎明,夏萍萍
(1.华东交通大学,江西 南昌 330013;2.江西省经济犯罪侦查与防控技术协同创新中心,江西 南昌 330103;3.华东交通大学,江西 南昌 330013)
首次代币公开销售 (Initial Coin Offering,ICO),是指在区块链领域开发的项目,通过发行新的加密货币来募集资金的行为。[1]作为一个新兴事物,Pilkington M从金融和监管的角度对ICO的前景进行了分析,[2]认为ICO为区块链初创企业融资带来了便利,还为全球金融环境的转型也提供了动力,但如果监管不当的话极易成为一种新型经济犯罪手段。例如,2015年3月19日,徐州市公安局成功破获了公安部督办涉案金额15亿余元的 “暗黑币”传销案件,抓获犯罪嫌疑人7人。[3]2016年3月5日,湖南警方破获“万福币”特大网络传销案,涉案金额近20亿元。[4]2017年9月8日,湖南株洲县人民法院宣判一起涉案金额达16亿余元的特大“维卡币”网络传销案,分别判处35名被告人缓刑至有期徒刑七年不等的刑罚,并处1万元至500万元不等的罚金。[5]这种ICO经济犯罪行为不仅严重影响群众的正常生活秩序和财产安全,还危害到国家安全和政治稳定。对此,2017年9月4日,中国人民银行等七部委联合发布了《关于防范代币发行融资风险公告》,明确ICO为“非法公开融资行为,涉嫌非法发售代币票券、非法发行证券以及非法集资、金融诈骗、传销等违法犯罪活动”,并责令停止各类代币发行融资活动。[6]但是,尹振涛综合了美国、[7]英国和新加坡以及其他六个具有代表性的国家对ICO的监管态度,对于“技术无罪”和“技术中性”的观念被普遍认可,对区块链等新型金融科技技术手段予以支持,并认为ICO是各自提升金融市场竞争力的重点方向。邓建鹏则从风险防范与监管的角度出发,[8]认为监管者应该对ICO众筹平台提出相应的制度要求,对上线代币拟定相应标准,对上线交易的代币市场前景进行一定的审核,避免出现毫无实质内容的代币投机炒作或一些经济犯罪的项目,从而促进整个区块链创业行业的健康发展。因此ICO经济犯罪特征的研究对于ICO项目的管控具有重要的意义,有助于监管部门以积极主动的方式面对ICO监管工作。本文对ICO经济犯罪特征进行了划分,并收集了ICO经济犯罪数据集,采用关联规则挖掘中的Apriori算法对数据集进行特征关联分析,从中提取出关键特征作为ICO经济犯罪评判标准,并通过实证分析对提取的关键特征进行了检验。
1.支持度(Support):指所有事务中,A和B同时出现的次数与总的事务的比例。其计算公式如下所示:
2.置信度(Confidendce):包含 A 的事务中,同时也包含B的事务所占的比例。其计算公式如下所示:
3.强关联规则:同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。其中最小支持度指用来衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性;最小置信度是指用来衡量置信度的一个阈值,表示关联规则的最低可靠性。
1.算法简介
Apriori算法是由AgrawalR等提出的,是一种挖掘关联规则的频繁项集算法,[9]其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,具体算法描述和相关分析推导可以参考文献。[10-12]
2.算法步骤[13]
Apriori算法的具体由以下七步组成:
(1)扫描全部数据,产生候选1-项集的集合C1。
(2)根据最小支持度,由候选1-项集的集合C1产生频繁1-项集的集合L1。
(3)对 k>1,重复执行步骤 4、5、6。
(4)有Lk执行连接和剪枝操作,产生候选(k+1)-项集的集合Ck+1。
(5)根据最小支持度,由候选(k+1)-项集的集合Ck+1,产生频繁(k+1)-项集的集合 Lk+1。
(7)根据最小置信度,由频繁项集产生强关联规则,结束。
ICO经济犯罪特征的有效划分是其实施关联规则分析的前提条件,而特征的真实性和准确性是得到强关联规则的有力保障。因此,本研究中对于ICO经济犯罪的特征划分是从ICO的本质和公安部已经破获的涉及传销或非法集资的经济犯罪的ICO案例出发,进行了详细的分析和总结后划分了11个特征,分别为:非去中心化、非开源、没有白皮书、官网非基于HTTPS协议、过度炒作、成立公司、自建交易平台、存在运行产品、缴纳入会费、有高收益承诺和发展下线奖励。
对于非去中心化、非开源、没有白皮书和官网非基于HTTPS协议的ICO经济犯罪特征是根据可靠ICO项目本质特征分析后划分的。ICO是指在区块链领域开发的项目,通过发行新的加密货币来募集资金的行为,其核心是开发区块链项目,那么其应当具有正规区块链项目中的若干特征。首先,区块链的本质是一个去中心化的数据库,[14]所以去中心化是区块链应用的一个核心思想。其次,一个好的区块链项目都会有完善的白皮书来对项目的各个方面进行细致介绍。再者,一般的区块链项目代码都是开源的,通过 GitHub、SourceForge、Bitbucket和 Google Code 等世界上流行的代码托管网站进行源代码管理。另一方面,为了保证项目参与者的信息安全和项目本身的安全,一般区块链项目官网都是基于可进行加密传输、身份认证的HTTPS网络安全交互协议。所以当ICO项目不具有这4个属性时,其极有可能是一个涉经济犯罪的ICO项目。
ICO经济犯罪特征中的缴纳入会费和发展下线奖励是根据国务院《禁止传销条例》第7条传销行为判定规则进行划分的。缴纳入会费是指组织或者经营者要求发展人员缴纳费用来取得加入的资格;发展下线奖励是指组织或者经营者对于发展人员发展其他人员加入,形成上下线关系,并以下线的销售业绩为依据计算和给付上线报酬。在非法集资类经济犯罪中苏永乐指出不法分子经常通过高收益承诺和编造“天上掉馅饼”故事的方式进行诱骗投资,所以当ICO项目具有高收益承诺时,[15]其很有可能是一个涉经济犯罪的ICO项目。
对于过度炒作、成立公司、自建交易平台和存在运行产品的ICO经济犯罪特征是通过对公安部已经破获的涉及传销的经济犯罪案例进行详细特性分析后划分的。以典型的ICO经济犯罪项目万福币为例[4]其具有过度炒作、成立公司、自建交易平台和存在运行产品等特征。对于过度炒作,刘某顶着美国兆银基金总裁、全球未来城集团总裁、美国加州原副州务卿和两任美国总统的特别顾问等虚假头衔通过网站和公众号方式进行虚假宣传,同时在万福币的各类宣传视频中频频出现“对接比特币”、“在人民大会堂召开全球未来财富领袖峰会”、“一定让所有投资人赚到钱”等虚假吸睛许诺。在成立公司和自建交易平台方面,刘某先后指使他人在国内注册登记了13家无办公场所、无办公人员、无经营项目的“三无公司”,并在获得公司对公账户后,直接在公司平台向会员收取传销资金。在存在运行产品方面,万福币规定交入会费3000人民币,即送一套价值3000元人民币的美国未来城优质保健产品,具有存在运行的产品。
综上分析,最终对ICO经济犯罪的特征划分结果如表1所示。
表1 ICO经济犯罪特征符号说明
1.数据收集
数据挖掘(Data Mining,简称DM)是通过仔细分析大量数据来揭示有意义的关系、趋势和模式的过程。[16]而数据则是实现这些目标的基础,并且理论上数据量越大,挖掘出的结果就越好,但是这会给数据采集带来很大的困难,并在实际中难以操作。[17]因此,为保证ICO经济犯罪特征关联分析的效果和数据的真实性,本文根据2.1节划分好的11个ICO经济犯罪特征和2017年最新曝光的传销组织名单收集了150个ICO项目数据作为关联分析的数据集。[18]
2.数据预处理
由于收集的ICO经济犯罪特征数据集中各特征的数据形式、格式等不同,需要对数据集进行预处理后才能进行关联性分析。为了的到格式统一且符合Apriori算法分析的数据集,分别通过以下方式对数据进行预处理:
(1)数据清洗指通过填补遗漏的数据值、识别或去除异常值等方式来解决数据不一致问题。[19]本研究中,在ICO经济犯罪特征数据集中对于空值属性大于两个的采用删除法直接忽略该条记录,对于个别属性值的遗漏根据实际情况分别采用手工填补和利用缺省值方法来完善。
(2)数据集成就是将来自多个数据源(如文件、数据库等)数据合并到一起,从而达到数据存储的统一。[19]本研究中,收集的数据总共通过两种方式存储:一是Excel文件保存数据,二是使用数据库存储爬虫软件采集的网页数据。为了数据的后续的统一处理,最终选择将Excel存储的数据统一导入到数据库表中,提供唯一的数据集存储方式。
(3)数据转换是对数据进行规格化操作。[19]本研究中,采用语义转换的方法将ICO经济犯罪特征中值为“是”的用“1”代替,值为“否”的用“0”代替;采用连续数据离散化的方式将对于ICO项目在国内外平台上线交易平台数进行了分段,才用以中值为标准,对于大于等于中值的归为积极在国内外交易平台上线交易,而对于小于中值的归为非积极在国内外交易平台上线交易。
通过以上三种方式进行数据预处理后,可以得到如表2所示的标准数据集,并将该数据集用于ICO经济犯罪的特征关联分析。
表2 ICO经济犯罪特征部分数据
1.Apriori算法应用
以2.2.2节数据预处理后得到的标准数据集为输入,并设置最小支持度为0.25,最小置信度为0.75,然后用使用MathlabR2010b中的Apriori关联分析算法进行分析,其部分核心代码如下:
2.结果分析
通过Apriori算法对ICO经济犯罪特征数据集进行关联规则分析后总共生成了1708条强关联规则,其部分关联规则结果如表1~3所示。
(1)从表3的单因子强关联规则可知,官网非基于HTTPS协议与发展下线奖励、非开源与没有白皮书、高收益许诺与过度炒作、缴纳入会费与高收益许诺、高收益许诺与缴纳入会费、都存在强关联规则等都存在强关联规则。
表3 单因子强关联部分结果
(2)从表4的双强关联规则可知,当ICO项目具有发展下线奖励、缴纳入会费和有高收益承诺等法律上认定传销犯罪的特征时其同时拥有过度炒作、没有白皮书、非开源、官网非基于HTTPS协议等特征的关联性较大。
表4 双因子强关联规则部分结果
(3)从表5的多因子强关联规则可知,没有白皮书、非开源、官网非基于HTTPS协议、过度炒作、发展下线奖励、缴纳入会费、有高收益承诺之间均存在强关联规则。
表5 多因子强关联规则部分结果
综合以上关联结果分析,可知当ICO项目具有非开源、没有白皮书、官网非基于HTTPS协议、过度炒作、发展下线奖励、缴纳入会费和有高收益承诺特征时,其为经济犯罪项目的可能性非常大。
3.实证分析
如图1、图2所示,根据Apriori关联分析算法提取出的七个经济犯罪特征为标准,对30个已经国家定性为经济犯罪的ICO项目进行的属性诊断。从图中可知,完全符合该特征的ICO项目占66.7%,符合其中6个特征的ICO项目占90%,符合其中5个特征的ICO项目占100%。并且符合任意一个类罪特征的ICO项目占83.33%。从该结果可知,通过Apriori关联分析算法提取出的ICO经济类罪特征具有较好的判断效果。
图1 特征诊断结果
图2 实证分析结果
本文从ICO本质和公安部已经破获的涉及传销或非法集资的ICO经济犯罪案例出发,通过细致的分析与总结后划分了11个ICO经济犯罪特征。然后以这11个特征为标准收集了120个国家已经定性为非法传销的ICO项目数据,通过数据预处理后到了可用于数据挖掘的标准数据集,并使用APriori关联分析算法对该数据集进行了关联分析,从中提取了7个ICO经济犯罪特征,以这7个特征为标准对30个ICO经济犯罪项目进行了实证分析,结果表明提取出的7个特征在ICO项目是否为经济犯罪的评判中具有很好的参考价值。