杨健 云南省中小企业服务中心
当前,将大数据用于经济监测和预测已引起了广泛的关注,并且由于其在研究中的及时性,准确性,相对较低的成本,较高的粒度和较大的样本量等优点,其应用已变得越来越广泛。大。传统的监测主要依赖于统计报告数据,这些问题包括延迟发布,采样准确性不足以及许多新兴行业,它们不属于统计范围,这直接或间接影响宏观决策的及时性和科学性[1]。大数据概念和技术的科学应用,Internet 数据资源的挖掘和使用,丰富的统计数据源以及更准确地监视和预测经济运行,对于提高宏观经济控制中的科学决策水平非常重要。
Web 爬网技术,也称为Web 机器人或WebSpider,这是一种可以依照相应的规则进行信息的收集的相关程序或者相符的脚步。如果您将Internet 比作蜘蛛网,则网络爬虫是一种蜘蛛,它可以浏览Internet,对于Internet 上一些网页或者相关的链接依照既定的目标进行有选择的访问,同时对于Web 内容也可以实现定时的读取,并将读取过程中的相关内容进行储存。经济运行数据的收集和开发是经济运行监控和分析的核心。在如今时代不断发展的背景之下,对于大数据的应用越来越广泛,因此,在经济运行监测分析工作的过程中,不但要充分的了解相关部门的数据统计情况,还要在互联网的公共数据中不断的获得,与经济运行相关的更多 信息,例如:批量产品价格信息。上市公司的土地市场供应信息,整体的运行模式的相关情况中体现的数据,以及清楚了解相关的财务报表数据情况。
但是,大多数此类信息以网页形式存在,因此很难直接下载和下载。在遵守适用法律的前提下,网络上的大量信息也可以通过网络爬虫进行收集,以形成可用于分析和扩展经济运营信息的数据集。集合的宽度和深度。
文本挖掘(TM)是指从大型文本数据库中提取隐藏信息,先前未知或潜在有用的信息和知识,在线民意分析,产品评估分析,微博热点分析,主题前沿分析的过程。以及相关政策文本分析。在相关部委的尽职调查过程中,大量的文本数据反映了公司的生产和经营情况,并反映了公司的相关政策要求和建议,这些数据以公司为主要用户或服务的目的在相关部委的工作系统中积累了下来。与数字数据相比,文本数据是企业响应的主要形式,它包含更多信息,但是由于数据量大,记录粗糙且处理信息的能力不足,因此挖掘了文本数据系统。相对短缺限制了对公司反馈信息的深入审查和使用。就经济运行监控和分析而言,引入了文本挖掘技术,例如基于LDA 主题模型的文本主题提取和基于朴素贝叶斯算法的文本情感分析,以识别迹象,趋势,潜在问题和企业吸引力。通过研究和判断分析,定期发现和分析政府部门的公司监控系统,调查系统以及公司对业务研究的反馈的文本信息,以准确反映各种类型和特定于行业的困难,上诉主体的变化和情感倾向。我在作为您的研究提供依据并提出相关政策建议,以从您的企业中获取真诚和准确的意见。
将计算机在大量的数据中学习特定定律的过程称之为机器学习。这些定律包括决策树,随机森林,逻辑回归,支持向量机,朴素贝叶斯相关分类,关联分析,回归,聚类等。超过12 种算法,例如K 近邻算法,K-means 算法,AdaBoost,神经网络和Markov。如果政府的治理模式可以通过应用大数据来充分的得到改善,在各个领域中对于数据的挖掘可以通过机器学习算法技术来更好的获得有效的信息。因此对于预警企业的生产风险的评估已经很好的应用了机器学习算法这一技术,并且发现泛化是有规律的。存在共同的问题和趋势,并提取有价值的数据,信息和建议,以更好地服务于政府决策。例如,LM 神经网络算法和CART医生,用于监视和预警企业生产和运营风险,以保护员工的注册,税务备案和销售,纳税,市场监督,税务,人类社会,电力供应等部门。
在科学不断发展的背景之下,在经济的运行监测分析中应用大数据技术还是存在许多的问题以及困难,但是只要结合科学,对于这一技术不断的提高创新,在分析技术与分析业务之间找到更多的融合点,使得经济运行的工作可以和大数据技术完美的结合起来,为改进监视和分析经济运行水平提供有力的支持。