大数据的概念和定义
大数据是新概念,但本质上的大数据并不算新。历史上自从有了户籍管理制度,便有了户籍和人口资源大数据,据此政府才可以进行征税管理、征兵管理和赈灾服务,才可以目标明确、心中有数地进行有计划的征税、征兵和救灾工作,只不过当时并不叫做大数据而已。
关于大数据有不同层面的定义。一种是纯技术角度的定义;另一种是实用角度的定义。
纯技术角度的大数据定义:大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据具有容量大、种类多、获取数据快、可变性大、真实性各异、高复杂性、低价值(以低成本创造高价值)等特性。因此,大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 从技术上看,大数据必然是无法用单台的计算机进行处理,必须采用分布式架构,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。它的特色在于对海量数据进行分布式数据挖掘。
这样的定义是IT业的专业术语,实在太过于高大上,也可能就是故弄玄虚的文字游戏,距离产业应用也实在是太远。
实用角度的大数据,简单用一句话讲就是海量的数据,是行业相关的所有数据的集合。这些数据有的目前即直接可用,有的或许当下不可用,只是具有潜在的使用价值,有的则需要进行复杂的统计、分析、运算,得出具有实用价值的结果、结论,用来进行决策和指导生产。
大数据包括不同层面,有个人大数据、公司企业大数据、行业大数据、公众大数据、互联网大数据、政府机构大数据、军事大数据。有公开的公众大数据,也有保密的大数据。个人大数据是关于自己、家人、朋友、工作、业务、隐私的数据集合,或许写在通讯录、笔记本上,也可能只是装在自己的脑子里,但不管如何却是真实的大数据,可以随调随用。公司大数据是关于公司架构、业务、人员、财务、采购、产品销售的数据集合,是用来为公司业务开展和业务决策服务的大数据;行业大数据是一个行业里有关人力资源、自然资源、组织机构、生产能力、市场供求、政策导向、存在问题、发展动态等的产业数据等。大数据可以是保密的,也可能是公开的、半公开的或部分公开的,军事大数据是国家机密,自然是保密不公开的。百度搜索是一个典型的互联网公众大数据,也是为社会大众服务公开的公众大数据,你可以从百度里搜索到关于宇宙、地球、大自然、经济、人文、社会、商业、金融、产品等包罗万象,无所不及的资料,为自己所用。并不是所有的资料对自己都有用,你只找对你有用的,现在找不到,或许将来会找到。
不同的大数据由不同的人来建立,供不同人群来使用的。企业大数据是企业自己来建立,比如阿里巴巴公司内部资源大数据和电商平台大数据,是由阿里巴巴网络技术有限公司建设的,内部资源大数据是公司自己使用的,而电商平台大数据中的财务部分肯定是给公司自己使用的,但产品部分则是给消费者使用的。公众大数据由公众服务企业甚或由公众参与建设,比如百度是由百度公司搭建平台,有公众共同参与建设的。
农业大数据
农业大数据是农业行业大数据,是关于土地资源、品种资源、劳动力资源、涉农企业、行业管理、组织机构、农业生产资料、农业装备、农业科技,关于农产品生产、田间管理、采收加工、产品销售、价格变动、市场供求、进出口贸易,以及关于发展现状、存在问题、发展动态和趋势等所有相关的数据资料集合。农业大数据涉及到的不同数据,应该由各自相关的管理部门、组织机构、行业协会、企业及其企业内部的不同部门来建立,而汇总统一的行业数据,应该由主管部门、行业组织、行业服务机构和公司企业来建,分别用于不同的服务对象。比如,作为涉农服务组织的供销社,也可以建立自己的为“三农”大数据。这个大数据自然应该有供销社的不同层级的机构来建、所属组织机构和公司企业来建,并汇总统一为供销社大数据。而且,大数据是动态的数据,随着时间的推移,行业会有发展和变化,因而就会不断有新的数据加入进来,而有些数据本来就是动态数据,比如价格行情数据,每天都不同。
农业大数据的用途
大数据的根本用途是用来为决策服务的,包括为行业管理决策、行业规划决策、行业指导决策、行业服务决策、业务经营决策等。比如,通过行业大数据,可以了解农业生产资料生产现状和供求平衡,决定是否需要增加化肥、农药、农膜和小农机具的产能,是否需要政府提供或如何提供政策支持、资金支持;根据农产品的产能和市场需求,是否需要和如何进行供给侧改革。对于区域经济或种植企业来说,根据现有产能、市场需求和价格波动,如何调整种植结构,如何制定价格策略,鲜活农产品是否需要冬储、如何储等。在市场经济背景下,农业生产和产品价格由市场供求决定,但由于市场的盲目性、随机性和无序性,单个的生产企业和一家一户的农民,根本无法直接准确了解和掌握市场动态信息,而通过行业大数据则可以较好地了解市场,从而可以在一定程度上进行市场经济条件下的计划性生产,以降低市场风险,减少难以预测的市场自然波动给农业生产者带来的损失。农产品期货和订单农业,本质上讲也是大数据,期货价格和订单价格及时大数据的组成成分,也是基于行业大数据形成的。
农业大数据的建设、管理、使用与服务
1. 体系建设
作为行业大数据,不可能由某一个机构或单位自己独立完成,必须由行业内所有经营单位和个人的参与。各自建设自己的大数据,或各自建设作为大数据的组成部分,形成海量数据,并要能够通过统一口径或非统一口径进行数据的汇总集成。汇总集成的海量数据,是进行数据分析、归纳总结、进行决策的基础和依据。所以,需要有数据中心和各层级的支持体系、工作体系,才能完成数据建设,也才能为不同层级的用户提供数据服务。
2. 硬件和软件建设
大数据首先需要有存储介质、传播介质和运算介质。所以,就目前的技术发展水平和科技手段而言,大数据必然需要依靠计算机、移动通讯和互联网的硬件环境支持,需要有办公场所。这些都是硬件建设的范围。大数据软件建设则主要是指能够保证以特定的数据格式存储和管理数据,并进行检索、统计、分析、运算、形成结论和进行决策的软件系统的建设。当然也包括数据安全保护。所以大数据建设中,硬件购置和软件开发是必须的,也是基础的工作。
3. 数据建设
硬件和软件建设只是大数据建设的物理环境建设,是基础,而大数据的真正核心是数据建设。没有数据的大数据,就仅仅是个空壳数据库。这样的空壳数据库,从上世纪九十年来以来,曾经建设了很多,但都毫无用处。真正的大数据,必须有丰富的、海量的数据作为内容,并以规范的格式存储,可以方便地进行检索、统计、分析、形成结论、进行决策、输出决策并最终为用户提供服务。相对于硬件建设和软件开发,数据建设需要更多的机构和人员参与,投入的时间、精力和劳动更多。
大数据检索、权限和服务
大数据是供使用的,使用的第一个环节就是检索。大数据必须能够通过一定的检索工具,通过一定的检索方式,进行检索使用。比如百度搜索引擎,就是百度数据的检索工具。通过关键词及关键字组合,能比较准确的搜索到需要的公众数据。京东商城里的搜索引擎,也可以通过关键词和关键词组合搜索到你需要的商品,并可通过筛选条件,筛选到特定品类、特定品牌、特定价格及其他特征的目标产品。
通常大数据的使用是有权限的,用以区分公共数据和不同层级的保密数据,供相应层级或类型用户的检索需要。
大数据对不同用户层面的服务不同。行业管理者用来进行行业管理决策,经营者用来经营决策,社会大众用来为日常生活和工作服务。根据不同保密程度设置不同的权限,为不同的用户服务。一般来讲,一个海量数据的大数据不可能只为少数人服务,受众范围越大,社会价值越大。
大数据是需要不断发展、完善的数据
大数据永远不可能是最终的、最理想的数据。因为事物是处于不断运动、发展、变化中的,大数据需要不断丰富、完善、发展,是动态的数据。一是大数据技术在不断发展和进步中,没有最好,只有更好;二是大数据的数据是动态变化的,产业在发展,时间在推移,所以大数据也必然是动态变化的。大数据只能是不断趋于理想的数据,但永远不可能是理想数据。