大数据的本质是什么?我想在这归纳三个方面,或者叫“1+3+1”。
首先,大数据,从我们整个更广泛的层面来看,大数据就是信息。大数据就是信息在这个阶段的一个代名词,大数据一定是信息,这点没有怀疑。那么信息技术的属性是什么?信息的属性,我在五六年前曾经说过,它是没有质量、没有能量、没有固定形态的客观存在。学哲学的人当时有人问,说这样的东西是客观存在的吗?但它就是这样客观存在。这个东西和物质是并列的一种存在,它依赖于物质,没有物质它不能存在,但它不是物质。所以大数据就是一种信息,就是一种和物质并列的一种存在。
第二个方面,为什么我们叫它大数据?为什么猛然之间,三年多一点的时间,大数据席卷全国,产生的背景是什么?三点。第一,是以传感技术为代表的信息技术的发展。数据有了,原来我们靠各种系统的进入,但是这个东西是发展的,传感技术不断发展。我们最早做传感的时候,RFID占了绝大部分,后来慢慢地拓展了,其实这些还远远不够。把外部客观存在的信息变成技术信息的东西都是感知。所以说气象卫星、资源卫星、小飞机、无人飞机等都是感知,都是传感技术。前两天美国的一个卫星越过冥王星的时候把信号传下来,他还说,传的只是一小部分。其实更多的是我们用手机、相机以及那么多的摄像技术把它记下来,光记下来不行还要处理。第二,网络。没有网络是没有办法的,所以必须要有网络。没有网络的话你想我们大家拍的照片怎么上传。这是两个从技术的角度看。网络是一个基础设施。感知和处理存储传输是比较独立的东西。但是光有这些还不够,经济社会的发展是大数据产生的第三个背景。我们不要小看网络这件事情,每年投入几千亿才可以,要是没有一年几千亿的投入,比如说1994年家里面装电话的时候花了很多钱,用了很长时间才装了这个电话,如果今天还是这个情况的话,不能发展。个人来讲,不仅要有钱,还要有时间、有文化。当然了,这也就是说社会在发展。所以不要以为这都是个人的发展,其实这是社会的发展。
最后,大数据是一种资源。它的本质属性是一种资源,是和物质并存的一种资源。资源本身是没用的,所以资源的存在是没用的,他的第三个特点是有用,资源的存在才有意义。大家都知道沙子,沙子是重要的资源,计算机屏幕、手机屏幕都是沙子,里面的芯片全是沙子。但沙子不变成芯片,那是没用的。只能把沙子里面极小的一部分变成有用的,不是说沙子就是资源。中国50年代,内蒙的包头铁矿,是当时中国最重要的资源。但是里面的钒钛就扔掉了。那个时候的量大。第三个本质一定是要可应用起来。信息这个资源,从我的理解,它不仅是说我们人的发展、社会的发展,其实我们再放得远一点看,整个生命的形成只有物质没有信息,生命是不会演进的。如果说只有物理环境没有信息演进,人和人的智能是不会产生的。再往前看,从宇宙大爆炸到现在这个发生发展过程里面仅仅是物质运动么?可能也不是。所以说,从这个角度看看信息的作用,信息的作用远远超过我们的想象。
今天,我们任何一个生物体它的构成都是信息和物质两个部分。把信息部分抽掉,那就没有生命,就是一个死的物质,就不能进化。生命的最主要的作用,第一是生命的延续,第二是进化。他连生命力延续都做不到,就很快会死掉,更谈不到进化。所以信息十分的有用,它用的范围远远超过我们所有人的想象和我们今天可以想象的。但是所有的用都是一步步做的。我们说,把信息客观存在的资源和已经既有的资源,和我们不管是自己还是机构、企业、以信息为生的企业,都要和这些机构、企业、个人的事物、业务提供的服务连接起来,所有的用如果完成不了连接,就像沙子和芯片一样,这个中间断掉了以后,沙子还是沙子。如何把连接建立起来?其实我们很多人的起点放在拥有信息、如何获取它,然后再把它的有用性发挥出来。其实这个起点不够,因为你的服务,通过信息以后使这个服务更有价值,这样的信息究竟是不是存在,这是重大的问题。即使我们今天拥有了那么多的数据,这个量那么大,那么快的增加,其实很多业务,这样的信息今天没有能够既得下来,没有说早期能够拿过来就拿过来,没有,首先它存在才可以有,其次才是大家说的,已经存在了但是你拿不到。比如说这次股市往下跌,大家找好多原因,比如场外配资的工具,然后说交割热产生了很多问题,但是我在想这些信息是存在的,这些信息是存在的但是我们那些股市的分析家们、我们的监管部门,你怎么没有把这些信息拿来分析呢!
所以说第二步才是,我做这件事情该有的信息是不是能够拿到,但是这还不行啊。刚才我说了,一个事情要500台计算机,结果说给你50台要半年,但是你必须一个晚上完成。这是大数据处理里面从各个方面都必须解决的问题。也就是说,你能不能把如此海量的数据在给定的时间之内能够处理到有意义的结果。如果做不到这点,大数据还是沙子。你没有芯片制造厂,所以你还是沙子,沙子还是沙子。所以我们就要有处理的能力。这个处理的能力,其实我还是刚才那句话,为什么500台不给,50台要半年,最后一个晚上要完成结果。也就是说,我们要做大数据,能够规定时间里面达到给定的目标,主要的是软能力、是设计的能力、分析的能力、模型的能力。当然处理能力是十分重要的。即使我们在讲计算复杂性的时候,有很多判定,就是这些东西,今天的计算技术是做不到的。只要我们在软的方面下功夫,计算复杂性是可以急剧下降的,而不是说简单的下降。所以,我们说信息的利用,除了我们看到的这些各种各样的工具之外,一个最根本的原因是信息本身、数据本身的结构化,只有符合一个你用的要求的好的结构化的东西,再加上可以避免那些计算复杂性的计算需求的,把它避开,你才可以真正完成计算。否则,不用说这些计算能力是要成本的,就是计算能力给你了,你的空间、能源需求能不能解决!所以我们说,要用。
真正关键的是数据本身、信息本身。我们从工业革命过来,首先我们有科学理论,从牛顿到爱因斯坦,科学大家把物质、材料、能源,材料、能源的物理特征规律搞得清清楚楚,然后我们有了技术、产业的发展,但是到了今天我们只讲工具、不讲对数据和信息本身怎么把它看清楚变成和我们业务结合起来,在这点上我们确实有很大的差距。所以说应用前景,两句话:第一句话,几乎在所有地方,只要你想得到的,它就能用得上。比我们现在所有想的还要多。第二句话,我们要用好,一定要超越今天的计算机技术和数据工具,来看事物本质和数据之间如何真正建立意义上的超越计算复杂性的连接。有这样的模型和方式来充分满足你的使用,让信息真正能够发挥资源的作用,而不是沙子还是沙子,它不是芯片。谢谢大家!