主机论坛_虚拟主机_美国主机_美国虚拟主机_云主机技术_全球主机交流聚集地—Web Hosting Talk 中文站

找回密码
立即注册
发新帖

0

收听

8

听众

557

主题
发表于 2018-1-16 10:51:10 | 查看: 832| 回复: 0
本帖最后由 完善 于 2018-1-16 10:53 编辑

  数据分析师历来只能从一种类型的数据中解密和提取信息:即结构化数据。这种类型的数据的模式清晰,因此很容易搜索,但它只占可用数据总数的一小部分。

鉴别结构化数据、非结构化数据和半结构化数据

鉴别结构化数据、非结构化数据和半结构化数据


  非结构化数据包括来自各种社交媒体和移动设备的视频、音频、电子邮件和数据等。毫无疑问,这是现有的最大的原始信息储备,但没有人能够可靠地利用这一资源。
  但是,随着存储能力的提高和卓越的处理能力的提高,催生了非结构化的数据分析,这是一种新的因而也不成熟、完善的技术形式,于是情况发生了变化。更好的商业智能正在充分利用这一机会,并且正在投入大量资金,以收集结构化化数据分析和非结构化数据分析,来访问这个似乎无穷无尽的信息宝库。
  让我们看一下这两种不同的数据格式,了解它们之间的差异,以及未来它们对所有数据分析师的影响。
  结构化数据是什么?
  结构化数据是人类或机器产生的高度组织化的信息,易于存储在称为关系数据库(RDBs)的行数据库结构中。它是以一种便于捕获、易于存储和容易组织,以供以后分析的格式在RDB结构中存在的任何东西。(如果您想要了解更多关于数据库的信息,请参阅《数据库介绍》一文。)
  例如邮政编码、电话号码和用户人口统计数据(如年龄或性别)。这些数据库中的数据可以使用Excel电子表格中的结构化查询语言(SQL)或VLOOKUP函数进行查询。算法还可以使用索引或数字和字母数据来快速搜索在各个字段中找到的数据。然而,因为所有的数据都是严格按照字段类型和名称来定义的,所以存储、查询和分析数据的能力在一定程度上会受到限制。
  使用结构化数据的典型应用程序包括医院管理软件、客户关系管理(CRM)应用程序和航空公司预订系统等。由于结构化数据具有简洁的组织结构和易访问性,因此在处理大量信息时,结构化数据非常有用,效率也很高。然而,当我们在人类每天不断产生的数据中挖掘隐藏在其中的黑色石油时,寻找结构化数据只不过是冰山一角而已。
  非结构化数据是什么?
  在组织结构中发现的绝大多数数据都是非结构化的,一些人粗略估计它占当前可用数据总量的80%。根据定义,非结构化数据指的是没有可识别内部结构的所有数据。然而,属于这类的某些类型的数据确实具有某种形式的模糊内部结构,但它并不符合数据库或电子表格的标准。
  大多数的业务数据都是非结构化的,这些数据内容包括客户服务交互、文本文件、网站日志、视频和其他多媒体内容、销售自动化、电子邮件和社交媒体帖子等。如果数据可以被挖掘、组织和分析,就没有必要去解释这些数据的价值了。
  大多数非结构化数据都是由人类生成的,因此可以被其他人所理解。这意味着更简洁的计算机智能无法理解这类信息,因为非结构化数据与机器语言和结构化数据库的线性度相距太大了。
  位于以上两者中间的数据:半结构化数据
  半结构化数据是第三种数据类型,它代表了整个数据总量的一小部分(5%至10%)。半结构化数据实际上介于两种数据之间,它包含内部语义标签和标记,用于标识不同的元素,但它缺乏适用于关系数据库的必要结构。
  例如,电子邮件可能看起来像是结构化数据,因为它们可以按日期、文件大小或时间进行分类。不过,它们并不是结构化数据,因为电子邮件最宝贵的信息是它的文本内容,而不是相对简单的标记。电子邮件不能根据其内容和主题进行排列,因为人类不会以如此严格的模式来表达,让机器可以准确地理解文本内容。半结构化数据的其他示例包括NoSQL数据库、开放标准JSON和标记语言XML。
  半结构化数据通常使用元数据分析来对分析进行查询和分类。例如,X射线扫描由组成图像的大量像素组成,这些像素本质上是非结构化数据,无法访问。但是,扫描文件仍然提供有关它的信息的元数据部分,例如注释和用户ID等。
  非结构化数据可以转换为结构化数据吗?
  每个数据分析师都必须面对的最基本的挑战就是以一种简洁有序的方式组织手头上的信息,以便能够访问和理解这些信息。数据挖掘工具通常不具备解析信息的能力,因为根据定义,这些信息跟人类的语言太相似,所以这意味着只有另一个人类才能够收集和整理这些信息。
  然而,由于非结构化数据的数量太过庞大,因此任何企图存储或组织它的尝试都需要消耗大量的人力财力。例如,来自网络的搜索引擎的信息库是如此庞大,以至于大多数元素都需要巨大的工作方面以及资源方面的投资,才能提取出最基本的信息。即使是最有效的数据挖掘技术,也仍然丢失大量在网络上发现的信息,甚至是在深层网络中发现的信息。
  但是数据挖掘技术确实存在。它们正在以惊人的速度发展。例如,元数据可用于将结构化和非结构化数据连接在一起。用户和算法都可以对收集到的信息进行过滤和索引,以便分析相关数据。其他解决方案包括“数据争论”,即非技术用户逐步组织复杂数据的过程。(如果您想要了解更多关于普通用户处理数据的信息,请参阅《大数据如何帮助自助分析》一文。)
  在某天,我们肯定能够有效地将这些大量的无组织化的信息转化为组织化更高、结构化更强的信息。虽然今天不能实现,明天也不一定会实现,但不久我们一定会进入人类见过的最大的金库:大数据。

该会员没有填写今日想说内容.

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|WebHostingTalk中文站

GMT+8, 2024-4-19 10:33 , Processed in 0.077910 second(s), 26 queries .

Powered by Discuz! X3.4

Copyright © 2001-2024, Tencent Cloud.

快速回复 返回顶部 返回列表