热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

读书笔记∣元数据:用数据的数据管理你的世界Ch.3-4

第三章描述性元数据1、都柏林核心元数据元素集(1)都柏林核心元数据元素集从最底层常见的共同特征开始构建元数据集,包括15个核心元素集:创建都柏林核心元数据集的初衷是描述互联网资

第三章 描述性元数据

1、都柏林核心元数据元素集

(1)都柏林核心元数据元素集从最底层常见的共同特征开始构建元数据集,包括15个核心元素集:


创建都柏林核心元数据集的初衷是描述互联网资源,但得益于采用了最底层常见的共同特征,因此常用来描述实体资源。

(2)描述性记录

一条元数据记录了一个资源,描述性元数据记录可以用于多种目的,但是最重要的用途之一是“资源发掘”。资源发掘工具是一种帮助用户发现资源的技术,例如,网络搜索引擎、图书馆卡片式目录资源发掘可以实现的原因在于元数据记录中的元素-值配对,每个元素-值配对就是所谓的接入点,利用发掘工具从这个入口可以去发掘可用于记录描述的资源。为了让都柏林核心元数据元素成为最底层常见的共同特征,它必须可以用来描述一切事物,不仅所有的元素都是可以重复的,而且任何不相关的元素都可以排除在记录之外。

(3)都柏林核心修饰词

都柏林核心元数据元素集旨在成为最底层常见的共同特征的元数据元素集,但最底层常见共同特征的问题在于有时层级过低,某些用例可能需要超过15种元素,为此,人们通过三种方式扩展了都柏林核心元数据集。

  1. 建立术语集:由现有的15种核心元素增加了由40个术语组成的集合。例如已修改(modified)、部分为(haspart)、部分于(ispartof)等。
  2. 运用修饰词:修饰词特定于个体的单独元素可更加精准的解读或细化元素的含义。例如:

实际上,所有的这些修饰词都以都柏林核心元数据术语的形式存在,即“已创建created”、“已修改modified”和“有效valid”。这些对日期元素的具体细化用处很大,在建立元素集后发明的第一批修饰词就包括了这些术语,后来则被纳入术语集中。术语集一直在不断演化中,这种演化之所以能得以延续,是因为所有术语、元素和修饰词的构建都必须基于都柏林抽象模型,抽象模型是主谓宾陈述的数据模型,具体说明了这些主语、谓语和宾语背后的概念以及如何将这些元素结合成模型图表,这种逻辑模型基于“资源描述框架RDF”。

           3、借助编码体系来澄清对某一元素值的解读。

(4)网页中的元数据

最为常见的在线对象非网页莫属,网页主要以文本编写而成,往往嵌有图片、视频和其他媒体,并且为了在浏览器中显示而采用html编码的文档。网络中的文档与其他事物一样,其本身会包括元数据,或者关于某份网络文档的元数据也可以存在其他地方。在html中,是元素的子元素,换句话说,元素包含在网页的页头部分中。页头部分含有关于网页的多种元数据,包含文档的标题、样式等,元素还包含其他子元素没有确切说明的网页元数据,换句话说,是一组杂项的集合。任何模式的元素以及编码体系的值都可以嵌入到html文档中,例如:



但正是由于可以为单独的网页创造唯一的名称和内容元素值,html很容易被滥用,例如关键词堆砌(在一个网页的元数据标签中运用许多毫不相干的术语,从而使得某一搜索引擎尽可能多的搜索到该网页),随着关键词愈演愈烈,谷歌等大多数搜索引擎在2005年直接忽略网页中的元数据标签。

(5)都柏林核心元数据集的意义

描述性元数据对于网络搜索工具的成功来说至关重要,而全文检索的改进、谷歌等工具通过发展可以利用文字甚至网络结构和网络的其他特性,可见元数据并未取得成功。但随着人们越来越深刻认识到元数据对于大规模协同性信息资源管理项目的成功来说至关重要,美国数字公共图书馆、欧洲数字图书馆和多媒体数据库等项目都在开发自己的元数据模式,这些模式都以都柏林核心元数据集和术语集为基础。



第四章 管理性元数据

如果元数据是关于资源的陈述,那么理所当然要提出的问题就是谁在做出陈述。元数据记录的功能之一就是作为一个对象的代理,为了让代理发挥作用,一般来说元数据记录要比原始对象更为简洁。元数据作为资源代理最为简单、明显的用途之一就是在资源发掘中发挥替代物作用。描述性元数据只提供关于资源特点或属性的描述性信息,描述性元数据记录的主要用途就是资源发掘。管理性元数据是提供关于某一资源全生命周期的信息,也就是在管理资源时需要用到的信息。

1、技术性元数据

例如大部分数码相机采用的元数据模式是Exif(可交换图像文件格式),一条Exif记录包括数量相当多的元素和值,这些值可以分为三种类型:(1)由制造商设置并且在设备使用寿命中始终保持一致的值,如制造商与型号(2)可由用户配置的值,如x轴分辨率和曝光(3)不同照片之间会发生变化的值,如时间、日期、方向等。

所有数码文件的技术性元数据往往在文件创建和修改的时候自动生成,它会记录关于资源特点的信息,这与描述性元数据之间存在很大的重叠,但技术性元数据所记录的资源特点是不需要人为判断即可识别的数据,正式为此我们才能用软件来自动搜集技术性元数据。

2、结构性元数据

数码摄像是最常见的结构性元数据应用场景之一,MPEG-21是ISO颁布的标准,定义了一种开放式框架,基于这种框架可构建应用程序来提供并显示多媒体文件,MPEG-21标准的核心在于数字项,一种结构性数字对象,可包括视频、图像、音轨和其他资源,还有描述这些资源之间的关系。DIDL(数字项声明语言)描述了用于表达数字项的术语与概念集合,在这些术语中,“容器”可容纳多个子实体,包括一个描述符、多个项目以及其他容器。项目指可通过多媒体播放器应用程序向用户显示的数字项,单个项目可包含多个子项、描述符以及条件;描述符指关于某一容器或项目的描述性元数据;条件定义了多媒体播放器在显示某一文件前必须进行的测试。DIDL还可以包括许多其他元素,全部元素共同决定多媒体对象的内容以及如何在一系列软件和权限环境中显示。

结构性元数据记录了关于某一资源如何组织的信息,MPEG-21记录提供关于多媒体文件的类似信息,即以什么样的顺序播放数字项,哪些音轨必须与哪些视频项共同播放等。

3、溯源元数据

(1)根据W3C数据溯源孵化组的定义,资源溯源指“用于描述涉及创建与交付或以其他方式影响某一资源的实体与流程的记录”,溯源不仅仅是包括某个资源的历史,还包括该资源与其他影响其历史的实体之间所具有的关系。

(2)电子资源不仅易复制,而且便于编辑(比如维基百科文章),因此,了解在线资源的历史很有必要,但是并不充分,为了信任资源的有效性和可靠性,同样有必要了解什么实体影响过资源的历史。

(3)如果元数据是关于资源的陈述,那么理所当然要提出的问题是谁在做陈述,元数据是某人关于某事物做出的主张。但这种主张究竟有多可信、可靠和准确呢?溯源元数据是一种机制,可以提供关于这些实体、其与资源以及其他实体之间关系的数据,溯源元数据是将资源置于社交网络之中的方法,借此提供用户评估资源可能需要的上下文,溯源互联网是关于实体更为直接的一手知识,能让用户在决策时了解资源是否可信。

(4)虽然目前存在几种溯源元数据模式,但并未出现标准,这些溯源模式拥有许多共同特征:都由多个元素集构成、元素集可识别资源的特点以及影响资源的实体,并对资源和实体之间的关系做了分类。

(5)W3C开发的溯源数据模型的三大核心结构为实体entity、代理agent和活动activity,实体是一种资源,代理是影响资源生命周期的实体,而活动是这种影响的本质,实体可能起源于其他实体或归因于某个代理,也可能产生或用于活动,以此类推。


W3C在建立溯源标准方面进行的大量工作大部分整合在PREMIS的开发中,PREMIS是一个更为广泛的模式,目的在于搜集关于资源保存的元数据。

4、保存性元数据

(1)在资源保存上,最为发达的元数据模式是美国国会图书馆的另一项标准——PREMIS(保存性元数据维护活动),PREMIS的目的在于成为保存数字对象的核心元数据元素集,之所以成为核心是因为从都柏林核心元数据集的意义来说,PREMIS元素旨在成为搜集关于如何在一段时间内保存数字对象所必须的最小元素集。

(2)根据PREMIS文档,保存性元数据是“存储库用于支持数字保存流程的信息”,其中存储库指长期处于管理之下的在线资源集合。存储库支持数字保存过程需要用到的几类信息,包括持久生存能力viability、可呈现能力renderability、可理解性understandability、真实性authenticity以及可识别性identity,即存储库必须确保一个数字对象在一段时间内可以存续,在此期间可以显示并使用这一对象,并且能够将其原始或权威版本与拷贝或更改后的版本区分开来。

(3)PREMIS数据模型定义了四种实体:对象object(既可以是抽象知识实体,也可以是具体资源)、代理agent(可影响对象的人或组织)、活动event(由代理针对某对象进行的、带有时间标记的操作)以及权限声明right statement(知识产权等许可),每个这种实体都包括一个语义单元集合,这在其他元数据模式中被称为元素。


(4)PREMIS为四类实体具体列出了许多语义单元,例如对象中的大小、格式和创建应用程序;代理中的名称、类型和识别符;活动中的日期、描述和识别符等。PREMIS虽对某些语义单元创建或选择值提出了建议,但与都柏林相比并不具有很强的描述性,但在其他领域,PREMIS为了提供尽可能多的细节来支持数字保存过程,所以比任何其他元数据模式都精准。

5、权限元数据

任何有关数字资源的项目都在版权问题的笼罩之下,因此,难以避免的是人们为此建立起了多种搜集关于权限数据的元数据模式。

(1)都柏林核心元数据元素集。“权限”元素(关于资源具有权限以及管辖资源权限的信息)+三个可量化权限元素的元数据术语(授权、权限持有者和使用权)

(2)CC REL(创作共同权限表达语言):“创作共用”是通过建立标准化法律授权来推动创作的一个项目,其标准化法律授权允许创作者有选择性地保留在“版权”标目下捆绑在一起的多项不同权限,同时允许对相关的作品进行一定的使用。该项目详细说明了涉及版权的实体与关系。CC REL的规范识别了两类属性:作品属性和作品授权的属性,其中作品属性包括标题、类型和来源等直接来自DC的属性、原有的属性名称和属性URL;授权属性包括允许、禁止、要求、管辖地和法律条款。另外还有一个较小的受控词汇表提供了这些属性的值,例如允许的值可以是复制、分发和衍生作品等。“创作共用”项目在标准化法律授权方面运用了CC REL,甚至在其官方网站上提供了一个工具来指导用户决定自己的多项授权中选择哪些作为最适合的资源。

(3)METSRights权限声明模式(RightsDeclarationMD):这种模式旨在成为METS(元数据编码和传输标准)的扩展。RightsDeclarationMD拥有权限声明、权限持有者和上下文三个顶层元素,每个顶层元素都有多个属性。

所有元数据模式都是为了将元数据模式中版权复杂性降低到可以管理的程度,针对这一问题,这些模式采取了类似但略有不同的解决方法,目前多类权限元数据模式共存,在一定程度上可以互换,但在实践中,已经成为某些特定用例的标准,比如“创作共用”授权在网上广为使用,RightsDeclarationMD在图书馆和档案管理领域中的应用相对较为有限。

6、元-元数据

(1)可以管理上述一切的一种元数据模式:METS(元数据编码与传输标准)

(2)21世纪初,随着数字资源内容与功能性的扩散,METS计划为关于资源的元数据提供一种标准架构并确保存储库之间可以交换元数据。METS作为一种元数据模式,支持为元数据记录创建容器,即所谓的“文档”,METS文档是一种机制,用于记录内容片段之间、内容与构成一个数字图书馆对象的元数据之间存在的多种关系。

(3)METS文档分为7部分:

a. 表头header:关于METS文档本身的元数据,而不是关于文档中被描述资源的元数据;

b.描述性元数据:METS允许使用多种模式来描述一个单独的资源。

c.管理性元数据:分为技术性元数据、知识产权元数据、来源元数据和溯源元数据。没有提供任何用于描述资源管理的原生元素,但是允许将其他管理性元数据模式中的记录封装在METS文档或关联METS文档。

d.文件部分:列出包含构成数字对象电子版本内容的所有文件。

e.结构地图:提供了一种机制,用于组织METS文档在“文件部分”识别的元素。

f.结构连接:说明METS文件不同部分之间关联的一种简单机制。

g.行为:通过可执行的软件代码关联METS文档中的其他元素来表达这些操作规则。






推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 如何在php文件中添加图片?
    本文详细解答了如何在php文件中添加图片的问题,包括插入图片的代码、使用PHPword在载入模板中插入图片的方法,以及使用gd库生成不同类型的图像文件的示例。同时还介绍了如何生成一个正方形文件的步骤。希望对大家有所帮助。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • HTML学习02 图像标签的使用和属性
    本文介绍了HTML中图像标签的使用和属性,包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项,帮助读者更好地理解和应用图像标签。 ... [详细]
author-avatar
禁令2502861143
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有