归档

亲测资源
AD:【腾讯云服务器大降价】2核4G222元/3年1核2G38元/年

数据信息管理:如何设计大数据库 (数据信息 大数据库设计)

随着数字化时代的到来,数据已经成为了企业的宝贵资源,不同的企业可以通过对不同类型的数据进行收集和分析,从而获取到相应的商业价值。因此,数据库已经成为了企业信息管理的核心工具之一。而面对着不断增长的数据量,如何设计一个高效可靠的大数据库就成为了企业数据信息管理的关键问题之一。

一、确定数据库架构

要设计出一个高效可靠的大数据库,首先需要确定数据库里的表结构和数据架构。在设计过程中,需要充分考虑到存储数据的量和访问数据的方式。数据库的表结构设计不仅仅要满足业务的需求,更应该考虑到数据的可读性、可维护性、扩展性和性能等方面。数据库的架构设计需要考虑到数据在各个表之间的关系,通过对数据表之间的关系进行分析和优化,可以提高数据检索和查询效率。

二、选择合适的数据库引擎

选取合适的数据库引擎也是设计大数据库重要的一环。有一些数据库引擎可能更加适合存储特定类型的数据,比如MySQL用于存储非关系型数据,而Oracle更适合存储关系型数据。每个数据库引擎都有它自己优点和限制,因此,在选择数据库引擎时需要考虑到数据类型、性能和可靠性等方面。

三、优化查询性能

在设计数据库时需要考虑到如何优化查询性能。对于大型的数据库来说,查询操作是比其他操作更加常见的。因此,数据查询的效率会直接影响到整个系统的性能。为了保证查询效率,可以进行一些性能优化措施,如建立索引、使用缓存和进行定时备份等。

四、保证数据安全

数据安全也是设计大数据库必须考虑的问题之一。在设计数据库结构时需要保证数据的安全性,防止非法用户进行篡改和破坏操作。这需要通过加密技术和权限管理等措施来保证。特别是在云数据库中,保证数据的安全性尤其重要,需要控制访问权限、加强数据加密和记录用户操作日志等。

五、备份和灾难恢复

无论是大型数据库还是小型数据库,备份和灾难恢复都是非常重要的。对于大型数据库而言,备份和灾难恢复显得尤为重要。因为当出现数据库故障或数据丢失时,恢复时间和数据量的大小都是非常关键的。因此,在设计大型数据库时,需要考虑到备份和灾难恢复机制,包括数据备份频率、备份目标和备份方式等。

六、保证数据质量

在设计大数据库时,一个关键问题就是如何保证数据的质量。数据质量问题可能会产生诸如决策失误、重复采集和过期数据等一系列问题。保证数据质量需要维护数据的完整性、精确性、一致性、准确性和合法性。这需要一系列的数据检查和数据清理措施来保证。

综上所述,设计一个高效可靠的大数据库需要综合考虑数据架构、数据库引擎的选择、查询性能优化、数据安全、备份和灾难恢复机制以及数据质量等多种因素。只有在这些方面完全考虑到,才能从源头上确保数据的准确性和完整性,从而达到实现商业目标和战略目标的目的。

相关问题拓展阅读:

大型ERP等数据库系统常见几种设计

早期的数据库系统,经常采用某种编号,比如身份证号码,公司编号等等作为数据库表的 primary key。然而,很快,大家就发现其中的不利之处。    比如早期的医院管理系统,用身份证号码作为病人表的 primary key。然而,之一,不是每个人都有身份证;第二,对于国外来的病人,不同国家的病人的证件号码并不见得没有重复。因此,用身份证号码作为病人表的 primary key是一个非常糟糕的设计。考虑到没有医生或者护士会刻意去记这些号码,使用自增长 primary key是更好的设计。    公司编号采用某种特定的编码方法,这也是早期的数据库系统常见的做法。它的缺点也显而易见:很容易出现像千年虫的软件问题,因为当初设计数据库表的时候设胡者计的位数太短,导致系统使用几年后不能满足要求,只有修改程序才能继续使用。问题在于,任何人设计系统的时候,在预计某某编号多少位可以够用的时候,都存在预计不准的风险。而采用自增长 primary key 则不存在这种问题。同样的道理,没有人可以去记这些号码。    使用自增长 primary key另外一个原因是性能问题。略有编程常识的人都知道,数字大小比较比字符串大小比较要快得多。使用自增长 primary key可以大大地提高数据查找速度。    2. 避免用复合主键 (compound primary key)    这主要还是因为性能问题。数据检索是要用到大量的 primary key 值比较,只比较一个字段比比较多个字段快很多。使用单个 primary key 从编程的角度也很有好处, sql 语句中 where 条件可以写更少的代码,这意味着出错的机会大大减少。    3. 双主键    双主键是指数据库表有两个字段,这两个字段独立成为主键,但又同时存在。 数据库系统的双主键最早用在用户管理模块。最早的来源可能是参照操作系统的用户管理模块。  做桐 操作系统的用户管理有两个独立的主键:操作系统自己自动生成的随机 ID (Linux, windows 的 SID), login id。这两个 ID 都必须是唯一的,不同的是,删除用户 test 然后增加一个用户 test, SID 不同,login id 相同。采用双主键主要目的是为了防止删除后增加同样的 login id 造成的混乱。比如销售经理 hellen 本机共享文件给总经理 peter, 一年后总经理离开公司,进来一个普通员工 peter ,两个peter 用同样的 login id, 如果只用 login id 作操作系统的用户管理主纯做坦键,则存在漏洞:普通员工 peter 可以访问原来只有总经理才能看的文件。操作系统自己自动生成的随机 ID 一般情况下面用户是看不到的。    双主键现在已经广泛用在各种数据库系统中,不限于用户管理系统。    4. 以固定的数据库、表应付变化的客户需求    这主要基于以下几个因素的考虑:    4.1 大型 EPR 系统的正常使用、维护需要软件厂商及其众多的合作伙伴共同给客户提供技术服务,包括大量的二次开发。  如果用户在软件正常使用过程中需要增加新的表或者数据库,将给软件厂商及其众多的合作伙伴带来难题。    4.2 软件升级的需要。  没有一个软件能够让客户使用几十上百年不用升级的。软件升级往往涉及数据库表结构的改变。软件厂商会做额外的程序将早期版本软件的数据库数据升级到新的版本,但是对于用户使用过程中生成的表进行处理就比较为难。    4.3 软件开发的需要。  使用固定的数据库库表从开发、二次开发来说,更加容易。对于用户使用过程中生成的表,每次查找数据时都要先查表名,再找数据,比较麻烦。    举例来说,早期的用友财务软件用 Access 作数据库,每年建立一个新的数据库。很快,用户和用友公司都发现,跨年度数据分析很难做。因此这是一个不好的设计。在 ERP 中,很少有不同的年度数据单独分开。一般来说,所有年份的数据都在同一个表中。对于跨国公司甚至整个集团公司都用同一个 ERP 系统的时候,所有公司的数据都在一起。这样的好处是数据分析比较容易做。    现在大多数数据库系统都能做到在常数时间内返回一定量的数据。比如,Oracle 数据库中,根据 primary key 在 100万条数据中取 10 条数据,与在1 亿条数据中取 10 条数据,时间相差并不多。   5. 避免一次取数据库大量数据,取大量数据一定要用分页。    这基本上是现在很多数据库系统设计的基本守则。ERP 系统中超过 100万条数据的表很多,对于很多表中的任何一个,一次取所有的会导致数据库服务器长时间处于停滞状态,并且影响其它在线用户的系统响应速度。    一般来说,日常操作,在分页显示的情况下面,每次取得数据在之间,系统响应速度足够快,客户端基本没有特别长的停顿。这是比较理想的设计。这也是大型数据库系统往往用 ODBC, ADO 等等通用的数据库联接组件而不用特定的速度较快的专用数据库联接组件的原因。因为系统瓶颈在于数据库( Database) 方面(数据量大),而不在于客户端(客户端每次只取少量数据)。    在 B/S 数据库系统中,分页非常普遍。早期的数据库系统经常有客户端程序中一次性取大量数据做缓冲。现在已经不是特别需要了,主要原因有:    5.1 数据库本身的缓冲技术大大提高。  大部分数据库都会自动将常用的数据自动放在内存中缓冲,以提高性能。    5.2 数据库联接组件的缓冲技术也在提高。  包括 ADO 在内的一些数据库联接组件都会自动对数据结果集(result set)进行缓冲,并且效果不错。比较新颖的数据库联接组件,比如 Hibernate 也加入了一些数据结果集缓冲功能。  当然,也有一些数据库联接组件没有对数据结果集进行缓冲,比如 JDBC Driver,不过几年之内情况应该有所改观。也有些不太成功的数据缓冲,比如 EJB 中的实体Bean,性能就不尽如人意,实体Bean数据也是放在内存中,可能是因为占用内存过多的缘故。    相对来说,今天的程序员写客户端数据缓冲,能够超过以上两个缓冲效果的,已经比较难了。

数据库原理第五章数据库设计

第五章 数据库设计

67. 什么是念樱软件生存期:

软件生存期是软件工程的一个重要概念。是指从软件的规划、研制、实现、投入羡皮运行后的维护,直到它被新的软件所取代而停止使用的整个期间。通常分为六个阶段:

(1) 规划阶段

(2) 需求分析阶段

(3) 设计阶段

(4) 程序编制阶段

(5) 调试阶段

(6) 运行维护阶段

68. 数据库系统的生存期:

一般分为七个阶段,即:

(1) 规划阶段

(2) 需求分析阶段 1)信息要求 2)处理要求 3)安全性和完整性要求

(3) 概念设计阶段

(4) 逻辑设计阶段 两部分:数据库逻辑设计和应用程序设计

(5) 物理设计阶段 两部分:物理数据库结构的选择和逻辑设计中程序模块说明的精确化

(6) 实现阶段

(7) 运行维护阶段

69. 数据库设计过程的输入有哪些内容:

(1) 总体信息需求

(2) 处理需求

(3) DBMS的特征

(4) 硬件和OS特征

70. 数据库设计过程的输出有哪两部分:

一部分是完整的数据库结构,其中包括逻辑结构与物理结构。

另一部分是基于数据库结构和处理要求的应用程序的设计原则。

71. 常见的数据库设计方法有哪几种:

(1) 视图模式化及视图汇总设计方法

(2) 关系模式的设计方法

(3) 新奥尔良设计方法

(4) 基于E-R模型的数据库设计方法

(5) 基于3NF的设计方法

(6) 基于抽象语法规范的设计方法

(7) 计算机辅助数据库设计方法

72. 实用的数据库设计方法至少应包括哪些内容:

(1) 设计过程

(2) 设计技术

(3) 评价准则

(4) 信息需求

(5) 描述机制

73. 一种设计方法学需要有三种基本类型的描述机制:

(1) 实现设计过程的最终结果将用DBMS的DDL表示。

(2) 信息输入的描述。

(3) 在信息输入和DDL描述之间的其它中间步骤的结果的描述。

74. 数据库设计中的规划阶段的主要任务:

是进行建立数据库的必要性及可行性分析,确定数据库系统在组织中和信息系统中的地位,以及各个数据库之间的联系。

75. 需求分析阶段的任务:

需求分析阶段应该对系统的整个应用情况作全面的、详细的调查,确定企业组织的目标,收集支持系统总的设计目标的基础数据和对这些数据的要求,确定用户的需求,并把这些要求写成用户和数据库设计者都能接受的文档。

76. 需求分析的步骤:

大致可分为三步来完成,即需求信息的收集、分析整理和评审。

77. 数据字典由哪几部分组成:

(1) 数据项

(2) 数据结构

(3) 数据流

(4) 数据存储

(5) 加工过程

78. 数据抽象:

抽象是对实际的人、物、事或概念的人为处理,它抽取人们关心的共同特性,忽略非本质的细节,并把这些特性用各种概念精确地加以描述,这些概念组成了某种模型。

抽象有两种形式,系统状态抽象(抽象对象)和系统转换抽象(抽象运算)。

79. 对象的两种形式:

(1) 聚集:的数学意义就是笛卡尔积的概念。通过聚集,形成对象之间的一个联系对象。

(2) 概括:是从一类其它对象形成一个对象。对于一类对象{O1,O2,……,On}可以概括成对象O,那么Oi称为O的其中一个。

80. 依赖联系:

在现实世界中,常常有某些实体对于另一些实体具有很强的依赖关系,即一个实体的存在必须以另一个实体的存在为前提。我们通常把前者称为弱实体。在ER图中,用双线框表示弱实体,用指向弱实体的箭头表明依赖联系。

81. 子类、超类:

某个实体类型中所有实体同时也是另一实体类型中的实体。此时,我们称前一实体类型是后一实体类型的子类,后一实体类型称为超类。在ER图中,带有子类的实体类型(超类)以两端双线的矩形框表示,并用加圈的弧线与其子类相连,子类本身仍用普通矩形框表示。

子类具有一个很重要的性质:继承性。它可继承超类上定义的全部属性,其本身还可包含其它另外的属性。

82. ER模型的操作:

(1) 实体类型的分裂:垂直分割、水平分割

(2) 实体类型合并:分裂的逆兄高差过程。

(3) 联系类型的分裂

(4) 联系类型的合并

83. 采用ER方法的数据库概念设计分成哪三步:

(1) 设计局部ER模式:1)确定局部结构范围 2)实体定义 3)联系定义 4)属性分配

(2) 设计全局ER模式:1)确定公共实体类型 2)局部ER模式的合并 3)消除冲突。

(3) 全局ER模式的优化:1)实体类型的合并 2)冗余属性的消除 3)冗余联系的消除

84. 冲突分为哪三种:

属性冲突,包括属性域的冲突、属性取值单位冲突。

结构冲突,包括:

(1) 同一对象在不同应用中的不同抽象。

(2) 同一实体在不同局部ER图中属性组成不同。

(3) 实体之间的联系在不同的局部ER图中呈现不同的类型。

命名冲突,包括属性名,实体名,联系名之间的冲突:同名异义、异名同义

85. ER模型向关系模型的转换:

ER模型中的主要成分是实体类型和联系类型。

对实体类型,将每个实体类型转换成一个关系模式,实体的属性即为关系模式的属性,实体标识符即为关系模式的键。

对联系类型,就视1:1、1:N、M:N三种不同的情况做不同处理。

(1) 对1:1可在两个实体类型转换成的两个关系模式中任意一个关系模式的属性中加入另一个关系模式的键和联系类型的属性。

(2) 对1:N,则在N端实体类型转换成的关系模式中加入1端实体类型转换成的关系模式的键和联系类型的属性。

(3) 对M:N,则将联系类型也转换成关系模式,其属性为两端实体类型的键盘加上联系类型的属性,而键为两端实体键的组合。

86. 什么是物理设计:

对一个给定的逻辑数据模型选取一个最适合应用环境的物理结构的过程,称为数据库的物理设计。物理结构,主要指数据库在物理设备上的存储结构和存取方法。

87. 物理设计的步骤:

物理设计可分五步完成,前三步涉及到物理数据库结构的设计,后两步涉及约束和具体的程序设计。

(1) 存储记录结构设计

(2) 确定数据存储安排

(3) 访问方法的设计

(4) 完整性和安全性

(5) 程序设计

88. 在数据库系统生存期中,生存期的总开销可分为几项:

规划开销、设计开销、实现与测试开销、操作开销、维护开销。

89. 用户使用和计算机资源的操作开销是:

(1) 查询响应时间

(2) 更新事务的开销

(3) 报告生成的开销

(4) 改组频率和开销

(5) 主存储空间

(6) 辅助存储空间

90. 数据库实现阶段的主要工作:

(1) 建立实际数据库结构

(2) 试运行

(3) 装入数据

91. 数据库的重新组织设计:

对数据库的概念模式、逻辑结构或物理结构的改变称为重新组织,其中改变概念模式或逻辑结构又称为重新构造,改变物理结构则称为重新格式化。

92. 运行维护阶段的主要工作:

(1) 维护数据库的安全性和完整性控制及系统的转储和恢复。

(2) 性能的监督、分析与改进。

(3) 增加新功能。

(4) 发现错误,修改错误。

数据信息 大数据库设计的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于数据信息 大数据库设计,数据信息管理:如何设计大数据库,大型ERP等数据库系统常见几种设计,数据库原理第五章数据库设计的信息别忘了在本站进行查找喔。

温馨提示: 本文最后更新于2023-09-08 04:00:10,某些文章具有时效性,若有错误或已失效,请在下方 留言或联系 www.88531.cn资享网
© 版权声明
THE END
喜欢就支持一下吧
点赞37 分享