众望通科技 研发中心
数据库设计规范
> 拟稿:周志尧
>
> 版本号 1.0.4
>
> 1. 修改:修改数据库设计概述、行业规范、数据库命名字母大小写规范的内容描述
> 2. 新增:新增数据库命名分段命名原则的示例表
> 3. 去除:去除数据库命名长度受限原则的示例表
[TOC]
# 数据库设计概述
本设计规范只适用于关系型数据库。
## 数据库选型
#### 推荐选型
* 开源数据库
> PostgreSQL、MySQL
* 商业数据库
> Oracle
* 国产数据库
> 国家信创产品
#### 不推荐选型
> DB2、Sybase
# 命名规范
## 通用命名规范
##### Ø规范:遵循行业规范
当有相关国家/行业强制性数据结构标准规范存在时,用于存储业务数据的业务表,在表名命名上原则上应该遵从标准规定,其表中相关字段的中文名称(即数据项名称),若标准规范上有规定的应遵循规定。此外,若标准规范上对数据项的类型、长度有规定的,原则上也应当遵循或保证能直接兼容保存和访问。
##### Ø规范:字符编码规范
遵循各种数据库推荐的字符编码
| 数据库类型 | 库编码字符集 | 表编码字符集 |
| ---------- | -------------- | -------------- |
| Oracle | simple Chinese | simple Chinese |
| MySQL | utf8mb4 | utf8mb4 |
| PostgreSQL | utf-8 | utf-8 |
| DB2 | gbk | gbk |
##### Ø规范:字母大小写规范
所有数据库对象命名(库、表、字段、视图、索引)字母,遵循各种数据库推荐的大小写规范:
| 数据库类型 | 表名大小写 | 字段名大小写 | 库名大小写 | 视图名大小写 | 索引名命名规范 |
| ---------- | -------------------------------------------------------- | -------------------------------------------------------- | --------------------------------------------- | --------------------------------------------- | ---------------------------------- |
| Oracle | 统一使用大写 | 统一使用大写 | 统一使用大写 | 统一使用大写 | 统一使用大写 |
| MySQL | 统一使用小写 | 统一使用小写 | 统一使用小写 | 统一使用小写 |统一使用小写|
| PostgreSQL | 统一使用小写 | 统一使用小写 | 统一使用小写 | 统一使用小写 | 统一使用小写 |
| DB2 | 统一使用大写 | 统一使用大写 | 统一使用大写 | 统一使用大写 | 统一使用大写 |
##### Ø规范:长度受限原则
为保证将来系统跨平台的可移植性,表、视图命名长度不超过30个字符
##### Ø规范:字符范围原则
只能使用英文字母、下划线、数字进行命名,首位字符必须是英文字母。
##### Ø规范:分段命名原则
命名中多个单词间采用下划线分隔,以便阅读同时方便某些工具对数据库对象的映射。如XXX_XXX_XXX,但不限于三段式。
| 数据库类型 | 分段命名原则 | 分段命名示例 |
| ---------- | ------------ | ----------------- |
| Oracle | XXX_XXX_XXX | FOOD_BR_TASK_LIST |
| MySQL | xxx_xxx_xxx | food_br_task_list |
| PostgreSQL | xxx_xxx_xxx | food_br_task_list |
| DB2 | XXX_XXX_XXX | FOOD_BR_TASK_LIST |
##### Ø规范:勿用保留词
数据库对象命名,不能直接使用数据库保留关键字,以及Java、JavaScript等常用语言的保留关键字
##### Ø建议:同义性原则
对于同一含义尽量使用相同的单词命名,避免同一单词表示多种含义的情况,以免引起误解
##### Ø建议:命名方式一致原则
在一个系统、一个项目中尽量采用一致的命名方式,各表之间相同含义的字段,类型定义要完全相同(包括精度、默认值等);
##### Ø建议:扩展性原则
各系统或者项目在遵循本规范的基础上,可以根据需要制定更明确的规范细则,以满足项目管理需要。如对模块进行统一命名,然后用于表名的前缀
## 库命名规范
##### Ø规范:数据库名称长度
不超过8个字符
##### Ø建议: 库命名
尽量与项目名称一致
## 表命名规范
##### Ø规范: 长度规约
表名长度不能超过30,一般不超过五个英文单词,不推荐中文拼音(特定行业规范与约定表述除外)
##### Ø规范: 分段命名规约(待进一步商议)
例如:SYS_MOUDLE_ENTITY
SYS 表示所属的系统,一个简写单词(2-5个字符)
MOUDLE 表示数据库对象模块名或者主题分类,一个简写单词(2-5个字符)
ENTITY 表示业务实体名称,可以根据需要有多个单词组成(1-3个单词,用下划线连接)
##### Ø规范: 命名前缀规范(待进一步商议)
> 系统参数表 SYS_
> 用户、权限表 U_
> 系统日志表 LOG_
> 代码表
> 字典表 DT_
> 临时表 TMP_
## 字段命名规范
##### Ø规范:长度规范
字段长度不能超过20
##### Ø规范:前缀规范
列名无需使用前缀
##### Ø规范:多段式命名(待议)
列名采用多段式命名时,各单词间用下划线分隔
##### Ø建议:特定类型字段命名
日期类型字段:推荐以 DATE 结尾的名字命名
时间类型字段:推荐以 TIME 结尾的名字命名
##### Ø建议:主键列命名
为 ID 或者以 ID 为后缀进行命名,对于需要在其它表中引用的主键字段以“_ID”后缀方式命名
## 视图命名规范
##### Ø规范:前缀规范
视图的命名以V_开头
##### Ø规范:视图其它命名规范
参考表的命名规范
##### Ø建议:视图的列名
一般与基表一致,但是根据需要可以与基表的列名不同。
## 索引命名规范
##### Ø规范:前缀规范
索引的命名以IDX_开头,中间接表名,后面接字段名,如:IDX_TRENTBASE_PRIPID
# 基本设计规范
## 字段设计规范
##### Ø规范:主键
主键为带横杆的UUID,主键不表示任何业务含义
##### Ø规范:公共字段
ID 编号 VARCHAT(36)
Create_Time 创建时间 TIMESTAMP --默认为系统当前时间
Update_Time 修改时间 TIMESTAMP --默认为系统当前时间
交给持久化框架完成更新,SQL不需要特别编写
##### Ø规范:时间类型
一般时间精度使用DATE,保存到秒,例如“2010-11-22 11:22:36”
高精度使用TIMESTAMP,保存小数秒,例如“2010-11-22 11:22:36.000000”
特别说明:PostgreSQL数据库的DATE类型只精确到日期,无法保存时分秒,建议使用TIMESTAMP
##### Ø规范:数字、小数类型
不得使用VACHAR等字符串类型来保存,应该使用相应精度的数字、小数类型,确保定义时有默认值
##### Ø规范:财务金额类型
财务相关的金额类,必须使用decimal类型,确保定义时有默认值
##### Ø规范:大对象字段
ORACLE: 禁止使用CLOB类型保存大文本、图片和文件
MySQL:尽量不要使用TEXT数据类型,varchar类型支持65535字节,满足大多数场景
禁止数据库中存储图片、二进制数据,使用其他方式存储(例如文件系统,数据库只保存其地址信息)
##### Ø规范:表示状态的字段(码值)
表示简单状态的字段,字段not null,根据业务要求来设置默认值(例如默认为0)
对于Boolean类型,以1代表是(true), 0 代表否(false)
## 公共规范
##### Ø规范:冗余字段
反范式化冗余字段使用规范,考虑具体使用场景,当SQL关连查询比较频繁,或涉及到4张以上表时可考虑采用冗余字段
##### Ø规范:注释
所有表和字段都需要添加注释
表示状态的字段,注释中应该注明每一种状态的含义,例如“0:编辑中,1:审核中,2:已完成”
##### Ø规范:默认值设置
冗余字段尽可能把所有列定义为NOT NULL,定义时设置默认值
##### Ø规范:字段数限制
表的字段数不超过50个
##### Ø建议:逻辑删除标识设计
表中应有数据对应逻辑删除标识,用逻辑删除代替物理删除,标识数据是否已删除
##### Ø建议:关联字段索引设计原则
对于数据量大的情况下,建议将数据库字段中相关联字段进行索引添加,以提高相关关联查询效率
##### Ø建议:复合主键设计原则
对于部分简单的中间关联表,可设置表关联的复合主键,提高储存和索引效率,不建议使用业务相关字段作为复合主键
##### Ø建议:分区或分表设计原则
当数据量太大导致影响到查询速度或操作速度的时候,可根据实际情况进行分区或分表进行数据储存
##### Ø建议:冷热数据分离
尽量做到冷热数据分离,减小表的宽度
# 管理规范
##### DDL管理
代码表的方式,PDM的方式
##### 权限管理
分离运维账号、开发账号、系统运行账号
##### 数据字典管理
启动开发时建立数据字典,管理命名中使用的英文单词、英文单词缩写、拼音首字母缩写等,对用于命名的单词进行统一管理
##### 规范管理
DDL定义必须符合本设计规范,通过脚本校验工具(规避关键字、强制规范的校验)
# 基本理论基础
> 数据设计的三个范式 3NF
>
> 1. 表内的每一个记录都只能被表达一次;
> 2. 表内的每一个记录都应该被唯一的标识(有唯一键);
> 3. 表内不应该存储依赖于其他键的非键信息。
# 表的优化与列类的选择
总结:数据库优化无非就两个方面:“空间换时间,时间换空间”。几十年前内存比较小,那个时候写程序就是一个字节一个字节的扣,看谁用的内存少, 现在硬件都是廉价的,1T的固态加上上百G的内存都不算什么,所以现在都是什么东西都是往内存一扔,如,以前有1G的文本,要统计数量,这个在现在就比较落伍了,直接往内存一扔,暴力统计下就可以了。第三点就是磁盘上多费点,换取时间的取胜。
1、定长与变长分离
如:id int,占4个字节,char(4)占4和字符长度,也是定长。
即每一单元的值的字节是固定的
核心且常用字段,宜建成定长,放在一张表
如:用户姓名,等级是常用的,放在一张表里面,而E-mail,电话这些信息要点进去才能看,可以放在另外一张表
而varchar,text,blob这种变长字段,合适存放一张表,并用主键和核心表关联起来
2、常用字段和不常用字段要分离
需要结合网站具体的业务来分析,分析字段的查询场景,查询频率低的字段,拆分出来。
3、在一对多需要关联统计的字段上,添加冗余字段,用于统计分析
数据库设计一般有范式,范式越高,表就拆分的越细,但是这样设计不好,我们在设计中一般是反范式。
比如论坛,栏目,下面有个统计今日发文的数量,一般是 两表联合查询,这样比较消耗资源,我们可以添加一个【数量】的字段,每次发文就加1,每天清零,这样增加速度
列类型的选择
1、字段类型的优先级:
整型>date,time>char>varchar>text
列的特点分析:
1>整型:定长,没有国家、地区之分,没有字符集的差异
比如:tinyint 1,2,3,4,5 <----> char(1) a,b,c,d,e
从空间上,都是占用1个字节,但是 order by 排序,前者快
原因:后者需要考虑字符集与校对集(排序规则、大小写)
比如【 a B c D】 我们正常来说排序就是【 a B c D】 ,但是计算机是【 B D a c】
2>time定长,运算快,节省空间,考虑失去,写sql时不方便 where>'2005-10-12'
3>enum 能起约束表值的目的,内部用整数型来存储,单与char联查时,内部要经历串与值的转化
4>char 定长, 考虑字符集和排序,校对集
5>varchar,不定长,要考虑字符集的转换与排序时的校对集,速度慢
6>text 等大字段 无法使用内存临时表(排序操作只能在磁盘上进行)
以性别为例:
char(1),3个字长字节
enum('男','女') //内部转成数字来存,多了一个转换过程
tingint ,//0 1 2//定长字节
2、够就行,不要慷慨
原因:大的字段浪费内存,影响速度
以年龄为例tinyint unsigned not null,可以存储255岁,足够,用int浪费了3个字节
以varchar(100),varchar(300)存储相同的内容,单在表联查时,varchar(300)要花更多内存
3、尽量避免使用NULL()--mysql数据库的
原因:NULL,不利于索引,要用特殊的字节来标注;
在磁盘上占据的空间其实更大(mysql5.7已对null做了改进,但查询还是不便)
# 索引
数据库查询只会用到一个索引
1、在where 条件常用的列上,都加上索引
例:where id=3 and price>100 //查询栏目3,价格为100元以上的商品
误:id上和price上都加上索引
答:只能用上id或price索引,因为是独立的索引,同时只能用上1个
2、在多列上建立索引后,查询哪个列,索引都将发生作用
误:多列索引上,索引发挥作用,需要满足左前提要求
# 表更新
1、所有的执行语句必须加上事务,确定没有问题才能提交,更新数据范围不能超过100列,如果超过这个数,就必须DBA联系处理