数据是GIS的基础,几乎所有GIS运作的基础都离不开数据。GISer中关于数据的“行话”是最基础的。
1. 四种测量方式(Level of Measurement)
所谓的四种测量分别是定类变量(Nominal)、定序变量(Ordinal)、定距变量(Interval)和定比变量(Ratio)。
定类变量,即指出类别的变量,通常只有分类没有数值,更不能比较大小。最常见的定类变量就是“性别”,无论是“男”、“女”,还是“无性别”,都只能表示事物的类别,就像“水果”和“蔬菜”一样,把他们相加减或是相乘除都没有任何意义。
定序变量,即含有顺序的变量,此种变量可能有数值,比如比赛的排名(第一名、第二名、第三名、第四名),或是年级(大一、大二、大三、大四),但这些数字只表示顺序、并没有数学意义,也就是说依然不可以进行加减乘除等运算。
定距变量,即两个值的差有数学意义并且可以比较;定比变量与定距变量十分类似,最大的差距就是定比变量有绝对的“0点”,并且0的含义是没有和不存在,这与定距变量中设置的0是有一定区别的。比如,摄氏度和华氏度的0度都是人为根据相关物理现象设定的,就只能认为是定距变量,而降水量则是定比变量,因为降水量为0是非常自然的没有降水的指示。
其实在英文中,所谓“四种测量方式”的表达直译过来是“测量级别”的意思,也就意味着这四种方式确实是有级别的高低之分的。最低的是定类变量,其次是定序和定距,最高的是定比。这个倒不是说定比变量比其他变量更高贵,而是这个在这个等级之中,等级高的变量含有更多的信息,也可以向等级低的变量转换,但是反之,等级较低的却不含有向等级较高的变量转换的信息。
举一个比较经典的例子,10位选手参加比赛,分别取得第一名到第十名,而前三名可以获得奖牌,则拥有了第一名到第十名的排名数据(定序变量),则可以知道哪些选手获得奖牌而哪些选手没有(定类变量,获得奖牌/未获得奖牌)。所谓等级的意义就在此。
2. 一手数据和二手数据(Primary Data and Secondary Data)
相对比较易于理解的概念,一手数据通常是自己(或自己的团队)采集整理的数据,而二手数据则是别人收集整理的数据,通过他人的发布或者向他人购买获得。大多数人认为二手数据用的比一手更多,因为通常收集数据所消耗的人力和财力是巨大的,需要大型的组织完成,不过具体还是要看数据的类型。
3. 精确度、准确度、有效性和可靠度(Precision, Accuracy,Validity and Reliability)
这个概念通常用于评判一个数据的质量。精确度和准确度在中文中非常好区分,从名字上就阐述得非常清楚了,但是我在美国的时候每个老师都需要反复强调这两个的区别。
精确度,通俗来说就是我们数学常说的“保留到几位小数”,与数值本身是否准确反映了现实无关。这个精确度通常与测量工具的精确度有关系,比如尺子的刻度到分米、厘米还是毫米,决定了测量结果的精确度。
准确度,则恰好指示了数据是否正确反映现实,错误的测量方式会导致准确度下降。一个数据可以同时有非常高的精确度和非常低的准确度,这两者之间并没有绝对的联系。比如物化实验中使用的量筒,如果使用者没有保持水平,即使量筒的精度极高,也会导致数据准确度的不足。
有效性通常是运用在衡量数据采集的标准上的。在衡量一个不太容易直接测量的现象时,我们是否测量了正确的数据是有效性判断最主要的内容。比如,想衡量一个学校的“教学质量”,需要测量哪些数据,是成绩?还是学生对老师的评价?数据的有效性就是这样体现在测量的内容是否可以支撑最终想衡量的现象。
可靠度,通常由数据与数据之间的一致性和稳定性决定。由于数据的收集通常需要一个时间段,而不是突然同时完成的,不同的日期、环境和采集方式都会影响数据的可靠度。通常情况下,在相对较短时间内收集的、采集方式具有一致性的数据可靠度更高。
4. 矢量数据和栅格数据 (Vector Data and Raster Data)
终于说到矢量数据和栅格数据了,几乎所有人提到GIS都会先将这个点提出来。几乎只要提问是有关GIS的,下面的回答里就一定会有人将GIS的矢量数据和栅格数据拿出来讲解一番。准确来说,矢量数据和栅格数据并不算是数据的类型,而是GIS之中的两大数据结构。
矢量数据在GIS之中主要由几何形状组成,包括点、线和多边形(Points, lines and polygons),优势在于可以较为精确地表达大陆、河流、海洋或是其他类型区域的形状和轮廓,结构干净没有冗余。矢量数据储存空间小、对计算机的要求较低。
精确的同时,矢量数据有一个很大的优势在于存储拓扑结构(Topology),拓扑可以帮助探测数据中存在的不合理的交叉、空缺等,所以可以说是非常重要的结构之一。但是,精确也意味着复杂,数据的矢量化是十分耗时,另外矢量数据之间的叠加也比较麻烦,逻辑上并不如栅格数据那样简单、清晰。
栅格数据结构则是以像素格、也就是栅格为基础的。每个栅格会储存相关的数值,并且连成一个完整的平面。
栅格数据的最大优势在于叠加,相对应的栅格也可以进行数值的加减乘除。但是栅格数据不能存储拓扑结构,同时由于数据结构比较简单因而相对不如矢量数据灵活。同时,因为栅格在形状表达上的局限性,栅格数据在表现某块区域的时候也不如矢量数据那样精确,若是一块边沿形状弯曲多、不规则的大陆,栅格数据结构对于这块大陆的表现受到栅格本身严整正方形的局限,就自然会有很多不准确的地方。
在数据的存储上形式矢量和栅格结构也不太一样。比如在ArcGIS之中,矢量数据结构下打开一个图层数据表格(Attribute Table),结构大致是某个形状对应的ID,再对应有关的数据。这里的数据可能有不同的种类,比如某个普查区对应的ID后,可以存储收入中位数、本科学位比例等数据。栅格数据结构的图层对应的表格则简单得多,通常一个格子的ID对应一个数值,这个数值是单一的。
动态数据分析型
读“我国某地区乡村地区空间分布与海拔关系图”,回答1~2题。
1.下列表述和图示对应正确的是()
A.乡村聚落个数增多的区域也就是面积增大的区域
B.图示乡村聚落面积与个数分布均呈正态分布的空间集聚特征
C.乡村聚落面积最大区域2013年与1995年相比聚落个数变化不明显
D.乡村聚落个数最多的区域2013年与1995年相比聚落面积没有变化
2.对图示区域聚落的描述,最可能的是()
A.该区域聚落民居屋顶多平顶
B.该区域聚落民居受地形影响较大,注重散热通风
C.该区域聚落分布受地形影响不大,最典型的民居是四合院
D.该区域聚落最典型的民居是窑洞
青海湖是青藏高原的内流湖,湖中盛产裸鲤,近年来水位有所上升。经研究发现,该湖蒸发量与降水量呈负相关。下图示意“公元1000~2000年之间青海湖盐度和流域内某地降水量变化”。据此完成3~4题。
3.1500~1600年间青海湖盐度变化及主要影响是()
A.升高——湖面冰期延长
B.降低——湖面不易结冰
C.升高——裸鲤数量减少
D.降低——鸟类数量增加
4.近年来青海湖盐度呈减小趋势,对此解释不正确的是()
A.流域内降水量增加
B.流域内蒸发量减少
C.高山冰雪融化量增大
D.流域面积增加,入湖水量增多
读“1952~2005年间我国棉花播种面积、产量变化图”,完成5~7题。
5.与辽河流域相比,西北内陆棉花集中产区的优势条件是()
A.光热充足 B.土壤肥沃
C.劳动力丰富 D.农业技术先进
6.该时段,我国棉花生产()
A.播种面积扩大
B.播种面积持续缩小
C.单位面积产量显著提高
D.单位面积产量显著降低
7.导致该时段我国棉花播种面积变化的主要原因是()
A.气候变化 B.土地退化
C.城市化 D.市场变化
影响我国人口迁移的因素主要有三方面:一是人口迁出和迁入省份的“推力”和“拉力”;二是人口迁出省份的迁移能力,包括劳动年龄人口数量和人口平均受教育年限;三是迁移成本,其中交通成本与迁移距离呈负相关。下图示意“2010~2030年我国省际人口迁移及预测”。据此完成8~9题。
8.下列叙述正确的是()
A.山东省2010年迁移人口规模不足百万
B.2010~2030年我国省际人口迁移速度放缓
C.2020年和2025年的迁移人口规模相差最小
D.2010~2030年上海迁移人口规模超过2 000万
9.该时期我国省际人口迁移规模的变化是由于()
A.交通条件改善,迁移成本降低
B.人口出生率提高,劳动年龄人口增多
C.区域差距缩小,乡村推力减小
D.教育事业发展,人口受教育年限延长
据人口统计,中国的生育高峰在1991年停止,此后,全国新生婴儿数目下降趋势一直持续到2000年。下图为“1984~2020年高等教育适龄人口数变化趋势图”。读图,完成10~11题。
10.下列时段新生婴儿数量下降最快的是()
A.1966~1973年
B.1973~1980年
C.1980~1990年
D.1990~2020年
11.由图文材料推断,全国高考人数的下降趋势将持续到()
A.1998年 B.2008年
C.2018年 D.2028年
下面图1为“我国某省1990~2015年六种土地利用类型面积(单位:km2)变化图”,图2中甲、乙、丙分别表示该省三种不同地形某时期水域的变化情况。据此完成12~13题。
12.该省最有可能是()
A.青海省 B.台湾省
C.江西省 D.江苏省
13.甲、乙、丙对应的地形类型分别是()
A.丘陵 高原 盆地
B.山地 丘陵 平原
C.平原 山地 高原
D.盆地 山地 丘陵
下图为“我国某城市不同年份各年龄段人口数量占比图”。读图,回答14~15题。
14.与2000年相比,2016年该城市()
A.人口总数减少
B.老龄化加剧
C.平均年龄减小
D.劳动力增多
15.影响该城市人口年龄结构变化的主要因素是()
A.自然增长
B.医疗水平
C.机械增长
D.生育观念
胡杨广泛分布于我国西部的沙漠地区,其首要作用在于防风固沙,下图为“2014年我国某胡杨林研究区4~11月胡杨蒸腾速率和风速的变化示意图”。据此完成16~18题。
16.据图推测,该研究区的风沙天气多出现在()
A.春季 B.夏季
C.秋季 D.冬季
17.相对来说,对胡杨蒸腾速率影响最大的因素是()
A.风速 B.气温
C.降水 D.土壤
18.根据其生长环境推测,胡杨()
A.属常绿阔叶林 B.根系发达
C.不耐盐碱 D.为地带性植被
下图是“我国分区耕地年均变化面积和变化速率统计图”(正值增加,负值减少)。读图,回答19~20题。
19.关于我国耕地变化,下列叙述正确的是()
A.耕地变化速率最大的是中部地区
B.耕地面积变化最大的是西部地区
C.东部耕地减少加速,西部耕地增加减缓
D.耕地增加的重心由东部向西部移动
20.关于我国耕地变化的原因,分析正确的是()
A.东部耕地面积变化主要是工业化和城市化
B.西部耕地面积变化主要是退耕还林还牧
C.中部耕地面积变化主要是开发宜农荒地
D.东部耕地面积变化主要是农业结构的调整,粮食作物减少,蔬菜花卉面积增加
1.B 2.B
解析 第1题,由图可知,个数增多的区域明显不是面积增大区域,A错;聚落个数和聚落面积分别以某一海拔高度为中心点向两边高海拔和低海拔呈正态分布,B对;乡村聚落面积最大区域在海拔200~300 m之间,该区域聚落个数变化明显,C错;乡村聚落个数最多的区域在海拔300~400 m之间,聚落面积变化明显,D错。第2题,从聚落分布的海拔高度来看,该区域在南方低山丘陵地区,平顶屋主要分布在西北干旱半干旱地区,A错;南方低山丘陵受地形影响较大,而且夏季高温,房屋需注意通风散热,B对;四合院是北方典型民居,C错;窑洞是黄土高原区域的典型民居,D错。
3.D 4.D
解析 第3题,1500~1600年间,湖水盐度降低,水生浮游生物增多,鱼的饵料增多,以鱼为食的鸟类数量增多,D正确。第4题,流域面积一般是以高大的山脉为界,因此流域面积不会增加,D正确。
5.A 6.C 7.D
解析 第5题,与辽河流域相比,西北内陆地区夏季光热充足,A正确。第6题,由于经济的发展,生产技术的提高,单位面积产量大幅提高,C正确。第7题,市场决定农作物的生产类型和规模,D正确。
8.B 9.C
解析 第8题,由图可知,山东省2010年迁移人口规模超过百万,A错误;2010~2030年我国省际分阶段人口迁移规模减小,说明人口迁移速度放缓,B正确;2020年和2025年的迁移人口规模相差较大,2015年和2020年相差最小,C错误;2010~2030年上海迁移人口规模约1 500万,D错误。谭老师地理工作室综合整理第9题,该时期我国省际人口迁移规模的变化是由于区域差距缩小,乡村推力减小,人口迁移规模减小,C对;交通条件改善,迁移成本降低,不是迁移规模减小的原因,A错;人口出生率提高,劳动年龄人口增多与迁移规模减小无关,B错;教育事业发展,人口受教育年限延长,迁移规模可能增大,D错。
10.B 11.C
解析 第10题,结合图示信息1991~1998年高等教育适龄人口数下降最快,一般上大学的年龄是18岁前后,可推测1973~1980年新生婴儿数量下降最快,选B。第11题,一般入读大学的年龄为18岁前后,根据材料,全国新生婴儿数目下降趋势从1991年一直持续到2000年,18年后即2018年,全国高考人数的下降趋势将会缓解,选C。
12.C 13.B
解析 第12题,该省耕地、林地面积比重非常大,排除青海省、江苏省;从图可以看出,从2000年之后,该省城乡建设用地迅速增加,可以判断该省从2000年之后城市化迅速发展,不符合台湾省城市化进程,C正确。第13题,从水系分布形态与密度来看,甲、乙为山地和丘陵,丙为平原。从水域变化情况来看,甲水域面积显著扩大且沿谷地分布,可能是由于在山地修建水库所致;乙河流数量显著减少,可能是由于在丘陵地区开垦耕地或者增加建设用地;丙水域面积明显减小、河流数量减少且变为直线形态,可能是由于围湖造田以及修建排灌系统所致,B正确。
14.D 15.C
解析 第14题,图中显示的是人口占比变化,无法根据图示信息比较人口总数,A错误;由图可知2016年该城市60岁及以上人口占比不足5%,不存在老龄化问题,B错误;2000年16~40岁人口占比最高,约占80%,2016年21~50岁人口占比最高,说明人口平均年龄增加了,C错误;2000年该城市25岁及以下人口占比较大,该年龄段多数人口当时还没有参加工作,2016年25岁以上人口占比较大,该年龄段多数人口已经工作,故选D。第15题,2000年至2016年,该城市人口平均年龄明显增加,主要是由于经济发展迅速,城市化进程呈加速发展态势,大量劳动力人口涌入城市,C正确。2000年至2016年,0~5岁人口占比呈下降态势,人口自然增长率降低,A错误;劳动力人口的增加与医疗水平、生育观念没有直接关系,B、D错误。
16.A 17.B 18.B
解析 第16题,春季气温回升快,地表干燥,多大风,更容易出现风沙天气。图中也显示春季风速较大。第17题,读图可知,夏季蒸腾速率大于春季和秋季,但夏季风速小于春秋季节,说明气温对胡杨蒸腾速率的影响比风速大;胡杨生长于干旱地区,降水稀少,土壤季节变化不大,故降水和土壤对胡杨蒸腾速率的影响较小。第18题,胡杨生长于温带大陆性气候区,气候干旱,夏热冬冷,为落叶乔木;为了获取水分,干旱地区的植物普遍根系发达,耐盐碱;胡杨生长在荒漠中水分条件相对较好的地方,为非地带性植被。
19.D 20.A
解析 第19题,我国耕地整体是东部在减少,西部在增加,重心在西移,D对;耕地变化速率最大的是东部地区;面积变化最大的也是东部地区;东部耕地减少的速度在变缓,西部耕地增加的速度在增加。第20题,东部地区耕地面积减少,主要是产业结构的调整,工业化和城市化对耕地的占用,A对;西部耕地在增加,应该是开垦而不是退耕还林还牧,B错;中部地区耕地面积在减少,开发宜农荒地会使耕地面积增加,C错;农业结构的调整中,粮食作物、蔬菜和花卉面积不影响耕地面积变化,D错。