• Cehui8.com 测绘地理信息领域专业门户
  • 首页 > 测绘论文 > 其他

    试论城市地址编码问题

    2013-07-06 22:21:52 来源: 测绘论坛 作者:熊允泰,何塞峰,高三幸
    聊聊

      一、问题的由来
        对地理实体的标识是地理信息系统研究的重要问题,这就是地址编码(geocoding)问题。地址编码有很多方面,但主要的问题是如何为每一个特定的地理要素或位置指定一个唯一的标识码。这方面已经做了大量工作。例如邮政编码、行政区域代码、道路代码、河流代码等。对于数字城市来讲,很多这类面向全球或全国的代码不够细,而且其中存在着相互矛盾的地方。
        城市各行各业都搜集、保存着大量的与空间位置有关的信息。多数这类信息均包含位置信息,一般是地址,如“北京市海淀区玉渊潭南路21号”等。也有一些数据集是和邮政编码或居委会挂钩的,这类数据的空间最小单位一般比较粗,多用于较比宏观的问题分析。地址信息实际上是一种空间信息,应当能利用这些数据进行如分布密度、资源配置、最佳路径等属于空间分析方面的分析工作,为各种决策提供依据。可是,由于地址信息并不直接等同于空间的地理位置,需要有一个由语义到地理的转化过程,这就是地址编码工作或技术。由于这方面的研究在我国还不是很深入,既缺乏统一的标准,又缺乏有效的服务,实际上已经成为在城市普及和推广地理信息系统应用的一个瓶颈。我们这里讨论的是自动化的地址编码技术。可以设想如果有一套成熟的标准和技术,那么,一个派出所可以很方便地从它保存的人口数据得到管片的人口密度图。一个防疫站可以将它的疫情信息转化为一张疫情分布图,等等。这样就使分散在各部门的数据能具有统一的空间参照系,便于数据的集成和空间分析,从而使决策更为科学和接近实际。本文围绕城市地址编码问题,介绍基本概念和应用,概述国内外有关地址编码问题的研究发展情况,并介绍北京市测绘设计研究院在城市地址编码标准化方面所进行的研究工作。
        1.什么是城市地址编码
        我们这里给出关于城市地址编码的基本概念,而不是严格的学术定义。如何定义“地址编码”(GEOCODING)留待学者们研究。广义地讲所谓地址编码就是为特定的地理要素或位置指定唯一的标识码的过程(请读者注意,我们这里讲的是标识码,而不是分类码)。在城市中有很多现成的地址编码可以利用。最明显的例子就是行政区划代码和邮政编码。但是大多数现存的编码体系,所定义的对象范围较大,不能满足城市信息定位的要求。地址则是城市中普遍采用的空间定位约定。由于历史的原因,城市地址对于严格的空间定位来讲,存在着不规范、不唯一等问题。为了准确进行空间定位还需要做一些额外的工作,这就是狭义的地址编码。这里所谓地址编码是一个将数据库中保存的地址信息与另一个数据库进行匹配的过程,结果可以得到与地址相应的x、y坐标或经、纬度,从而确定了该信息相应的空间位置。国外也有将这个过程称为“地址匹配”(Address Matching)的。也可以将地址编码解释为一种确定信息空间位置属性的约定或标准。例如邮政编码就可以认为是一种地址编码。
        设想有一个小学校,保存有一套学生数据,其中包含每个学生的家庭地址。但仅有这些信息,学校无从知晓学生家庭的远近及其分布情况。但是经过地址编码处理之后,每个学生的记录中,都将包含与他的家庭地址对应的空间位置信息(或者是经纬度,或者是x、y坐标)。处理的方法,通常是将地址和一个事先已经建立的数据库(此后,我们将此数据库称为地址编码数据库)进行比较,找出相同的街道名称,然后再根据门牌的编排规则(单、双号分别在道路两侧、门牌依顺序排列等)及道路交叉处的门牌号等进行插值,最终得到所求地址的位置。其准确程度受很多因素的影响,并不是十分精确。但无论如何,比邮政代码或居委会范围所确定的位置要精细多了。
        地址编码数据库通常须由专门的业务部门(例如统计部门)负责调查建立和维护更新,并向公众提供。随着信息化进程的发展,需要进行地址编码或地址匹配的单位和部门越来越多,于是就出现了专门进行地址编码转换工作的服务部门。有些发达国家这类服务相当兴旺。
        为了提高地址编码的准确性和可操作性就需要建立和推行一套标准。这包括地名命名标准、地址标准和编码标准等。有两种路线来实现标准化。一种是先在广泛调研的基础上,集中各有关行业和部门的意见,制定出标准(国标或市标),再予以推行。另一种是地址编码数据库的建立与维护单位,按其自行制订的规范,不间断地向各行各业提供数据,从而形成事实上的标准。
            2.城市地址编码有哪些应用
        在各行各业的规划、管理和运营活动中有很多需要地址信息,进而需要地址编码的应用。以下是一些常见的应用。
        根据用户的地址,一个公司可分析其用户的分布情况,又可通过市场分析确定进一步的营销策略,改进服务网点的分布。
        公安部门可按地址分析犯罪分布情况,并可与其他数据如人口调查数据叠加在一起,分析犯罪因素。
    急救部门和各种公用事业的应急部门可利用地址编码迅速确定事故现场的位置并派送应急人员赶赴现场。
    环境保护部门可根据有害物质存储的地址,通过与人口分布信息的叠加,预先估计其污染的影响,并制订发生意外事故时紧急疏散的方案。
        还可以举出一些,此处不再一一列举。总之,地址编码有广泛的应用。
        二、国外发展情况简介
        发达国家的数字化进程起步比较早,发展也比较快。我们这里简要介绍一下美国的情况。美国的人口调查和统计主要由美国国情普查局(Census Bureau)负责。多年来该局在地址编码方面做了很多工作,对在美国推动地理信息系统技术的普遍应用发挥了重要的作用。
        早在六十年代中期,为了挖掘统计信息的潜力,推广其应用,美国国情普查局成立了专门的委员会。经过研究提出人口普查信息应具有空间定位信息。为配合1970年的人口普查,在1967年研究发展了“双重独立地图编码系统”(Dual Independent Map Encoding,DIME),并成功应用于1970年的人口普查。DIME的基本思想是按照各要素的拓扑关系来组织数据,形成一个地理基础文件系统(Geographic Base File,GBF)。特别值得一提的是,在城市道路中心线的每个弧段均带有道路左右两边的门牌起止信息,为地址信息的定位奠定了基础。在随后进行的人口普查工作中普查的分区及调查、数据的整理,都以这个地理基础文件系统为参照。DIME的开发在地理信息系统技术的发展史上具有里程碑的意义。一批以地址编码为主业的企业随之诞生,一些著名的GIS软件公司以DIME的基本思想形成了其软件的基本数据结构。
        八十年代后期,为了准备1990年的国情普查,美国国情普查局将DIME系统发展为TIGER(Topologically Integrated Geographic Encoding and Referencing)系统。意为拓扑集成的地理编码与参照系统。TIGER数据库是1990年人口调查用的覆盖全国的所有地图的资料库。为了支持人口调查时对地图的需要,以便为统计数据、居民和雇员的地址等数据空间定位提供合适的地理结构。TIGER数据库的内容处于不断更新之中,差不多每两年就有一个新版本发布。TIGER数据库以多种形式的TIGER/Line文件向社会公众提供。只需要付一定的工本费,就可以方便地得到所需地域的TIGER数据。
        由于TIGER数据库覆盖范围广,精度好,更新有保证,而且能以较低的费用很容易地得到,所以作为地址编码的参照系,在美国已经成为一种公认的标准,其影响是非常大的。
        三、国内发展情况简介
        在我国,从八十年代开始,一部分城市的规划、测绘及管理部门对城市地址(地理)编码问题相继开展了研究工作。北京市城市规划设计研究院在八十年代末期即着手研究北京市的地理编码问题,上海、广州、深圳、常州等一些城市在建立城市地理信息系统的同时也开展了相应的研究。
        北京市城市规划设计研究院信息所在1988年开展了《北京市城市地理编码》的项目研究。他们认为:城市地理编码系统是建立城市地理信息系统最基础的工作之一。系统是对城市地理要素进行编码,即将地面空间信息与地理编码加以描述的系统,是实现城市地理信息系统中地理数据之间合理连接的关键工具。该项目的主要研究内容是对城市地域范围内的地理要素进行编码设计和建立北京市城市地理编码数据库应用管理系统。以该项研究的成果为基础,于1993年批准发布了国标:《城市地理要素—城市道路、道路交叉口、街坊、市政工程管线编码结构规则》(GB/T 14395-93)。可以认为,在城市地址编码方面,北京市城市规划设计研究院信息所做了开创性的工作。但由于当时条件和环境的限制,现在看来,该项目的研究目标即“实现地理数据之间合理连接的关键工具”没有充分实现。所编制的地理编码基本属于属性码的范畴,未能与空间数据进行有效的连接,且过分依赖于城市的道路布局,采用人工编制工作量太大,不便进行更新和修改。由于存在这些局限,这项研究成果未能在更大的范围推广。
        其它几个城市的情况也基本与北京类似。近几年来,城市地理信息系统的标准化工作已经引起了政府有关部门的重视,但已开展的工作大多集中在对数据的分类编码和数据交换格式的研究等方面,而对城市地址编码的研究并不多见,结合空间定位信息的还没有。
        四、关于城市地址编码标准化问题的探索
        1998年,北京市测绘设计研究院承担了《城市地理信息系统地址编码规则》课题。它是国家测绘局“九五”测绘科技攻关项目《地理信息技术标准化、规范化研究》中《城市地理信息系统建设标准研究》课题的一个专题。在为时三年的研究工作中,我们在对于我国的城市地理信息系统现状进行调查研究的同时,认真学习、分析、研究了能够收集到的一切国内外已有的有关国家标准和行业标准及相关资料,在此基础上,制订了标准的推荐文本。
        城市地理信息系统的建设和应用本身就是一个巨大而复杂的系统工程。这类系统的数据来源广泛,数据量庞大,但又要求能够相互兼容和沟通。系统要服务于多层次和多用户,面对着千差万别的需要。而统一的空间定位控制是各类城市地理信息空间定位、相互拼接和配准的基础和必备条件。在UGIS的建设中,需要根据城市特点,设计统一的空间定位单元。
        从这一点出发,我们明确了以下几点:
        1.主要研究内容为:以城市GIS中与地址有关的信息为对象,研究城市中具有定位、标识意义的相关信息的分类体系,确定地址信息的基本数据单元、逻辑组织及相互间数据形式的表示方法,提出适合城市GIS使用的地址编码方案和标准。
        2.制订本标准的基础是已经或正在建立的城市基础地理信息系统,当然其中至少要包括基础地理信息数据库、城市道路数据库和地名数据库等与地址有关的数据库。
        制订本标准的技术难度较大,研究内容涵盖面较广,涉及到全国众多的城市和相关的规划、建设、管理等许多部门,其需求差异很大,因此制订出能够满足各方面要求的统一标准是非常困难的。其中,几个关键问题如下:

    (1)研究制订划分城市地址单元的准则并合理划分城市地址单元
        由于在我国涉及地址的表达方式很多,在城市地理信息系统中与地址有关的基础地理信息也很多。以北京为例,具有方位、标识意义的就有道路、行政区划、地名、门牌号码、单位名称等数种,且已约定俗成,很难统一为一种模式。而各个专业信息系统对于划分地址单元的要求也是五花八门,差距很大。
    在这种情况下,经过反复研究,根据我国的国情,借鉴国内外的经验,结合各城市建立UGIS的现状并考虑未来城市地理信息系统的发展和应用趋势,我们认为:解决问题的最佳途径是从事物的本质出发,在基础地理信息系统中以最基本的空间单元点、线、面为基础,构成最基本的地址单位,并据此编码,形成相应的数据文件,作为索引,与其它数据库连接,从而实现地址信息的空间定位,实现地址信息与空间信息的双向转换。
        本专题的研究对象—城市地址编码,其实质就是城市地址单元问题。所谓城市地址单元,根据我们的研究成果确定为在城市中由道路、河流、铁路和各级行政区域边界等各种要素组成的互不重叠的、不规则的多边形,每一多边形就是一个地址单元,并应具有唯一的代码。这种多边形是最小的、不可再分的,在此基础上可以组合成满足各种应用需求的区域。而各种统计资料和规划指标应按照相应的地址单元汇总数据并应有要素所在的地址单元的代码,这样在查询、分析、汇总时,只要获得地址单元的编码,即可知道要素的空间位置,空间定位非常方便。
        (2)制订编码方案的设计原则
        在合理划分城市地址单元的基础上,制订城市地址编码的设计原则时应主要考虑以下几点:编码结构应合理适用,应根据城市的特点以及不同应用部门的需要综合确定;编码应能较好地反映地址单元在城市中的地理位置;编码应具有规范性和唯一性,在同一个城市中,地址单元的编码结构类型应尽量统一并且每个地址单元的代码应是唯一的,编码应具有可扩充性,以适应城市发展的需要。
        (3)确定编码的具体形式
        在推荐文本中,地址编码规则共包括三种地址单元代码:
        点地址单元代码:点地址单元代码由点单元编号、Y方向码、X方向码三项组成。其中,点单元编号可以是从信息系统中提取点单元时产生的顺序号,其位数可根据该系统中点单元的数量确定,Y方向码和X方向码可直接采用该点单元Y坐标和X坐标的整数位。包含点单元代码的文件是点单元文件。在点单元文件中应包括该信息系统中各层所有线状要素的交点和端点。文件中至少应有点单元代码、与其它数据库的连接项、原数据库名等内容。
        线地址单元代码:线地址单元代码由线单元编号、起点点单元编号、终点点单元编号三项组成。其中,线单元编号可以是从信息系统中提取线单元时产生的顺序号,其位数可根据该系统中线单元的数量确定,起点点单元与终点点单元是组成该线单元的两个点单元,其编号取自点单元文件,从起点到终点的方向即是该线单元的方向。包含线单元代码的文件是线单元文件。在线单元文件中,应包括该系统中各层所有由点单元连接成的线单元。在该文件中,至少应有线单元代码、与各数据库的连接项、原数据库名等项内容。
        面地址单元代码:面地址单元代码由面地址单元编号、中心点Y方向码、中心点X方向码三部分组成。包含面地址单元代码的文件是面单元文件。在面单元文件中,应包括该系统中将所有的线状要素叠加到一起后所产生的不可再分的面单元,面单元是由一组相连的线单元组成的。在该文件中,至少应有面单元代码、组成该面单元的所有线单元的编号、与各数据库的连接项、原数据库名等项内容。其中,面单元编号可以是从信息系统中提取面单元时产生的顺序号,其位数可根据该系统中面单元的数量确定,中心点Y方向码和中心点X方向码可直接采用该面单元中心点Y坐标和X坐标的整数位。
        由于以上三种单元文件中的单元编号均为随机产生的顺序号,无需人工编制,因此编制速度很快,且更新方便。
        (4)制定本标准的方法
        本专题所研究的城市地址编码问题,在国内外均有经验可供借鉴。在国际上,美国、英国、香港等一些国家和地区,从七十年代起就陆续制订了与此相关或相近的标准。在国内,国家技术监督局已颁布了一系列与本专题相关的国家标准和行业标准,一些城市部门也正在制订本部门的标准。本专题的研究,充分利用已颁布的有关标准以及各城市在建立GIS过程中形成的相关研究成果,借鉴国际UGIS的相关标准并注意同其实际研究应用成果的接轨,结合我国城市地理信息系统的特点和国情,提出初步方案。制订UGIS的标准如同其他领域的标准化一样,各项标准之间的内在联系非常密切,相互关联,互为因果。因为研究内容所涉及的范围较广,全国各城市、各单位的情况差异较大,我们在研究中特别注意征求不同城市、相关单位和各方面用户的意见,认真听取他们的看法,采取广泛函调与重点调研相结合的方法,集思广议,逐步完善,并通过小范围试验,验证方案的可行性和实用性,最后提交了“城市地址编码”标准的推荐文本。

      声明①:文章部分内容来源互联网,如有侵权请联系删除,邮箱 cehui8@qq.com

      声明②:中测网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。

      加群提示:我们创建了全国32个省份的地方测绘群,旨在打造本地测绘同行交流圈,有需要请联系管理员测小量(微信 cexiaoliang)进群,一人最多只能进入一个省份群,中介人员勿扰

    返回顶部