根据柳长华“数字文献--中医药古代文献知识库”整理。
一、古代文献是中医学的主要知识资源
1、中国医药学是我国优秀传统文化的重要组成部分,构成这一传统文化知识资源的最重要的是其所拥有的古代文献,并具体反映在学习和研究者的知识来源上,这在中医学继承和发展过程中具有特殊的意义。
2、中医药古代文献是中医药学全部知识的主要继承物,理所当然成为继承的主要内容。
3、当前,中医药学的继承发展创新,对中医药古代文献这一知识资源的需求日益加大,开发知识资源,服务知识经济,发展知识产业,已成为全社会的共识。
二、实现中医药知识服务的途径--知识库
我国政府在十五计划中提出要加快我国数字化信息资源的建设,促进共公信息资源的共享,实现信息产业的跨越式发展。提出了“国家信息基础建设”这一宏伟目标。知识库建设已成为国内外最热门的研究领域之一。在继“数字地球”与“数字化生存”的概念提出之后,中医药界的有识之士也提出了“数字中医药”的构想。
2000年国家中医药管理局立项“中医药古代文献数字化关键问题研究”。
2002年国家科学技术部立项“中医药科技信息数据库”,将完成400种本草文献的数字化信息建设。
三、主要工作思路
中医药学的继承发展离不开古代文献。
如何充分利用古代文献--中医药古代文献的海量存贮与学者们“白首而穷一经”的知识获取方式,妨碍着对知识的利用。
中医药古代文献知识库建设将对存世的全部中医药古代文献进行整理、加工、入库,预计入库文献达5000余种。
知识库实现的系统功能是基于内容的查询。
1、中医药古代文献整理
古籍整理是数字化建设过程中的首要环节。
中医药古代文献知识库建设涉及到从汉到清二千年间产生并流传下来的近万种文献,除了内容的艰深以外,文献的特征性问题,如版本、书籍流传、书籍命名、作者、真伪、语言文字等也不容忽视。如何选择和选择什么样的文献入库,既是一个学术问题,也关系到知识库资源的品质。
2、知识表示
中医药古代文献的数字化,首先涉及到如何将文献中的这些知识转变为适合计算机处理的结构化知识。因此,知识库的知识表示成为知识库建设的核心问题。
中医药古代文献是一个知识系统,数字文献应能满足用户对知识获取的需求。
在此之前的古文献数据库,知识表示是一个瓶颈。
我们通过对中医药古代文献的内容和语义结构等的分析,提出了以“知识元”为核心的知识表示方法。
3、古籍数字化加工解决方案
(1)北京书同文数字化技术有限公司研制开发的数字化加工技术,将国际标准ISO/IEC10646-Unicode/CJK应用于大型电子出版物,并将OCR技术投入大规模工程应用。支持对古籍的扫描录入、识别与校对,差错率小于万分之二,对于项目实现古籍数字化加工提供了良好的支持。
(2)文字平台采用ISO/IEC10646:2000/Unicode3.1CJK+(32000余个中、日、韩汉字),并支持多文种并存处理;SD/SB(SingleData/SingleBinaryforMultilingualplatform),使软件系统成为全球可运行版。
数字化加工方案

4、解析标注
(1)中医药古代文献中蕴含着大量显含和隐含的知识。机器理解是未来的事,需要通过专家对文献的解析标注,以实现知识库中知识的有效查询和发现知识。
(2)解析标注是建立在知识元基础的上的专家对文献的理解和标注。
(3)专家对文献的标注,使文献中的显含和隐含的知识在概念一级实现关联,通过这种关联,形成一个知识网络。
(4)专家对文献的深度加工,回避了计算机对自然语言的理解。
(5)部分的实现了自然语言查询。
知识元关系图示

四、知识库主要系统功能
基于知识元知识表示方法建立的中医药古代文献知识库,其系统功能在关系型数据库的分类检索、关键字检索基础上进一步实现了内容的检索。
中医药古代文献作为专门领域的知识,其时间跨度虽然很大,但术语的应用却是相对稳定的,文献中意义相同或相近的概念以及围绕这个概念所使用的词语往往也是相同或相近的。当一个知识元中的元概念与多个语义成分进行关联后,就为我们展示了一种新的知识组合,所以,当这种相同和相近的关联关系达到一定的量,机器即可进行学习记忆。
计算机在对经过专家加工的知识进行学习、推理后,可以发现潜存于文献中的新知识。通常专家对文献的学习、把握往往是“白首而穷一经”,而在知识库中存在着大量经过多学科专家加工过的有一定规则的知识,计算机对大文本的快速计算和统计能力,以从中找到一些未知的规律性知识。
11:18,
#, By xp
读书:他山之石,
信息:医药教育