CalendarSort Archive BlogLink Ours |
KDD 在中医药领域的若干探索 作者:吴朝晖、封毅
中医药学是中华民族五千年优秀文化和科学历史发展的积累,为人民的健康和生存质量的提高作出了极大贡献。几千年来,中医药领域的无数临床实践与理论研究积累了海量的科学知识,这些知识包含在中医药古籍、文献以及当前的临床研究文献中。据统计,目前国内收藏的辛亥革命以前的中医药学古籍文献1 万3 千多种,其中在社会上流通较广的古籍近1000 种。与此同时,现当代出版的大量中医药图书和期刊中也包含着有价值的大量信息。仅中医研究院图书馆就收录了1911 年以后出版的中医药图书达12000 多种,中医期刊230多种。根据中国中医药期刊文献数据库的数据显示,1987-2003 年发表的中医药文献高达530,700 篇。面对如此海量的中医药数据,如何有效的利用这些宝贵资源就成了发展中医药必须面对的一个问题。而KDD 所擅长的正是从海量的数据当中寻找有意义的模式、知识,完成普通人不能够完成的任务,是分析中医药的海量数据所需要的技术。 从技术角度来讲,常用的KDD 技术包括高频集/关联分析、分类/预测、聚类分析、孤立点分析、时序/序列分析等等。高频集的任务在于找寻给定的数据集中出现频率达到指定阀值的频繁模式。关联分析则基于高频集的结果挖掘数据集中项与项之间的有意义的联系。分类和预测都是通过训练数据集建立模型并使用该模型对数据进行分类或预测未来数据趋势的过程,其中的类需要预先定义。分类和预测的区别在于分类建立的是离散值的模型,而预测建立的是连续性函数模型。聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类与分类的区别在于聚类不依赖于预先定义好的类,不需要训练集。数据集当中那些不符合数据一般模型的数据被称为“孤立点”。孤立点在传统的统计方法当中往往被当作是噪声而去除,但事实上却可能包含重要的隐藏信息。孤立点分析就是对这些隐藏信息的探测和分析。时序数据是指随时间变化的值或者事件,序列数据指的是有序事件,它可以有时间标记,也可以没有。时序/序列分析就是从给定的数据集中发现趋势变化、序列模式、周期模式等有用知识的过程。 KDD 技术经过这10 几年的发展,在每个子任务上都已经出现了一系列代表性的算法。以聚类为例,代表性的算法包括k-means、BIRCH、CURE、DBSCAN 等等。目前KDD 技术的一个发展趋势就是处理对象的多样化。从传统的关系数据库,走向了分布式数据库、移动设备数据、多媒体数据、Web 数据、基因芯片数据等等。这些数据与传统的关系数据库相比,有其自身的独特性,因此针对各种数据特点的新算法也层出不穷。随着更多特定数据对象的出现,KDD 技术也将获得不断的发展。同样,中医药数据的特点也将促成已有方法的进一步完善和一些新方法的出现。 作者对KDD 在中医药领域的探索有下列几方面: 1)利用高频集算法对方剂配伍规律进行知识发现; 20:15, #, By xp 读书:他山之石 |

