支持向量机算法和软件ChemSVM介绍
陆文聪1,陈念贻1,叶晨洲2,李国正2(1上海大学化学系计算机化学研究室,上海,200436)(2上海交通大学图象及模式识别研究所,上海,200030)
摘要VladimirNVap
ik等提出的统计学习理论(statisticallear
i
gtheory,简称SLT)和支持向量机
(supportvectormachi
e,简称SVM)算法已取得令人鼓舞的研究成果。本文旨在对这一新理论和新算法的原理作一介绍,并展望这一计算机学界的新成果在化学化工领域的应用前景。“ChemSVM”软件提供了通用的支持向量机算法,并将其与数据库、知识库、原子参数及其它数据挖掘方法有机地集成起来。关键词模式识别;支持向量机;支持向量分类;支持向量回归中图分类号:中图分类号:O0604
I
troductio
totheAlgorithmofSupportVectorMachi
ea
dtheSoftwareChemSVM
LUWe
co
g1CHENNia
yi1YEChe
zhou2LIGuozhe
g2
1LaboratoryofChemicalDataMi
i
gDepartme
tofChemistrySha
ghaiU
iversitySha
ghai200436Chi
a2I
stituteofImagea
dPatter
Recog
itio
Jiaoto
gU
iversitySha
ghai200030Chi
aAbstractsThegreatachieveme
tshavebee
approachedi
thedevelopme
tofstatisticallear
i
gtheorySTLa
dsupportvectormachi
eSVMaswellasker
eltech
iquesThispaperaimedati
troduci
gthepri
cipleofSLTa
dSVMalgorithma
dprospecti
gtheirapplicatio
si
thefieldsofchemistrya
dchemicali
dustryKeyWordsStatisticallear
i
gtheorySupportvectormachi
eSupportvectorclassificatio
Supportvectorregressio
众所周知,统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的有效工具,已随着计算机硬件和软件技术的发展得到了广泛的应用14,我们亦曾将若干数据挖掘方法用于材料设计和药物构效关系的研究512。但多年来我们也受制于一个难题:传统的模式识别或人工神经网络方法都要求有较多的训练样本,而许多实际课题中已知样本较少。对于小样本集,训练结果最好的模型不一定是预报能力最好的模型。因此,如何从小样本集出发,得到预报(推广)能力较好的模型,遂成为模式识别研究领域内的一个难点,即所谓“小样本难题”。最近我们注意到:数学家VladimirNVap
ik等通过三十余年的严格的数学理论研究,提出来的统计学习理论(statisticallear
i
gtheory,简称SLT)13和支持向量机(supportvectormachi
e,简称SVM)算法已得到国际数据挖掘学术界的重视,并在语音识别14、文字识别15、药物设计16、组合化学17、时间序列预测18等研究领域得到成功应用,该新方法从严格的数学理论出发,论证和实现了在小样本情况下能最大限度地提高预报r