鳓烬吣口丐二校学学七.码号皋一一.委:£~茎一墨蕾内蒙名民撤大学硕士学位论文基于深度学习的文本分类研究TextClassificationBasedonDeepLearning申请人:苏峰学科专业:应用数学研究方向:最优化理论、方法及应用学位类别:学术学位指导教师:裴志利教授论文提交日期:二。一四年三月摘要21世纪是信息时代,随着计算机技术、数据存贮技术日新月异的发展,应用领域也得到了快速扩展,文本数据资源正以指数级的速度增长着.对于用户来说面对如此海量的文本信息,但知识却相对贫乏的现象,人们从海量的信息中获取有意义的、相关性强的知识变得困难,因此将文本信息按照某些主题分类是一个迫切需要解决的问题,也是文本数据存储发展的必由之路.从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来,现今文本分类已经成为数据挖掘领域非常重要的~个分支,它已经在搜索引擎等领域有较好的应用.文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程.所以寻找优秀的特征选择方法对特征空间进行降维,当前己是一个非常有实际价值的研究课题。下面是本文所做的主要工作:首先,对文本分类的相关技术:文本表示、分词处理、去停用词、特征选择、特征抽取等算法进行了介绍分析,也介绍了分类结果的评判标准和常用的语料数据集,在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果.并且介绍了深度学习的产生发展经历及其在文本挖掘中的应用其次,本文主要研究了利用自动编码器(Autoencoder)训练之后进行特征提取的相关工作,通过与其他特征提取的分类结果进行比较提出了基于AE的特征提取分类算法.并在数据及上进行了验证.最后提出了中基于多个自动编码器(Autoencoder)的文本分类方案,并与单个AE进行分类的方案进行了理论分析与想,进行了相应范围内的实验,给出了对比分析.关键词:文本分类;深度学习;文本特征;特征提取;自编码器网络TextClassificationBasedonDeepLearningAbstractThetwenty-firstCenturyistheageofdigitalinformation.Withtherapiddevelopmentofcomputertechnologyanddatastoragetechnology,applicationshavebeenrapidlygaining,textdataresourcesisgrowingatanexponentialpace.Foruser,facingsuchmassivetextmessageswithpoorknowledge,itisdifficulttoobtainfullmeaningandhighrelevantinformation.TextclassificationaccordancewiththecontentsorthemeisanurgentproblemtObesolved,butalsotheonlywayforthedevelopmentoftextdatastored.FromthetextclassificationhasbeenproposedbyAmericanscholarProfessorH.P.Luhnin1957forthefirsttime,thetextcategorizationhasbecomeaveryimportantbranchofdatamining.Ithasbeenwellappliedinthesearchenginefield.Intextclassification,featureselectionisaveryimportantprocesstoreducethedimensionofthefeaturespaceandimprovetheclassificationaccuracy.Sofindingagoodfeatureselectionmethodtoreducethedimensionalit37ofthefeaturespaceisaveryvaluableresearchtopic.Thefollowingisthemainworkofthispaper:InthispapeLfirstlyweintroduceandanalysistherealisticsignificanceoftextclassification:textexpressed,wordsegmentation,movestopword,featureselection,featureextractionalgorithmsalsopresentedtheresultsoftheclassificationcriteriaandcommoncorpusofdatasets,andinthesubsequentvialapplicationofthesetechniquestoconverttextdataintoacomputerprocessabledataresults.Thenintroducetheproduction,developmentandapplicationofindeeplearninganditjSexperienceintextminingSecondly,westudiesthefeatureextractionuseanautoencodertrainingrelatedwork,withtheothercategoriesoffeatureextractionresultswerecomparedbasedclassificationalgorithmisproposedtoextractAEfeatures,thenverifiedusethedata.Finally,weproposeatextclassificationschemewithmultipleAEintheoreticalanalysiscomparewitllasingleAEscheme.experimentsconductedwithintheappropriaterange,giveacomparativeanalysis.Keywords:TextClassification,‘DeepLearning,‘TextFeature,‘AutoencoderDirectedby:prof.ZhifiPei(Ph.D)ApplcantforMasterdegree:FengSu(AppliedMathematics)(CollegeofMathematics.InnerMongoliaUniversityforNationalities.Yongliao028043,China)目录1绪论……………..….…….….............….………….11.1研究背景及意义……..........……....…..:……….......11.2研究现状..….….….……….…………….…….…….21.3本文的研究内容....….…………….......…..…….......31.4本文的组织结构…….....………..…………...…........32文本分类技术及深度学习相关技术….……………….…………52.1文本预处理过程..……..….…….….....……..….…….52.2文本的数学表示模型…...….……….…………………...52.2.1布尔逻辑模型…………………………………………62.2.2向量空间模型…………………………………………62.2.3概率推理模型……...….….………..…….….……...72.2.4语义概念模型.….…….…….……...…….…….…...72.3常用的文本分类算法研究………………………………….82.3.1朴素贝叶斯算法..……..…..…..…..………............82.3.2K紧邻算法…………………….….….…….…….….92.3.3粗糙集算法……………….………………………….92.3.4人工神经网络算法..….…....…...……..……...........102.4深度学习的相关技术及研究…….………………………….112.4.1深度学习的发展历程...….…....….............….….....1l2.4.2深度学习在文本挖掘中的应用…………………………….123基于单个自动编码器的文本分类研究...…………..…..…….…..1j3.1自动编码器网络.……..….….………..….….……..….163.1。1预训练…,……………….………….………………163.1.2网络展开..………..........…...……..……...........183.1。3网络微调.……………….………………………….183.2实验数据分析………………...…,…….……..….…...193.2,1数据集………………………………………………193.2.2实验结果……..…………...……..........…..….….204基于多个自动编码器的文本分类研究.……………………………254.1基于多个自动编码器的文本分类方案…………………………254.2基于多个自动编码器的文本分类实验结果分析………….……...265总结与展望……….…………………...………….……...315.1论文工作总结……...……..…….……..….5.2今后研究展望…….……….……..….…….参考文献……………………………………...致谢………………………………………….作者简介…………………..…….……………3131323536内蒙古民族大学硕士学位论文1绪论1.1研究背景及意义随着信息和互联网技术的快速发展,数字信息量呈爆炸式的增长,各种的数字信息充斥着人们生活的每个角落.人们享受着这些数字信息带来的便利,同时还在不断的产生和创造者新的数字信息数据.2013年美国科技博客网站BusinessInsider发布名为《THEFUTUREOFDIGITAL:20132报告显示:What’sApp每天发送的信息量高达110亿条,每天共享的图片数达到7.58亿张.早在2011年时IDC(IntemetDataCenter)研究就指出全球的数据信息产生量仅当年就达到了1.8ZB(万亿GB),并且预计由于信息技术的发展和硬件设备的广泛应用,全球数据总量每18个月增长一倍,预计到2020年将增长50倍,未来十年负责处理数据的专业技术人员仅增长1.5倍左右,两者无法匹配增长.诸多文本信息的增长速度已远远超越了人工处理数据的能力.文本等非结构化或半结构化的数据信息约占未来十年数据信息产生量的百分之九十以上.人类社会已经进入了数字信息时代,将面临着难以想象的大数据时代的到来.因此,有效的组织管理,n,tJ用当前的数据信息是当前工业界和学术界的热点问题“:.在众多种类的数据信息中,文本数据作为数据信息的一种重要承载形式,如何对其进行有效的组织管理与定位利用信息,近十年来得到了人们广泛关注并快速发展.文本分类技术作为一种高效的信息检索与数据挖掘的信息技术,在对文本数据信息的组织与管理中具有举足轻重的地位.自动文本分类(AutomaticTextCategorization,简称TC)技术是信息检索和文本挖掘的重要基础,概括来讲其主要任务就是在将给定数据集划分到已知的一个或者多个类别集合中“,.自动文本分类技术应用在许多领域,从传统的自动或半自动文本索引,到个性化广告预测发布、内容信息(如垃圾邮件)过滤,到依据层次目录内容的网页分类,到元数据信息的自动生成等u,.自动文本分类技术是在基于专家经验的人工分类基础上产生的.传统的人工分类技术已经相当成熟,但是远不能满足日益增长的数据信息量的迫切要求.自动文本分类技术作为处理海量文本数据信息的有效手段,可以对其进行较为精准的管理与定位,节约大量的人力及物力,已经被应用在数据信息过滤、信息组织管理及定位、网页分类和数字图书馆等领域“j.(1)数据信息过滤日益增长的数据信息使得人们获取信息更加容易方便,但是获得的信息量可能会远远超过所需,所得信息越多人们处理起来就会越困难.数据信息的过滤就是将这些信息分为“有关”和“无关”两类,保留“相关文本”,去掉“无关文本¨”.例如,电子邮件客户端应只保留相关邮件,远离垃圾邮件,广告过滤系统应阻止用户不感兴2基于深度学习的文本分类研究趣的广告邮件等.(2)信息组织和管理通过对文本数据信息的组织管理及定位,人们可以更方便的了解和使用这些内容按照一定的规则或方法,通过对文本数据特征的有效描述,将杂乱无序的数据整理成有序数据,减少信息数据流的混乱程度,提高信息的内在质量和价值、节约存储及管理应用数据的成本、建立数据与用户间更为良好的关系….(3)网页分类网页分类对属于特定主题网页的直接浏览、对于查询网页的相关搜索非常有效,一般的应用是对网页进行自动层次分类.(4)数字图书馆数字图书馆是将文本、图片及其他有价值的数据以数字信息方式来存储和管理的图书馆.处于不同地域的读者可以更方便的使用海量分散在不同位置的数据.自动文本分类技术可解决数字图书馆面临的海量新增数据信息量、文本重复或相似、信息难以确定定位与查询等棘手问题.1.2研究现状上世纪五十年代末开始,H.P.Lunhn等人对文本分类的工作进行了开创性的研究[40].1961年,第一篇关于自动文本分类的文章《AutomatiCexperimentalindexing:aninquiry》(Maron)”1发表,随后很多学者进入了这一领域的研究,当时的主要目的是为科学文献索引提供技术支持.上世纪八十年代末之前,知识工程专家规则仍是自动文本分类的主要方法,卡内基公司为路透社(Reuters)开发的Construe系统,该系统能够对路透社每天产生的数以万计稿件进行自动分类”j,到了二十世纪九十年代,随着可用文本数据量的不断增长,机器学习和统计方法被引入自动文本分类技术中,分类结果比基于知识工程专家规则的自动文本分类方法取得了长足的发展,并成为了主流研究方向“3.国内有关文本分类的研究工作进展的相对较晚,但经过这些年的发展已经取得了较大的发展.中文语言的特殊性使得字词之间没有明显分隔符号,而英文文本字词之间都有空格,这使得中文文本分类与英文文本分类在方法的有效性与难度上都难以突破.在对文本进行分类之前先要进行其进行预处理,文本与处理中就包括文本分词,把文本中的语句经过分割后得到文本的词组特征.例如中科院研究所等开发的ICTCLAS2012一SDK—U0106分词软件,虽然分词准确率较高,但由于文本语境中不断出现的动态词汇如许多新词、专业词汇等,给现有的分词系统带来了不小的挑战.中文文本的语法、句法比英文要复杂的多,这也导致现有的中文文本分类要比英文文本分内蒙古民族大学硕士学位论文类困难.但是经过我国研究学者多年的努力中文文本分类计数也取得了很大的成果.目前国内的研究学者在英文文本分类的基础上,结合中文文本的特定语义知识,形成了基于中文文本自动分类体系”:.2005年,李荣陆等人应用最大熵模型进行了中文文本分类“”;王建会等人提出并结合了互依赖和等效半径的概念,研发了一种基于互依赖和等效半径、易于更新的SECTILE文本分类算法:该算法计算复杂度低且易于扩展““.2006年,尚文倩等人提出了另一种新的基于基尼指数的文本特征选择算法:使用基尼指数原理构造文本特征选择评价函数进行了文本特征选择的研究m3.苏金树等人从模型、算法和评测等方面给出了基于机器学习的文本分类方法的综合论述,认为非线性、数据集偏斜多层分类、算法的拓展性等问题是目前研究的核心研究问题,并对这些问题提出了具体可行的方法,且对该方向做了展望m1.1.3本文的研究内容在认真分析了前人有关文本分类特别是基于深度学习的文本分类的基础上,本文工作旨在研究将深度学习理论应用于文本分类中,提高文本分类算法的精确度和效率,主要侧重于基于Autoencoder(简称AE)的特征提取、文本二分类及多分类问题.主要工作有:首先,对文本分类的相关技术:文本表示、分词处理、去停用词、特征选择、特征抽取等算法进行了介绍分析,也介绍了分类结果的评判标准和常用的语料数据集,并在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果.其次,本文主要讲述了深度学习的产生发展过程及其在文本挖掘中的应用,并通过单个自编码器提取特征并分类,并在数据集上进行了验证.最后提出了中基于多个AE的文本分类方案,并与单个AE进行分类的方案进行了理论分析与想,进行了相应范围内的实验,给出了对比分析.1.4本文组织结构本论文共分为六章,各章具体内容如下:第一章绪论本章介绍了课题背景、研究意义、国内外文本分类的发展历史及研究现状,分析研究了现今文本分类的理论、应用研究及发展趋势.第二章文本分类的相关技术及研究本章主要介绍了文本分类系统的整个流程,对系统中的关键技术,即文本表示、分词处理、特征选择、特征加权、分类算法等进行了重点讲解,介绍了几种常见的文4基于深度学习的文本分类研究本分类算法及分类效果的评判标准,其次介绍了深度学习的发展历程、基于深度学习的文本分类方法,最后对深度学习技术做了小结。第三章基于单个自编码器的文本分类本章首先介绍了基于单个自编码器的文本分类方案,其次介绍了深度学习中的一种结构自动编码器网络(Autoencoder)的学习过程,对实验数据集进行了描述,最后对该设想进行了实验验证,并对实验数据进行了分析第四章基于多个自编码器的文本分类本章首先阐述了基于多个自动编码器的文本分类方案,其次对基于多个自动编码器的文本分类方案进行相关实验,并对实验结果进行了分析.第五章总结与展望本章首先总结了全文工作,其次分析了工作中遇到的问题和不足,最后展望了以后的研究方向.内蒙古民族大学硕士学位论文52文本分类技术及深度学习相关技术文本分类(TextCategorization&TextClassification,TC)就是将给定的文本数据划分到事先定义好的一个或多个文本类别中且通过有监督的机器学习得到一个文本分类器【13】.————[■否—]二一判定分赳,———是—+结果输出童:麟麟磊j一分类文本,集合B为预先设定的类别集合.r图1文本分类处理过程从数学上来看,可将文本分类的过程看做是一个映射关系f:A_B,其中集合A为待类别·--—-—--·----—--··---o。爿~j;啄』[/‘一、.、一、皂;jQ;图2文本分类的数学模型2.1文本预处理过程文本分类的算法不能直接在原始文本数据上进行处理.因此,在预处理阶段要将原始文本转换成计算机可识别的信息,即对文本进行形式化处理.这一过程称为文本表示.不同数据类型的文本表示有不同的特点,因此根据文本数据的特点选择适合该文本信息的模型表示是极为重要的.文本分类预处理主要包括文本空间向量表示、中文分词、去除停用词等,下面进行简单介绍.2.2文本的数学表示模型目前常见的文本表示模型有布尔模型、向量空间模型、概率推理模型、语义概念6基于深度学习的文本分类研究模型等[3].2.2.1布尔逻辑模型布尔逻辑模型为二元逻辑,即假定某文本特征出现的情况仅为两种:出现或不出现.该模型形式简单但不能够表征某特征的贡献度,无法定量分析.2.2.2向量空间模型向量空间模型(VectorSpaceModel,简称VSM)是由G.Salton等人首次提出并在著名的SMART系统中得到了成功的应用.在向量空间模型中,把文本数据表示成向量空间中的向量如下图3所示.2,wlIw12蟛刀文档集一\j心JW22心”\—r//,一。●●。。。。。_____-_-。。。-。。。。。一4畋...吸w.1%2…%门图3空间向量模型向量空间模型的优点在于将文本表示成为为特征项与其权值相结合的向量,从而将对文本分类的操作转换成了对该文本表示的向量运算,易于操作.缺点在于其假设特征词项之间是线性无关,即两特征词项之间是“两两正交”的,在语言处理中词项之间存在着密切的语义联系,所以该假设不能保证计算结果的可靠性.文本分类时,需要对已有属性标签的训练集进行预处理,如分词、去停用词、降维、加权特征等,并通过训练学习得到一个文本分类函数,形成属性类别的中心向量.需要进行文本分类时,将预处理得到的向量信息与已得到的类别属性中心向量做相似度比较,以此确定该文本的属性类别.相似度计算可借助某种距离来表示.一般的相似度表达方式有A.内积:内蒙古民族大学硕士学位论文7sim(d,,d.)=∑w,k·W—(1)k=lB.绝对值距离:sire(d,,t)=∑慨--Wjt(2)k=1C.欧几里得距离:sim(d,jd,)=(3)13.切比雪夫距离:sim(d,,d,)=maxIⅥ:t—w肛(4)E.夹角余弦:∑"14,'ik·14:肛sim(d,,d,)=cos0=k-l(5)最常用的距离公式是(5)式,余弦公式的优势在于其数值为【O,1】之间的数,如果向量相似性一致就是1,正交的话就是0,符合相似度的数值特性.2.2.3概率推理模型概率推理模型考虑特征词项之间的相关性,用概率论知识给特征词赋予概率值的方法,以此来表达这些词项在无关和相关文本内的贡献度,然后计算文本间的相关概率,以此做出文本分类判断.基本思想是:给定相应的检索词项,该检索词对应于一个包含所有相关文档的集合,通过该检索词和集合中文档概率模型来估计检索词与文档间的相关概率.假设各特征词项之间相互,由贝叶斯定理可得兀讹IR)·兀P(ilR)鲥似正g)≈肯而硝哥丽(6)gIdl-1g(d)=0概率模型对文本的依赖性强,处理问题较为简单.2.2.4语义概念模型语义概念文本表示模型多事建立在对自然语言的相关理论与技术基础上的,特别8基于深度学习的文本分类研究是概念和概念距离.其中隐性语义分析(LatentSemanticAnalysis,LSA)也称为隐性语义索引(LatentSemanticIndexing,LSI)是最早将文本数据信息转换成语义空间结构的方法.在LSA模型中一个文本数据集可表示称为一个mX,2的词项文档大矩阵D,这里m表示表示文本的个数,n表示文本特征词项的个数.矩阵D可表示为qlD=a21q21222¨q呸;;aⅢ1a…2%MLSA模型利用特征此项与文本数据之间的内在语义概念形成关于该文本数据集的语义网络结构.这种语义结构可通过将特征文档矩阵D进行分解,从而生成新的语义空间.2.3常用的文本分类算法研究文本分类算法的核心问题是如何根据已知文本数据集构造出~个文本分类模型(或称文本分类器)并用此模型将未知类别属性的文本进行属性类别判定.目前常用的文本分类模型有很多种,如K紧邻算法(KNN)、朴素贝叶新算法、决策树算法、支持向量机算法、粗糙集算法、人工神经网络算法(ANN)等.不同的文本数据结构适用于不同的文本分类算法,哪一种算法性能最优,至今未有定论.文本分类器的训练主要分为三个部分:a)将己知类别属性的文本数据集分成训练集和测试集两部分;b)按照一定方法对分类器进行训练,从而得到分类器的数据;c)使用测试集对得到的分类器进行测试,如果测试结果不满足分类要求则返回步骤b进行修改,若符合结果,则分类器训练成功.2.3.1朴素贝叶斯算法朴素贝叶斯算法是目前学术界和工业界公认的简单有效的概率分类算法,是求解具有未知参数的概率模型m,贝叶斯分类器的训练过程是用带标签的训练集来估计概率模型参数的过程.对新的文本的分类过程其实就是用贝叶斯定律来确定产生该文本的可能性的类别的过程.无论选用哪种概率模型.贝叶斯分类器要计算给定一个文本的前提下判断该文本属于某个类别属性的概率.贝叶斯分类器如向量空间类似假设各特征之间两两.内蒙古民族大学硕士学位论文9图4朴素贝叶斯分类器2.3.2K紧邻(KNN)算法K近邻算法(K-NearestNeighbor,KNN)是目前在文本分类领域中应用广发的~种经典分类算法n”.在二十世纪六十年代末Cover提出了KNN算法,当K取值为1时,K近邻就退化为最近邻.KNN算法的基本原理是:首先计算待测文本与测试集中每个文本的相似度,然后找出与待测文本相似度最大的K个文本,最后将这K个文本中样本最多的一类,判定为待测样本的类别“”.K的值选择非常重要,K值选择的过大或过小都会影响分类的精确度.目前还没有很好的确定K值的方法.首先取一个较小的K值,然后按照选取K值的不同根据分类实验结果进行调整“….2.3.3粗糙集算法19世纪80年代初,波兰学者Pawlak首次提出粗糙集(RoughSet)/里论“”.粗糙集算法的优势在于不需要先验知识,经过知识约简获得问题的分类规则,从而能够处理不确定问题.目前,粗糙集在人工智能模式识别“”和文本挖掘…等领域都有成功的应用.粗糙集理论是基于给定训练数据内部的等价关系,形成等价类的所有元数据组是不用区分的.描述数据属性时,这些元数据组是等价的.给定类别R的粗糙集定义用两个集合近似:R的上近似集和R的下近似集.1.上近似集和下近似集:设R是非空有限论域【,上的一个等价关系,且u/R={陋]。k∈U}.对于任意的X£U,则定义x在u上的上近似和下近似为:~RX=u{【口]足J[alR∈u/R且【口】足nx≠妒)堡X=U{[口】RI【口】。∈u/RJi[a]。∈x)10基于深度学习的文本分类研究2.正域、负域、边界设R是非空有限论域U上的一个等价关系,对于任意的X∈U,则定义x在U上的正域、负域、边界分别为:posR(X)=丝negR(x)=尺一心bn。(X)=RX一丛(9)R正域是所有包含在集合Ⅳ中的R等价类集合;月负域是所有与集合z交为空的R等价类集合.尺边界域是指所有与集合x交不为空但不包含在集合x中的R等价类集合.图示如下:域、胄的下近似图5上下近似、正负域、边界域关系图2.3.4人工神经网络算法人工神经网络(ArtificialNeuralNetworks,ANN)m:是人工智能领域的一个重要的研究方向,它以其高速并行的处理能力和可分布存储信息的能力等特性非常符合人类思维的处理方式.内蒙古民族大学硕士学位论文图6神经网络工作原理Wiener和Ng曾分别将神经网络技术应用于文本分类,其输出单元一般是文本特征词项,输出单元表示文本属性类别,神经元的连接权重表示归属依赖度.反向传播(BackPropagation,BP)算法是目前最常用的.神经网络能够对具有噪声的数据进行处理,对未经训练的数据的模式分类能力较强,但其需要较长的训练时长,对于时间需求度不高的应用更为合适;神经网络中的参数主要依靠人工经验调节.2.4深度学习的相关技术及研究2.4.1深度学习的发展历程2006年初,加拿大多伦多大学的Hinton教授和他的学生Salakhutdinov在((Science(科学)》上发表((Reducingthedimensionalityofdatawithneuralnetworks))”“,描述了自动编码器(Autoencoder,AE)在图像和文本等方面的降维具有前所未有良好结果,AE是在《Afastlearningalgorithmfordeepbeliefnets[J].Neuralcomputation))””DBN的基础上的改良.从此掀起了深度学习(DeepLearning,DL)在学术界和工业界的研究浪潮.深度学习通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系m,.从仿生学角度来讲,支持深度学习的一个重要依据,就是著名的Hubel--Wiesel模型,由于该模型揭示了视觉神经的机理而曾获得1981年诺贝尔医学与生理学奖m”.12基于深度学习的文本分类研究2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院.2012年6月,《纽约时报》披露了GoogteBrain项目“1,吸弓1了公众的广泛关注.这个项目是由著名的斯坦福大学机器学习教授AndrewNg和在大规模计算机系统方面的世界顶尖专家JeffDean共同主导,用16000个CPUCore的并行计算平台训练一种称为“深层神经网络”(DNN,DeepNeuralNetworks)的机器学习模型,在语音识别和图像识别等领域获得了巨大的成功.2013年4月《麻省理工学院技术评论》(MITTechnologyReview)杂志将深度学习列为2013年十大突破性技术(breakthroughtechnology)之首m”.随着国内外学术界和工业界中深度学习研究的兴起,深度学习逐渐成为数据挖掘领域中一种重要的工具.自2006年以来,深度学习在学术界持续升温.斯坦福大学、纽约大学、加拿大多伦多大学、蒙特利尔大学等成为研究深度学习的重镇.深度学习可以理解为由玻尔兹曼机(RestrictedBoltzmannMachine,RBM)层叠实现的机器学习方法.深度置信网络以玻尔兹曼机为基础而在学习能力上实现了进一步的强化,也是深度学习思想最普遍的表现形式,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已经显现巨大能量m“.继2012年6月《纽约时报》报道了谷歌的深度神经网络(DeepNeuralNetwork,DNN)项目“GoogleBrain”之后,2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅.据报道,其后面支撑的关键技术也是深度神经网络.2013年12月,全球最大社交网站(Facebook)宣布成立人工智能实验室,研究深度学习技术帮助网站解决照片自动标注等复杂问题n“.国内方面,2013年的1月在百度公司年会上,李彦宏高调宣布要成立百度研究院,其中第一个重点方向就是深度学习,并为此而成立InstituteofDeepLearning(IDL)124|.i青华大学”“、哈尔滨工业大学…’以及中国科学院自动化研究所”1|等高校和研究所纷纷开展了深度学习研究.2.4.2深度学习在文本挖掘中的应用世界上较早的将深度学习引入自然语言处理的研究工作有NECLabsAmerica研究员Collobert和Weston,他们从2008年开始采用embedding和多层一维卷积的结构,用于词性标注,语句分块,命名实体识别以及语义角色标注等4个典型NLP问题”“.他们将同一个模型用于不同任务,都取得了与经典算法相当的准确率.2009年,Salakhutdinov和Hinton提出了的SemanticHashing方法将深度学习应用于文本理解和分析领域w.在这个方法中,他们提出使用DBN模型将基于词频统计的文本特征向量映射到新的低维语义空间中去,在语义特征空间中距离相近的点所对应的文本在内容内蒙古民族大学硕士学位论文上更加相关.SemanticHashing之所以表现出比传统的浅层语义分析方法更好的效果,主要是因为在大规模的文本重建训练过程中模型隐式地获得了词语之间的语义联系,使特征的映射更趋于合理.2011年,斯坦福大学教授Manning等人将深度学习用于自然语言和自然风景图片的融合m,.国内较早开展深度学习在文本挖掘领域中研究的是哈尔滨工业大学的王晓龙教授研究组,他们Ij妙的将深度置信网络应用于网络社区问答对的语义挖掘中”。.基于深度学习的文本分类研究内蒙古民族大学硕士学位论文153基于单个自动编码器的文本分类由于文本数据自身结构特点及其语义复杂性,在经分词、删除停用词后,剩余的特征形成的特征空间维数依然很高,需要进一步对特征空间进行优化.最常用的方法就是对其进行特征降维操作,使得特征空间的维数能够易于后续的文本分类操作并且在将为以后分类精度并未受太大影响.将特征数量减少之后文本分类器将处理的文本数据规模大大降低,且在此操作过程中也能将噪声词项删除.特征降维的常用方法有:特征选择和特征提取…1.特征选择是在特征集合T={t1f!,…r。)中按照一定规则选取一个特征子集T={11f2,…r。)(胛《m),后者中每个特征的贡献度比前者大所以后者更能代表原始文本信息.特征提取是对原始高维特征空间通过一系列相应的变换得到该原始文本在低维空间的表示.特征提取是依据文本语言中的语义相关性如同义多义词等信息进行处理的.常见的特征评估方法主要有以下几种:文档频度、信息增益、特征熵、互信息以及基于粗糙集的特征选择方法等[371.下面进行简单介绍.1)文本频率(DocumentFrequency,DF)’DF(w)=num(w)(10)2)互信息(MutualInformation,MI)互信息度量的是某个词和类别之间的统计关系.脚(1¨,).∑户(q)109而P1wc,)(11)其中,P(u,)表示特征词w在问集中出现的频率:P(q)表示文本属于c,类的频率;尸(M忙,)表示在文本属于c,类的条件下,出现特征词W的频率.3)信息增益(InformationGain,IG)tG(M’)=尸(’’’)∑P(c小饥。g等+尸(瓦)∑尸(c厣)l。g等(12)其中,P(w)表示特征词w在文本集中出现的频率;P(w)表示特征词W在文本集中不出现的频率;P(c,1w)表示在出现特征词w的条件下,文本属于c。类的频率.4)期望交叉熵(ExpectedCrossEntropy,ECE)期望交叉熵度量的是当一个特征出现时我们所获取的信息量”。ECE(w)=∑P【qlw)log等(13)其中,P(c,)表示文本属于c。类的频率;P(c,1w)表示在出现特征词w的条件下,文本属于c,类的频率.5)Z2统计量16基于深度学习的文本分类研究z2统计量度量的是一个特征词和一个类别之间性.设训练集中包含w的c类的文本数为五,训练集中包含IV的非c类的文本数为%,训练集中不包含w的C类的文本数为屯,训练集中不包含w且非c类的文本数为%,训练集中文本总数为Ⅳ.Z'-(w)=∑尸(q切2(w,cf)=而丽N再(x1而x4-x两2x3丽)2(14)6)基于Autoencoder的特征提取与上述方法相比较AE方法具有以下优势:AE对数据进行处理时可不需要数据类别属性作为前提;与传统的特征抽取相比,AE显现了更强大的特征抽取能力,对后续的文本分类操作更有效.3.1自动编码器结构自动编码网络是一个包含多个隐层的生成性深度网络,整个网络由编码(encoder)与解码(decoder)两部分网络构成.编码网络属于数据降维部分,高维数据通过多层的网络结构后维数降到适合维度的核心结构上.解码网络属于重构数据部分,可以看做是编码网络的逆过程,将核心结构上的数据还原为高维数据.编码网络与解码网络共享一个核心结构,是两个网络的的交叉部分,称之为“代码层”(codelayer)啪3.核心代码层是整个自动编码网络的重要结构,能够表示输入高维数据的本质特征,描述数据的内部本质高阶相关性汹,.自动编码网络是由一系列的受限玻尔兹曼机(RBM)顺次连接构成.RBM是一种典型的随机神经网络结构,如下图所示,该网络是由层内无连接、层间互连的可视单元和隐层单元构成.图7RBM网络构成3.1.1预训练(pre—training)自编码网络的预训练【39】是通过无监督学习方式初始化网络参数的过程,用贪婪学——一一———————————————————————————————-——二二—=二二二一内蒙古民族大学硕士学位论文1:7习算法逐层优化训练RBM.首先,训练第一层RBM.RBM是~个能量模型,其可视单元V与隐层单元h之间的关系可用能量函数c列表示E(v,hO)=一∑qv一∑6J嘭一∑∑M%吩(15),其中0={%,ai,q)∈R为RBM的参数,%表示可视单元¨与隐层单元乃,之间的连接权重,q表示可视单元V的偏置(bias),b,表示隐层单元的偏置.模型可视单元的联合概率分布f35】为p“,hI们2莆yeE(v.h10’.-_J(16)z(o)=∑e矗“山徊’”巾是归一化因子或称为配分函数(partitionfunction).可视单元与隐层单元之间的条件概率可计算:p(h,=1lV)=盯(∑%vf+口,)p(v=11办)=or(Zwoh,+6I)(17)(18)上两式中仃(x)2再≥为sigm。id△w=£—O—ln=—p一(v):占(<v红/>da,a-<Vi矗i>model)Uwl。gistic函数.通过求概率对数l。gP(v,川伊)的偏导,可以得到该层RBM的权重更新公式(19)占是学习率,<·>data表示数据集的期望,<·>model表示模型数据的期望.实际中要取得数据的无偏样本较难,在训练RBM的过程中多采用对比散度(Con仃aStiveDivergence,CD)对数据采样,来更新模型中的参数.RBM的权值学习过程如图2,霉j0;④0一、一r。’;Ⅷ;j一一:!、一’一,。,一、:visi№b幢r图8RBM的训练过程18基于深度学习的文本分类研究3.1.2网络展开(unrofIing)首层的RBM预训练完成后,其隐含单元的激活概率作为下一层RBM的训练数据,以此类推进行多次训练.将各个RBM展开顺次连接得到自编码网络如图9.面膏‰一~毛章甲~一图9自编码器网络的展开233.1.3网络微调(fine—turning)预训练后,每层网络都得到了初始的参数值.在此基础上对自编码网络的权值做进一步调整.以目标函数为交叉熵(crossengopy)的BP算法重新调整网络各层权值,最终使网络参数值达到全局最优.基于BP算法的交叉熵函数为2LH(x)=一∑Ix,logy,+(1一x,)log(1一只)】f=l(20)其中,xi为数据目标概率(理论)分布;y,为数据实际概率分布.微调阶段的训练目的是调整网络参数值使目标交叉熵函数的值达到最小,权值调整公式为2口I△M02一口一、oj△嘞:一口alla.(.x___2:口I(x-y,)OsYi。口彬.(21)基于公式(22),可以完成自编码网络的微调.微调完成后整个网络己构建好.3.23.2.1实验数据分析数据集本文实验选用T--个标准的文本数据集:内蒙古民族大学硕士学位论文191)Reuters一21578(Reuters)Reuters.21578m,是文本分类中常用的标准文本数据集,其中包含21578个文本,共135个类别.它是1987年卡内基集团为路透社整理的财经新闻稿文档集,共有135类21578篇.该语料库可以按照最常见的ModApte分解方式将语料库分解成训练集合测试集,其中训练集9603篇,测试集3299篇.由于文本的多标号性,人们在ModApte分解的基础之上去除所有多标号的文本,得到了一个较小的数据子集,其中包含6552个训练文本,2266个测试文本.Reuters.21578是研究英文文本分类的最重要的一个标准语料库.本文采用最普通的10个类,7461个文档作为训练集,2325个文档作为测试集,总计9786个文档.表3Reuters-21578语料分布表2)2020Newsgroups(20NG)Newsgroups…3也是一个常用的标准文本数据集,其中收集了来自20个新闻组的将近20000篇新闻.20NG主要有两个版本,本实验使用的是18828个数据版本.表格120Newsgroup的20类sci.cryptcomp.graphicscomp.OS.ms—windows.misccomp.sys.ibm.pc.hardwarecomp.sys.mac.hardwarecomp.windows.Xmisc,forsalerec.autosrec.motorcyclesrec.sport.baseballrec.sport.hockeysci.electronicssci.medSCI.spacetalk.politics.misctalk.politics.gunstalk.politics.mideasttalk.religion.miscalt.atheismSOC.religion.christian基于深度学习的文本分类研究图1020newssgroup中每类个数3.2.2实验结果在训练单个AE抽取特征进行分类的过程中,选用的是20NG作为训练集和测试集.用java相关程序对其进行预处理后用matlab程序对其进行降维.首先处理的二分类问题,选取了air.atheism和comp.graphicsq]i)ll练集数目100,测试集数目皆为50.刀∞∞∞∞∞∞o0204。608131131312。14.131卸馆02∞图11200个数据点经过分词去除停用词后该小样本数据维数为10709.通过一个自编码器将特征提取后用softmax分类器对其进行分类.当数据被分为两类时,文本的误分率很高.将小内蒙古民族大学硕士学位论文21样本分为10个类时,分类效果反而更好.表格2文本二分类相关数据由上表可以看出,当节点数目为10709.5000.2000.100.10时分类效果最好.准确率P=O.91.图12第一层节点数为7000权重示意图22基于深度学习的文本分类研究¨孙”嘶∞200025∞图13第二层节点数为3000权重示意图们¨眦们饥们们图14第三层权重示意图三分类是从rec.sport.baseball、talk.politics.misc、sci.electronics三类中各抽取100个{J练样本和50个测试样本.内蒙古民族大学硕士学位论文23表格3文本三分类数据上述实验中其中维数为7000.3000.300.10与5000—1000—10.10这两组分类分别作了两次其中第一次每组组内循环次数为10、微调次数为50,第二次实验组内循环次数为50、微调次数为50.显然循环次数的增加并未使得实验结果更好,实验时间反而更长.当分类为3时分类其并未能将文本数据很好的分开,调整每层节点数目对分类效果也没有很好的提升.在三分类中,文本分类的效果并不如二分类的效果明显,分类器对特征识别的能力较差,对三个类别的文本特征识别并不如二分类实验数据好.基于深度学习的文本分类研究24内蒙古民族大学硕士学位论文254基于多个自动编码器的文本研究4.1基于多个自编码器分类的理论研究自编码器网络可将数据进行重构,利用这个性质首先利用训练集中文本数据将网络进行训练,完成后网络已经学习到了文本的重构信息,利用这种网络重构的特性可对文本进行相关分类.对于多类文本数据,可采用多个自编码器网络分类训练,得到多组权值,每组权值保存该类文本数据的相关信息.首先用预处理文本信息,将其生成向量空间模型.由于向量空间模型假设各文本特征项之间是相互的,只将特征项的频率作为统计信息,这样原始文本数据的部分信息便会丢失.但相关实验数据表明,仅适用前10%的最频繁的特征项并不能降低分类的准确度【3】.将文本数据转化成空间中的数据点后可以对文本进行相关的数值计算.由于文本语义及其内部结构的复杂性,经过分词、删除停用词项后,生成的文本数据特征空间维数仍旧较高,需要进行特征维数约简.本文中应用已取得良好特征提取效果的自编码器网络实现.先对每一类的文本进行训练,每一类文本生成一个自编码器网络,全部的文本训练完成之后,就有多个的自动编码器网络,并将训练好的自动编码器网络的权值保存整合成一个大的网络图11和图12.文本语一一1料崩—-+预处理j,判一YeS-+l列络存储图15单个Autoencoder训练整合网络中的每个自编码器司看做一个感知神经兀,整个l网络的拓扑结构是一个神经网络结构,是D维的恒等映射.厂:丁H丁,此处T=“,t:,...,f。}∈Rm”为包含13个特征的高维文本数据,其中t。表示是第i个D维数据.将测试文本输入到已训练好的多个自编码器的整合网络中,可以得到关于测试文本的多个重构文本信息,计算原始文本与多个重构文本之间的相似性,相似性的计算选取两文本之间的余弦值,公式为&棚‘£瞎一乇c’=c。s曰2:厅薹三iliEDi尹j丽∑r泛-乞‘22’、/。幺V0懵川、幺Vm川此处,k表示原始文本信息,k表示通过自动编码网络重构的文本信息,7二表示26基于深度学习的文本分类研究在原始文本信息中第i个特征,‘二表示重构文本信息中第i个特征.相似性最大的类别便是测试文本的属性类别.篙t拈,舢n一沁酣一一舢n一幻卧】l㈣~O★拈2AutoencoderCopusnetwork3一…』SimilarityLabeI一—?calculationoutputAutoencOdernetwork19Autoencodenetwork20图16基于多个自动编码器的分类网络4.2实验结果分析本实验所采用数据集为3.2.1中所描述两数据集Reuters.21578和20newsgroup.在关于每一类训练的过程中,数据集用20newsgroup.在最初实验阶段选取其中二个类别进行实验,选取alt.atheism训练集中480个文本和comp.graphics训练集中580(舍弃一个)个文本进行网络训练,训练之后,计算原始文本与重构文本见的相似性,若相似性小于设定的阈值则该网络训练成型,然后用两类文本中的测试集中各300进行测试.内蒙古民族大学硕士学位论文27…alt.all—tism、d}j文j.竺竺竺}二;?,7’警箩‘二二≥』竺∑本处聊——comp·gr叩hics~~。,i二,,二二二j.分类器j训练三?,j0;i:慧≯:[二二】.理——●。●_●______,__-__,____-●_。。_-●●一、——仟陆甘羹撇』,,_-。__。,-●。__。一‘___。,_●_。一图17二类文本分类的训练过程关于alt.atheism的autoencoder将其本身的识别率有95%以上,comp.graphics的autoencoder对测试集中的文本进行重构识别率也在93%以上.至此关于这两个类的autoencoder已经训练完备.a恺atheismAutoencoderl文制预处删‘——+哩訾尊一,.类别判定’输卅~……图18基于二个自编码器的文本分类过程两个文本类别的autoencoder训练好之后,即可训练多个类别的autoencoder,鉴于每个类别的autoencoder训练所需时长,本实验只做了基于五个文本类别分类的实验.选取的数据类别为alt.atheism、rec.sport.baseball、comp.windows.X、talk.politics.misc、sci.electronics这五类.将每一个类别的数据训练好自编码器之后,将其组成一个大的文本分类器,计算原始文本与重构文本的相似性,判断该文本的归属类别.表格4实验所用数据集数目情况类别alt.atheismrec.sport.baseballcomp.windows.Xtalk.politiCS.miSCsci.electroniCS590350训练集测试集48030050035050035046030028基于深度学习的文本分类研究图19训练集中各类别比例图●alt.atheism_re.sport.baseball薯comp.windows.Xtalk.politics.miscsci.electronics图20测试集中各类别比例图从上两图中可以看出各类别数据几乎是等分的,从根本上避免了数据不均衡的问题.内蒙古民族大学硕士学位论文29图21基于每类别的相似度将每个类别的自编码器训练好之后,每一类别对其自身的识别度都能达到95%以上.将每一类别的网络保存好,并重新建立一个基于多个分类的网络,每个类别的自编码器相当于一个节点.测试集COmp,wlndoWS.Xtalk.poht—一≮黼>一tr-、类别输出1CS.ⅢlSd,sci.eleCtE:0nlcS图22基于五类别文本分类方案基于深度学习的文本分类研究图23基于五类文本的分类精确度图23为基于五类别文本的文本精确度,每一类的分类精确度都有93%以上.将每个类别的分类Autoencoder训练好,对模型中的参数(如:每层模型节点数、模型层数、每层迭代次数、fineture的迭代次数等)进行详尽的调整,虽然每个类别的训练时间很长,但是对于这种多分类问题的效果显著.内蒙古民族大学硕士学位论文315总结与发展5.1论文工作总结随着文本挖掘技术的不断发展,文本分类技术正在不断完善本文主要从Autoencoder提取特征分类研究,下面将本文的工总做一个简单的总结:首先,介绍了文本分类中的关键步骤:中文分词、文本表示、特征降维、特征加权、分类算法和分类评价标准,研究了它们优点和缺点,为选题做铺垫.其次,本文研究了基于深度学习的主要模型,并选择其中的Autoencoder进行文本份额里研究方法.最后,在语料库20NG上实验证明了本文所提的方法的有效性.该网络能够对未标记文本进行分类,但网络训练时间较慢,文本数量较多时输出比较还是比较慢,所以在网络结构的优化上函待改进.5.2论文工作展望模型训练时长是该模型乃至其他类似神经网络的软肋,如何能够将该模型改造成为训练时长适中且分类效果更好是下~步的工作目标.a2基于深度学习的文本分类研究参考文献1ZhiliPei,YuxinZhou,Lisha“u,【曲uaWang,YinanLu,YingKong.AnimprovedMethodforFeatureWeighringtODocumentCategorization,The2ndInternationalConferenceonFuroreComputerandCommunicadon(ICFCC),2010,v01.3:v3339-3343.2张彪.文本分类中特征选择算法的分析与研究耐,合肥:中国科学技术大学,2010.3程显毅,朱倩.文本挖掘原理【M].北京:科学出版社,2010.4刘赫.文本分类中若干问题研究p】.吉林大学,2009.5梅君.中文文本分类的研究与应用唧.南昌大学硕士论文,2010.6何斌,张立厚.信息管理:原理与方法M.清华大学出版社有限公司,2006.7MaronME.Automatic恼dexinganexpefimentalinqu研D】.JournaloftheACM0ACM),1961,8(3):404—417.8FuhrN,HartmannS,LustigG,eta1.AIR,x:arulebasedmultistageindexingsystemforlargesubjectfields[M].TechnischeHochschule,FachgebietDatenverwalmngssystemeII,1991.9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展Ⅱ]软件学报,2006,17(9):1848—1859.10李荣陆,王建会,陈晓云,等.使用最大熵模型进行中文文本分类U].计算机研究与发展,2005,42(1):94-101.11王建会,王洪伟,申展,等.一种实用高效的文本分类算法o]计算机研究与发展,2003,42(1):85—93.12尚文倩,黄厚宽,刘玉玲,等.文本分类中基于基尼指数的特征选择算法研究Ⅱ].计算机研究与发展,2006,43(10):1688—1694.13Sebastian]F.MachinelearninginautomatedtextcategorizationU].ACMcomputingSUl'veys(CSUR),2002,34(1):1-47.14黄友平.贝叶斯网络研究嘲.中国科学院研究生院(计算技术研究所),2005.15宋枫溪.自动文本分类若干基本问题研究p】.南京:南京理工大学.2004.4.16唐剑波,Web文本挖掘中的文本分类研究p].湖南大学,2007.17BishopCM.Pamemrecognitionandmachine]eamindM.NewYork:springer,2006.18PawlakZ.Roughsets[J].InternationalJoumalofInformadonandComputerScience,1982,11(5):341—356.19GolanR,ZiarkoⅨ’.MethodologyforStockmarketanalysisutilizingroughsetTheory[C].Proe.ofIEEE/IAFEConferenceonComputationalIntelligenceforFinancialEngineering,NewJersey,1995:32—40.内蒙古民族大学硕士学位论文33202122张雪英.基于粗糙集理论的文本白动分类研究p】.南京:南京理工大学,2005.周春光,梁艳春.计算智能:人工神经网络.模糊系统.进化计算【M.吉林大学出版社,2001HintonGE,SflakhurdmovRR.Reducingthedimensionally,of2006,31data硒击neuralnetworksU].Science,3(5786):504-507.S,Teh23HintonGE,Osinderocomputation,2006,1YⅥ’.Afastlearningalgorithm554.fordeepbeliefnets[1].Neural8④:1527—124余凯,贾磊,陈雨强等.深度学习的昨天、今天和明天叮计算机研究与发展,20t3,50(9):1799~1804.2j“TheNobelPrizeinPhysiolo§"orMedicine198I.”Nobelpfize.org.NobelMediaAB20116Feb2014.IEB/OL]hrtp://www.nobelprize.org/nobel_prizes/medicine/laureates/1981/.263.Web.MarkoffJ.How10manycomputerstOidend6-acat?[NqTheNewYorkTimes.2012—06-25.2728BreakthroughTechnologiesC.Facebook。s2013[N.MITTechnology-Review,2013—04-23.RevealstheFutureofMer.z7DeepLearning'GuruAI,”[EB/OL]h叩://Ⅵw.wired.com/wiredenterpfise/2013/12/facebook—yann—lecun—qa/.嘶rcd,Dec·12-2013.29HuXandWangJ.Solvingthe。AssignmentProblemUsingContinuous-TimeandDiscrete—TimeTransactionsonImprovedDual23f5、:821-82"7.30NetworksⅡ】IEEENeuralNe倒'orksandLearningSystems,2012,WangBx,LiuBQ,SunCJ,WangXLandZhangDY.DeepLearningApproachestOSemanticLanguageRelevanceModelingforChineseQuestion-AnswerInformationProcessing,2011,10(4):21:1—21:16.31Pars[31.ACMTransactionsonAsianCaiXY,Ⅵ’angCH,XiaoBH,ChenFaceXandZhouJ.DeepNonlinearMemcLearningwithOnIndependentSubspaceAnalysisf。rVerification【q.InProceedingofACMconferenceMulti—Media,Nara,Japan:ACM,2012.32ColloberrR,Ⅵ’estonJ,Boc【ouL,eta1.Naturallanguageprocessing(A]most)fromscratchD].Joumal3334ofMachineLearningResearch,2011,12:2493—2537.SalaldmtdinovR,HintonG.SemanticHashing卟Int.J.Approx.Reasoning,2009,50∽:969—978.SocherR,I.inC,NgA.ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks[C],InProceedingofthe28thIntConfMachineLearningSociety,20113536onMachineLearning.Garmam.’:International王宝勋.面向网络社区问答对的语义挖掘研究【D】.哈尔滨工业大学,2013.RicardoBaeza-Yates.BerthierRiberiro.Neto.ModemInformationRemeval[M].北京:机械工业出版社,2004,237唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术34基于深度学习的文本分类研究Ⅱ]_2005,42(1):47-5338孙志军,薛磊,许阳明,等.深度学习研究综述Ⅱ】.计算机应用研究,2012,29(8):2806—2810.394041HintonGE.ApracficalguidetOtrainingrestrictedBoltzmannmachines[J].Momentum,2010,9(1)578/http://w帆-.daviddlewis.com/resources/testcollecfions/reuters21htrp://qwone.corn/~jason/20Newsgroups/内蒙古民族大学硕士学位论文35致谢在我的论文即将完成之际,我衷心感谢我的导师裴志利教授,在这三年的研究生生活中不论是在学习还在生活方面裴老师都给与我极大地帮助,在学业方面:老师兢兢业业、循序善导帮我订课题、开讨论课、和我探讨论文申的难点、并带领我到吉林大学学习等等使我始终能把握住研究的方向;在生活方面:老师对我非常关心,经常询问家里情况像是家长一样对待我,给我留下了深深地记忆,让我学到了学习之外的知识,让我终生受益.,感谢在这三年学习生涯中给予我帮助、鼓励的诸位同学,感谢我的家人一直默默的支持着我的学业生涯,在我最无助的时候给予我鼓励与希望.感谢师哥师妞师弟师妹们三年的相伴,感谢所有曾经帮助支持过我的人.36基于深度学习的文本分类研究作者简介苏峰,女,汉族,1986年11月出生于山东省淄博市.2004年考入淄博师范数学系,2011年9月考入内蒙古民族大学数学学院,应用数学专业.2011年一2014年硕士研究生期间发袁论文:1.FengSu,ZhiliPei.·ATextClassificationMethodbased01"1multiplyautoencoder.2014InternationalConferenceorlSimulafionandModeEngMethodologies,TechnologiesandApplications(SMTA2014),2014.2.苏峰,王旭,管仁初,梁艳春.多自动编码器文本分类模型设计匣B/OU.北京:中国科技论文在线[2014—05—23】.http://v诹,w.paper.edu.cn/releasepaper/content/201405-409.3.杨责运,苏峰,王旭,管仁初,梁艳眷.开放存取资源文本挖掘平台[EB/OL].北京:中国科技论文在线[2014—05—20].http://www.paper.edu.cn/releasepaper/content/201405—331.内蒙古民族大学硕士学位论文37内蒙古民族大学硕士学位论文作者声明本人声明:本人呈交的学位论文是本人在导师指导下取得的研究成果.对前人及其他人员对本论文的启发和贡献己在论文中做出了明确的声明,并表示了感谢.论文中除了特别加以标注和致谢的地方外,。不包含其他人已经发表或撰写的研究成果.本人同意内蒙古民族大学保留并向国家有关部门或资料库送交学位论文或电子版,允许论文被查阅和借阅.本人授权内蒙古民族大学可以将本人学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编学位论文.作者签名:日期:塑堕年上月丝日基于深度学习的文本分类研究
作者:
学位授予单位:
苏峰
内蒙古民族大学
引用本文格式:苏峰 基于深度学习的文本分类研究[学位论文]硕士 2014