基于深度学习的文本分类研究

来源：爱站旅游

鳓烬吣口丐二校学学七．码号皋一一．委：￡～茎一墨蕾内蒙名民撤大学硕士学位论文基于深度学习的文本分类研究ＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＢａｓｅｄｏｎＤｅｅｐＬｅａｒｎｉｎｇ申请人：苏峰学科专业：应用数学研究方向：最优化理论、方法及应用学位类别：学术学位指导教师：裴志利教授论文提交日期：二。一四年三月摘要２１世纪是信息时代，随着计算机技术、数据存贮技术日新月异的发展，应用领域也得到了快速扩展，文本数据资源正以指数级的速度增长着．对于用户来说面对如此海量的文本信息，但知识却相对贫乏的现象，人们从海量的信息中获取有意义的、相关性强的知识变得困难，因此将文本信息按照某些主题分类是一个迫切需要解决的问题，也是文本数据存储发展的必由之路．从文本分类由美国学者Ｈ．Ｐ．Ｌｕｈｎ教授在１９５７年第一次被提出来，现今文本分类已经成为数据挖掘领域非常重要的～个分支，它已经在搜索引擎等领域有较好的应用．文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程．所以寻找优秀的特征选择方法对特征空间进行降维，当前己是一个非常有实际价值的研究课题。下面是本文所做的主要工作：首先，对文本分类的相关技术：文本表示、分词处理、去停用词、特征选择、特征抽取等算法进行了介绍分析，也介绍了分类结果的评判标准和常用的语料数据集，在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果．并且介绍了深度学习的产生发展经历及其在文本挖掘中的应用其次，本文主要研究了利用自动编码器（Ａｕｔｏｅｎｃｏｄｅｒ）训练之后进行特征提取的相关工作，通过与其他特征提取的分类结果进行比较提出了基于ＡＥ的特征提取分类算法．并在数据及上进行了验证．最后提出了中基于多个自动编码器（Ａｕｔｏｅｎｃｏｄｅｒ）的文本分类方案，并与单个ＡＥ进行分类的方案进行了理论分析与想，进行了相应范围内的实验，给出了对比分析．关键词：文本分类；深度学习；文本特征；特征提取；自编码器网络ＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＢａｓｅｄｏｎＤｅｅｐＬｅａｒｎｉｎｇＡｂｓｔｒａｃｔＴｈｅｔｗｅｎｔｙ－ｆｉｒｓｔＣｅｎｔｕｒｙｉｓｔｈｅａｇｅｏｆｄｉｇｉｔａｌｉｎｆｏｒｍａｔｉｏｎ．Ｗｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｃｏｍｐｕｔｅｒｔｅｃｈｎｏｌｏｇｙａｎｄｄａｔａｓｔｏｒａｇｅｔｅｃｈｎｏｌｏｇｙ，ａｐｐｌｉｃａｔｉｏｎｓｈａｖｅｂｅｅｎｒａｐｉｄｌｙｇａｉｎｉｎｇ，ｔｅｘｔｄａｔａｒｅｓｏｕｒｃｅｓｉｓｇｒｏｗｉｎｇａｔａｎｅｘｐｏｎｅｎｔｉａｌｐａｃｅ．Ｆｏｒｕｓｅｒ，ｆａｃｉｎｇｓｕｃｈｍａｓｓｉｖｅｔｅｘｔｍｅｓｓａｇｅｓｗｉｔｈｐｏｏｒｋｎｏｗｌｅｄｇｅ，ｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｏｂｔａｉｎｆｕｌｌｍｅａｎｉｎｇａｎｄｈｉｇｈｒｅｌｅｖａｎｔｉｎｆｏｒｍａｔｉｏｎ．ＴｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｏｒｄａｎｃｅｗｉｔｈｔｈｅｃｏｎｔｅｎｔｓｏｒｔｈｅｍｅｉｓａｎｕｒｇｅｎｔｐｒｏｂｌｅｍｔＯｂｅｓｏｌｖｅｄ，ｂｕｔａｌｓｏｔｈｅｏｎｌｙｗａｙｆｏｒｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｔｅｘｔｄａｔａｓｔｏｒｅｄ．ＦｒｏｍｔｈｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｈａｓｂｅｅｎｐｒｏｐｏｓｅｄｂｙＡｍｅｒｉｃａｎｓｃｈｏｌａｒＰｒｏｆｅｓｓｏｒＨ．Ｐ．Ｌｕｈｎｉｎ１９５７ｆｏｒｔｈｅｆｉｒｓｔｔｉｍｅ，ｔｈｅｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎｈａｓｂｅｃｏｍｅａｖｅｒｙｉｍｐｏｒｔａｎｔｂｒａｎｃｈｏｆｄａｔａｍｉｎｉｎｇ．Ｉｔｈａｓｂｅｅｎｗｅｌｌａｐｐｌｉｅｄｉｎｔｈｅｓｅａｒｃｈｅｎｇｉｎｅｆｉｅｌｄ．Ｉｎｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｉｓａｖｅｒｙｉｍｐｏｒｔａｎｔｐｒｏｃｅｓｓｔｏｒｅｄｕｃｅｔｈｅｄｉｍｅｎｓｉｏｎｏｆｔｈｅｆｅａｔｕｒｅｓｐａｃｅａｎｄｉｍｐｒｏｖｅｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙ．Ｓｏｆｉｎｄｉｎｇａｇｏｏｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｔｏｒｅｄｕｃｅｔｈｅｄｉｍｅｎｓｉｏｎａｌｉｔ３７ｏｆｔｈｅｆｅａｔｕｒｅｓｐａｃｅｉｓａｖｅｒｙｖａｌｕａｂｌｅｒｅｓｅａｒｃｈｔｏｐｉｃ．Ｔｈｅｆｏｌｌｏｗｉｎｇｉｓｔｈｅｍａｉｎｗｏｒｋｏｆｔｈｉｓｐａｐｅｒ：ＩｎｔｈｉｓｐａｐｅＬｆｉｒｓｔｌｙｗｅｉｎｔｒｏｄｕｃｅａｎｄａｎａｌｙｓｉｓｔｈｅｒｅａｌｉｓｔｉｃｓｉｇｎｉｆｉｃａｎｃｅｏｆｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ：ｔｅｘｔｅｘｐｒｅｓｓｅｄ，ｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ，ｍｏｖｅｓｔｏｐｗｏｒｄ，ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ，ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍｓａｌｓｏｐｒｅｓｅｎｔｅｄｔｈｅｒｅｓｕｌｔｓｏｆｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｃｒｉｔｅｒｉａａｎｄｃｏｍｍｏｎｃｏｒｐｕｓｏｆｄａｔａｓｅｔｓ，ａｎｄｉｎｔｈｅｓｕｂｓｅｑｕｅｎｔｖｉａｌａｐｐｌｉｃａｔｉｏｎｏｆｔｈｅｓｅｔｅｃｈｎｉｑｕｅｓｔｏｃｏｎｖｅｒｔｔｅｘｔｄａｔａｉｎｔｏａｃｏｍｐｕｔｅｒｐｒｏｃｅｓｓａｂｌｅｄａｔａｒｅｓｕｌｔｓ．Ｔｈｅｎｉｎｔｒｏｄｕｃｅｔｈｅｐｒｏｄｕｃｔｉｏｎ，ｄｅｖｅｌｏｐｍｅｎｔａｎｄａｐｐｌｉｃａｔｉｏｎｏｆｉｎｄｅｅｐｌｅａｒｎｉｎｇａｎｄｉｔｊＳｅｘｐｅｒｉｅｎｃｅｉｎｔｅｘｔｍｉｎｉｎｇＳｅｃｏｎｄｌｙ，ｗｅｓｔｕｄｉｅｓｔｈｅｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｕｓｅａｎａｕｔｏｅｎｃｏｄｅｒｔｒａｉｎｉｎｇｒｅｌａｔｅｄｗｏｒｋ，ｗｉｔｈｔｈｅｏｔｈｅｒｃａｔｅｇｏｒｉｅｓｏｆｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｒｅｓｕｌｔｓｗｅｒｅｃｏｍｐａｒｅｄｂａｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｉｓｐｒｏｐｏｓｅｄｔｏｅｘｔｒａｃｔＡＥｆｅａｔｕｒｅｓ，ｔｈｅｎｖｅｒｉｆｉｅｄｕｓｅｔｈｅｄａｔａ．Ｆｉｎａｌｌｙ，ｗｅｐｒｏｐｏｓｅａｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｓｃｈｅｍｅｗｉｔｈｍｕｌｔｉｐｌｅＡＥｉｎｔｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｉｓｃｏｍｐａｒｅｗｉｔｌｌａｓｉｎｇｌｅＡＥｓｃｈｅｍｅ．ｅｘｐｅｒｉｍｅｎｔｓｃｏｎｄｕｃｔｅｄｗｉｔｈｉｎｔｈｅａｐｐｒｏｐｒｉａｔｅｒａｎｇｅ，ｇｉｖｅａｃｏｍｐａｒａｔｉｖｅａｎａｌｙｓｉｓ．Ｋｅｙｗｏｒｄｓ：ＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎ，‘ＤｅｅｐＬｅａｒｎｉｎｇ，‘ＴｅｘｔＦｅａｔｕｒｅ，‘ＡｕｔｏｅｎｃｏｄｅｒＤｉｒｅｃｔｅｄｂｙ：ｐｒｏｆ．ＺｈｉｆｉＰｅｉ（Ｐｈ．Ｄ）ＡｐｐｌｃａｎｔｆｏｒＭａｓｔｅｒｄｅｇｒｅｅ：ＦｅｎｇＳｕ（ＡｐｐｌｉｅｄＭａｔｈｅｍａｔｉｃｓ）（ＣｏｌｌｅｇｅｏｆＭａｔｈｅｍａｔｉｃｓ．ＩｎｎｅｒＭｏｎｇｏｌｉａＵｎｉｖｅｒｓｉｔｙｆｏｒＮａｔｉｏｎａｌｉｔｉｅｓ．Ｙｏｎｇｌｉａｏ０２８０４３，Ｃｈｉｎａ）目录１绪论……………．．…．……．…．．．．．．．．．．．．．…．…………．１１．１研究背景及意义……．．．．．．．．．．……．．．．…．．：………．．．．．．．１１．２研究现状．．…．…．…．………．……………．……．……．２１．３本文的研究内容．．．．…．……………．．．．．．．…．．……．．．．．．．３１．４本文的组织结构……．．．．．………．．…………．．．…．．．．．．．．３２文本分类技术及深度学习相关技术…．………………．…………５２．１文本预处理过程．．……．．…．……．…．．．．．……．．…．……．５２．２文本的数学表示模型…．．．…．………．…………………．．．５２．２．１布尔逻辑模型…………………………………………６２．２．２向量空间模型…………………………………………６２．２．３概率推理模型……．．．…．…．………．．……．…．……．．．７２．２．４语义概念模型．…．……．……．……．．．……．……．…．．．７２．３常用的文本分类算法研究…………………………………．８２．３．１朴素贝叶斯算法．．……．．…．．…．．…．．………．．．．．．．．．．．．８２．３．２Ｋ紧邻算法……………………．…．…．……．……．…．９２．３．３粗糙集算法………………．…………………………．９２．３．４人工神经网络算法．．…．…．．．．…．．．……．．……．．．．．．．．．．．１０２．４深度学习的相关技术及研究……．…………………………．１１２．４．１深度学习的发展历程．．．…．…．．．．…．．．．．．．．．．．．．…．…．．．．．１ｌ２．４．２深度学习在文本挖掘中的应用……………………………．１２３基于单个自动编码器的文本分类研究．．．…………．．…．．……．…．．１ｊ３．１自动编码器网络．……．．…．…．………．．…．…．……．．…．１６３．１。１预训练…，………………．…………．………………１６３．１．２网络展开．．………．．．．．．．．．．…．．．……．．……．．．．．．．．．．．１８３．１。３网络微调．………………．…………………………．１８３．２实验数据分析………………．．．…，……．……．．…．…．．．１９３．２，１数据集………………………………………………１９３．２．２实验结果……．．…………．．．……．．．．．．．．．．…．．…．…．２０４基于多个自动编码器的文本分类研究．……………………………２５４．１基于多个自动编码器的文本分类方案…………………………２５４．２基于多个自动编码器的文本分类实验结果分析…………．……．．．２６５总结与展望………．…………………．．．…………．……．．．３１５．１论文工作总结……．．．……．．……．……．．…．５．２今后研究展望……．………．……．．…．……．参考文献……………………………………．．．致谢…………………………………………．作者简介…………………．．……．……………３１３１３２３５３６内蒙古民族大学硕士学位论文１绪论１．１研究背景及意义随着信息和互联网技术的快速发展，数字信息量呈爆炸式的增长，各种的数字信息充斥着人们生活的每个角落．人们享受着这些数字信息带来的便利，同时还在不断的产生和创造者新的数字信息数据．２０１３年美国科技博客网站ＢｕｓｉｎｅｓｓＩｎｓｉｄｅｒ发布名为《ＴＨＥＦＵＴＵＲＥＯＦＤＩＧＩＴＡＬ：２０１３２报告显示：Ｗｈａｔ’ｓＡｐｐ每天发送的信息量高达１１０亿条，每天共享的图片数达到７．５８亿张．早在２０１１年时ＩＤＣ（ＩｎｔｅｍｅｔＤａｔａＣｅｎｔｅｒ）研究就指出全球的数据信息产生量仅当年就达到了１．８ＺＢ（万亿ＧＢ），并且预计由于信息技术的发展和硬件设备的广泛应用，全球数据总量每１８个月增长一倍，预计到２０２０年将增长５０倍，未来十年负责处理数据的专业技术人员仅增长１．５倍左右，两者无法匹配增长．诸多文本信息的增长速度已远远超越了人工处理数据的能力．文本等非结构化或半结构化的数据信息约占未来十年数据信息产生量的百分之九十以上．人类社会已经进入了数字信息时代，将面临着难以想象的大数据时代的到来．因此，有效的组织管理，ｎ，ｔＪ用当前的数据信息是当前工业界和学术界的热点问题“：．在众多种类的数据信息中，文本数据作为数据信息的一种重要承载形式，如何对其进行有效的组织管理与定位利用信息，近十年来得到了人们广泛关注并快速发展．文本分类技术作为一种高效的信息检索与数据挖掘的信息技术，在对文本数据信息的组织与管理中具有举足轻重的地位．自动文本分类（ＡｕｔｏｍａｔｉｃＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ，简称ＴＣ）技术是信息检索和文本挖掘的重要基础，概括来讲其主要任务就是在将给定数据集划分到已知的一个或者多个类别集合中“，．自动文本分类技术应用在许多领域，从传统的自动或半自动文本索引，到个性化广告预测发布、内容信息（如垃圾邮件）过滤，到依据层次目录内容的网页分类，到元数据信息的自动生成等ｕ，．自动文本分类技术是在基于专家经验的人工分类基础上产生的．传统的人工分类技术已经相当成熟，但是远不能满足日益增长的数据信息量的迫切要求．自动文本分类技术作为处理海量文本数据信息的有效手段，可以对其进行较为精准的管理与定位，节约大量的人力及物力，已经被应用在数据信息过滤、信息组织管理及定位、网页分类和数字图书馆等领域“ｊ．（１）数据信息过滤日益增长的数据信息使得人们获取信息更加容易方便，但是获得的信息量可能会远远超过所需，所得信息越多人们处理起来就会越困难．数据信息的过滤就是将这些信息分为“有关”和“无关”两类，保留“相关文本”，去掉“无关文本¨”．例如，电子邮件客户端应只保留相关邮件，远离垃圾邮件，广告过滤系统应阻止用户不感兴２基于深度学习的文本分类研究趣的广告邮件等．（２）信息组织和管理通过对文本数据信息的组织管理及定位，人们可以更方便的了解和使用这些内容按照一定的规则或方法，通过对文本数据特征的有效描述，将杂乱无序的数据整理成有序数据，减少信息数据流的混乱程度，提高信息的内在质量和价值、节约存储及管理应用数据的成本、建立数据与用户间更为良好的关系…．（３）网页分类网页分类对属于特定主题网页的直接浏览、对于查询网页的相关搜索非常有效，一般的应用是对网页进行自动层次分类．（４）数字图书馆数字图书馆是将文本、图片及其他有价值的数据以数字信息方式来存储和管理的图书馆．处于不同地域的读者可以更方便的使用海量分散在不同位置的数据．自动文本分类技术可解决数字图书馆面临的海量新增数据信息量、文本重复或相似、信息难以确定定位与查询等棘手问题．１．２研究现状上世纪五十年代末开始，Ｈ．Ｐ．Ｌｕｎｈｎ等人对文本分类的工作进行了开创性的研究［４０］．１９６１年，第一篇关于自动文本分类的文章《ＡｕｔｏｍａｔｉＣｅｘｐｅｒｉｍｅｎｔａｌｉｎｄｅｘｉｎｇ：ａｎｉｎｑｕｉｒｙ》（Ｍａｒｏｎ）”１发表，随后很多学者进入了这一领域的研究，当时的主要目的是为科学文献索引提供技术支持．上世纪八十年代末之前，知识工程专家规则仍是自动文本分类的主要方法，卡内基公司为路透社（Ｒｅｕｔｅｒｓ）开发的Ｃｏｎｓｔｒｕｅ系统，该系统能够对路透社每天产生的数以万计稿件进行自动分类”ｊ，到了二十世纪九十年代，随着可用文本数据量的不断增长，机器学习和统计方法被引入自动文本分类技术中，分类结果比基于知识工程专家规则的自动文本分类方法取得了长足的发展，并成为了主流研究方向“３．国内有关文本分类的研究工作进展的相对较晚，但经过这些年的发展已经取得了较大的发展．中文语言的特殊性使得字词之间没有明显分隔符号，而英文文本字词之间都有空格，这使得中文文本分类与英文文本分类在方法的有效性与难度上都难以突破．在对文本进行分类之前先要进行其进行预处理，文本与处理中就包括文本分词，把文本中的语句经过分割后得到文本的词组特征．例如中科院研究所等开发的ＩＣＴＣＬＡＳ２０１２一ＳＤＫ—Ｕ０１０６分词软件，虽然分词准确率较高，但由于文本语境中不断出现的动态词汇如许多新词、专业词汇等，给现有的分词系统带来了不小的挑战．中文文本的语法、句法比英文要复杂的多，这也导致现有的中文文本分类要比英文文本分内蒙古民族大学硕士学位论文类困难．但是经过我国研究学者多年的努力中文文本分类计数也取得了很大的成果．目前国内的研究学者在英文文本分类的基础上，结合中文文本的特定语义知识，形成了基于中文文本自动分类体系”：．２００５年，李荣陆等人应用最大熵模型进行了中文文本分类“”；王建会等人提出并结合了互依赖和等效半径的概念，研发了一种基于互依赖和等效半径、易于更新的ＳＥＣＴＩＬＥ文本分类算法：该算法计算复杂度低且易于扩展““．２００６年，尚文倩等人提出了另一种新的基于基尼指数的文本特征选择算法：使用基尼指数原理构造文本特征选择评价函数进行了文本特征选择的研究ｍ３．苏金树等人从模型、算法和评测等方面给出了基于机器学习的文本分类方法的综合论述，认为非线性、数据集偏斜多层分类、算法的拓展性等问题是目前研究的核心研究问题，并对这些问题提出了具体可行的方法，且对该方向做了展望ｍ１．１．３本文的研究内容在认真分析了前人有关文本分类特别是基于深度学习的文本分类的基础上，本文工作旨在研究将深度学习理论应用于文本分类中，提高文本分类算法的精确度和效率，主要侧重于基于Ａｕｔｏｅｎｃｏｄｅｒ（简称ＡＥ）的特征提取、文本二分类及多分类问题．主要工作有：首先，对文本分类的相关技术：文本表示、分词处理、去停用词、特征选择、特征抽取等算法进行了介绍分析，也介绍了分类结果的评判标准和常用的语料数据集，并在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果．其次，本文主要讲述了深度学习的产生发展过程及其在文本挖掘中的应用，并通过单个自编码器提取特征并分类，并在数据集上进行了验证．最后提出了中基于多个ＡＥ的文本分类方案，并与单个ＡＥ进行分类的方案进行了理论分析与想，进行了相应范围内的实验，给出了对比分析．１．４本文组织结构本论文共分为六章，各章具体内容如下：第一章绪论本章介绍了课题背景、研究意义、国内外文本分类的发展历史及研究现状，分析研究了现今文本分类的理论、应用研究及发展趋势．第二章文本分类的相关技术及研究本章主要介绍了文本分类系统的整个流程，对系统中的关键技术，即文本表示、分词处理、特征选择、特征加权、分类算法等进行了重点讲解，介绍了几种常见的文４基于深度学习的文本分类研究本分类算法及分类效果的评判标准，其次介绍了深度学习的发展历程、基于深度学习的文本分类方法，最后对深度学习技术做了小结。第三章基于单个自编码器的文本分类本章首先介绍了基于单个自编码器的文本分类方案，其次介绍了深度学习中的一种结构自动编码器网络（Ａｕｔｏｅｎｃｏｄｅｒ）的学习过程，对实验数据集进行了描述，最后对该设想进行了实验验证，并对实验数据进行了分析第四章基于多个自编码器的文本分类本章首先阐述了基于多个自动编码器的文本分类方案，其次对基于多个自动编码器的文本分类方案进行相关实验，并对实验结果进行了分析．第五章总结与展望本章首先总结了全文工作，其次分析了工作中遇到的问题和不足，最后展望了以后的研究方向．内蒙古民族大学硕士学位论文５２文本分类技术及深度学习相关技术文本分类（ＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ＆ＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＴＣ）就是将给定的文本数据划分到事先定义好的一个或多个文本类别中且通过有监督的机器学习得到一个文本分类器【１３】．————［■否—］二一判定分赳，———是—＋结果输出童：麟麟磊ｊ一分类文本，集合Ｂ为预先设定的类别集合．ｒ图１文本分类处理过程从数学上来看，可将文本分类的过程看做是一个映射关系ｆ：Ａ＿Ｂ，其中集合Ａ为待类别·－－—－—－－·－－－－—－－··－－－ｏ。爿～ｊ；啄』［／‘一、．、一、皂；ｊＱ；图２文本分类的数学模型２．１文本预处理过程文本分类的算法不能直接在原始文本数据上进行处理．因此，在预处理阶段要将原始文本转换成计算机可识别的信息，即对文本进行形式化处理．这一过程称为文本表示．不同数据类型的文本表示有不同的特点，因此根据文本数据的特点选择适合该文本信息的模型表示是极为重要的．文本分类预处理主要包括文本空间向量表示、中文分词、去除停用词等，下面进行简单介绍．２．２文本的数学表示模型目前常见的文本表示模型有布尔模型、向量空间模型、概率推理模型、语义概念６基于深度学习的文本分类研究模型等［３］．２．２．１布尔逻辑模型布尔逻辑模型为二元逻辑，即假定某文本特征出现的情况仅为两种：出现或不出现．该模型形式简单但不能够表征某特征的贡献度，无法定量分析．２．２．２向量空间模型向量空间模型（ＶｅｃｔｏｒＳｐａｃｅＭｏｄｅｌ，简称ＶＳＭ）是由Ｇ．Ｓａｌｔｏｎ等人首次提出并在著名的ＳＭＡＲＴ系统中得到了成功的应用．在向量空间模型中，把文本数据表示成向量空间中的向量如下图３所示．２，ｗｌＩｗ１２蟛刀文档集一＼ｊ心ＪＷ２２心”＼—ｒ／／，一。●●。。。。。＿＿＿＿＿－＿－。。。－。。。。。一４畋．．．吸ｗ．１％２…％门图３空间向量模型向量空间模型的优点在于将文本表示成为为特征项与其权值相结合的向量，从而将对文本分类的操作转换成了对该文本表示的向量运算，易于操作．缺点在于其假设特征词项之间是线性无关，即两特征词项之间是“两两正交”的，在语言处理中词项之间存在着密切的语义联系，所以该假设不能保证计算结果的可靠性．文本分类时，需要对已有属性标签的训练集进行预处理，如分词、去停用词、降维、加权特征等，并通过训练学习得到一个文本分类函数，形成属性类别的中心向量．需要进行文本分类时，将预处理得到的向量信息与已得到的类别属性中心向量做相似度比较，以此确定该文本的属性类别．相似度计算可借助某种距离来表示．一般的相似度表达方式有Ａ．内积：内蒙古民族大学硕士学位论文７ｓｉｍ（ｄ，，ｄ．）＝∑ｗ，ｋ·Ｗ—（１）ｋ＝ｌＢ．绝对值距离：ｓｉｒｅ（ｄ，，ｔ）＝∑慨－－Ｗｊｔ（２）ｋ＝１Ｃ．欧几里得距离：ｓｉｍ（ｄ，ｊｄ，）＝（３）１３．切比雪夫距离：ｓｉｍ（ｄ，，ｄ，）＝ｍａｘＩⅥ：ｔ—ｗ肛（４）Ｅ．夹角余弦：∑＂１４，＇ｉｋ·１４：肛ｓｉｍ（ｄ，，ｄ，）＝ｃｏｓ０＝ｋ－ｌ（５）最常用的距离公式是（５）式，余弦公式的优势在于其数值为【Ｏ，１】之间的数，如果向量相似性一致就是１，正交的话就是０，符合相似度的数值特性．２．２．３概率推理模型概率推理模型考虑特征词项之间的相关性，用概率论知识给特征词赋予概率值的方法，以此来表达这些词项在无关和相关文本内的贡献度，然后计算文本间的相关概率，以此做出文本分类判断．基本思想是：给定相应的检索词项，该检索词对应于一个包含所有相关文档的集合，通过该检索词和集合中文档概率模型来估计检索词与文档间的相关概率．假设各特征词项之间相互，由贝叶斯定理可得兀讹ＩＲ）·兀Ｐ（ｉｌＲ）鲥似正ｇ）≈肯而硝哥丽（６）ｇＩｄｌ－１ｇ（ｄ）＝０概率模型对文本的依赖性强，处理问题较为简单．２．２．４语义概念模型语义概念文本表示模型多事建立在对自然语言的相关理论与技术基础上的，特别８基于深度学习的文本分类研究是概念和概念距离．其中隐性语义分析（ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ，ＬＳＡ）也称为隐性语义索引（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ，ＬＳＩ）是最早将文本数据信息转换成语义空间结构的方法．在ＬＳＡ模型中一个文本数据集可表示称为一个ｍＸ，２的词项文档大矩阵Ｄ，这里ｍ表示表示文本的个数，ｎ表示文本特征词项的个数．矩阵Ｄ可表示为ｑｌＤ＝ａ２１ｑ２１２２２¨ｑ呸；；ａⅢ１ａ…２％ＭＬＳＡ模型利用特征此项与文本数据之间的内在语义概念形成关于该文本数据集的语义网络结构．这种语义结构可通过将特征文档矩阵Ｄ进行分解，从而生成新的语义空间．２．３常用的文本分类算法研究文本分类算法的核心问题是如何根据已知文本数据集构造出～个文本分类模型（或称文本分类器）并用此模型将未知类别属性的文本进行属性类别判定．目前常用的文本分类模型有很多种，如Ｋ紧邻算法（ＫＮＮ）、朴素贝叶新算法、决策树算法、支持向量机算法、粗糙集算法、人工神经网络算法（ＡＮＮ）等．不同的文本数据结构适用于不同的文本分类算法，哪一种算法性能最优，至今未有定论．文本分类器的训练主要分为三个部分：ａ）将己知类别属性的文本数据集分成训练集和测试集两部分；ｂ）按照一定方法对分类器进行训练，从而得到分类器的数据；ｃ）使用测试集对得到的分类器进行测试，如果测试结果不满足分类要求则返回步骤ｂ进行修改，若符合结果，则分类器训练成功．２．３．１朴素贝叶斯算法朴素贝叶斯算法是目前学术界和工业界公认的简单有效的概率分类算法，是求解具有未知参数的概率模型ｍ，贝叶斯分类器的训练过程是用带标签的训练集来估计概率模型参数的过程．对新的文本的分类过程其实就是用贝叶斯定律来确定产生该文本的可能性的类别的过程．无论选用哪种概率模型．贝叶斯分类器要计算给定一个文本的前提下判断该文本属于某个类别属性的概率．贝叶斯分类器如向量空间类似假设各特征之间两两．内蒙古民族大学硕士学位论文９图４朴素贝叶斯分类器２．３．２Ｋ紧邻（ＫＮＮ）算法Ｋ近邻算法（Ｋ－ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ，ＫＮＮ）是目前在文本分类领域中应用广发的～种经典分类算法ｎ”．在二十世纪六十年代末Ｃｏｖｅｒ提出了ＫＮＮ算法，当Ｋ取值为１时，Ｋ近邻就退化为最近邻．ＫＮＮ算法的基本原理是：首先计算待测文本与测试集中每个文本的相似度，然后找出与待测文本相似度最大的Ｋ个文本，最后将这Ｋ个文本中样本最多的一类，判定为待测样本的类别“”．Ｋ的值选择非常重要，Ｋ值选择的过大或过小都会影响分类的精确度．目前还没有很好的确定Ｋ值的方法．首先取一个较小的Ｋ值，然后按照选取Ｋ值的不同根据分类实验结果进行调整“…．２．３．３粗糙集算法１９世纪８０年代初，波兰学者Ｐａｗｌａｋ首次提出粗糙集（ＲｏｕｇｈＳｅｔ）／里论“”．粗糙集算法的优势在于不需要先验知识，经过知识约简获得问题的分类规则，从而能够处理不确定问题．目前，粗糙集在人工智能模式识别“”和文本挖掘…等领域都有成功的应用．粗糙集理论是基于给定训练数据内部的等价关系，形成等价类的所有元数据组是不用区分的．描述数据属性时，这些元数据组是等价的．给定类别Ｒ的粗糙集定义用两个集合近似：Ｒ的上近似集和Ｒ的下近似集．１．上近似集和下近似集：设Ｒ是非空有限论域【，上的一个等价关系，且ｕ／Ｒ＝｛陋］。ｋ∈Ｕ｝．对于任意的Ｘ￡Ｕ，则定义ｘ在ｕ上的上近似和下近似为：～ＲＸ＝ｕ｛【口］足Ｊ［ａｌＲ∈ｕ／Ｒ且【口】足ｎｘ≠妒）堡Ｘ＝Ｕ｛［口】ＲＩ【口】。∈ｕ／ＲＪｉ［ａ］。∈ｘ）１０基于深度学习的文本分类研究２．正域、负域、边界设Ｒ是非空有限论域Ｕ上的一个等价关系，对于任意的Ｘ∈Ｕ，则定义ｘ在Ｕ上的正域、负域、边界分别为：ｐｏｓＲ（Ｘ）＝丝ｎｅｇＲ（ｘ）＝尺一心ｂｎ。（Ｘ）＝ＲＸ一丛（９）Ｒ正域是所有包含在集合Ⅳ中的Ｒ等价类集合；月负域是所有与集合ｚ交为空的Ｒ等价类集合．尺边界域是指所有与集合ｘ交不为空但不包含在集合ｘ中的Ｒ等价类集合．图示如下：域、胄的下近似图５上下近似、正负域、边界域关系图２．３．４人工神经网络算法人工神经网络（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＡＮＮ）ｍ：是人工智能领域的一个重要的研究方向，它以其高速并行的处理能力和可分布存储信息的能力等特性非常符合人类思维的处理方式．内蒙古民族大学硕士学位论文图６神经网络工作原理Ｗｉｅｎｅｒ和Ｎｇ曾分别将神经网络技术应用于文本分类，其输出单元一般是文本特征词项，输出单元表示文本属性类别，神经元的连接权重表示归属依赖度．反向传播（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ，ＢＰ）算法是目前最常用的．神经网络能够对具有噪声的数据进行处理，对未经训练的数据的模式分类能力较强，但其需要较长的训练时长，对于时间需求度不高的应用更为合适；神经网络中的参数主要依靠人工经验调节．２．４深度学习的相关技术及研究２．４．１深度学习的发展历程２００６年初，加拿大多伦多大学的Ｈｉｎｔｏｎ教授和他的学生Ｓａｌａｋｈｕｔｄｉｎｏｖ在（（Ｓｃｉｅｎｃｅ（科学）》上发表（（Ｒｅｄｕｃｉｎｇｔｈｅｄｉｍｅｎｓｉｏｎａｌｉｔｙｏｆｄａｔａｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ））”“，描述了自动编码器（Ａｕｔｏｅｎｃｏｄｅｒ，ＡＥ）在图像和文本等方面的降维具有前所未有良好结果，ＡＥ是在《Ａｆａｓｔｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｄｅｅｐｂｅｌｉｅｆｎｅｔｓ［Ｊ］．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ））””ＤＢＮ的基础上的改良．从此掀起了深度学习（ＤｅｅｐＬｅａｒｎｉｎｇ，ＤＬ）在学术界和工业界的研究浪潮．深度学习通过建立类似于人脑的分层模型结构，对输入数据逐级提取从底层到高层的特征，从而能很好地建立从底层信号到高层语义的映射关系ｍ，．从仿生学角度来讲，支持深度学习的一个重要依据，就是著名的Ｈｕｂｅｌ－－Ｗｉｅｓｅｌ模型，由于该模型揭示了视觉神经的机理而曾获得１９８１年诺贝尔医学与生理学奖ｍ”．１２基于深度学习的文本分类研究２０１０年，美国国防部ＤＡＲＰＡ计划首次资助深度学习项目，参与方有斯坦福大学、纽约大学和ＮＥＣ美国研究院．２０１２年６月，《纽约时报》披露了ＧｏｏｇｔｅＢｒａｉｎ项目“１，吸弓１了公众的广泛关注．这个项目是由著名的斯坦福大学机器学习教授ＡｎｄｒｅｗＮｇ和在大规模计算机系统方面的世界顶尖专家ＪｅｆｆＤｅａｎ共同主导，用１６０００个ＣＰＵＣｏｒｅ的并行计算平台训练一种称为“深层神经网络”（ＤＮＮ，ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）的机器学习模型，在语音识别和图像识别等领域获得了巨大的成功．２０１３年４月《麻省理工学院技术评论》（ＭＩＴＴｅｃｈｎｏｌｏｇｙＲｅｖｉｅｗ）杂志将深度学习列为２０１３年十大突破性技术（ｂｒｅａｋｔｈｒｏｕｇｈｔｅｃｈｎｏｌｏｇｙ）之首ｍ”．随着国内外学术界和工业界中深度学习研究的兴起，深度学习逐渐成为数据挖掘领域中一种重要的工具．自２００６年以来，深度学习在学术界持续升温．斯坦福大学、纽约大学、加拿大多伦多大学、蒙特利尔大学等成为研究深度学习的重镇．深度学习可以理解为由玻尔兹曼机（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ，ＲＢＭ）层叠实现的机器学习方法．深度置信网络以玻尔兹曼机为基础而在学习能力上实现了进一步的强化，也是深度学习思想最普遍的表现形式，目前深度学习的理论研究还基本处于起步阶段，但在应用领域已经显现巨大能量ｍ“．继２０１２年６月《纽约时报》报道了谷歌的深度神经网络（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ，ＤＮＮ）项目“ＧｏｏｇｌｅＢｒａｉｎ”之后，２０１２年１１月，微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅．据报道，其后面支撑的关键技术也是深度神经网络．２０１３年１２月，全球最大社交网站（Ｆａｃｅｂｏｏｋ）宣布成立人工智能实验室，研究深度学习技术帮助网站解决照片自动标注等复杂问题ｎ“．国内方面，２０１３年的１月在百度公司年会上，李彦宏高调宣布要成立百度研究院，其中第一个重点方向就是深度学习，并为此而成立ＩｎｓｔｉｔｕｔｅｏｆＤｅｅｐＬｅａｒｎｉｎｇ（ＩＤＬ）１２４｜．ｉ青华大学”“、哈尔滨工业大学…’以及中国科学院自动化研究所”１｜等高校和研究所纷纷开展了深度学习研究．２．４．２深度学习在文本挖掘中的应用世界上较早的将深度学习引入自然语言处理的研究工作有ＮＥＣＬａｂｓＡｍｅｒｉｃａ研究员Ｃｏｌｌｏｂｅｒｔ和Ｗｅｓｔｏｎ，他们从２００８年开始采用ｅｍｂｅｄｄｉｎｇ和多层一维卷积的结构，用于词性标注，语句分块，命名实体识别以及语义角色标注等４个典型ＮＬＰ问题”“．他们将同一个模型用于不同任务，都取得了与经典算法相当的准确率．２００９年，Ｓａｌａｋｈｕｔｄｉｎｏｖ和Ｈｉｎｔｏｎ提出了的ＳｅｍａｎｔｉｃＨａｓｈｉｎｇ方法将深度学习应用于文本理解和分析领域ｗ．在这个方法中，他们提出使用ＤＢＮ模型将基于词频统计的文本特征向量映射到新的低维语义空间中去，在语义特征空间中距离相近的点所对应的文本在内容内蒙古民族大学硕士学位论文上更加相关．ＳｅｍａｎｔｉｃＨａｓｈｉｎｇ之所以表现出比传统的浅层语义分析方法更好的效果，主要是因为在大规模的文本重建训练过程中模型隐式地获得了词语之间的语义联系，使特征的映射更趋于合理．２０１１年，斯坦福大学教授Ｍａｎｎｉｎｇ等人将深度学习用于自然语言和自然风景图片的融合ｍ，．国内较早开展深度学习在文本挖掘领域中研究的是哈尔滨工业大学的王晓龙教授研究组，他们Ｉｊ妙的将深度置信网络应用于网络社区问答对的语义挖掘中”。．基于深度学习的文本分类研究内蒙古民族大学硕士学位论文１５３基于单个自动编码器的文本分类由于文本数据自身结构特点及其语义复杂性，在经分词、删除停用词后，剩余的特征形成的特征空间维数依然很高，需要进一步对特征空间进行优化．最常用的方法就是对其进行特征降维操作，使得特征空间的维数能够易于后续的文本分类操作并且在将为以后分类精度并未受太大影响．将特征数量减少之后文本分类器将处理的文本数据规模大大降低，且在此操作过程中也能将噪声词项删除．特征降维的常用方法有：特征选择和特征提取…１．特征选择是在特征集合Ｔ＝｛ｔ１ｆ！，…ｒ。）中按照一定规则选取一个特征子集Ｔ＝｛１１ｆ２，…ｒ。）（胛《ｍ），后者中每个特征的贡献度比前者大所以后者更能代表原始文本信息．特征提取是对原始高维特征空间通过一系列相应的变换得到该原始文本在低维空间的表示．特征提取是依据文本语言中的语义相关性如同义多义词等信息进行处理的．常见的特征评估方法主要有以下几种：文档频度、信息增益、特征熵、互信息以及基于粗糙集的特征选择方法等［３７１．下面进行简单介绍．１）文本频率（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ，ＤＦ）’ＤＦ（ｗ）＝ｎｕｍ（ｗ）（１０）２）互信息（ＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ，ＭＩ）互信息度量的是某个词和类别之间的统计关系．脚（１¨，）．∑户（ｑ）１０９而Ｐ１ｗｃ，）（１１）其中，Ｐ（ｕ，）表示特征词ｗ在问集中出现的频率：Ｐ（ｑ）表示文本属于ｃ，类的频率；尸（Ｍ忙，）表示在文本属于ｃ，类的条件下，出现特征词Ｗ的频率．３）信息增益（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ，ＩＧ）ｔＧ（Ｍ’）＝尸（’’’）∑Ｐ（ｃ小饥。ｇ等＋尸（瓦）∑尸（ｃ厣）ｌ。ｇ等（１２）其中，Ｐ（ｗ）表示特征词ｗ在文本集中出现的频率；Ｐ（ｗ）表示特征词Ｗ在文本集中不出现的频率；Ｐ（ｃ，１ｗ）表示在出现特征词ｗ的条件下，文本属于ｃ。类的频率．４）期望交叉熵（ＥｘｐｅｃｔｅｄＣｒｏｓｓＥｎｔｒｏｐｙ，ＥＣＥ）期望交叉熵度量的是当一个特征出现时我们所获取的信息量”。ＥＣＥ（ｗ）＝∑Ｐ【ｑｌｗ）ｌｏｇ等（１３）其中，Ｐ（ｃ，）表示文本属于ｃ。类的频率；Ｐ（ｃ，１ｗ）表示在出现特征词ｗ的条件下，文本属于ｃ，类的频率．５）Ｚ２统计量１６基于深度学习的文本分类研究ｚ２统计量度量的是一个特征词和一个类别之间性．设训练集中包含ｗ的ｃ类的文本数为五，训练集中包含ＩＶ的非ｃ类的文本数为％，训练集中不包含ｗ的Ｃ类的文本数为屯，训练集中不包含ｗ且非ｃ类的文本数为％，训练集中文本总数为Ⅳ．Ｚ＇－（ｗ）＝∑尸（ｑ切２（ｗ，ｃｆ）＝而丽Ｎ再（ｘ１而ｘ４－ｘ两２ｘ３丽）２（１４）６）基于Ａｕｔｏｅｎｃｏｄｅｒ的特征提取与上述方法相比较ＡＥ方法具有以下优势：ＡＥ对数据进行处理时可不需要数据类别属性作为前提；与传统的特征抽取相比，ＡＥ显现了更强大的特征抽取能力，对后续的文本分类操作更有效．３．１自动编码器结构自动编码网络是一个包含多个隐层的生成性深度网络，整个网络由编码（ｅｎｃｏｄｅｒ）与解码（ｄｅｃｏｄｅｒ）两部分网络构成．编码网络属于数据降维部分，高维数据通过多层的网络结构后维数降到适合维度的核心结构上．解码网络属于重构数据部分，可以看做是编码网络的逆过程，将核心结构上的数据还原为高维数据．编码网络与解码网络共享一个核心结构，是两个网络的的交叉部分，称之为“代码层”（ｃｏｄｅｌａｙｅｒ）啪３．核心代码层是整个自动编码网络的重要结构，能够表示输入高维数据的本质特征，描述数据的内部本质高阶相关性汹，．自动编码网络是由一系列的受限玻尔兹曼机（ＲＢＭ）顺次连接构成．ＲＢＭ是一种典型的随机神经网络结构，如下图所示，该网络是由层内无连接、层间互连的可视单元和隐层单元构成．图７ＲＢＭ网络构成３．１．１预训练（ｐｒｅ—ｔｒａｉｎｉｎｇ）自编码网络的预训练【３９】是通过无监督学习方式初始化网络参数的过程，用贪婪学——一一———————————————————————————————－——二二—＝二二二一内蒙古民族大学硕士学位论文１：７习算法逐层优化训练ＲＢＭ．首先，训练第一层ＲＢＭ．ＲＢＭ是～个能量模型，其可视单元Ｖ与隐层单元ｈ之间的关系可用能量函数ｃ列表示Ｅ（ｖ，ｈＯ）＝一∑ｑｖ一∑６Ｊ嘭一∑∑Ｍ％吩（１５），其中０＝｛％，ａｉ，ｑ）∈Ｒ为ＲＢＭ的参数，％表示可视单元¨与隐层单元乃，之间的连接权重，ｑ表示可视单元Ｖ的偏置（ｂｉａｓ），ｂ，表示隐层单元的偏置．模型可视单元的联合概率分布ｆ３５】为ｐ“，ｈＩ们２莆ｙｅＥ（ｖ．ｈ１０’．－＿Ｊ（１６）ｚ（ｏ）＝∑ｅ矗“山徊’”巾是归一化因子或称为配分函数（ｐａｒｔｉｔｉｏｎｆｕｎｃｔｉｏｎ）．可视单元与隐层单元之间的条件概率可计算：ｐ（ｈ，＝１ｌＶ）＝盯（∑％ｖｆ＋口，）ｐ（ｖ＝１１办）＝ｏｒ（Ｚｗｏｈ，＋６Ｉ）（１７）（１８）上两式中仃（ｘ）２再≥为ｓｉｇｍ。ｉｄ△ｗ＝￡—Ｏ—ｌｎ＝—ｐ一（ｖ）：占（＜ｖ红／＞ｄａ，ａ－＜Ｖｉ矗ｉ＞ｍｏｄｅｌ）Ｕｗｌ。ｇｉｓｔｉｃ函数．通过求概率对数ｌ。ｇＰ（ｖ，川伊）的偏导，可以得到该层ＲＢＭ的权重更新公式（１９）占是学习率，＜·＞ｄａｔａ表示数据集的期望，＜·＞ｍｏｄｅｌ表示模型数据的期望．实际中要取得数据的无偏样本较难，在训练ＲＢＭ的过程中多采用对比散度（Ｃｏｎ仃ａＳｔｉｖｅＤｉｖｅｒｇｅｎｃｅ，ＣＤ）对数据采样，来更新模型中的参数．ＲＢＭ的权值学习过程如图２，霉ｊ０；④０一、一ｒ。’；Ⅷ；ｊ一一：！、一’一，。，一、：ｖｉｓｉ№ｂ幢ｒ图８ＲＢＭ的训练过程１８基于深度学习的文本分类研究３．１．２网络展开（ｕｎｒｏｆＩｉｎｇ）首层的ＲＢＭ预训练完成后，其隐含单元的激活概率作为下一层ＲＢＭ的训练数据，以此类推进行多次训练．将各个ＲＢＭ展开顺次连接得到自编码网络如图９．面膏‰一～毛章甲～一图９自编码器网络的展开２３３．１．３网络微调（ｆｉｎｅ—ｔｕｒｎｉｎｇ）预训练后，每层网络都得到了初始的参数值．在此基础上对自编码网络的权值做进一步调整．以目标函数为交叉熵（ｃｒｏｓｓｅｎｇｏｐｙ）的ＢＰ算法重新调整网络各层权值，最终使网络参数值达到全局最优．基于ＢＰ算法的交叉熵函数为２ＬＨ（ｘ）＝一∑Ｉｘ，ｌｏｇｙ，＋（１一ｘ，）ｌｏｇ（１一只）】ｆ＝ｌ（２０）其中，ｘｉ为数据目标概率（理论）分布；ｙ，为数据实际概率分布．微调阶段的训练目的是调整网络参数值使目标交叉熵函数的值达到最小，权值调整公式为２口Ｉ△Ｍ０２一口一、ｏｊ△嘞：一口ａｌｌａ．（．ｘ＿＿＿２：口Ｉ（ｘ－ｙ，）ＯｓＹｉ。口彬．（２１）基于公式（２２），可以完成自编码网络的微调．微调完成后整个网络己构建好．３．２３．２．１实验数据分析数据集本文实验选用Ｔ－－个标准的文本数据集：内蒙古民族大学硕士学位论文１９１）Ｒｅｕｔｅｒｓ一２１５７８（Ｒｅｕｔｅｒｓ）Ｒｅｕｔｅｒｓ．２１５７８ｍ，是文本分类中常用的标准文本数据集，其中包含２１５７８个文本，共１３５个类别．它是１９８７年卡内基集团为路透社整理的财经新闻稿文档集，共有１３５类２１５７８篇．该语料库可以按照最常见的ＭｏｄＡｐｔｅ分解方式将语料库分解成训练集合测试集，其中训练集９６０３篇，测试集３２９９篇．由于文本的多标号性，人们在ＭｏｄＡｐｔｅ分解的基础之上去除所有多标号的文本，得到了一个较小的数据子集，其中包含６５５２个训练文本，２２６６个测试文本．Ｒｅｕｔｅｒｓ．２１５７８是研究英文文本分类的最重要的一个标准语料库．本文采用最普通的１０个类，７４６１个文档作为训练集，２３２５个文档作为测试集，总计９７８６个文档．表３Ｒｅｕｔｅｒｓ－２１５７８语料分布表２）２０２０Ｎｅｗｓｇｒｏｕｐｓ（２０ＮＧ）Ｎｅｗｓｇｒｏｕｐｓ…３也是一个常用的标准文本数据集，其中收集了来自２０个新闻组的将近２００００篇新闻．２０ＮＧ主要有两个版本，本实验使用的是１８８２８个数据版本．表格１２０Ｎｅｗｓｇｒｏｕｐ的２０类ｓｃｉ．ｃｒｙｐｔｃｏｍｐ．ｇｒａｐｈｉｃｓｃｏｍｐ．ＯＳ．ｍｓ—ｗｉｎｄｏｗｓ．ｍｉｓｃｃｏｍｐ．ｓｙｓ．ｉｂｍ．ｐｃ．ｈａｒｄｗａｒｅｃｏｍｐ．ｓｙｓ．ｍａｃ．ｈａｒｄｗａｒｅｃｏｍｐ．ｗｉｎｄｏｗｓ．Ｘｍｉｓｃ，ｆｏｒｓａｌｅｒｅｃ．ａｕｔｏｓｒｅｃ．ｍｏｔｏｒｃｙｃｌｅｓｒｅｃ．ｓｐｏｒｔ．ｂａｓｅｂａｌｌｒｅｃ．ｓｐｏｒｔ．ｈｏｃｋｅｙｓｃｉ．ｅｌｅｃｔｒｏｎｉｃｓｓｃｉ．ｍｅｄＳＣＩ．ｓｐａｃｅｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｍｉｓｃｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｇｕｎｓｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｍｉｄｅａｓｔｔａｌｋ．ｒｅｌｉｇｉｏｎ．ｍｉｓｃａｌｔ．ａｔｈｅｉｓｍＳＯＣ．ｒｅｌｉｇｉｏｎ．ｃｈｒｉｓｔｉａｎ基于深度学习的文本分类研究图１０２０ｎｅｗｓｓｇｒｏｕｐ中每类个数３．２．２实验结果在训练单个ＡＥ抽取特征进行分类的过程中，选用的是２０ＮＧ作为训练集和测试集．用ｊａｖａ相关程序对其进行预处理后用ｍａｔｌａｂ程序对其进行降维．首先处理的二分类问题，选取了ａｉｒ．ａｔｈｅｉｓｍ和ｃｏｍｐ．ｇｒａｐｈｉｃｓｑ］ｉ）ｌｌ练集数目１００，测试集数目皆为５０．刀∞∞∞∞∞∞ｏ０２０４。６０８１３１１３１３１２。１４．１３１卸馆０２∞图１１２００个数据点经过分词去除停用词后该小样本数据维数为１０７０９．通过一个自编码器将特征提取后用ｓｏｆｔｍａｘ分类器对其进行分类．当数据被分为两类时，文本的误分率很高．将小内蒙古民族大学硕士学位论文２１样本分为１０个类时，分类效果反而更好．表格２文本二分类相关数据由上表可以看出，当节点数目为１０７０９．５０００．２０００．１００．１０时分类效果最好．准确率Ｐ＝Ｏ．９１．图１２第一层节点数为７０００权重示意图２２基于深度学习的文本分类研究¨孙”嘶∞２０００２５∞图１３第二层节点数为３０００权重示意图们¨眦们饥们们图１４第三层权重示意图三分类是从ｒｅｃ．ｓｐｏｒｔ．ｂａｓｅｂａｌｌ、ｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｍｉｓｃ、ｓｃｉ．ｅｌｅｃｔｒｏｎｉｃｓ三类中各抽取１００个｛Ｊ练样本和５０个测试样本．内蒙古民族大学硕士学位论文２３表格３文本三分类数据上述实验中其中维数为７０００．３０００．３００．１０与５０００—１０００—１０．１０这两组分类分别作了两次其中第一次每组组内循环次数为１０、微调次数为５０，第二次实验组内循环次数为５０、微调次数为５０．显然循环次数的增加并未使得实验结果更好，实验时间反而更长．当分类为３时分类其并未能将文本数据很好的分开，调整每层节点数目对分类效果也没有很好的提升．在三分类中，文本分类的效果并不如二分类的效果明显，分类器对特征识别的能力较差，对三个类别的文本特征识别并不如二分类实验数据好．基于深度学习的文本分类研究２４内蒙古民族大学硕士学位论文２５４基于多个自动编码器的文本研究４．１基于多个自编码器分类的理论研究自编码器网络可将数据进行重构，利用这个性质首先利用训练集中文本数据将网络进行训练，完成后网络已经学习到了文本的重构信息，利用这种网络重构的特性可对文本进行相关分类．对于多类文本数据，可采用多个自编码器网络分类训练，得到多组权值，每组权值保存该类文本数据的相关信息．首先用预处理文本信息，将其生成向量空间模型．由于向量空间模型假设各文本特征项之间是相互的，只将特征项的频率作为统计信息，这样原始文本数据的部分信息便会丢失．但相关实验数据表明，仅适用前１０％的最频繁的特征项并不能降低分类的准确度【３】．将文本数据转化成空间中的数据点后可以对文本进行相关的数值计算．由于文本语义及其内部结构的复杂性，经过分词、删除停用词项后，生成的文本数据特征空间维数仍旧较高，需要进行特征维数约简．本文中应用已取得良好特征提取效果的自编码器网络实现．先对每一类的文本进行训练，每一类文本生成一个自编码器网络，全部的文本训练完成之后，就有多个的自动编码器网络，并将训练好的自动编码器网络的权值保存整合成一个大的网络图１１和图１２．文本语一一１料崩—－＋预处理ｊ，判一ＹｅＳ－＋ｌ列络存储图１５单个Ａｕｔｏｅｎｃｏｄｅｒ训练整合网络中的每个自编码器司看做一个感知神经兀，整个ｌ网络的拓扑结构是一个神经网络结构，是Ｄ维的恒等映射．厂：丁Ｈ丁，此处Ｔ＝“，ｔ：，．．．，ｆ。｝∈Ｒｍ”为包含１３个特征的高维文本数据，其中ｔ。表示是第ｉ个Ｄ维数据．将测试文本输入到已训练好的多个自编码器的整合网络中，可以得到关于测试文本的多个重构文本信息，计算原始文本与多个重构文本之间的相似性，相似性的计算选取两文本之间的余弦值，公式为＆棚‘￡瞎一乇ｃ’＝ｃ。ｓ曰２：厅薹三ｉｌｉＥＤｉ尹ｊ丽∑ｒ泛－乞‘２２’、／。幺Ｖ０懵川、幺Ｖｍ川此处，ｋ表示原始文本信息，ｋ表示通过自动编码网络重构的文本信息，７二表示２６基于深度学习的文本分类研究在原始文本信息中第ｉ个特征，‘二表示重构文本信息中第ｉ个特征．相似性最大的类别便是测试文本的属性类别．篙ｔ拈，舢ｎ一沁酣一一舢ｎ一幻卧】ｌ㈣～Ｏ★拈２ＡｕｔｏｅｎｃｏｄｅｒＣｏｐｕｓｎｅｔｗｏｒｋ３一…』ＳｉｍｉｌａｒｉｔｙＬａｂｅＩ一—？ｃａｌｃｕｌａｔｉｏｎｏｕｔｐｕｔＡｕｔｏｅｎｃＯｄｅｒｎｅｔｗｏｒｋ１９Ａｕｔｏｅｎｃｏｄｅｎｅｔｗｏｒｋ２０图１６基于多个自动编码器的分类网络４．２实验结果分析本实验所采用数据集为３．２．１中所描述两数据集Ｒｅｕｔｅｒｓ．２１５７８和２０ｎｅｗｓｇｒｏｕｐ．在关于每一类训练的过程中，数据集用２０ｎｅｗｓｇｒｏｕｐ．在最初实验阶段选取其中二个类别进行实验，选取ａｌｔ．ａｔｈｅｉｓｍ训练集中４８０个文本和ｃｏｍｐ．ｇｒａｐｈｉｃｓ训练集中５８０（舍弃一个）个文本进行网络训练，训练之后，计算原始文本与重构文本见的相似性，若相似性小于设定的阈值则该网络训练成型，然后用两类文本中的测试集中各３００进行测试．内蒙古民族大学硕士学位论文２７…ａｌｔ．ａｌｌ—ｔｉｓｍ、ｄ｝ｊ文ｊ．竺竺竺｝二；？，７’警箩‘二二≥』竺∑本处聊——ｃｏｍｐ·ｇｒ叩ｈｉｃｓ～～。，ｉ二，，二二二ｊ．分类器ｊ训练三？，ｊ０；ｉ：慧≯：［二二】．理——●。●＿●＿＿＿＿＿＿，＿＿－＿＿，＿＿＿＿－●＿。。＿－●●一、——仟陆甘羹撇』，，＿－。＿＿。，－●。＿＿。一‘＿＿＿。，＿●＿。一图１７二类文本分类的训练过程关于ａｌｔ．ａｔｈｅｉｓｍ的ａｕｔｏｅｎｃｏｄｅｒ将其本身的识别率有９５％以上，ｃｏｍｐ．ｇｒａｐｈｉｃｓ的ａｕｔｏｅｎｃｏｄｅｒ对测试集中的文本进行重构识别率也在９３％以上．至此关于这两个类的ａｕｔｏｅｎｃｏｄｅｒ已经训练完备．ａ恺ａｔｈｅｉｓｍＡｕｔｏｅｎｃｏｄｅｒｌ文制预处删‘——＋哩訾尊一，．类别判定’输卅～……图１８基于二个自编码器的文本分类过程两个文本类别的ａｕｔｏｅｎｃｏｄｅｒ训练好之后，即可训练多个类别的ａｕｔｏｅｎｃｏｄｅｒ，鉴于每个类别的ａｕｔｏｅｎｃｏｄｅｒ训练所需时长，本实验只做了基于五个文本类别分类的实验．选取的数据类别为ａｌｔ．ａｔｈｅｉｓｍ、ｒｅｃ．ｓｐｏｒｔ．ｂａｓｅｂａｌｌ、ｃｏｍｐ．ｗｉｎｄｏｗｓ．Ｘ、ｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｍｉｓｃ、ｓｃｉ．ｅｌｅｃｔｒｏｎｉｃｓ这五类．将每一个类别的数据训练好自编码器之后，将其组成一个大的文本分类器，计算原始文本与重构文本的相似性，判断该文本的归属类别．表格４实验所用数据集数目情况类别ａｌｔ．ａｔｈｅｉｓｍｒｅｃ．ｓｐｏｒｔ．ｂａｓｅｂａｌｌｃｏｍｐ．ｗｉｎｄｏｗｓ．Ｘｔａｌｋ．ｐｏｌｉｔｉＣＳ．ｍｉＳＣｓｃｉ．ｅｌｅｃｔｒｏｎｉＣＳ５９０３５０训练集测试集４８０３００５００３５０５００３５０４６０３００２８基于深度学习的文本分类研究图１９训练集中各类别比例图●ａｌｔ．ａｔｈｅｉｓｍ＿ｒｅ．ｓｐｏｒｔ．ｂａｓｅｂａｌｌ薯ｃｏｍｐ．ｗｉｎｄｏｗｓ．Ｘｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｍｉｓｃｓｃｉ．ｅｌｅｃｔｒｏｎｉｃｓ图２０测试集中各类别比例图从上两图中可以看出各类别数据几乎是等分的，从根本上避免了数据不均衡的问题．内蒙古民族大学硕士学位论文２９图２１基于每类别的相似度将每个类别的自编码器训练好之后，每一类别对其自身的识别度都能达到９５％以上．将每一类别的网络保存好，并重新建立一个基于多个分类的网络，每个类别的自编码器相当于一个节点．测试集ＣＯｍｐ，ｗｌｎｄｏＷＳ．Ｘｔａｌｋ．ｐｏｈｔ—一≮黼＞一ｔｒ－、类别输出１ＣＳ．ⅢｌＳｄ，ｓｃｉ．ｅｌｅＣｔＥ：０ｎｌｃＳ图２２基于五类别文本分类方案基于深度学习的文本分类研究图２３基于五类文本的分类精确度图２３为基于五类别文本的文本精确度，每一类的分类精确度都有９３％以上．将每个类别的分类Ａｕｔｏｅｎｃｏｄｅｒ训练好，对模型中的参数（如：每层模型节点数、模型层数、每层迭代次数、ｆｉｎｅｔｕｒｅ的迭代次数等）进行详尽的调整，虽然每个类别的训练时间很长，但是对于这种多分类问题的效果显著．内蒙古民族大学硕士学位论文３１５总结与发展５．１论文工作总结随着文本挖掘技术的不断发展，文本分类技术正在不断完善本文主要从Ａｕｔｏｅｎｃｏｄｅｒ提取特征分类研究，下面将本文的工总做一个简单的总结：首先，介绍了文本分类中的关键步骤：中文分词、文本表示、特征降维、特征加权、分类算法和分类评价标准，研究了它们优点和缺点，为选题做铺垫．其次，本文研究了基于深度学习的主要模型，并选择其中的Ａｕｔｏｅｎｃｏｄｅｒ进行文本份额里研究方法．最后，在语料库２０ＮＧ上实验证明了本文所提的方法的有效性．该网络能够对未标记文本进行分类，但网络训练时间较慢，文本数量较多时输出比较还是比较慢，所以在网络结构的优化上函待改进．５．２论文工作展望模型训练时长是该模型乃至其他类似神经网络的软肋，如何能够将该模型改造成为训练时长适中且分类效果更好是下～步的工作目标．ａ２基于深度学习的文本分类研究参考文献１ＺｈｉｌｉＰｅｉ，ＹｕｘｉｎＺｈｏｕ，Ｌｉｓｈａ“ｕ，【曲ｕａＷａｎｇ，ＹｉｎａｎＬｕ，ＹｉｎｇＫｏｎｇ．ＡｎｉｍｐｒｏｖｅｄＭｅｔｈｏｄｆｏｒＦｅａｔｕｒｅＷｅｉｇｈｒｉｎｇｔＯＤｏｃｕｍｅｎｔＣａｔｅｇｏｒｉｚａｔｉｏｎ，Ｔｈｅ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｕｒｏｒｅＣｏｍｐｕｔｅｒａｎｄＣｏｍｍｕｎｉｃａｄｏｎ（ＩＣＦＣＣ），２０１０，ｖ０１．３：ｖ３３３９－３３４３．２张彪．文本分类中特征选择算法的分析与研究耐，合肥：中国科学技术大学，２０１０．３程显毅，朱倩．文本挖掘原理【Ｍ］．北京：科学出版社，２０１０．４刘赫．文本分类中若干问题研究ｐ】．吉林大学，２００９．５梅君．中文文本分类的研究与应用唧．南昌大学硕士论文，２０１０．６何斌，张立厚．信息管理：原理与方法Ｍ．清华大学出版社有限公司，２００６．７ＭａｒｏｎＭＥ．Ａｕｔｏｍａｔｉｃ恼ｄｅｘｉｎｇａｎｅｘｐｅｆｉｍｅｎｔａｌｉｎｑｕ研Ｄ】．ＪｏｕｒｎａｌｏｆｔｈｅＡＣＭ０ＡＣＭ），１９６１，８（３）：４０４—４１７．８ＦｕｈｒＮ，ＨａｒｔｍａｎｎＳ，ＬｕｓｔｉｇＧ，ｅｔａ１．ＡＩＲ，ｘ：ａｒｕｌｅｂａｓｅｄｍｕｌｔｉｓｔａｇｅｉｎｄｅｘｉｎｇｓｙｓｔｅｍｆｏｒｌａｒｇｅｓｕｂｊｅｃｔｆｉｅｌｄｓ［Ｍ］．ＴｅｃｈｎｉｓｃｈｅＨｏｃｈｓｃｈｕｌｅ，ＦａｃｈｇｅｂｉｅｔＤａｔｅｎｖｅｒｗａｌｍｎｇｓｓｙｓｔｅｍｅＩＩ，１９９１．９苏金树，张博锋，徐昕．基于机器学习的文本分类技术研究进展Ⅱ］软件学报，２００６，１７（９）：１８４８—１８５９．１０李荣陆，王建会，陈晓云，等．使用最大熵模型进行中文文本分类Ｕ］．计算机研究与发展，２００５，４２（１）：９４－１０１．１１王建会，王洪伟，申展，等．一种实用高效的文本分类算法ｏ］计算机研究与发展，２００３，４２（１）：８５—９３．１２尚文倩，黄厚宽，刘玉玲，等．文本分类中基于基尼指数的特征选择算法研究Ⅱ］．计算机研究与发展，２００６，４３（１０）：１６８８—１６９４．１３Ｓｅｂａｓｔｉａｎ］Ｆ．ＭａｃｈｉｎｅｌｅａｒｎｉｎｇｉｎａｕｔｏｍａｔｅｄｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎＵ］．ＡＣＭｃｏｍｐｕｔｉｎｇＳＵｌ＇ｖｅｙｓ（ＣＳＵＲ），２００２，３４（１）：１－４７．１４黄友平．贝叶斯网络研究嘲．中国科学院研究生院（计算技术研究所），２００５．１５宋枫溪．自动文本分类若干基本问题研究ｐ】．南京：南京理工大学．２００４．４．１６唐剑波，Ｗｅｂ文本挖掘中的文本分类研究ｐ］．湖南大学，２００７．１７ＢｉｓｈｏｐＣＭ．Ｐａｍｅｍｒｅｃｏｇｎｉｔｉｏｎａｎｄｍａｃｈｉｎｅ］ｅａｍｉｎｄＭ．ＮｅｗＹｏｒｋ：ｓｐｒｉｎｇｅｒ，２００６．１８ＰａｗｌａｋＺ．Ｒｏｕｇｈｓｅｔｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｍａｌｏｆＩｎｆｏｒｍａｄｏｎａｎｄＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，１９８２，１１（５）：３４１—３５６．１９ＧｏｌａｎＲ，ＺｉａｒｋｏⅨ’．ＭｅｔｈｏｄｏｌｏｇｙｆｏｒＳｔｏｃｋｍａｒｋｅｔａｎａｌｙｓｉｓｕｔｉｌｉｚｉｎｇｒｏｕｇｈｓｅｔＴｈｅｏｒｙ［Ｃ］．Ｐｒｏｅ．ｏｆＩＥＥＥ／ＩＡＦＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅｆｏｒＦｉｎａｎｃｉａｌＥｎｇｉｎｅｅｒｉｎｇ，ＮｅｗＪｅｒｓｅｙ，１９９５：３２—４０．内蒙古民族大学硕士学位论文３３２０２１２２张雪英．基于粗糙集理论的文本白动分类研究ｐ】．南京：南京理工大学，２００５．周春光，梁艳春．计算智能：人工神经网络．模糊系统．进化计算【Ｍ．吉林大学出版社，２００１ＨｉｎｔｏｎＧＥ，ＳｆｌａｋｈｕｒｄｍｏｖＲＲ．Ｒｅｄｕｃｉｎｇｔｈｅｄｉｍｅｎｓｉｏｎａｌｌｙ，ｏｆ２００６，３１ｄａｔａ硒击ｎｅｕｒａｌｎｅｔｗｏｒｋｓＵ］．Ｓｃｉｅｎｃｅ，３（５７８６）：５０４－５０７．Ｓ，Ｔｅｈ２３ＨｉｎｔｏｎＧＥ，Ｏｓｉｎｄｅｒｏｃｏｍｐｕｔａｔｉｏｎ，２００６，１ＹⅥ’．Ａｆａｓｔｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ５５４．ｆｏｒｄｅｅｐｂｅｌｉｅｆｎｅｔｓ［１］．Ｎｅｕｒａｌ８④：１５２７—１２４余凯，贾磊，陈雨强等．深度学习的昨天、今天和明天叮计算机研究与发展，２０ｔ３，５０（９）：１７９９～１８０４．２ｊ“ＴｈｅＮｏｂｅｌＰｒｉｚｅｉｎＰｈｙｓｉｏｌｏ§＂ｏｒＭｅｄｉｃｉｎｅ１９８Ｉ．”Ｎｏｂｅｌｐｆｉｚｅ．ｏｒｇ．ＮｏｂｅｌＭｅｄｉａＡＢ２０１１６Ｆｅｂ２０１４．ＩＥＢ／ＯＬ］ｈｒｔｐ：／／ｗｗｗ．ｎｏｂｅｌｐｒｉｚｅ．ｏｒｇ／ｎｏｂｅｌ＿ｐｒｉｚｅｓ／ｍｅｄｉｃｉｎｅ／ｌａｕｒｅａｔｅｓ／１９８１／．２６３．Ｗｅｂ．ＭａｒｋｏｆｆＪ．Ｈｏｗ１０ｍａｎｙｃｏｍｐｕｔｅｒｓｔＯｉｄｅｎｄ６－ａｃａｔ？［ＮｑＴｈｅＮｅｗＹｏｒｋＴｉｍｅｓ．２０１２—０６－２５．２７２８ＢｒｅａｋｔｈｒｏｕｇｈＴｅｃｈｎｏｌｏｇｉｅｓＣ．Ｆａｃｅｂｏｏｋ。ｓ２０１３［Ｎ．ＭＩＴＴｅｃｈｎｏｌｏｇｙ－Ｒｅｖｉｅｗ，２０１３—０４－２３．ＲｅｖｅａｌｓｔｈｅＦｕｔｕｒｅｏｆＭｅｒ．ｚ７ＤｅｅｐＬｅａｒｎｉｎｇ＇ＧｕｒｕＡＩ，”［ＥＢ／ＯＬ］ｈ叩：／／Ⅵｗ．ｗｉｒｅｄ．ｃｏｍ／ｗｉｒｅｄｅｎｔｅｒｐｆｉｓｅ／２０１３／１２／ｆａｃｅｂｏｏｋ—ｙａｎｎ—ｌｅｃｕｎ—ｑａ／．嘶ｒｃｄ，Ｄｅｃ·１２－２０１３．２９ＨｕＸａｎｄＷａｎｇＪ．Ｓｏｌｖｉｎｇｔｈｅ。ＡｓｓｉｇｎｍｅｎｔＰｒｏｂｌｅｍＵｓｉｎｇＣｏｎｔｉｎｕｏｕｓ－ＴｉｍｅａｎｄＤｉｓｃｒｅｔｅ—ＴｉｍｅＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍｐｒｏｖｅｄＤｕａｌ２３ｆ５、：８２１－８２＂７．３０ＮｅｔｗｏｒｋｓⅡ】ＩＥＥＥＮｅｕｒａｌＮｅ倒＇ｏｒｋｓａｎｄＬｅａｒｎｉｎｇＳｙｓｔｅｍｓ，２０１２，ＷａｎｇＢｘ，ＬｉｕＢＱ，ＳｕｎＣＪ，ＷａｎｇＸＬａｎｄＺｈａｎｇＤＹ．ＤｅｅｐＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｅｓｔＯＳｅｍａｎｔｉｃＬａｎｇｕａｇｅＲｅｌｅｖａｎｃｅＭｏｄｅｌｉｎｇｆｏｒＣｈｉｎｅｓｅＱｕｅｓｔｉｏｎ－ＡｎｓｗｅｒＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，２０１１，１０（４）：２１：１—２１：１６．３１Ｐａｒｓ［３１．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｓｉａｎＣａｉＸＹ，Ⅵ’ａｎｇＣＨ，ＸｉａｏＢＨ，ＣｈｅｎＦａｃｅＸａｎｄＺｈｏｕＪ．ＤｅｅｐＮｏｎｌｉｎｅａｒＭｅｍｃＬｅａｒｎｉｎｇｗｉｔｈＯｎＩｎｄｅｐｅｎｄｅｎｔＳｕｂｓｐａｃｅＡｎａｌｙｓｉｓｆ。ｒＶｅｒｉｆｉｃａｔｉｏｎ【ｑ．ＩｎＰｒｏｃｅｅｄｉｎｇｏｆＡＣＭｃｏｎｆｅｒｅｎｃｅＭｕｌｔｉ—Ｍｅｄｉａ，Ｎａｒａ，Ｊａｐａｎ：ＡＣＭ，２０１２．３２ＣｏｌｌｏｂｅｒｒＲ，Ⅵ’ｅｓｔｏｎＪ，Ｂｏｃ【ｏｕＬ，ｅｔａ１．Ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ（Ａ］ｍｏｓｔ）ｆｒｏｍｓｃｒａｔｃｈＤ］．Ｊｏｕｍａｌ３３３４ｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０１１，１２：２４９３—２５３７．ＳａｌａｌｄｍｔｄｉｎｏｖＲ，ＨｉｎｔｏｎＧ．ＳｅｍａｎｔｉｃＨａｓｈｉｎｇ卟Ｉｎｔ．Ｊ．Ａｐｐｒｏｘ．Ｒｅａｓｏｎｉｎｇ，２００９，５０∽：９６９—９７８．ＳｏｃｈｅｒＲ，Ｉ．ｉｎＣ，ＮｇＡ．ＰａｒｓｉｎｇＮａｔｕｒａｌＳｃｅｎｅｓａｎｄＮａｔｕｒａｌＬａｎｇｕａｇｅｗｉｔｈＲｅｃｕｒｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ［Ｃ］，ＩｎＰｒｏｃｅｅｄｉｎｇｏｆｔｈｅ２８ｔｈＩｎｔＣｏｎｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＳｏｃｉｅｔｙ，２０１１３５３６ｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｇａｒｍａｍ．’：Ｉｎｔｅｒｎａｔｉｏｎａｌ王宝勋．面向网络社区问答对的语义挖掘研究【Ｄ】．哈尔滨工业大学，２０１３．ＲｉｃａｒｄｏＢａｅｚａ－Ｙａｔｅｓ．ＢｅｒｔｈｉｅｒＲｉｂｅｒｉｒｏ．Ｎｅｔｏ．ＭｏｄｅｍＩｎｆｏｒｍａｔｉｏｎＲｅｍｅｖａｌ［Ｍ］．北京：机械工业出版社，２００４，２３７唐焕玲，孙建涛，陆玉昌．文本分类中结合评估函数的ＴＥＦ－ＷＡ权值调整技术３４基于深度学习的文本分类研究Ⅱ］＿２００５，４２（１）：４７－５３３８孙志军，薛磊，许阳明，等．深度学习研究综述Ⅱ】．计算机应用研究，２０１２，２９（８）：２８０６—２８１０．３９４０４１ＨｉｎｔｏｎＧＥ．ＡｐｒａｃｆｉｃａｌｇｕｉｄｅｔＯｔｒａｉｎｉｎｇｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ［Ｊ］．Ｍｏｍｅｎｔｕｍ，２０１０，９（１）５７８／ｈｔｔｐ：／／ｗ帆－．ｄａｖｉｄｄｌｅｗｉｓ．ｃｏｍ／ｒｅｓｏｕｒｃｅｓ／ｔｅｓｔｃｏｌｌｅｃｆｉｏｎｓ／ｒｅｕｔｅｒｓ２１ｈｔｒｐ：／／ｑｗｏｎｅ．ｃｏｒｎ／～ｊａｓｏｎ／２０Ｎｅｗｓｇｒｏｕｐｓ／内蒙古民族大学硕士学位论文３５致谢在我的论文即将完成之际，我衷心感谢我的导师裴志利教授，在这三年的研究生生活中不论是在学习还在生活方面裴老师都给与我极大地帮助，在学业方面：老师兢兢业业、循序善导帮我订课题、开讨论课、和我探讨论文申的难点、并带领我到吉林大学学习等等使我始终能把握住研究的方向；在生活方面：老师对我非常关心，经常询问家里情况像是家长一样对待我，给我留下了深深地记忆，让我学到了学习之外的知识，让我终生受益．，感谢在这三年学习生涯中给予我帮助、鼓励的诸位同学，感谢我的家人一直默默的支持着我的学业生涯，在我最无助的时候给予我鼓励与希望．感谢师哥师妞师弟师妹们三年的相伴，感谢所有曾经帮助支持过我的人．３６基于深度学习的文本分类研究作者简介苏峰，女，汉族，１９８６年１１月出生于山东省淄博市．２００４年考入淄博师范数学系，２０１１年９月考入内蒙古民族大学数学学院，应用数学专业．２０１１年一２０１４年硕士研究生期间发袁论文：１．ＦｅｎｇＳｕ，ＺｈｉｌｉＰｅｉ．·ＡＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｂａｓｅｄ０１＂１ｍｕｌｔｉｐｌｙａｕｔｏｅｎｃｏｄｅｒ．２０１４ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｒｌＳｉｍｕｌａｆｉｏｎａｎｄＭｏｄｅＥｎｇＭｅｔｈｏｄｏｌｏｇｉｅｓ，ＴｅｃｈｎｏｌｏｇｉｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（ＳＭＴＡ２０１４），２０１４．２．苏峰，王旭，管仁初，梁艳春．多自动编码器文本分类模型设计匣Ｂ／ＯＵ．北京：中国科技论文在线［２０１４—０５—２３】．ｈｔｔｐ：／／ｖ诹，ｗ．ｐａｐｅｒ．ｅｄｕ．ｃｎ／ｒｅｌｅａｓｅｐａｐｅｒ／ｃｏｎｔｅｎｔ／２０１４０５－４０９．３．杨责运，苏峰，王旭，管仁初，梁艳眷．开放存取资源文本挖掘平台［ＥＢ／ＯＬ］．北京：中国科技论文在线［２０１４—０５—２０］．ｈｔｔｐ：／／ｗｗｗ．ｐａｐｅｒ．ｅｄｕ．ｃｎ／ｒｅｌｅａｓｅｐａｐｅｒ／ｃｏｎｔｅｎｔ／２０１４０５—３３１．内蒙古民族大学硕士学位论文３７内蒙古民族大学硕士学位论文作者声明本人声明：本人呈交的学位论文是本人在导师指导下取得的研究成果．对前人及其他人员对本论文的启发和贡献己在论文中做出了明确的声明，并表示了感谢．论文中除了特别加以标注和致谢的地方外，。不包含其他人已经发表或撰写的研究成果．本人同意内蒙古民族大学保留并向国家有关部门或资料库送交学位论文或电子版，允许论文被查阅和借阅．本人授权内蒙古民族大学可以将本人学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编学位论文．作者签名：日期：塑堕年上月丝日基于深度学习的文本分类研究

作者：

学位授予单位：

苏峰

内蒙古民族大学

引用本文格式：苏峰基于深度学习的文本分类研究[学位论文]硕士 2014

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文