您好,欢迎来到爱站旅游。
搜索
您的当前位置:首页文化组学研究综述

文化组学研究综述

来源:爱站旅游
情报学报第33卷第7期765ISSN1000—0135JOURNALOFV01.33THECHINASOCIETYFORSCIENTIFICISSN1000—0135July2014ANDTECHNICALINFORMATIONNo.7,765—774774,2014年7月doi:10.3772/j.issn.1000—0135.2014.07.008文化组学研究综述1’郭崇慧魏伟任晓玲(大连理工大学系统工程研究所,大连116024)摘要文化组学在定量研究人类文化趋势方面有着重要的作用和意义。首先,简要描述了文化组学的定义、n.gram工具及其使用。然后,统计了国内外近几年有关文化组学文献的基本情况及所涉及学科等问题,按发表时间顺序进行了归总,分别按其不同语料库和不同应用领域进行归类整理,并详细介绍了文化组学在描述社会和自然现象,以及在情感挖掘和医学等方面的应用。最后,在大数据时代背景下,结合云技术提出了一种基于云平台的海量文献数字化处理平台模型,为今后研究中国历史文化信息提供了一种新思路。关键词文化组学使用频率n.gramAReviewonCulturomicsGuoChonghui,WeiWeiandRenXiaolingo,Technology,Dalian116024)(Instituteo厂SystemsEngineering,DalianUniversityAbstractCulturomicsplaysanimportantroleininvestigatinghumanculturaltrendsquantitatively.Firstly,thisapaperbrieflyintroducesthedefinitionofculturomics.thetoolofn-gramanditsusage.Thenbasicissueofitspublishedarticlesabroadchronologicallyinrecentbriefintroductionabouttheatanditsinvolvedsubjectsetc,areviewareonthearticlesaboutculturomicshomeandyearsisgiven,wherethesearticlescataloguedbythedifl'erentcorpustheyuseandtheirdifl'erentapplicationdomainsrespectively.Thispaperalsoindescribingsocialandnaturalphenomena,andlnassprovidesdetailedinformationabouttheapplicationofculturomicsmedicine.Finally,inplatformbasedtheonerainsentimentminingandofbigdata,iscombiningwithcloudtechnique,amodelofaofliteratureondigitizationprocessingcloudplatformproposed.whichprovidesnewideaforfurtherresearchChineseculture.Keywordsculturomics,usagefrequency,n-gram活方式、文学艺术、行为规范、思维方式、价值观念1引言等。文化具有多样性、区域性、时限性和流动性等特征,是民族的血脉,是一个国家得以区别于他国的文化是一种社会现象,是人们长期创造形成的产物;同时又是一种历史现象,是社会历史的积淀物。文化的本质是物质与意识的综合体现,是指一个国家或民族的历史、地理、风土人情、传统习俗、生“命脉”。语言是民族文化存在的根基,而文字是语言最普遍的一种表达方式,也是记录文化的主要形式,因此,如何通过对历史文字材料的研究来反应人类文明演化、人类社会各种现象,是当前文化研究的收稿日期:2014年1月2日作者简介:郭崇慧,男,1973年生,教授,博士生导师,主要研究方向:系统优化方法、数据挖掘与机器学习,E-mail:guochonghui@tsinghua.org.cn。魏伟,男,1989年生,博士研究生,主要研究方向:文本挖掘。任晓玲,女,1988年出生,博士研究生。1)国家自然科学基金资助项目(71031002,71171030);新世纪优秀人才支持计划资助(NCET-ll-0050);文化产业发展专项资金资助项目(教财司预函[2012]343号)。..——765..——万方数据情报学报第33卷第7期2014年7月主要方向之一。传统人文研究方法中,学者们往往通过阅读少量精心挑选的著作,在资料中寻找出处,通过对文本的注释、交叉引用、强调等,确定和解释作者意图、历史线索和语言、社会的演变,便可对人类思想发展趋势给出深邃有力的见解。但是,这种艰苦的方法耗时巨大,并且往往由于不同的人文学者阅读不同的文本而无法得到一致的见解,同时也无法宏观地解释并察觉文化的演化规律,研究结果在很大程度上受到学者主观理解与固有思维的影响。有很多学者尝试着用定量的方法去研究历史发展变化H“1,往往都是迫于缺少合适的数据而中止。2011年,哈佛大学Michel研究团队发表在科学上的一篇文章中究的界限扩展到了一系列跨越社会科学和人文科学的现象上来。n—gram。9。是文化组学的主要应用工具,该工具主要依赖于一种拥有巨量词汇的语料库,通过统计语料库中各年特定单词和短语的使用频率,形成可视化的频率波动图。语料库包含了1500~2008年的5195769本源自谷歌图书的书籍,约占此期问世界所出版图书总量4%,并将这些图书处理为电子图书,在此基础上统计,总共包括了5000多亿单词,其中包含有3610亿英语单词、450亿法语单词、450亿西班牙语单词、370亿德语单词、130亿汉字、350亿俄罗斯语单词和20亿希伯来语单词。目前,文化组学的研究方法主要通过统计特定关键词在过去每一年的语料库中的使用频率,形成一个连续的使用频率波动图,以此来定量分析研究人类文化的演变规律。由此可见,文化组学提工具跨越了500多年的时间,可以让专家学者基于如此之长的时问角度来探索、发现、验证问题;包含了世界上7种语言,从而为各个语系的研究人员提供了搜索的可能,也为不同语言问的对比提供了可能性。Michel研究团队基于Google提供的海量图书,利用n—gram工具进行处理得到庞大的电子语料库,并在时间序列上统计分析,进而提出了文化组学的概念。谷歌基于Michel团队的成果,进一步提供了开放的可视化工具GoogleNgram详细阐述了一种定量研究人类文化的新方法——文化组学(culturomics)"。,其目的是通过对数字化文本进行分析,定量研究人类的文化趋势。此外,“culturomics”一词在微生物学研究中,有着不同的含义¨。,其在Ms方法的基础上,整合了新的培养方法,并将其作为宏基因组研究手段的重要补充,译为“培养组学”,这部分不在本文的研究讨论范围之内。文化对国家的整体发展有着积极的引领作用,文化组学在定量研究人类文化趋势方面有着重要的作用和潜在的价值,为方便学者对文化组学的认识与了解,本文对有关文化组学的研究方法进行了综述,搜集了从2011年文化组学被正式提出到2013年之间的重要文献,然后主要从技术方法和应用领域描述文化组学的发展。文章首先简单介绍文化组学的定义及n—gram工具,然后对国内外研究现状按照文献发表的时间顺序进行了整合罗列,接着论述了文化组学在技术方法和应用领域方面的发展,最后讨论了文化组学与中国历史文化信息的结合应用。Viewer(http://WWW.culturomics.org),能够根据不同的语言和不同的时间尺度,可以直接可视化所查找的词频的时问序列图。在此,使用GoogleNgramViewer可视化工Great具,直接得到“slavery”的使用频率图和“theWar”与“WorldWar”的使用频率对照图,如图1所示。图1(a)中“slavery”的使用频率波动图反映并印证了奴隶制的发展变化:1861~1865年发生了美国南北战争,奴隶制是当时的争执的焦点:1955~1968年发生了美国民权运动,是美国黑人反对种族2文化组学的定义及n—gram工具文化组学是通过获取历史文字资料中单词和短隔离与歧视、争取民主权利的群众运动,这两个历史事件是图1(a)中的两个波峰的出现的主要原因。从图1(b)中可以观察到:第二次世界大战之前,人们称第一次世界大战为“theGreat语随着时间推移的使用频率(使用频率:单词在某一年语料库中出现的次数除以该年语料库中包含的单词总量"。),形成可视化的使用频率波动图,量化人类文化演变轨迹。文化组学由文化(cultural)和基因组学(genomics)二词合并而成,用类似基因组分析的方法研究书籍数据库,通过对书籍数据库的研究来分析人类文化的演化发展,它把严格定量研War”;但是第二次世界大战发生之后,人们为了与第一次世界大战区分开来,不再称第一次世界大战为“theGreatWar”,而是有区别地称之为“WorldWarI”,上述现象说明了语言文化的改变导致了图1(b)中不同的词语使用频率波动图的改变。上述例子说明了影响词语使用频率波动趋势的两个主要因素:文化的改万方数据文化组学研究综述图1(a)表示单词”slavery”在语料库中使用频率波动图;Great(b)表示”theWar”和”WorldWar”在语料库中使用频率对照图‘7变(如图1(a)中“slavel7”的频率波动图)和语言学的改变(如图1(b)中“theI”的对照图)。文化组学不仅能够正确反映人类历史文化,还能够预测出一些历史学家至今没有发现的历史现象。比如,Michel研究团队在研究德国纳粹时期被审查压制的一个人名字的使用频率波动情况时,发现同时期的一群人的名字的使用频率波动情况与上面所考察的人名的使用频率波动情况相同,这说明除了现代历史学家已经发现了的被审查压制的人名之外,当时还有很多人被审查压制,这对历史资料作了一定程度的补充与完善。文化组学不仅能够验证一些已有的历史推断,也能够发现并得到一些新的历史论断。文化组学和舯gram工具的出现,加快了对人类历史文化研究的步伐,同时也提高了人类历史文化研究的科学性。Great度评价了Michel研究团队的文化组学项目,称“文化组学”助力历史研究数字化,并实现跨学科的交流和融通。1“。此外,2012年浙江大学传播研究所邵培仁和林群探索了用文化组学技术对中华文化进行抽取与特征建模¨…,论述了保护、继承和传播中华文化的步骤和方法,文中叙述了具体的方法步骤:第一步是利用数字化技术将文化遗产储存保护;第二步是利用文化组学数据库构建中华文化基因库;第三步是三方印证确认核心文化基因;第四步是利用网络技术在线传播。文化组学的外文文献相对较多。本文基于在SCOPUS,EBSCO(electronicjomnalservice)和WileyWar”和“WorldWarInterScience数据库中的文献检索,限定时间为2010~2014年的期刊文献,“题目一摘要一关键词”中包含“culturomics”或“Googlengram”,之后人工过滤掉医学文献中包含“Gram(革兰氏菌)”,以及微生物学文献中包含“culturomics(培养组学)”的文3国内外研究现状献,共得到44篇文献。通过CNKI检索“文化组学”得到1篇中文期刊文献[12]。中英文文献共计45篇。基于该45篇期刊文献,得到文化组学相关文献统计分析结果,如图2:2010年至今的每年文献总数时间序列图2(a),文献作者所属国别分布图2(b),文化组学涉及研究领域分布图2(c)以及第一作者所属专业分布图2(d)。其中,在2010年,就已经有了文化组学的概念,此文献是文献[7]在正式发布前的前奏,故(a)中的起始时问为2010年;另外,通过SCOPUS检索得到文献[13],为2014年待刊载的文章,由于目前已被收录到数据库中,故在此将其计入2013年文献进行统计。通过图2可直观感受到文化组学的发展态势,辐射领域,集中研究的国家以及文化组学目前为止受到哪些专业领域的人的关文化组学发展到现在,已经运用到了诸多方面的研究,比如历史文化现象、社会和自然现象以及医学等方面,并取得了良好的效果。文化组学已经把严格定量研究的界限扩展到了一系列新的广阔的跨越社会科学和人文科学的现象上来,逐步成为人类文化研究的一种重要方法。从文化组学概念被提出,国内外许多学者基于文化组学这一概念从不同角度对不同文化进行了研究,并得到了具有重要意义的研究成果。目前国内对文化组学方面的探索很少,2011年1月18日,《科学时报》对发表在Science上的Michel研究团队提出的文化组学作了特定的报道。1…;2012年1月16日,《中国社会科学报》高万方数据情报学报第33卷第7期2014年7月注。其中,美国作者发文25篇,占总数的48%,且关于文化组学的首篇文献出自美国,说明美国在文化组学研究中处于先导地位并具有较强实力,而且在亚洲地区,中国在文化组学研究方面,具有一定实力,能够紧跟世界的研究热点。虽然目前文化组学文献主要涉及领域为人文社科,但是由其研究人员构成情况来看,文化组学能够能为更多领域的人员提供解决问题的方法和思路;其作为一种以“文化”为基础的方法,不仅能在人文社科本身的领域发挥作用,而且能够为研究自然科学和医学的研究提供有效的手段。由图2(e)和图2(d)两幅图对比可见,文化组学能够为不同专业的人提供研究更广阔领域的手段,这不失为一种交叉学科研究的好的方法。微观角度,通过具体文献阅读来进一步细致化地了解文化组学在各方面的应用情况。文化组学在英文文献中具体的研究现状见表1(按时问顺序)。发表文化组学这篇开创性文章以来,后继学者¨5,“,21。22,26,29。”,”1的研究大多数都建立在Michel等提出的方法基础之上:借助Google公司提供的包含有5195769本图书5000亿个单词的语料库,利用n—gram工具来对特定词语的使用频率进行统计,观察该特定词语的使用频率随着时问的波动趋势,量化分析历史文化发展情况,并对将来历史文化的变化趋势做出一定的预测。Purdue大学Cao等。21。运用文化组学方法观察分析特定词语年使用频率的波动情况,结合随机分形理论中的自适应性分形分析(AdaptiveFractalAnalysis,AFA)方法来描述社会和自然现象。通过AFA方法测定赫斯特指数,可以为包含在文化组学轨迹中的社会和自然现象的长程相关性。3””。提供基本的视角,还可以推测出在观测现象背后的主要推动力。Cao研究团队发现了社会及自然现象的一些本质特征:社会和自然现象是由基本的不同进程控制的,自然现象具有典型的长程相关性性质,而社会现象具有长程不相关即不稳定性。除Google推出的图书语料库之外,一些学者根4技术方法与应用领域从哈佛大学研究团队Michel等…在Science上筋加坫m据自身研究的需求,设计了专门的语料库,见表2。阿根廷/5///20102011/2012/意大利德国法国加拿大斯洛文尼亚以色列中国英国美国02013(a)2010年至今每年文献总量时间序列图o))文献作者所属国别Topl0统计图(单位:篇)地理其他馏9%慈∑镀▲▲'1厂一(/。11%13%会(c)文献涉及的学科领域图2(d)第一作者所属专业分布图文化组学文献统计结果图万方数据文化组学研究综述表1年份作者文化组学的国外研究现状研究内容提出了文化组学概念,开发了n-gram工具,并详细阐述了运用文化组et2011MichelJB.AidenEL.ShenYKal学方法在量化人类文化趋势方面的应用’。1通过追踪调查截然不同的社会、行为、对科学的认知过程等的分布和2011EvansEA,FosterJG影响,研究元知识对社会上现有的项目和对科学的历史研究价值Ⅲ1运用n.gram工具,了解市场营销的发展改革史Ⅲ12011KumarN,SahuM2011WijayaDT,YeniterziR利用社会网络检测和发掘文化多样性,并研究字词的语义变化Ⅲ1运用情感挖掘和全文地理编码技术,对全球30年的存档新闻提取潜2011LeetaruKH在的人类行为基调和地理位置信息,进行动荡预测和冲突预警m12011PetersenAM.HavlinSTenenbaumJetal从一个单词出现到消失的过程中,研究词用法模式的波动m1对历史进行大规模的文本挖掘,研究历史如何被记忆Ⅲ1研究对新闻媒体内容的模式分析方法Ⅲ1运用n-gram工具,结合随机分形理论,观察特定词语的使用频率的波2011YeungA,JatowtA2011FlaounasI2012GaoJB.HuJ.MaoXetal动情况,来描述社会和自然现象Ⅲ12012MohammadSM基于邮件和书籍中提取的信息,进行情感追踪陋1运用文化组学的方法计算分析欧洲童话故事中的人物旧1运用n.gram工具,进行机构身份的挖掘识别Ⅲ,251et2012WeingartS,JorgensenJSoperDS,Turel020122012HughesJM,FotiNJ,KrakauerDCal文学演变过程中文体格式影响的定量模式研究Ⅲ1按时序分析互联网上文学和日志性散文的特点旧12012MichalskiB,LauTY,Krishnam00rthyMSerra2012J,CorralA,BogunaMetal定量研究当代西方流行音乐的发展呻1结合地理空间可视化分析方法,运用情感分析和全文地理编码技术,al2012ShookyE,LeetaruHK,CaoGFet提取文本数据中的情感元素,观测情感走势图旧1用孟加拉2001~2011年间132个月的报纸做成报纸语料库,提取当2012PhaniS.LahiriS.BiswasA.代孟加拉国家重要突出的字词的轨迹图,分析其文化的发展Ⅲ120130ishiS.GrahamJ.KesebirSetal研究幸福的概念随着文化和历史的不同所发生的变化Ⅲ1研究文化组学对传统历史人文学科——催眠和心理疗法,有何2013RossiaE,ROSSiK,MortimerJ帮助‘”12013JuolaP运用n.gram工具,测量语言的复杂性,并研究在单一文化中文化复杂性是如何随着时间发展变化的¨引利用GoogleNgramViewer工具,验证人们普遍认为“经济型社会”是2013Stefl'enRoth事实还是仅仅是一个假设¨4一表2不同语料库类型及相关作者语料库类型科学杂志类文章SoperDS,Turel相关作者及文献0…,GasiorekJ,GilesH,HoltgravesTetal[38]LeetaruKHE1引,YeungE1A,JarowtA9I,E30]新闻专线文本FlaounasI[17I.PhaniS.LahiriS.BiswasA网络日志MichalskiB,KrishnamoorthyM,LauTMohammadSY…童话故事M….WeingartS.JorgensenJ[23]万方数据情报学报第33卷第7期2014年7月Illinois大学Leetaru。17。利用西方情报机构收集的全球30年互联网新闻档案和广播档案,按时问顺序制成一个新闻语料库,运用情感挖掘和全文地理编码技术提取语料库中潜在的语气基调和地理位置,进行动荡预测和冲突预警。他们的研究成果惊人,可以准确地预测一个国家近期的局势,其中包括埃及、突尼斯和利比亚革命、塞尔维亚冲突和沙特阿拉伯的稳定性等;在对新闻中潜在的位置进行分析时,本・拉登被捕获的位置在他们预测的位置范围之内,相距误差只有200公里。时隔一年之后,Shooky和Leetaru等。2到把地理空问可视化分析方法融入到上述的方法中,可以把大量的文本数据转化成拥有细粒度空问分辨率的可视化情感热点地图,这样就能更为直观快捷地观测文本中的情感走势图。此外,文化组学在人类医学研究方面的作用也开始崭露头角。美国耳鼻喉学会AaronTward。161运用文化组学中的n—gram工具,通过量化分析耳鼻喉科学中特定术语的使用频率趋势,发现有关耳鼻喉科学中一些词语的强相关性。运用文化组学研究的成果显示出此方法能够准确地量化描述耳鼻喉科学中特定术语的使用频率趋势,并且在诊断治疗和相关术语的运用等方面发现了以前没有发现的新内容。从最新的文献观察发现,文化组学已经应用到社会科学、人文科学和自然科学的许多方面,并帮助人类在研究人类历史文化趋势方面取得了显著的成果。一方面,文化组学作为一种数字人文的工具,使研究者在更长的时问序列上发现问题,验证假设的方式发生变革;另外文化组学在医学领域特别是在心理学上的研究已经取得了明显的效果,协助医学界克服了一些难题。文化组学的不同应用领域如表3所示。印度孟加拉邦信息技术研究所Phani等。30。通过构建2001~2011年印度的132个月的新闻报纸语料库,提取出当代孟加拉邦重要突出的词的轨迹图,这也是文化组学中第一次出现印度语系语言。他们利用文化组学方法,发现了当代孟加拉邦词的用法及文化转变中的一些有趣的现象,通过自回归求和移动平均模型(ARIMA)建立文化组学的轨迹模型,预测了词的用法与实际词的用法的模式很相近,这也证明了文化组学方法的准确性与有效性。文化组学方法在人类研究自身文化方面日渐发挥作用,并且其成果得到了学者专家的一致认可。表3应用领域代表人物5文化组学与中国历史文化信息数字人文和全球史是第126届美国历史学年会年会的重点议题H…,也是信息时代研究历史文化的两种重要手段和途径。在2013年的第127届美国历史学会年会上,同样强调在数字化的背景下进行历史实践。数字人文不仅是指在数字时代下的涉及媒体、图像及文化数据的半结构化或非结构化的大文化组学在不同领域的应用应用领域代表人物DoddsPS,HarrisKD,KloumannMichelJB,AidenEL,ShenYKetal[…,Juola情感追踪IMeta1E1….MohammadSME25]P㈨,邵培仁,林群‘1…,YeungA,JatowtA㈣,历史文化现象I.Flaounas….WeingartPhaniGrahamS.JorgensenJ[23].与随机分形理论结合GaoJ.HuJ.MaoXeta1[24]MiehalskiB,KrishnamoorthyM,LauTS,LahiriS,BiswasetY…,S,研究社会和自然WijayaDAetA…,OishiT,YeniterziR119],J.KesebirSal[33]词语义PetersenHavlinSM,Tenenbaumo211J,al人类行为写作风格流行音乐LeetaruKH….ShookyE.LeetaruHKetal[32]市场营销史机构身份KumarN.SahuM[15]HughesJM,FotiNJ,KrakauerDCJ,CorralA,BogunaMMurrell.P.139]etetal…SoperDS.TurelUrenVE18]O㈣28]Serraal…科学术语催眠和心理疗法耳鼻喉RossiaE.RossiK.MortimerTwardA.LeeDJ[35]经济社会SteffenRoth…J[16]万方数据文化组学研究综述型数据库,为人们提供更加直观的方式了解历史资料、历史信息,而且专家学者还希望通过数字人文手段发展各种算法,使我们有可能了解到那些我们无法了解的知识,推测出我们从不知道的信息。例如,加州斯坦福大学的历史学助理教授DanEdelstein国人口问题的严重性,并且政府明确提出人口政策是带有战略性的重大政策,受这些社会现象的影响,导致了70年代末以来“人口”使用频率持续升高,出现了图3(b)中“人口”使用频率第三个高峰。90年代前后,中国人口素质问题、人口性别比例失调问题、计划生育政策H4。等成为当时社会对中国人口问题最为关注的话题,导致了图3(b)中“人口”使用频率第四个高峰。中国是一个历史悠久的大国,有很多遗留下来的记录历史的文字资料,目前对这些资料只是进行简单的保护,比如用现代化信息处理技术把一些资料拍成数字图像存储,但并没有对全部的资料进行进一步挖掘开发,提取出未曾发现的中国历史文化信息。中华文化基因的建构与传承既需要前沿的理论研究作铺垫,也急需现代信息技术作支撑。在大数据时代背景下,迫切需要将古今各类文化遗产、书籍资料进行数字化存储,构建中国特色的文化组学语料库,然后运用现代化数据挖掘技术及文化组学方法对语料库进行知识挖掘与开发,发掘出有价值的中国历史文化信息。基于云计算技术,针对海量的历史文献,可以建立基于云技术的海量历史文献数字化处理平台模型,流程图如图4所示。基于云技术的海量历史文献数字化处理平台模型旨在构建一个可以对大批量的历史文献进行数字化、挖掘整理的系统平台,并基于平台提供历史文献深度挖掘、内容标引、专题知识检索及汇编出版等相关服务。该系统平台是一个通用的信息系统平台,可广泛应用于历史档案管理、古籍整理、其他文献资料整理等,同时专门针对中文文献建立。此模型的提出,将为历史文献管理者提供一个实现海量文献的整理、挖掘的一体化解决思路,会极大提高历史文献数字化处理的效率和质量。称,他本人曾用GIS软件绘制出了意想不到的成果——法国启蒙运动时期的伏尔泰信件网络在欧洲的传播模式H“。而作为数字人文的一种崭新基于时问序列的手段,也必将能够在中国历史文化研究上发挥重要作用。以Michel研究团队开发的语料库中的中文语料库为基础,用n—gram工具可以对中国的一些历史文化数据进行量化分析。用n—gram工具得到语料库中20世纪中国部分历史图书中对“氢弹”的记载情况,如图3所示。从图3(a)中可以直接看出,1950~1970年,书中对“氢弹”的记载整体处于偏高状态,这与人类对“氢弹”的研发历史及关注程度紧密相关:1950年,美国总统杜鲁门下令决定研制氢弹,1951~1957年,美国、苏联、英国氢弹相继试验成功,1966年年底,中国成功进行氢弹原理试验,并于1967年氢弹试验成功。然后在2000年,“氢弹”词使用频率出现小波峰,这与1998年年底,中国签署《不扩散核武器条约》附加议定书,并且联合国分别在1999年、2001年和2003年召集了三次促进全面禁止核试验条约生效会议密切相关。民国时期,中国的人口思想水平出现了新的提高,表现为:专业队伍的出现及研究领域的扩大;开始设立专门机构,并广泛展开社会调查活动;广泛吸收西方人口学理论”…。这些因素是图3(b)中1930年出现“人口”使用频率第一个波峰的主要影响因素。建国初期,受当时“人多是好事,而不是好事”等观点的影响H…,出现了图3(b)中“人口”使用频率第二个高峰。20世纪70年代末,深刻意识到中605484363242斟鬃旺掣112O00190519201930195019701990(a)图3(b)(a)表示“氢弹”在语料库中使用频率波动图;(b)表示“人口”在语料库中使用频率波动图万方数据情报学报第33卷第7期2014年7月图4基于云技术的海量历史文献数字化处理平台模型流程图来源的图书虽然经过Michel研究团队认真筛选,在6结束语内容的重要性上具有一定代表性,但是Google图书毕竟只是人类文化的一部分,另外图书的内容相比于新闻媒体的内容距离我们的现实社会文化比较远,图书内容相比于时事而言比较滞后,并不完全能准确及时地反应出当时的社会文化,所以文化组学所观测到的人类文化趋势只是真实中的一部分,并不能够全面分析人类的历史文化,只能预测估计人类历史文化的趋势及发展。但是随着信息技术的发展,语料库会一步步扩大,囊括人类目前所有的信息,比如所有图书、新闻、期刊杂志、手写稿、电影电视剧本、广播材料、电子邮件、网页内容和交际语言等,是文化组学语料库最终的目标。文化组学中分析人类文化主要采用词语使用频率分析法,这有一定的局限性和单调性,如若方法中不只是词语使用频率一种分析方法,比如结合现代的文本挖掘、信息检索等方法,文化组学将会成为人类文化研究的强有力助手。参[1]一个简单的词语就是历史传承和文化凝练的结果,文化组学的应用可以满足人类对知识的无穷探索,可满足人们在数百年的时问尺度上进行研究,用科学技术打造人类历史研究的“知识链”。就其作用分为来讲,文化组学把严格定量研究的界限扩展到了一系列新的广阔的跨越社会学科和人文学科的现象上来,它将科学技术融入到历史研究中,一方面加快了历史学科发展的数字化进程,另一方面预示着多领域的交流合作将成为未来历史研究的重要途径。而针对不同的使用者来讲,一方面,文化组学的出现变革了人文学者文化研究的方式,可以通过全方位的对比——不同语言,不同时期,不同词汇来对比、识别、发现和验证问题。另一方面,文化组学作为数字人文手段,其直观性和易用性使更多的普通人有机会参与到历史文化的探索与发现过程中。文化组学旨在用最先进的技术帮助历史学家追溯历史,它的出现和发展不仅改变了历史学家探索历史的道路,而且可能会发现一些新的人类未曾知晓的历史事件,更有可能打破某些历史研究的“盖棺定论”。但文化组学目前也有一定的局限性,就其可视化工具GoogleNgram考文献WilsonE0.Consilience[M]1998:41.sViewer本身来讲,对英文单词泌舳胁埘墨量.咖¨E至拙:一眇¨湖吣刚岬.呻L崎疵t龇l的查询上,是对英文时态敏感的;另外,GoogleNgram一Viewer无法实现在同一张词频统计图中显示妯一汕一蝴胁州一。州~_蚤‰蛔¨汕咖№L_霎蝴不同语言的词汇词频变化趋势;尤其对于中文文献来讲,由于分词技术的限制,不能很好的囊括对中文文本的词频统计。文化组学语料库中包含词汇,其阿u蛳|i她一乳川一㈤陋~础一~叭E钏.胁n一一m~螂_蚕¨一叭‰~№脚蛔叩畔㈤攀一寥吩~妒‰一叩淼恤淼兰淼q№_亘Ⅲ慨瓯m№瑚∽.一曲一㈣d一邶呱嶝_重她g叩.呻邛招万方数据文化组学研究综述andevolution[M].Cambridge:MITGK.Thepsycho-biologyofPress,2006.socialandnaturalphenomenaoverthepasttwocenturies[6]Zipflanguage[M].Boston:[J].JournalofTheRoyalSocietyInterface,2012,9HoughtonMifflin,1935.(73):1956-1964.[7]MichelJB,AidenEL,ShenYK,eta1.Quantitativeofdigitized[22]MohammadSM.FroIllonceuponatimetohappilyeveranalysisofcultureusingmillionsbooks[J].after:trackingemotionsinSupportmailandbooks[J].DecisionScience,2011,331(6014):176-182.[8]LagierSystems,2012,53(4):730.JC,ArmougomF,MillionM,eta1.Microbial[23]WeingartS,JorgensenJ.Computationalanalysisofthebodyineuropeanfail7cuhuromics:paradigmshiftinthehumangutmicrobiometales[J].LiteraryandLinguisticstudy[J].Clinical(12):1185-1193.MicrobiologyandInfection,2012,18Computing.2012:1-13.[24]bookstoSoperDS.Turel0.Ann-gramanalysisofcommunicationsoftheACM,2012,55[9]BohannonJ.Googleopennewculturalstudies2000-2010[J].Communications(5):81_87.[J].Science,2010,330(6011):1600.[10]王丹红.文化组学:用数学方法分析文化演变[N].科学时报,2011-01-18.[11][25]SoperDidentitiesS,Turelusing0.Whoarewe?Mininginstitutional201245thHawaiin-grams[C].on张哲.“文化组学”用先进技术推动对史学的跨学科研究[N].中国社会科学报,2012-01-16(257).邵培仁,林群.中华文化基因抽取与特征建模探索[J].徐州师范大学学报,2012,38(2):107-112.International1107.1116.ConferenceSystemSciences,2012,[12][26]HughespatternsJM,FotiNJ,KrakauerDC,eta1.Quantitativeofstylisticinfluenceintheevolutionofliterature[13]LianganW,ShiY,HuangQ.Modelingthechinesela”gu89eas[J].ProceedingsoftheNationalAcademyofSciences,evolvingnetwork[J].PhysicaA:Statistical2012,109(20):7682-7686.MechanicsanditsApplications,2014,393:268-276.[27]MichalskiB,KrishnamoorthyM,LauanalysisofliteraryandprogrammingTY.Temporal[14]EvansJA,FosterJG.Metaknowledge[J].Science,prose[J].arXiv2011.331:72l-725.preprintarXiv:1202.2131vl,2012:1-5.evolutionofmarketinghistory:[15]KumarN,SahuM.Thea[28]SerraJ,CorralA,BogunaM,eta1.MeasuringthecontemporarywesternpopularpeekthroughGooglen-gramviewer[J].AsianJournalevolutionofScientificmusic[J].ofManagementResearch,2010:415-426.reports,2012,2(521):1-6.or[16]WijayaDT,YeniterziR.Understandingsemanticchangeover[29]ShookyE,LeetaruHK,CaoGF,eta1.Happygeneratingculturomicstopic-basedusingcyberonnot:ofwordscenturies[C]//ProceedingsWorkshoononofthe2011Exploitingemotionalheatmaps2012forIEEEInternationalDetectingandGIS[C].CulturalDiversity35.40.theSocialWeb,NewYork,2011:InternationalConferenceE-Science.2012:1-6.ona[30]PhaniS,LahiriS,BiswasA.CuhuromicsnewspaperBengalion[17]LeetaruKH.Cuhuromics2.0:Forecastinglarge-scalehumanbehaviorandusingglobalnewsmediatonecorpus[C].2012InternationalConferenceintimeAsianLanguageProcessing,2012,68:237-240.space[J].FirstMonday,2011,15(9):[31]OishiS,GrahamacrossJ,KesebirS,eta1.Conceptsofhappiness1995.2013.timeandcultures[J].PersonalityandSocial[18]PetersenAM,TenenbaumJ,HavlinS,eta1.StatisticalinwordusePsychologyBulletin,2013,39(5):559-577.J,RossiK.Therapeutichypnosis,thedigitalhumanities:Thelawsgoverningfluctuationstofromwordbirth[32]RossiaE,Mortimerbpsychotherapy,andworddeath[J].ScientificReports,2012,2(313):1.9.narrativesandcuhuromicsofhypnosis,1800-2008[J].[19]YeungA,JatowtA.Studyinghowthepastisremembered:histmTthroughlargescaletextAmerican343.359.JournalofClinicalHypnosis,2013,55(4):towardscomputationalmining[C]//Proceedingsconferenceonofthe20thACMinternationalknowledgemanagement,[33]JuolaP.UsingtheGooglen-gramcorpusandtomeasureLinguisticInformationandculturalcomplexity[J].LiteraryNewYork.2011:1231-1240.Computing,2013:1-8.[20]FlaounasI.PatternanalysisofnewsmediaPhD.thesis,UniversityofBristol,2011.content[D].[34]SteffenR.Thefairlygoodeconomy:testingofsocietytrendsTheinhypothesisfunctionalofagainstatheeconomizationNgramViewofGoogle[21]GaoJB.HuJ.MaoX.eta1.Cuhuromicsmeetsrandomtheory:insightsintolong-rangeorrelationsofdifferentiation(1800-2000)[J].BusinessResearch,2013,29fractalJournalApplied万方数据情报学报第33卷第7期2014年7月(5):1495.1500[35]KantelhardtJW,ZschiegnerSA,BundeEK,etalMuhifractsldetrendedfluctuationanalysisO±nonstationarytimeseries[J].StatisticalMechanicsanditsApplications,2002,316(1-4):87-114.[36]PengCK,BuldyrevSV,HavtinS,eta1.MosaicorganizationofDNAnucleotides[J].Physicalreview,1994,49(2):1685-1689.[37]StanleyaHE,AmaralaLAN,GoldbergerAL,eta1.Statisticalphysicsandphysiology:monofractalandmuhifractalapproaches[J].StatisticalMechanicsanditsApplications,1999,207(1-2):309-324.[38]GasiorekJ,GilesH,ThomasH,eta1.CelebratingthirtyyearsoftheJLSP:analysesandprospects[J].JournalofLanguageandSocialPsychology,2012,31(4):361-375.[39]MurrellP.Thewaywewere:Reflectionsonthecomparative万方数据histmTofcomparativeeconomics[J].ComparativeEconomicStudies,20ll,53(4):489-505.[40]126thAnnualMeetinginChicago[EB/OL].https://aha.confex.com/ahs/2012/webprogram/Symposiuml109.html,[2012-01-05].[41]涂丰恩.数位的与全球的——2012年美国历史学年会笔记[EB/OL].http://shi-yuan.blog.ntu.edu.tw/2012/01/17/,[2012-01-17].[42]张庆军.民国时期人口思想初探[J].中国人口科学,1993,1:44.49.[43]邹平.关于建国初期我国人口政策转变的回顾与思考[J].人口研究,1986,6:1.5.[44]中华人民共和国国务院新闻办公室.中国的计划生育[R].1995.8.(贡任编辑马兰)文化组学研究综述

作者:作者单位:刊名:英文刊名:年,卷(期):

郭崇慧, 魏伟, 任晓玲, Guo Chonghui, Wei Wei, Ren Xiaoling大连理工大学系统工程研究所,大连,116024

情报学报

Journal of the China Society for Scientific andTechnical Information2014,33(7)

本文链接:http://d.wanfangdata.com.cn/Periodical_qbxb201407009.aspx

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- azee.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务