首页 大数据百科正文

文本分析以及文本挖掘相关概念介绍

  数据观小编选取了文本分析的一些相关资料,整理成文,希望对大家有所帮助。

  文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

  文本分析概念

  文本(text),与 讯息(message)的意义大致相同,指的是有一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,由文本内容分析,可以推断文本提供者的意图和目的。

  将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。

文本分析概念

  目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。

 

  特征选取的方式常见的有4种:

  (1)用映射或变换的方法把原始特征变换为较少的新特征。

  (2)从原始特征中挑选出一些最具代表性的特征。

  (3)根据专家的知识挑选最有影响的特征。

  (4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。

  随着网络知识组织、人工智能等学科的发展,文本特征提取将向着数字化、智能化、语义化的方向深入发展,在社会知识管理方面发挥更大的作用。

    

  上面是文本分析的内容,下面介绍文本分析法的资料。

  文本分析法

  从文本的表层深入到文本的深层,从而发现那些不能为普通阅读所把握的深层意义。

  文本分析的方法

  “新批评”法

  “新批评”的方法很基础,但也很实用,即从文本中“细读”出那些语言的非日常化运用,如“反讽”、“张力”等。“细读”现在已成为包括各种文本分析在内的一个基本功。“新批评”对诗与短篇小说等文本的分析,非常有用,但对于长篇小说就有些不知从何处下嘴了,只有结合叙述学的分析才容易提纲挈领。

  符号学分析法

  符号学其实是个相当宽泛的概念,我这里仅指最为经典也最常用的符号学分析方法,也就是格雷马斯的方法,主要包括矩阵分析和施动者分析等。当然,罗兰·巴特、托多罗夫等人还有其他的许多方法,但原理基本上都是一样的。所谓“结构主义”的分析方法,基本上也就是这些方法。

  叙述学分析法

  主要是故事分析(包括故事序列分析,故事类型分析等等),与叙述视角分析(包括叙述者的人称、位置、可信度;叙述者的声音、叙述的速度等)。当然,叙述学也同样关注人物的话语分析,看他说的话是直接引语还是间接引语,亦或是自由间接引语。因为叙述学、符号学等都是建立在语言学基础上的,所以分析一篇小说就犹如分析一个句子,人物相当于主语,人物的行动相当于谓语,而人物的品质则相当于定语或状语。

  解构主义法

  解构主义的方法,代表人物是法国人德里达和美国人德·曼。解构主义的一个基本原则就是从文本的边缘进入,从而颠覆掉整个文本的通常意义。俗话说:千里之堤,溃于蚁穴,解构主义者就像那个颠覆了千里之堤的大蚂蚁。

  互文、对话理论分析

  此方法起源于巴赫金,成熟于托多罗夫、克里斯特娃、热奈特等。结构主义一直视文本为相对封闭的系统,从而忽视了现实和社会的因素,而传统批评又只看到了社会忽略了文本,各有弊端。互文、对话理论的出现则很好地解决了这一问题,因为文本与现实社会之间被视为是互为文本的,是对话关系的,于是社会的因素与文本的规则都被分析到了。

  文本社会学方法

  这是一种综合性的分析方法,是将结构主义等形式主义的方法与社会学方法结合起来的产物,而且与西方马克思主义也关系密切。

  文化研究

  文化研究,从传统文学批评到现代文学批评,史称“语言学转向”,而文学批评向大众文化批评的转向,史称“文化转向”或“意识形态转向”。文化研究是个非常复杂的话题,说来话长,不提也罢。只说两点,首先文化研究将以往文学研究的研究对象和研究视野大大地拓展了,以前只研究所谓的经典文本,而文化研究则更针对当代消费社会的当下语境,将大众文化(包括电视、广告、娱乐等等)也纳入了研究的范围。其次就是特别注重意识形态分析,葛兰西、阿尔图塞等人的理论有着举足轻重的位置。如果说文化研究还有什么特点的话,那就是“左”,基本上都是西方左派知识分子的人在搞,比如大师级的人物杰姆逊。

三种“文本分析法”介绍

  三种“文本分析法”介绍

  “新批评”细读法

  “新批评”得名于美国约·兰塞姆所著论文集《新批评》(1941),是英美现代文学批评中最有影响的流派之一,它于二十世纪二十年代在英国发端,三十年代在美国形成,并于四五十年代在美国蔚成大势。五十年代后期,新批评渐趋衰落,但新批评提倡和实践的立足文本的语义分析仍不失为文学批评的基本方法之一,对当今的文学批评尤其是诗歌批评产生着深远的影响。

  “新批评”细读法不是一种自我感兴趣的印象式批评,而是一种“细致的诠释”,是对作品作详尽分析和解释的批评方式。在这种批评中,批评家似乎是在用放大镜读每一个字,捕捉着文学词句中的言外之意、暗示和联想等,其操作过程大致分为以下三个步骤:首先是了解词义,然后是理解语境,再次是把握修辞特点。

  今天,中国学界仍有不少人把“细读”批评理论看作是西方文学理论的独创,并常常运用它来解读各种文学文本。其实中国古代文学批评最早、最常见的话语分析方法—言、象、意的文本分析方法,才是最早的“细读”批评理论。中西细读批评的共通之处在于,都力求透过语言的外壳把握文本之一,如注重对语言的字、词、句构成;声音的节奏、格律;比喻、象征等修辞手法的细致分析。“言”即等同于西方“细读”批评对文学文本的声音层面、意义单元的分析;“象”即等同于西方“细读”批评对文本的意象和隐喻;象征和象征系统的仔细阅读和分析。“意”是中西“细读”批评共同的追求,然而在对“意”的深切领会上,中国式的细读批评主张凡是与文本有关的内容都纳入到对“意”的探求之中,如通过对文体、作品风格、时事、地理、风俗等全方位,立体剖析以深究文本之意。如果从细读的角度出发,中国式的细读批评比英美细读批评更为精致丰富,甚至超越了英美细读批评,是细读中的细读。

  “叙述学”分析法

  叙述是人类社会性活动中的一个重要部分。“叙述学”探讨的是艺术性言语的叙述手段:一个故事如何通过叙述被组织起来,成为一个统一情节结构的。“叙述学”理论的产生与俄国形式主义、索绪尔语言学、结构主义、解构主义等20世纪文学文化理论有着密切的关系。同时,它又是最具体实用的,在它的观照下,我们自以为通晓明白的故事、情节、作者、读者、视角、评论等都有了新的含义;一些习以为常的概念甚至受到了颠覆,一些新的概念迎面而来。这是一门并不十分深奥却又相当有趣的学问;一套并不十分复杂却又相当犀利的工具。它将为你提供一个新的批评视角;开辟一个新的研究天地。

  “叙述学”分析法,主要是故事分析(包括故事序列分析,故事类型分析等等),与叙述视角分析(包括叙述者的人称、位置、可信度;叙述者的声音、叙述的速度等)。具体说包含四个方面:

  其一、叙述-叙述学。浦安迪在《中国叙事学》说:“叙事就是作者通过讲故事的方式把人生经验的本质和意义传示给他人。”同时定义了什么是“叙事文”——“是一种能以较大的单元容量传达时间流中人生经验的文学体式或类型”。董小英在《叙述学》中描述:“叙述学就是研究如何使故事讲的引人入胜,美妙动听的。”“叙述学是通过叙述形式研究叙述方法的学问。”

  其二、叙述主体-语态。话语是谁说的,即“叙述主体是谁”在叙述效果和文本意义的表达中至关重要,此中包括“叙述角度”(叙述人、受叙人、人称、视角、),“叙述态度”(叙述人声音、叙述人干预、聚焦)。

  其三、叙述方式-语式。事件与话语的关系,即讨论叙述是在怎样的时间、空间中展开的。此中包括“叙述幅度”(时间幅度、空间幅度),“叙述频率”(事件频率、叙述频率)。

  其四、叙述进程-结构。文章结构(叙述线索、情节安排、话语序列),文体结构(文体互渗)。

  分析叙述视角、叙述态度和叙述结构,可以帮助我们打开文学作品瑰丽诡异的内宇宙,了解文本的内部结构,使我们对文本本身产生兴趣,而不是只关注文本所承载的社会历史内容,使我们的阅读教学回到文本本身,使语文阅读教学更加完整。

 

  “符号学”分析法

  这里以《药》和《祝福》为例,对鲁迅小说中的两类叙事符号加以简要的量化分析。

  1、色彩符号——《药》与《祝福》中的主体色彩及比重

  《药》全文有28处写到颜色,其中“红色”6次、“白色”12次、“黑色”8次、“乌蓝”1次、“碧绿”1次。可见,其主要色彩是红、白、黑。

  “红、白、黑”三色具有非常丰富、深刻的内涵。三色并举,其视觉效果意味深长。

  “黑色”在文章中每每以无可争议的分量出现:天空是“秋天的后半夜”,街是“黑沉沉的”,二者组合成一个黑暗压抑的立体空间。刽子手浑身黑色,烤熟的馒头也是整个的黑色……从整体空间到具体物事,沉重而令人恐惧,暗示了当时社会环境的阴森恐怖和恶势力的强横暴虐。

  在文章中,红色有士兵衣服“暗红色的镶边”(这种红色让人感到压抑);有“鲜红的人血馒头”(这种红色给人触目惊心的感觉);有坟顶上“红白的小花”(这种红色意味着希望之光虽然微弱,但毕竟有了一点儿希望)……“红”的含义各不相同:表现出当时“社会”与“革命”包含太多复杂的内涵。

  至于“白色”,“灰白”的路,“惨白”的脸,焦皮馒头里的一道“白”气——它不作为“红”的代表,也不是“黑”的盟友,象征社会上的中间势力,带着浓重的凄凉而迷茫的气息。

  三色的综合效应表明了当时的沉郁、复杂、洋溢着“恶气”和“鬼气”的社会环境。

  《祝福》中对色彩的描述共约22次,其中白色(含月白、灰白)9次、黑色(含灰黑、黑黄、青色)7次、黄色4次。主要色彩为白、黑、黄,另偶有蓝色、红色夹杂其中。

  与《药》以“黑”为主要的色彩背景不同,《祝福》以白色为其主色调:统纳一切的天空是“灰白色”的,天空下是团团飞舞的白色的雪花、屋宇上是雪白的瓦楞、屋檐下的人物是花白头发、人物穿的是月白背心。比起《药》黑色里的压抑和残酷来,《祝福》更多的是社会生活中的污浊和阴冷。在微观的色彩设计上,《祝福》中的色彩多为中间色:不仅白色多为月白和灰白,黑色中也多有灰色、黄色融入,蕴含浓郁的疑虑和迷茫气息。黄色是《祝福》中出现第三多的颜色,“黄色的灯火光”渲染了一个混浊的人间社会,黄色的脸颊勾勒了生活在苦难中的生命个体。《祝福》中的红色只有两次,一是洗福礼时在水里泡得通红的女人的胳膊,一是第一次出现在鲁镇的祥林嫂的脸颊,它们零星的、瞬间的、不成气候的人间存在。小说以白、黑、黄构成完整的人间社会图景,也十分明显地表达了作者对这种社会的评价和挞伐。

    了解完文本分析的相关概念后,我们来看看2016年,文本分析、情感分析和社交分析的10大趋势

  了解完文本分析的相关概念后,我们来看看2016年,文本分析、情感分析和社交分析的10大趋势

  文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。

  它从文本中、音频中、图像中还有网络连接中提取洞察力,它可真是个有用的东西!

  目前分析技术发展得还是相当不错的,尽管在某些领域,例如数字分析和市场研究有些稍稍落后。但是甚至是在例如“客户体验、社群聆听、用户交互”方面,还是有很多发展空间。这个快速发展的市场空间无论对于新加入的玩家还是深耕已久的资深人士都意味着大量的机遇。

  随着技术和应用不断融合,与其独立地检验每个分析领域,还不如好好地观察整体的效果。忽视情感的社交分析是不完整的,并且为了从网络上获取社交情感数据并调查情感数据,我们真的需要文本分析技术。

  本文对即将到来的2016年,针对文本分析、情感分析和社交分析的发展趋势进行一个前瞻性的观察。

  一、多语言才是王道

  尽管单纯英文的文本分析一直保持常态,但仅将一种语言做好,也比囊括很多种语言,却哪种都做得潦草要强得多。机器学习和机器翻译已经向着多语种文本分析迈进了一大步,使其成为一个全新的标准。但是如果你的确需要做多语种的开发尝试,事先也要做一些调查:很多开发者在其核心语言上很强,但在别的语言上就很弱了。所以说选择的时候还是小心一点。

  二、文本分析获得认可

  文本分析能力对于客户体验、市场研究、客户洞察、数字分析乃至媒体评测来说都是关键解决方案,各个文本分析服务提供商在分析能力的优势上不断竞争。总的趋势是“量化定性”,文本分析被纳入业务解决方案中是十分重要的事。

  三、机器学习、统计学和语言工程并存

  明天是属于机器学习、递归神经网络以及相似技术的,但是今天,长期建立的语言工程方法仍占上风。这里我指的是分类系统、分析器、词法和句法网络以及句法规则系统。目前我们处在一个“百花齐放、百家争鸣”的时代,所以很多种方法都是可以并存的。举例来说,甚至众包数据处理的领军企业:CrowdFlower都全面拥抱机器学习了,初创企业Idibon都把传统和现代相结合作为一大卖点:“你可以组建自定义的分类系统,并使用机器学习、规则和你已有的字典/模式去调整它们。”

  四、图像分析进入主流

  全球领先的图像分析提供商已将图像分析技术应用于社交媒体的品牌信号解读中---不信你看看Pulsar和Crimson Hexagon---并且通过机器学习,图像分析技术已成为IBM在2015年收购Alchemy API的一大卖点。的确,火热的初创企业MetaMind在2015年从NLP领域转型到图像分析,缘于其意识到图像分析背后的巨大机遇。

  五、语音分析取得突破,视频分析随之而来

  整个市场喜欢谈论多渠道分析和用户旅程,这涉及到多重触点。并且社交网络和网络媒体中充斥着视频,说出来的话,还有非文本形式的语言要素,包括语调、语速、音量和重复,都传递着含义,而这些含义都可以通过语音分析和语音转文字来获取。不仅仅是客服中心,2016年,所有的市场研究人员、出版人员、研究和洞察专业人士都在不断寻找突破。可以期待,未来语音分析也将成为推动人机会话接口发展的重要力量。

  六、扩展式情感分析

  广告人员早就认识到情感可以改变消费者的决定,但直到近日,广泛地、系统地对于情感与决策的研究已经超越了我们的能力范围。根据你的角度,进入情感分析,或者是情感分析的子类,或者是其姊妹类。带着量化我们的情绪反应的目的,使用面部表情分析从图像和视频中(或从语音或文本中)提取我们的情感状态。这方面的服务提供商有:视频服务的Affectiva、Emotient和Realeyes,语音服务的Beyond Verbal以及文本服务的Kanjoya;相关的受众包括广告商、媒体、市场研究人员和代理商。

  七、ISO 网络表情分析

  我们已经有了文本、图像、语音、视频等,那为什么我们还要用网络表情呢?因为它们简洁、易用、生动、有趣,它们补充并且对长格式的内容形成冲击,这就是为什么互联网俚语灭亡了。Facebook正在尝试对网络表情进行挖掘,更好的是,我们还看到了像Line stickers这样的变种。现在我们需要的就是网络表情分析了。这个领域的技术正在通过像Emogi这样的初创企业不断兴起。尽管大多数人也不过就是用计数和分类来获取网络表情语义,像Instagram工程师Thomas Dimson和斯洛文尼亚研究组织CLARIN.SI都是这么干的。但他们当中的一些公司,比如SwiftKey,还是值得关注的。

  八、网络+内容的深度洞察

  这一点既是我对于2016年的趋势预测,同时我在2015年对市场研究公司TNS的数据科学家Preriit Souda访谈时也提到过。Preriit指出:“网络为会话赋予结构,内容挖掘为其赋予含义。”洞察力源自于对于信息与连接的理解,也来自于连接是如何被激活的。因此为你的工具包加一个图形数据库和网络可视化工具吧,这就是为什么Neo4j.js和Gephi这么成功的原因。建立一个类似于QlikView的数据分析平台也是一个选择,一个可以协同文本和数字分析的选择,对于2016年来说这是一定要做的事。

  九、2016年,你会读到(或与之交互)多得多的机器编写的内容

  机器编写内容的技术叫自然语言合成(Natural Language Generation,NLG),它提供根据算法从文本、数据、规则和内容中撰写文章、信件、短信息、摘要和翻译的能力。NLG就是为大容量、高重复量的内容而生的:金融、体育和天气预报。相关的服务提供商有Arria、Narrative Science、Automated Insights、Data2Content和Yseop。你也可以看看你与你心爱的虚拟助手进行对话时的机器端:Siri、Google Now、Cortana或是Amazon Alexa,或是自动客服、其它程序化相应系统。后面的这些系统都归类于自然语言交互(Natural Language Interaction,NLI);其中Artificial Solutions还是值得一看的。

  十、机器翻译逐渐成熟

  长久以来,人们一直希望拥有一个“星际迷航”那样的通用翻译器,但自从1950年科学家称机器翻译可以在3~5年内实现,精准的、可信赖的机器翻译就一直是个谜。(ACM Queue撰文《Natural Language Translation at the Intersection of AI and HCI》充分地讨论了人机结合条件下机器翻译的状态)我不能说胜利就在眼前,但是多亏了大数据和机器学习,2016年(或2017年)对于大多数任务来说,主流语言的机器翻译能做到足够好。这就是胜利!

  总结

  如果你是一个文本分析、情感分析或是社交分析学家,解决方案提供商或是用户,每一个趋势都会影响到你,无论是直接地还是间接地。因为人类的数据现在已经被编织成为我们每天赖以生存的技术网。连接这张网的线就是更多的数据,更有效地使用,来创造改变生活的机器智能。    

    

  以上内容主要是关于文本分析,下面我们来研究下

  文本挖掘 什么是文本挖掘

  文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。

  文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。

  文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

  文本挖掘技术的发展

  数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。

    随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:网络挖掘和文本挖掘。

  网络挖掘侧重于分析和挖掘网页相关的数据,包括文本、链接结构和访问统计(最终形成用户网络导航)。一个网页中包含了多种不同的数据类型,因此网络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。

  文本挖掘作为一个新的数据挖掘领域,其目的在于把文本信息转化为人可利用的知识。

  文本挖掘预处理

  文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘,还需要做很多准备工作。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成,见图1。

  ◆ 文本收集

  需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。一般地,系统用户都可以定义文本集,但是仍需要一个用来过滤相关文本的系统。

  ◆ 文本分析

  与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行分析,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。其目的在于从文本中扫描并抽取所需要的事实

  ◆ 特征修剪

  特征修剪包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向投影是指按照挖掘目标选取有用的特征,通过特征修剪,就可以得到代表文档集合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。

  文本挖掘的关键技术

  经特征修剪之后,可以开展数据文本挖掘工作。文本挖掘工作流程见图2所示。从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的还很少,目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

  ◆ 文档聚类

  首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。

  文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。

  聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。

  ◆ 文档分类

  分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。

  由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了起作用的发挥。

  另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与自己需求相关时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户,则显然会减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。

  文档自动分类一般采用统计方法或机器学习来实现。常用的方法有:简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。

  ◆ 自动文摘

  互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。

  自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。

  自动文摘具有以下特点:(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。

  按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。

  文本挖掘应用前景

  利用文本挖掘技术处理大量的文本数据,无疑将给企业带来巨大的商业价值。因此,目前对于文本挖掘的需求非常强烈,文本挖掘技术应用前景广阔。

  知识链接

  文本挖掘系统的评估办法

  评估文本挖掘系统是至关重要的,目前已有许多方法来衡量在这一领域的进展状况,几种比较公认的评估办法和标准如下:

  ◆ 分类正确率:通过计算文本样本与待分类文本的概率来得出分类正确率。

  ◆ 查准率:查准率是指正确分类的对象所占对象集的大小,

  ◆ 查全率:查全率是指集合中所含指定类别的对象数占实际目标类中对象数的比例。

  ◆ 支持度:支持度表示规则的频度。

  ◆ 置信度:置信度表示规则的强度。

    

  下面的内容是网友的问答。

  什么是文本分析?和内容分析的区别

  话语分析 (discourse analysis)  由 Edwards and Potter (1992), Harre (1998) 和 Potter and Wetherell (1998) 所发展的话语心理学力图揭示,在谈话中,参与者的关于事件(记忆、描述、表达)的谈话版本是如何被建构出来,以发挥交流互动的作用。虽然其出发点也是会话分析,它的分析重点是谈话的内容、谈话主题及其社会组织,而不是谈话的语言学组织。该方法把心理现象(如:记忆、认知)当作社会和话语现象来分析。 其分析的重点是分析在报告、媒体和话语体系中各种版本的事件的建构。特别是要分析人们如何利用“解释库”来进行这种建构。 话语分析不仅被用来对日常会话进行分析,而且也用来分析其他类型的材料,如:访谈、媒体报告。

  文本分析

  分析电视剧情或者流行曲歌词,研究这些媒体如何塑造角色、演员或歌手的形象,以及这些作品所隐藏的某些对人对事的看法报章的标题的用字、字体、大小、版面放置、占用的空间等分析广告的用色、配乐、选角、桥段

  内容分析

  把杂志内的广告分类,或数算一本杂志内有多少个纤体广告分析某一电视剧中所特定一类人物,如大学生、律师、领综援人士、有色人种的遭遇统计电影对某些关系的描述,如:老夫少妻、保险从业员与顾客

  以上就是本文关于文本分析的全部内容。小编推荐一篇相关文章

  程学旗兰艳艳:网络大数据的文本内容分析

责任编辑:陈卓阳

分享:
延伸阅读
    大数据概念_大数据分析_大数据应用_大数据百科专题
    贵州

    贵州大数据产业政策

    贵州大数据产业动态

    贵州大数据企业

    更多
    “智慧中国杯”全国大数据创新应用大赛
    企业
    更多