【攀登计划 & 软著一作】思潮——基于数据挖掘的舆情与社会思潮可视化分析系统
摘要:随着互联网技术的迅猛发展,网络舆情作为社会思潮的反映渠道,逐渐成为理解社会动态的前置步骤。然而,现有分析工具大多仅停留在信息和情绪的层面,缺乏对思潮的深入挖掘与分析。信息茧房效应的加剧,使得网民的思维局限于单一观点,进一步限制了思潮的多样性表达与传播。本文设计并开发了一套基于数据挖掘的社会思潮可视化分析系统,通过舆情这一阶梯,深入分析如“民族主义”、“女权主义”、“生态主义”等社会思潮。系统能够实时采集多平台数据,评估思潮的活跃度、发展态势及影响力,帮助用户洞察社会思潮的历史演变,防范信息茧房效应对社会认知的影响。经验证,系统显著提升了思潮分析的精度与效率,填补了当前市场上缺乏思潮研究工具的空白,为政府及研究机构提供了强有力的数据支持。
关键词:社会思潮,数据挖掘,信息可视化,社交平台,舆情分析,信息茧房
- 研究背景及目的
1.1 研究背景
随着互联网技术的飞速发展和社交平台的广泛普及,社会思潮的传播与演变呈现出前所未有的速度与广度。根据中国互联网络信息中心(CNNIC)2024年8月29日在京发布的第54次《中国互联网络发展状况统计报告》,截至2024年6月,我国网民规模达10.9967亿人,较2023年12月增长742万人,互联网普及率达78%。在如此庞大的网络用户基础下,社会思潮作为反映特定环境中人们利益诉求和思想倾向的重要载体,通过网络平台迅速传播,对社会生活的各个方面产生深远影响。
社会思潮,作为一种反映特定历史时期社会存在的思想趋势,具有“潮水”般的流动性和阶段性。其形成既可能是自发的,也可能在思想家的推动下产生,涵盖了广泛的社会心理动向、意识形态和思想流派。现代社会思潮不仅反映了社会的整体性和普遍性,更与特定历史条件和生产方式紧密相连。例如,意大利文艺复兴时期的文艺思潮、法国古典时代的悲剧运动以及中国自鸦片战争以来的社会改革思潮,均与当时的社会生活条件和时代精神密切相关。
然而,随着信息量的激增和社交平台算法推荐的普及,网民常常陷入“信息茧房”的困境,接收到的信息趋向于与其既有观点相符,导致信息单一性和观点同质化。这种现象不仅限制了网民的视野和理解深度,还可能导致盲目跟风和片面立场的形成,进而影响社会思潮的健康发展。此外,虚假信息的传播和谣言的制造无疑加剧了网络空间的混乱,破坏社会稳定与和谐。如曾有很多网民参与讨论的“秦某丢寒假作业事件”,一度冲上各大媒体的热搜,后被相关部门披露属于自编自导自演的虚假谣言,污染了网络空间的风清气正,打击了教育部一直在倡导的“双减”政策。诸如此类的虚假不实消息以及由此诱发的虚假舆情,如果不能及时发现并堵截,产生的恶劣影响不可估量。
因而,研究社会思潮的传播规律、影响机制及其对社会发展的作用显得尤为重要。现有的思潮与舆情分析系统往往侧重于对即时热点事件的监测与分析,缺乏对深层次、长期性社会思潮的系统性研究和综合性分析。因此,构建一个能够全面监测和分析社会思潮动态的系统,成为亟待解决的课题。
1.2 研究目的
图1 研究目的概述
本研究的首要目的在于构建一个能够及时响应特定事件的思潮监测系统。该系统将综合分析不同社交平台上的网民情绪倾向、评论效能、传播效能和发展趋势等多个维度,对舆情动态进行全面研判,从而推断思潮走向。通过实时监测和分析,系统能够为决策者和相关机构提供有力的数据支持,以便在消极思潮初现时,及时开展有效的防范与化解工作,从而维护社会稳定与和谐。
此外,研究还旨在为网民提供一个深入洞察社会思潮和历史演变趋势的平台。系统将致力于整合多元的信息来源,帮助用户在复杂的舆论场中找到真实的声音,接触到更广泛的视角和思想。通过提供社会思潮编年史以及的对应的深度剖析,用户能够更好地理解当下的社会现象及发展趋势,强化认知能力,增强对不同观点的包容性,促进理性讨论与交流。
考虑到现有的单一的分析系统已无法满足普遍存在的迫切需求,本研究旨在开发一个综合性思潮分析系统。该系统将不仅展示不同社交平台上特定事件的舆情,从而对话题进行深度分析,为用户提供与主流思潮相关的信息与见解。通过实现这些功能,本研究期望为社会思潮的健康发展贡献力量。
二、国内外研究现状
舆情分析与社会思潮研究作为社会科学与信息技术交叉的重要领域,近年来在国内外均取得了显著进展。随着大数据、人工智能和可视化技术的快速发展,研究者们不断探索新的方法和工具,以更精准地捕捉和解读公众情绪及社会思潮的动态变化。
随着近年来理论的不断充实和实践中的不断完善,舆情分析与社会思潮系统的设计模式也逐渐清晰,大体可以分为以下几个步骤:(1)数据采集;(2)数据预处理;(3)主题提取;(4)情感分析;(5)数据分析与可视化。下面将从这五个层面出发,详细探讨国内外有关舆情分析与社会思潮的研究的历程,结合具体实例进行分析,并总结当下舆情与思潮系统研究和实践中取得的成果。
图2 国内外同类课题研究现状示意图
2.1 数据采集
数据采集是舆论思潮分析系统中至关重要的步骤。数据采集是获取原始数据的关键环节,广泛应用于科学研究、工业生产和日常生活中。随着技术的发展,数据采集方法从传统的手工采集逐渐演变为自动化、智能化的采集系统。研究者们不断探索更高效、更精确的采集方式,以满足不同领域的需求。
在本研究中,数据采集的主要任务是从各种在线平台(如社交媒体、新闻网站和论坛等)获取相关数据,通过爬虫技术自动化收集海量用户评论、帖子和文章等信息,为后续分析提供基础。这些数据的有效获取能够确保系统获取最新和相关性高的信息,提高舆论分析的准确性和时效性。近年来,随着互联网数据量的爆发式增长,研究者们从传统的手工采集方法逐步转向更为高效的自动化采集系统。
国内外的相关研究显示,自动化数据采集在舆论分析中具有不可或缺的地位。例如,何西远等人的微博舆情监督与情感分析系统的数据获取手段就使用了Scrapy爬虫自动化框架,通过利用微博的关键词检索爬取对应时段之内的所有相关联的用户评论数据。并通过Python的Thread库进行多线程运行,优化了爬虫效率。[1]Scrapy框架是一个基于Python的爬虫开源工具,最早于2008年由Pablo Hoffman创建并发布。它能够快速高效地从大规模网页中提取信息。Scrapy具有广泛的应用场景,适用于数据挖掘、监测和自动化测试等任务。该框架设计便于扩展,并且易于开发。
图3 Scrapy爬虫框架
如图3所示,Scrapy的工作流程包括四个主要步骤:首先是定义目标网站并编写蜘蛛(Spider)类来指定需要爬取的URL和解析规则;其次,Scrapy引擎会根据设定的爬取逻辑发送请求并获取网页内容;接着,解析器会对获取到的网页数据进行解析和处理,提取出所需的信息;最后,数据存储器将提取到的信息保存到文件、数据库或其他数据存储形式中。Scrapy支持多线程爬取和自动处理请求中的延迟,能够有效提升爬虫的性能和效率。
除了Scrapy之外,开发者还常利用API接口来获取数据,许多社交媒体平台和新闻网站提供开放的API,这允许开发者以结构化的方式访问数据,从而获取实时的网络信息,比如国外学者Karamouzas就利用Twitter平台提供的API,轻松地通过这些接口直接获取特定话题或关键词下的最新动态和用户评论[2],为舆情分析提供了重要的数据支撑。
图4 调用API的过程
如图4所示,API调用过程通常从客户端构建请求开始,客户端会向API服务器发送包含Endpoint、HTTP方法、参数和请求头的请求。服务器接收请求后,会验证身份、检查参数,并调用相应的业务逻辑或数据库操作。然后,服务器将结果处理为响应,通常包含状态码、响应头和数据体,返回给客户端。客户端接收响应后,处理结果或进行下一步操作。
2.2 数据预处理
数据预处理是对采集到的原始数据进行清洗和转换,目的是提高数据的质量和一致性,以便后续分析更加顺利和准确。尤其是在舆论分析中,非结构化文本数据的适当预处理有助于提取有用信息,降低分析复杂性,从而提升情感分析和主题提取的效果。
何西远等人在进行微博文本预处理时,主要采用了数据降噪、停用词去除、文本分割和去除词语等手段[1],主要流程如图5所示。其中,数据降噪旨在去除HTML标签、特殊字符等无关信息,以便后续处理;停用词去除则是删除文本中无实际意义的词语,例如“的”、“是”等,提高程序运行速度和效率;文本分割将中文文本分割成单个词语,以便进行后续分析,由于中文没有明显的分词界限,因此使用了jieba分词工具进行精确分词;去除词语则是在分词过程中,删除无实际意义的停用词,进一步净化文本数据。这些预处理步骤共同作用于文本,为后续的情感分析和主题提取奠定了基础。
图5 文本预处理流程图
由于数据预处理在文本分析中的重要性,国内涌现出了多款适用于中文文本预处理的工具。这些工具不仅提升了研究的效率,也提高了分析结果的准确性。例如,由北京大学在2010年发布的语言技术平台(LTP),它提供了中文分词、词性标注、命名实体识别等多种功能,广泛应用于各类中文文本信息研究中。
当前的数据预处理工具和技术在舆情分析中仍然存在一些不足之处。比如在处理特定领域的术语和行话时,往往难以做到精准识别,这可能导致信息的丢失和误解。此外,中文文本的复杂性和多样性使得分词、词性标注等环节仍面临挑战,特别是在面对新兴网络语言和方言时,现有的预处理工具难以适应。
2.3 主题提取
主题提取的功能在于从大量文本中识别出主要讨论的话题,这一过程有助于揭示公众关注的热点事件。通过对文本的分析,主题提取能够有效地归纳出当前社会中人们最关心的问题,为后续研究提供基础。
LDA(Latent Dirichlet Allocation)是由Blei等在2003年提出的一种基于Dirichlet分布的概率话题模型,它通过无监督的方式进行主题建模,广泛应用于文本挖掘中[5]。LDA模型分为三个层次:文档、主题和词项,生成过程通过对文档中的词进行随机主题分配,并利用Gibbs采样进行迭代优化,最终提取出文档中最具代表性的主题。该方法无需带标签的训练数据,能够有效应对大规模的非结构化文本分析,因此在舆情分析中得到广泛应用。
图6 LDA模型流程图
在中国的微博舆情思潮分析中,2015年,何西远等人就利用LDA从海量微博数据中提取公众讨论的主要话题,分析舆情热点和趋势[1]。此外,通过降噪和分词处理,LDA模型可以识别出某一事件的核心主题,并进一步揭示其背后的深层信息。因此国外的研究也常常借助LDA模型对社交媒体上的情感和话题进行分析。
然而,LDA模型的假设前提是各主题之间相互独立,但在真实的社交媒体环境中,不同主题之间往往存在交集和关联,这使得模型的输出结果难以反映舆论的复杂性。随着社交媒体信息量的快速增长,如何在保证提取效率的同时提高主题提取的精度,依然是研究者需要克服的重要挑战。
2.4 情感分析
情感分析适用于评估公众对特定话题的情感态度,分析他们是持积极、消极还是中立的情绪。在舆论分析系统中,它能够深入理解舆论的情感动向,揭示公众在面对不同事件时的心理反应。
通过将LDA主题模型与情感分析相结合,系统能够高效、准确地从海量数据中提取出核心信息,并深入挖掘社会对特定热点事件的情感态度和话题趋势。2018年,Karyukin搭建OMSystem,这是一种针对俄语和哈萨克语的舆情分析系统,其中就使用LDA模型结合情感分析技术来分析公众对热点话题的情感态度[3]。该系统通过评估讨论的情绪和兴趣水平,帮助揭示社会对特定事件的情感反应。这一技术不仅为政府政策的制定提供了参考,也为公众情绪的实时监控提供了强大的技术支撑。
图7 OMS平台
在此基础上,自然语言处理技术的应用进一步扩展了舆情分析系在情感分析方面的能力。2006年,美国麻省理工学院(MIT)开发的SentiWordNet是情感分析领域的重要资源库,它能够对词汇进行情感倾向标注,帮助研究者更加精准地理解文本中的情感表达。2014年,斯坦福大学开发的Stanford CoreNLP工具包也在情感分析中发挥了重要作用,它支持多语言处理,特别适用于社交媒体上的情感监测。这些工具的广泛使用为舆情分析提供了强大的技术支撑,尤其是在复杂的文本环境下,如多语言、多文化背景的社交媒体数据分析。
尽管如此,无论是国内还是国际,情感分析在处理复杂语境和隐含情感时仍然面临挑战。特别是在中文情感分析中,由于语言特性的复杂性和多样性,现有的情感分析模型在处理讽刺、双关等复杂表达时往往表现不足,影响了舆情分析的精确性。因此,进一步提升情感分析的准确率是未来研究的重要方向。
2.5 数据分析和可视化
数据分析和可视化是舆情分析中不可或缺的环节。数据可视化技术通过将复杂的数据集转化为直观易懂的图形和图表,能够帮助分析人员迅速识别趋势、模式和异常,从而有效辅助决策。此外,数据可视化不仅增强了信息传递的效果,还使得非专业人员能够更容易理解分析结果。在舆情分析中,利用图表、地图和网络图等多种可视化形式,能充分挖掘数据的潜在价值。
国际上较为知名的工具包括D3.js和Tableau。早在2011年,D3.js就通过定制化的可视化效果,满足了研究者对复杂数据展示的多样化需求。而2003年,Tableau一经问世,其强大的可视化功能就被广泛应用于实时舆情监测系统,能够动态展示情感变化、话题热度及传播路径。
图8 Tableau平台
国内在数据可视化技术的应用上也取得了显著进展。2013年,百度开发了ECharts,这是一款基于JavaScript的开源可视化库,因其丰富的图表类型和高度的定制化能力,被广泛应用于舆情分析系统中。例如,阿里巴巴的阿里云舆情分析平台利用ECharts实现了实时数据可视化,能够直观展示舆情热点、情感趋势及传播路径。
图9 Echarts平台
尽管国内外已有多种可视化工具,但在深度可视化应用方面仍有提升空间。现有系统多侧重于数据的直观展示,缺乏对复杂关系和动态变化的深入分析和可视化支持。如何通过更高级的可视化技术,提升用户对舆情数据的理解和洞察能力,是未来研究的重要方向。
三、传统产品的优缺点分析
3.1 传统舆情分析系统的局限性无法满足用户需求
在舆情分析领域,已有的解决方案大多聚焦于单一平台的分析,例如微博、微信、或论坛等社交平台。传统产品主要依赖于基本的文本挖掘和关键词提取技术,这类系统在处理小规模数据时表现尚可,且具有一定的可操作性。
现有的工具如Radian6、Meltwater、Brandwatch等,可以对特定社交平台或网站的数据进行情感分析和关键词监控,为企业和政府机构提供基本的舆情报告,侧重点如图6所示。但大多数产品只能针对单一社交平台、单一话题的数据,且主要针对海外平台,难以形成跨平台的综合分析。例如,分析微博上的舆情动态时,无法了解其他平台(如抖音、今日头条)的传播情况,导致舆情解读不够全面。再比如,Meltwater就是只针对某一内容的点击率或发行量,不能自定义需要分析的数据。除此之外,传统工具的数据处理能力有限,面对大规模数据时,分析速度和精确性下降,尤其是在处理实时热点事件时,难以及时反馈分析结果。
图10 现有工具的侧重点
3.2 传统分析系统的深度与多维度不足
现有的系统无法从多个维度(如情感倾向、传播力度、用户交互)进行深度分析。这导致用户难以从单一的分析中获取深层次的洞察,如舆情的演变趋势和未来预测。并且,传统的舆情分析工具未结合国内相关文献,未内置传播力度算法,这使得用户在比对话题间热门程度时少了一个科学的定量指标。
图11 思潮系统提供针对传播力度的定量分析
3.3 传统分析系统忽视了与社会思潮的深度联系
传统的分析系统大多依赖于短期的数据收集和分析,往往局限于特定事件的短时间响应,而没有将这些舆情与更大范围、长期的社会思潮结合。例如,用户的意见和情感往往反映了更大范围的社会思潮,但传统工具未能有效捕捉和分析这些潜在的思想运动。
社会思潮是指在特定历史时期或事件背景下,影响广泛的思想潮流或集体态度,如表1、表2所展示的即为思潮。思潮往往通过各种渠道影响社会决策和公众情感,但这些都没有在现有分析框架中得到充分体现。
表1 人民论坛历年评判出的思潮排行表(局部)
年度\排行 | 1 | 2 | 3 | 4 |
2010 | 新自由主义 | 民族主义 | 社会主义民主主义 | 文化保守主义 |
2011 | 普世价值论 | 新自由主义 | 创新马克思主义 | 道德相对主义 |
2012 | 民族主义 | 创新马克思主义 | 新自由主义 | 拜物主义 |
2013 | 新自由主义 | 历史虚无主义 | 民族主义 | 创新马克思主义 |
2014 | 新自由主义 | 民族主义 | 新左派 | 民粹主义 |
2015 | 民族主义 | 历史虚无主义 | 新自由主义 | 民粹主义 |
2016 | 民粹主义 | 新权威主义 | 民族主义 | 极端主义 |
2017中国 | 民粹主义 | 民族主义 | 生态主义 | 消费主义 |
2017国际 | 民粹主义 | 分离主义 | 种族主义 | 极端主义 |
2018 | 贸易保护主义 | 民粹主义 | 单边主义 | 排外主义 |
2019 | 逆全球化 | 贸易保护主义 | 民粹主义 | 多边主义 |
2020 | 反全球化 | 霸凌主义 | 民粹主义 | 极端右翼 |
表2 西安交大历年评判出的思潮排行表(局部)
年度\排行 | 1 | 2 | 3 | 4 | 5 |
2019 | 民粹主义 | 民族主义 | 泛娱乐化 | 消费主义 | 贸易保护主义 |
2020 | 民族主义 | 新自由主义 | 民粹主义 | 生态主义 | 女性主义 |
2021 | 民族主义 | 泛娱乐化 | 女性主义 | 民粹主义 | 人道主义 |
2022-2023 | 民族主义 | 女性主义 | 英雄主义 | 民粹主义 | 逆全球化 |
四、软件设计和民族主义开发优势
1.软件设计与开发思路科学合理,将舆情分析与思潮可视化所涉及到的多方面功能集成于同一平台上,分层级、分层次地向用户提供服务。基于Python语言,结合Scrapy和Selenium等开源框架,进行多平台数据抓取和分析。通过使用这些高效工具,系统在开发过程中避免了复杂的编码流程,实现了对大规模数据的高效处理和分析。Python的广泛生态和丰富的库支持,使得系统能够快速部署并扩展,适合多种场景下的舆情监测和思潮分析。
2.系统具备广泛的数据抓取能力,能够自动化收集多个社交平台的数据,包括微博、抖音、今日头条等。借助先进的网络爬虫技术和大规模数据清洗方法,系统能够高效处理海量的非结构化数据,提升数据分析的精准度。此外,系统具备实时处理能力,能够在应对突发热点事件时迅速分析数据并及时反馈舆情变化,为用户提供高效的数据支持。
3.系统包含思潮编年史与百科的深度集成。独具特色的思潮编年史功能,展示了国内外重要思潮的演变过程和关键事件;同时,本系统集成了思潮百科,用户可以深入了解各类思潮的背景及历史,为社会思潮的研究者和舆情分析者提供丰富的参考资料。思潮编年史与百科的结合,极大提升了系统在社会研究领域的应用价值,超越了现有舆情分析工具的功能。
4.本系统提供多样化的可视化工具,提供高可视化程度的思潮展示,包括情感趋势图、词云生成、传播图等。用户可通过直观的图形展示轻松理解复杂的思潮数据。相比传统以表格或纯文本展示数据的方式,系统的可视化工具显著提升了用户体验,使数据分析更加直观、易操作和易于理解。
5.系统采用创新的传播力度算法,该算法基于大量文献调研并结合用户需求开发,能够精确量化话题传播的广度和深度。通过直观展示话题在不同平台上的影响力,系统不仅提供多平台传播效能的对比分析,还帮助用户清晰了解事件的传播路径及其社会影响,优于传统传播分析工具。
6.本系统具有高度的适应性,拥有广泛的适应范围与推广前景——其适用于政府机构、企业、学术研究等多个领域。对于政府,系统可用于监控政策执行的舆情反馈,及时应对社会热点事件;对于企业,系统能够帮助品牌管理舆情风险,提升客户信任度;而对于学术研究者,系统的大数据和思潮分析能力为其研究提供了有力支持。未来,系统可通过SaaS(基于周期性付款的订阅商业模式)进行商业化推广,市场潜力巨大。
- 系统以直观地图可视化展示舆情数据的地理分布,即实现了多维度数据展示和热度分析。这对于监控热点地区的舆情发展具有十分重要的意义,通过热度地图,用户可以轻松看到不同地区的舆情热点分布,从而快速做出决策;同时,系统支持不同平台的对比分析,如微博和今日头条的舆情传播情况,并通过柱状图和折线图展示传播趋势,进一步帮助用户深入理解舆情的时间变化与平台差异。
- 系统提供热度排行榜功能,能够展示当前最受关注的事件或话题,实现热点差异化比较与趋势预测。如针对专家评论会、影视剧热播、政治人物演讲等出现频繁的热点,这无疑为用户提供了快速了解舆情焦点的便利。此外,系统还结合历史数据和趋势分析算法,预测未来的舆情走向,有助于用户提前规划应对措施。这种功能比较适用于需要监控公众情绪和政策反响的政府机构和企业。
综上,本系统在软件设计和开发方面表现出色,具备科学合理的设计思路和多层次功能集成;基于Python及开源框架,系统实现了高效的数据抓取和实时处理能力,提升了分析精准度;其独特的思潮编年史与百科功能、多样化的可视化工具和创新的传播力度算法,使得数据展示更加直观易懂,用户体验显著提升;系统高度适应多种应用场景,适用于政府、企业和学术研究等领域,且具备较大的商业化推广潜力。
图12 使用本软件得出的思潮可视化数据
(注:中国地图来源百度地图api,审图号GS(2021)6026号)
五、软件开发项目概况
该软件开发项目旨在基于数据挖掘技术,通过多维度分析与可视化工具,实现对舆情和社会思潮的深度分析与展示。系统通过集成多平台数据、自然语言处理(NLP)及思潮可视化等核心功能,帮助用户实时掌握思潮动态并探索思潮演变。以下为该项目的功能板块设计,包括应用功能、界面设计以及思潮可视化模块: 以下为设计板块,包含应用功能、界面设计两个模块:
5.1 应用功能设计
图13为该应用作品的功能设计图,主要分为时事新知、社会思潮、网舆挖掘三大板块:
图13 软件功能设计图
- 热点排行
基于用户的选择,系统从全网社交媒体中实时抓取热点话题,通过对数据的分析,展示出最受关注的事件与话题的排行。
- 大模型总结
通过调用大模型API,自动总结热搜榜中最具代表性的内容。该模型根据文本的关键要素生成总结,帮助用户快速理解事件的核心观点与重要趋势。
- 热度分布
通过可视化图表展示某一热点事件的关注度随时间的分布情况。
- 平台分布
系统展示舆情信息在各社交媒体平台上的分布情况,便于用户了解特 定话题在哪些平台上引发了较大的关注,从而有针对性地进行管理。
- 趋势分析
用户可以借助趋势图掌握热点事件未来的演变方向,提前制定应对措施。
- 关联词分析
系统从大量数据中提取与特定话题高度关联的关键词,展示出这些关联词在舆情中的重要性及其相互关系,帮助用户深度理解公众讨论的关键要素。
- 情感分析
系统利用情感分析算法对数据进行处理,准确区分出公众对某一事件或话题的情感倾向(喜、怒、哀、惧),从而帮助用户把握舆论导向。
- 词云
词云图基于用户选定的主题,从海量数据中提取高频词,并以词云的形 式直观展示各个关键词的出现频率。图中词汇的大小代表了其在舆论中的重 要性,结合“云计算”“大数据”理念,提供更便捷的可视化分析。
- 传播力度球
通过对不同平台的舆论传播情况进行量化分析,系统生成了传播力度球。 展示了各个话题的各种传播力度属性数值。
- 热度排行
系统根据当前热门话题,展示出事件的传播力度排行,便于用户快速获取当下的热点话题并及时跟进。
5.2 界面设计
采用MasterGo进行设计,使用Vue与ECharts进行前端页面的搭建,界面美观大方,展示数据丰富且功能一目了然,并且将显示源数据、展示数据分析结果、陈列知识科普资料集成于一体。
图14 设计草图陈列
- 研究方法
本作品采用了实验研究和定量分析的研究方法。
6.1 实验研究法
用于设计并执行整个思潮的分析过程,包括数据收集、预处理、情感分析、以及结果的评估。具体体现为:
- 数据收集与预处理
通过爬虫技术抓取数据,模拟实际的数据获取流程,并对数据进行清洗、分词等处理操作,为实验分析准备好清洁的数据集。
- 文本挖掘与情感分析
在实验中使用 TfidfVectorizer 和 Word2Vec 模型来提取文本中的重要主题,并进行情感分类,实验中不断调整算法以提高情感分析的准确率。
- 跨平台比较研究
设计实验,通过收集不同平台(如微博、今日头条等)上的用户评论,比较信息传播模式,实验不同平台的数据行为差异。
6.2 定量分析法
实验中通过定量数据来分析思潮的传播情况,所有分析结果都基于量化的数据支撑:
- 文本挖掘与关键词提取
使用TfidfVectorizer提取关键词,通过词频和逆文档频率来识别重要主题。
- 情感分析
基于情感词典或机器学习模型的情感分类,通过定量的方法,分析舆情中正面、负面、中性情感的占比。
- 传播力计算
通过数学模型对思潮的传播力进行量化,构建函数P1和P2,分别衡量思潮的案例传播力和言论传播力,并通过公式计算传播力的准确率。
④ 效果评估指标
利用定量的指标(如数据规模、爬虫鲁棒性、情感分析准确率等)对实验结果进行评估,判断软件的有效性。
七、软件开发实验过程分析
- 实验方式:前后对照实验。
- 实验开发原理:实验开发原理包含实验条件、数据收集与预处理、文本挖掘与内容分析、社会思潮传播力度。
【2.1】实验条件介绍
- 处理对象条件
本研究作品处理对象为各社交平台以及新闻网站爬取收集的文章信息,以及用户评论信息,包含用户id、用户评论内容、用户评论点赞量、用户粉丝量、用户ip等公开数据。
- 环境条件搭建
采用Pycharm2024.2.1搭建python环境,通过pip安装所需库,具体包括flask、flask-cors、requests、jsonpath、selenium、numpy、lxml、sinan、jieba、scikit-learn、gensim、snownlp、seaborn、pillow、wordcloud、openpyxl;此外还使用了edge浏览器驱动、vue环境、大连理工大学情感分析词典。
【2.2】数据收集与预处理
① 数据收集
通过使用requests请求、selenium爬虫等技术手段,从微博、今日头条、百家号等多个社交平台和新闻资讯网站获取文本数据。各平台提供了充足且实时更新的用户生成内容,这些数据不仅覆盖广泛,还反映了不同时间段和不同用户群体的观点和情感变化。其中,微博作为中国主要的社交媒体平台,具有高度的互动性和传播速度,适合捕捉用户的即时情感反应和热点事件讨论;而今日头条和百家号等新闻平台,则更多聚焦于新闻资讯及深度评论,用户在这些平台上倾向于发表更为理性和系统的评论,从而为研究不同平台上的舆情特征和思潮演变提供了丰富的数据源。
在数据的具体获取过程中,requests请求主要用于发送HTTP请求,直接从平台的API或网页源码中提取结构化的数据。同时,对于需要动态加载的网页,采取selenium爬虫方法。selenium能够模拟用户行为,如滚动、点击和登陆,从而抓取动态加载的内容和需要复杂交互才能获取的数据。
为了从复杂的网页结构中精准地提取所需的文本数据,使用了多种解析工具。jsonpath和xpath是用于解析和定位 JSON和HTML数据结构的重要工具,能够快速定位网页中嵌套较深或数据结构复杂的元素。对于更多基于标签结构的 HTML页面,BeautifulSoup(简称bs4)被广泛使用,其优势在于将网页内容转换成树状结构,帮助提取特定的标签、文本内容或其他信息。这些工具的结合,能够有效应对多种网页格式,确保在各个平台中,能够准确抓取到用户的评论、讨论、点赞数等关键信息。
② 数据预处理
1)数据清洗
未经处理的数据往往包含许多噪音和无关信息,直接影响后续分析的准确性和有效性。需要去除无关内容,如表情包、广告、特殊符号、HTML标签和网页中的其他无用字符。表情包在社交平台中较为常见,虽然可以反映用户的情绪,但在多数情况下它们对自动化情感分析的贡献有限,反而可能干扰模型的理解。此外还需处理重复评论、无意义文本(如单纯的“哈哈”或“顶”等)以及可能的拼写错误。这些处理不仅能减少数据噪声,还能提升模型的学习效率,使文本分析的结果更加准确。同时,对于某些需要保持的特殊符号或标点符号(如“?”、“!”等,它们可能暗示用户情绪),则可以进行特定保留,以供后续的情感分析使用。
2)分词处理
由于中文是一种没有明显空格分隔词语的语言,因此分词成为中文文本分析中的核心步骤。通过使用 jieba工具,可以将连续的中文文本切分为独立的词语单元。jieba不仅支持基础的词典分词,还可以通过自定义词典对特定领域的专有名词或短语进行处理,确保分词结果的准确性。分词处理有助于后续进行的关键词提取、文本分类、情感分析等任务,使得原本难以处理的长句或复杂句能够拆解为易于分析的词汇单元。
3)情感标注
为了深入分析用户评论的情感倾向,借助情感词典或自动化情感分析工具对评论进行标注。情感分析的目标是识别出用户在评论中表现出的态度或情绪,并将其归类为正面、负面或中性评论。情感词典是一种基于词汇的分析方法,依赖于已知的情感词汇库,将文本中的词汇与情感标签进行匹配,从而判断用户情感。SnowNLP是一个专为中文文本设计的自然语言处理工具,支持基于情感词典或机器学习的情感分析。它能够根据文本中的词语、短语和句子的情感极性,自动为评论打上情感标签。
情感标注不仅可以帮助识别单条评论的情感态度,还能通过统计分析得出大规模用户情绪的总体分布情况,例如在某个话题或事件中的舆论倾向是以正面、负面为主,还是整体情绪较为中立。通过这一过程,我们可以深入了解公众的情感反应,并为后续的舆情监测、热点话题分析、思潮演变等研究提供情感数据支持。
【2.3】文本挖掘与内容分析
在文本挖掘与内容分析阶段,重点是从用户评论中提取出有价值的信息,识别出情感、主题和思想观念。
根据邬明强等人在2018年的的研究,我们采用了 TfidfVectorizer 来提取评论中的关键词,并使用 Word2Vec 进行词向量训练[4]。这一组合方法有助于捕捉词与词之间的语义关系,从而揭示评论中潜藏的价值观和思想倾向。情感分析方面,借助情感词典自动化识别评论的情感倾向,量化用户对某个事件的情感反应。下面将介绍两者具体的算法与模型——
① TfidfVectorizer:其分为两个算法部分,分别是——
- 词频(TF):词频反映某个词语在文档中出现的次数,用于衡量该词语在文档中的重要性。
是词在文档中出现的次数,是文档中词的总数。
- 逆文档频率(IDF):逆文档频率用于降低那些在整个文集(语料库)中非常常见的词的重要性。
是文档总数,是包含词的文档数量。
- TF-IDF权重计算:最终的值通过将词频和逆文档频率相乘来计算。
② Word2Vec:Word2Vec通过训练模型,将每个词语映射为一个多维向量,词向量的相对位置反映了词汇之间的语义相似性与关联性。这种模型能够捕捉到评论中词语之间的深层语义关系
图15 Word2Vec的两种模型
其有两种训练方式,分别是CBOW和Skip-gram,本研究采用的是Skip-gram训练方式。
Skip-gram模型的目标是给定当前词,预测其上下文词。对于给定的中心词 wt,我们希望最大化其预测出上下文词的概率。假设上下文词的条件独立,我们可以将该式拆分为多个独立事件:
通过 Word2Vec 的训练,词语被映射到多维空间中,其中词与词之间的距离和方向反映了它们的语义关系。这样的词向量不仅能够捕捉同义词,还能揭示评论中词语背后潜在的情感和思想倾向。
【2.4】社会思潮传播力度
本研究的新媒体具体包含了微博,今日头条,百家号。对于社会思潮传播力,分别从认知度、评价度两个维度进行测量。认知度方面,主要从各新媒体平台的信息发布数量确定;评价度方面,主要从各新媒体平台的信息发布倾向度热烈度等指标进行确定。具体的社会思潮传播力评估指标体系如表3至表5所示。
表3 社会思潮传播力评估指标体系--①社会思潮传播力的组成部分
社会思潮传播力 | ||||
社会思潮案例传播力 | 社会思潮言论传播力 | |||
案例传播认知度 | 案例传播评价度 | 言论传播认知度 | 言论传播评价度 |
表4 社会思潮传播力评估指标体系--②社会思潮案例传播力的组成部分
案例传播认知度 | 微博传播认识度 | 发博总数 |
转发量 | ||
微博评论数 | ||
博主粉丝数 | ||
短视频播放量 | ||
文章总数 | ||
头条传播认知度 | 评论量 | |
下载量 | ||
百家号传播认知度 | 评论量 | |
相关页面数量 | ||
搜索引擎认知度 | 评论量 | |
点赞量(外赞) | ||
案例传播评价度 | 微博传播评价度 | 正面评论量+评论点赞量 |
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 | ||
点赞量 | ||
头条传播评价度 | 正面评论量+评论点赞量 | |
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 | ||
点赞量 | ||
百家号传播评价度 | 正面评论量+评论点赞量 | |
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 | ||
点赞量 | ||
搜索引擎传播评价度 | 正面评论量+评论点赞量 | |
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 | ||
点赞量 | ||
头条文章数 | ||
正面搜索结果量 | ||
中性搜索结果量 | ||
负面搜索结果量 |
表5 社会思潮传播力评估指标体系--③社会思潮言论传播力的组成部分
言论传播认知度 | 言论数量 | 搜索引擎文章数 |
评价篇数 | ||
论文数 | ||
论文下载量 | ||
阅读量 | 微博视频播放量 | |
头条阅读量 | ||
百家号文章量 | ||
微博评论量 | ||
评论量 | 头条评论量 | |
百家号评论量 | ||
搜索引擎评论量 | ||
点赞量(外赞) | ||
言论传播评价度 | 微博传播评价度 | 转发量 |
正面评论量+评论点赞量 | ||
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 | ||
点赞量 | ||
头条传播评价度 | 正面评论量+评论点赞量 | |
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 | ||
点赞量 | ||
百家号传播评价度 | 正面评论量+评论点赞量 | |
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 | ||
点赞量 | ||
正负面评论比 | 微博正负面评论比 | |
百家号正负面评论比 | ||
搜索引擎正负面评论比 | ||
搜索引擎传播评价度 | 正面评论量+评论点赞量 | |
中性评论量+评论点赞量 | ||
负面评论量+评论点赞量 |
在数学模型方面,将社会思潮传播力定义为函数P,进一步把社会思潮的传播力分为社会思潮案例传播力P1,社会思潮言论传播力P2。
① 社会思潮案例传播力P1
社会思潮案例传播力P1的影响因子x主要分为案例传播认知度和评价度,具体为各平台文章总数、微博平台发博总数等相关因素。为此建构变量 x1,x2,...,x40,对应含义为:x1=微博平台发博总数,x2=微博平台事件转发量,x3=微博平台事件评论量,x4=今日头条事件文章总数,……,x40=搜索引擎相关点赞量。则社会思潮案例传播力函数为:
② 社会思潮言论传播力P2
社会思潮言论传播力P2的计算方法与P1相似,它的影响因子y主要分为言论传播认知度和评价度,进一步细化则为社会思潮评论篇数、论文篇数、阅读量等相关因素,为此建构变量 y1,y2,y3……y39,对应含义为:y1=头条文章数,y2=搜索引擎文章数,y3=评价篇数……y30=微博平台正负面评论比,y37=搜索引擎中性评论量+评论点赞量,y38=搜索引擎负面评论量+评论点赞量,y39=搜索引擎相关事件点赞量。则构建社会思潮言论传播力函数为:
计算得出P1和P2后,根据专家意见对其赋权,最终得出社会思潮传播力:
本算法选择自然对数函数f(x)=lnx作为建模函数,这基于它的数学特性和现实应用需求。首先,f(x)=lnx的定义域为(0,+∞),值域为(-∞,+∞)。确保了模型中的变量取值为正实数,符合社会思潮传播力中正数变量的特点。其次,f(x)=lnx是单调递增且凸的函数,这意味着每个影响因子都有独特的影响力,且随着数值增大,增长速度逐渐减缓,避免了数据量过大造成的误差。
此外,f(x)=lnx的渐近特性进一步增强了模型的适用性。随着 x 趋近于无穷大,lnx 的增长速度变得极其缓慢,这使得无论影响因子的数值多大,最终得出的传播力都经过了等量缩小,便于量化和跨平台的比较研究。
八、软件开发效果评估
软件开发效果从数据规模与收集效率、爬虫鲁棒性、数据采集覆盖率、情感分析精确度、传播力度准确率这五个指标进行评估,进而得出本研究更为可观的评估数据:
① 数据规模与收集效率
数据规模与收集效率主要指收集到的原始数据的总量,这包括文本、评论、帖子等,以及数据采集所需的时间和效率。
在本研究中,我们通过网络爬虫技术进行舆情数据的收集。每轮数据收集量通常在1万至5万条之间,具体数量受限于网络环境和用户操作等多种因素。数据收集的时间范围从1分钟到1小时不等,这样的采集效率为后续研究提供了充足且丰富的数据基础,确保我们能在分析中充分利用现有的信息资源。
② 爬虫鲁棒性
爬虫鲁棒性是指爬虫在面对各种不确定因素时的稳定性和适应能力。一个鲁棒性强的爬虫在复杂多变的网络环境中能够保持高效且准确的数据采集。
在本研究中,受各平台网页结构更新频率的影响,爬虫在正常启动并完成数据收集全流程时,其成功率大致在80%至90%之间。虽然存在一些偶发情况导致爬虫无法正常工作,但在大多数情况下,它仍能有效地采集所需数据,这为数据的完整性和可靠性提供了保障。
③ 数据采集覆盖率
数据采集覆盖率是评估软件在不同平台上是否全面收集到目标话题的所有相关内容的重要指标。
在短期内,我们的采集系统可以达到99%以上的覆盖率,这意味着大多数相关信息都能够被成功捕获。然而,针对长时间范围内的数据采集,某些平台如微博由于访问数据时间限制(例如仅允许访问50页),可能导致早期数据的部分丢失。
④ 情感分析准确率
情感分析准确率是用来衡量情感分类模型在预测情感标签(如正面、负面、中性等)时准确性的关键指标。
本研究采用了大连理工的情感词典进行情感分析,模型的准确率达到了80.86%。这个结果表明我们的情感分析系统在大多数情况下能够有效地识别出用户情感的倾向,为舆情分析提供了重要的支持。
⑤ 传播力度准确率
传播力度准确率反映的是在特定时间段内,通过社交媒体等渠道传播的信息与该信息的实际影响程度之间的一致性。它是评估信息传播有效性和准确性的重要指标。
通过多次实验测试,我们针对不同话题进行了传播力度分析,最终得到了相关数据的排行榜,如图16,并且传播力度准确率达到了85%以上。这一结果表明我们的系统不仅能够有效监测信息的传播情况,还能准确评估其影响力,为研究提供了重要的数据支持。
图16 传播力度排行榜
九、实验结果分析
通过对多个话题的深入研究与数据挖掘,本研究能够清晰呈现出多个平台在同一话题下的舆情表现。例如,通过对各平台的IP地址分布进行分析,我们可以观察到经济更加发达的地区参与讨论的用户数量显著较多,表明社会经济因素在舆论表达中的重要性。同时,热度曲线的分析展示了话题在各个平台上讨论热度的动态变化,揭示了不同社交媒体用户的活跃程度与时间的关联性。
例如,在图17中,可以看到今日头条和微博对于同一话题的热度峰值出现的时间截然不同。今日头条的热度曲线在早期阶段迅速上升,反映出平台用户对于突发事件的敏感性和即时反应能力;而微博则可能在后期才出现热度的提升,显示出用户对信息的传播和讨论过程更为集中。这样的趋势分析不仅帮助我们理解舆情的演变过程,也为后续相关思潮的研究提供了宝贵的参考数据。
图17 用户ip、评论数据、热度分析展示图
借此,我们可以识别出不同平台以及不同地域用户对相同话题的态度差异。
进一步的分析结合了用户评论中的关联词展示与情感分析,揭示了用户在讨论特定话题时常用的关键词及其关联词汇网络。在“台风摩羯”这一话题中,关联词分析尤其有助于理解公众对自然灾害的情感态度和认知反应。通过数据挖掘与文本分析,识别出高频词汇及其上下文关联。例如,关于“台风摩羯”,高频词汇包括“保护”、“天命之子”、“祈祷”、“转发”、“平安”等。这些词不仅反映了公众对灾害的应对措施,也揭示了不同群体对事件的关注点和情感表达。
结合情感分析,可以将这些高频词进一步分类为不同的情感倾向。例如,“保护”和“平安”通常与正面情感相关,表明用户对安全和恢复的期望;而“天命之子”可能带有宿命感,反映了面对自然灾害的无力感。在情感分类中,“怒”的占比最大,显示出公众对台风破坏性的不满情绪,而“喜”紧随其后,可能与灾后救援的积极效果或恢复情况有关。
图18 关联词展示图(左) 情感分析图(右)
通过结合情感分析,能够进一步对这些高频词的情感倾向进行分类。比如,词汇“保护”与“平安”更多与正面情感相联系,用户可能表达出对安全和恢复的期望与支持;而“天命之子”则可能带有宿命感,反映了人们对自然灾害的无力感。在情感分析(如“喜”、“怒”、“哀”、“惧”)的占比展示中,发现“喜”占比最大,可能与部分救援行动的积极效果或灾后复原情况有关,而“怒”紧随其后,表明公众对台风的破坏性出现的不满情绪。
通过关联词与情感分析的结合,不仅可以挖掘出公众的情感倾向,还能通过这些情感背后的词汇,揭示公众对话题的具体关切点和态度。这些关键信息通过图表的方式,尤其是词云图的展示,可以更直观地表现出来。
通过图19词云图可以看到,与“台风摩羯”相关的评论中,不同情感占比的词语如“用心”、“满意”等词汇被高频使用,表明部分用户对灾后救援行动的认可。这些高频词不仅帮助我们理解用户的情感倾向,还可以揭示出公众对事件的深层次看法,反映思潮的变动趋势。
图19 “台风摩羯”词云
对于热点新闻事件的分析,我们采用了一种基于星火讯飞大模型的智能 AI 问答系统。这一系统通过提供一系列固定问题,旨在帮助用户更深入地了解相关话题。如图20,当用户选择金价上涨这一话题,并询问“金价上涨对于经济或文化的影响是什么?”时,AI 问答系统能够迅速生成针对该问题的详细回答。这些回答不仅涵盖了金价上涨可能对经济体系造成的直接影响,比如通货膨胀、投资信心和消费支出,还可能探讨其对文化领域的潜在影响。
该智能问答系统的优势在于其迅速响应和广泛的信息覆盖能力。通过结合最新的研究和数据,AI 能够提供客观、全面的视角,帮助用户从多个角度理解热点新闻事件的复杂性。此外,用户还可以通过与系统的互动,提出更具体或更具针对性的问题,进一步深化对某一特定话题的理解。这种方式不仅提高了信息获取的效率,也使得用户能够更全面地把握当前社会动态及其背后的深层次原因。
图20 智能AI问答
通过对各大主流社交平台和新闻网站的数据检索与热度分析,本研究揭示了近年来多个主义思潮的发展趋势与演变轨迹。研究结果表明,不同思潮在不同历史阶段的传播与影响存在显著差异,这一差异不仅体现在话题的热度变化上,也反映在公众情感的反馈和社会反应上。
思潮编年史清晰地记录了过去几年间,不同主义思想伴随各类热点新闻事件的兴起与发展,揭示了社会思潮与时事热点之间的密切关联。举例来说,图20展示了女性主义在过去六年中的重大事件序列,这些事件不仅引发了广泛的社会讨论,还推动了女性主义思潮在公众意识中的深化。特别是在2020年,国内发生了“疫情中逆行的女护士”这一事件,凸显了女性在抗击疫情中的重要角色,激发了社会对女性职业价值和贡献的重新审视。与此同时,国际上则主要聚焦于韩国的“N号房事件”,这一事件不仅引发了对性别暴力和网络犯罪的广泛关注,也促使全球范围内关于女性权益的讨论更加深入。
图21 社会思潮编年史--女性主义
趋势分析揭示了近年来各大思潮在不同平台上的传播热度,帮助我们深入了解当前社会思潮的演变轨迹以及它们的影响范围。这一分析为我们提供了数据支持,展示了社会各层面的关注重点和变化。如图22所示,以民族主义、历史虚无主义、普世价值论为例,通过对这些主义的趋势分析,可以清晰地看到它们在各大平台上的热度波动。
图22 社会思潮趋势分析
具体来看,民族主义无论在任何时间段,始终保持着较高的影响力。这与它在重大历史事件、政治讨论和社会议题中的持续性相关,无论是社会讨论还是政策争议,民族主义的关注度总能达到顶峰。而历史虚无主义和普世价值论在不同的时期则呈现出较大的波动,影响力的强弱往往取决于当时的社会环境和事件背景。例如,历史虚无主义在一些特定的历史节点,如纪念日或与国家历史相关的争议事件期间会显著升温,而普世价值论在全球化、国际事务讨论或重大社会变革的背景下更为引人注目。
这些趋势分析不仅帮助我们理解历史思潮的变迁,还为预测未来思潮的发展提供了有力依据。通过这种分析,我们能够预判哪些思想和观念将可能在未来的社会中占据主流,并为应对这些变化提供数据支持。
- 应用前景分析
图23 应用场景分析示意图
- 政府监测公众舆论
本系统为公众舆论监测提供了一种新的工具,可以帮助政府更好地理解公众意见,并做出更明智的决策。通过实时分析社交媒体、新闻报道和评论平台上的讨论,系统能够有效捕捉到公众对政策、事件和社会议题的反馈与情感倾向。此 外,系统能够帮助政府了解公众舆论的变化趋势,从而在政策实施的各个阶段进行动态调整。当出现负面舆论或公众对政策的不满时,政府可以及时采取措施,进行有效的沟通与解释,消除误解并增强公众信任。这种预警机制在危机管理中尤其重要,使政府能够快速响应公众关切,维护社会稳定。
- 社交平台舆论自监控
社交平台可通过利用本系统分析用户群体的特征和偏向,并以此为基石制定一些方针。通过对用户数据的深入挖掘和分析,平台能够识别出不同用户群体的兴趣、需求和情感倾向。这不仅帮助平台理解其用户的多样性,还能针对不同群体的特点制定相应的内容推荐和社区管理策略,从而提升用户体验和满意度。此外,本系统还可以为社交平台提供舆论风险的预警机制。当某一特定话题或事件引发广泛关注时,系统能够实时监测相关讨论的情感倾向,并评估其可能对平台造成的影响。这使得平台能够在负面舆论迅速扩散之前,及时制定相应的应对策略,如发布声明、调整内容管理政策等,以维护平台的公信力和用户的信任。
- 企业进行市场调研
通过使用本系统,企业能够深入洞察用户对产品的期望和需求。这种实时数据驱动的方式使得企业能够同步了解消费者的反馈、偏好和痛点,从而制定出更加精准的市场定位和推广方案。此外,舆情分析不仅限于自身产品的监测,还可以帮助企业全面了解市场竞争对手的表现。通过对竞争品牌的讨论热度、用户评价和市场动态的跟踪,企业可以识别出竞争对手的优势和劣势,获取有价值的市场情报。这种信息的获取为企业的战略决策提供了重要依据,使其在竞争中更具主动性和前瞻性。
- 公众获取社会主流观点
本系统为公众提供了一种全新的工具,能够帮助他们快速浏览当下热点话题,并回顾历史社会思潮的发展脉络。这不仅使用户能够及时掌握社会主流观点,还能帮助他们在复杂的信息环境中进行有效的信息筛选和分析。通过系统提供的多维度思潮分析,用户能够清晰识别出不同观点的来源与影响力,进而了解舆论的多元性和复杂性。这种方式不仅增强了用户的舆情认知能力,还培养了他们的独立思考能力,使其在面对纷繁复杂的网络信息时,能够保持理性判断,避免盲目跟风或受到错误信息的影响。
- 后续发展情况分析
图24 后续项目发展规划
如图23所示后续发展情况,初步按照以下五个步骤改进项目。
- 联系社交平台获取开发者API,提升信息获取效率
通过与社交媒体平台(如微博、百家号、今日头条等)建立合作关系,获取它们的开发者API,可以极大地提高思潮信息的获取效率。这些API能够提供实时数据,包括用户的评论、点赞、转发等行为,使得思潮分析系统能够更加准确、灵敏、高效地捕捉思潮动态;通过绕开爬虫的身份验证和繁琐的请求访问步骤从而提高整体工作效率和响应速度。
- 针对重要舆情设计隐变量,提升安全性
在思潮分析中,不仅需要分析显性的舆论数据,还需要关注潜在的隐变量,如不良势力对舆论的恶意引导。这可以通过构建模型来识别和分析可能的恶意信息传播路径,及时反馈到系统中;系统可以监测某些言论关键词的异常变化或异常联系,及时识别和响应潜在的舆情危机,从而提升安全性。例如,可以利用机器学习算法分析历史思潮数据,找出不良势力干预舆论的规律,并针对性地加强监测。
- 拓展系统功能
在未来继续拓展思潮分析系统的功能。譬如民调预测功能,对于类似选举或法律法规通过决议等重大事件中,系统可以利用历史数据和实时信息,运用预测模型分析思潮情绪和思潮走势,以此预测思潮结果。这不仅可以为决策者提供参考依据,还可以帮助相关方及时调整策略,以应对可能的舆论变化。
- 流量访问优化
随着用户数量的增加和思潮信息量的激增,优化系统的流量访问显得尤为重要。
我们计划实施负载均衡技术,通过将用户请求合理分配到多个服务器上,提高系统的响应速度和处理能力;同时在服务器上部署负载均衡器,实时监控服务器的性能和健康状态,根据负载情况自动将用户请求分发至最合适的服务器。这不仅能降低单台服务器的压力,还能有效提高整体系统的可用性。
此外,优化数据库的查询运行效率也至关重要。我们将通过为数据库中的常用查询字段建立索引,提高查询速度;为了应对大规模数据集,将采取数据分片策略,将数据分散存储,提高查询速度并减轻单一数据库的压力;此外,将采用缓存机制(如Redis)将热点数据存储在内存中,显著减少对数据库的频繁访问,提高响应速度,并通过适当的缓存策略管理缓存数据的生命周期,以确保数据的时效性。
- 相关算法优化
为提升思潮分析系统的效率和准确性,我们考虑从以下几个方面进行优化:首先,优化数据预处理和分词算法,提高后续分析的精度;其次,进一步结合深度学习模型(BERT、GPT)进行情感分析,并引入多模态情感分析(结合文本、语音、视频多种模态),提升分析细致度与准确度;在关联词和关键词提取方面,结合TF-IDF与词向量模型的同时,我们考虑加入图神经网络(GNN)模型以优化效果,模型如图24所示;在趋势预测上,计划采用ARIMA、LSTM等时间序列模型,并通过异常检测算法确保预测的稳健性;大模型总结方面,使用集成学习和注意力机制提高总结精度等。通过这些优化措施,系统将更高效地处理和分析海量思潮数据,提供更具价值的洞察和决策支持。
图25 图神经网络(GNN)相关优化算法流程示例
参考文献
- 何西远,张岳.基于分布式爬虫的微博舆情监督与情感分析系统设计[J].现代信息科技,2024,8(05):111-114+119.DOI:10.19850/j.cnki.2096-4706.2024.05.024.
- Karamouzas, D., Mademlis, I. & Pitas, I. Public opinion monitoring through collective semantic analysis of tweets. Soc. Netw. Anal. Min. 12, 91 (2022).
- Karyukin, V., Mutanov, G., Mamykova, Z. et al. On the development of an information system for monitoring user opinion and its role for the public. J Big Data 9, 110 (2022).
- 邬明强,张奎.结合TFIDF方法与Skip-gram模型的文本分类方法研究[J].电子技术与软件工程,2018,(06):162-163.
- Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.
版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/210
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。