2022年深圳杯A题破除“尖叫效应”与“回声室效应”走出“信息茧房”
为了防止更多的人走弯路,对于此题,数据随便找,你怎么那么死心眼题中说让你从社交媒体爬数据你就爬数据,题中让你堕胎和枪支你就弄这个么?那题里不是还写着了么等社交媒体的数据。这是其一;其二数据爬取是否符合该平台的规则,你考虑过么?你在写文档的时候你写数据爬取没毛病,至于实际数据怎么来的评判老师是名侦探柯南么?他会查么?只要符合社会价值观和导向那就是OK的。
其二,这个尖叫效应和回声室效应、信息茧房的形成跟层次分析法有什么关系?为什么好多人问我这个问题?这个题跟层次分析和什么熵权有什么关系呢?这不典型的鼓掌效应、知了鸣叫的数学模型的改动模型么。还有一点,面包多上的复制粘贴你就不必让我来评判做的好不好了。
一.背景与意义
“尖叫效应”是心理学中的一个著名效应。例如在一个人潮涌动的公众场合,如果有人突然歇斯底里地尖叫,往往能快速吸引人们的注意力并博取眼球。在网络信息传播中,“尖叫效应”也无处不在。一些网络平台利用大数据和人工智能,获取并分析用户浏览记录和兴趣爱好等信息,大量推送段子、恶搞、色情等低俗内容。无论是从满足人们的猎奇心理,还是引发人们的指责批评,传播者都能从中获取高额的流量和点击率。
“回声室效应”指的是在一个相对封闭的媒体环境中,一些意见相近的声音不断重复,甚至夸张扭曲,令处于其中的大多数人认为这些声音就是事实的全部, 不知不觉中窄化自己的眼界和理解,走向故步自封甚至偏执极化。在现代社会中,由于互联网以及社交媒体的发展,在网络信息传播中“回声室效应”愈发明显。部分商业网站会分析记录用户的搜寻结果以及使用习惯,持续地将一位用户所喜欢的内容提供给该用户,导致一个人在同一网站中接受到的资讯被局限于某个范围内。
“尖叫效应”与“回声室效应”容易导致“信息茧房”的形成。所谓“信息茧房”指的是,在信息传播中人们自身的信息需求并非全方位的,只会选择自己想要的或能使自己愉悦的信息,久而久之接触的信息就越来越局限,最终将自己桎梏于像蚕茧一般的“茧房”中,失去对其他不同信息的了解能力和接触机会。
二.需回答的问题
在全新的信息传播格局下,如何破除“尖叫效应”与“回声室效应”,走出“信息茧房”,是当前迫切需要解决的现实问题,即如何从信息传输的顶层设计、推荐算法的公平性和广大网络用户的责任担当等方面,帮助公众对新闻事件乃至社会现实有一个相对准确、清晰的认识和判断,并在主流意识和个性化信息之间找到平衡点,使得网络舆论环境更具理性和建设性。请回答以下问题:
1. 针对某些话题,在微信、微博、Facebook 和 Twitter 等社交媒体上下载相关数据,定量描述该话题(或信息)的传播过程,并分析其影响因素。该数据分析需至少针对两种不同的话题展开讨论,其中一个话题最终观点趋于相同(中立共识),另一话题最终观点趋于两极分化(观点极化)。
2. 建立数学模型刻画中立共识和观点极化的产生机制,探索“尖叫效应”、“回声室效应”与“信息茧房”的形成机制,并讨论话题的吸引度、用户的活跃度、用户心理、不同用户间的相互影响、平台推荐算法等因素对形成这些现象的影响。
3. 根据问题 2 建立的数学模型,制定破除“尖叫效应”和“回声室效应”、规避“信息茧房”的策略。
4. 基于上述数据分析与数学模型,针对如何破除“信息茧房”撰写 1~2 页报告,分别对政府的顶层设计、主流媒体的引领和广大网络用户的责任担当提出相应的解决方案或建议。
三.数据来源
1. 参考数据: 爬取的数据是在社交网站 reddits 上话题中含有关于堕胎(abortion)和枪支管控(gun control)部分话题(submissions)的内容以及评论(comments)。(也可自己爬取相应的数据 ,如 2 ,3)
2. 微信、微博、Facebook 和 Twitter 等社交媒体的原始数据
3. 新闻媒体的标签数据库(MBFC)(https://mediabiasfactcheck.com)
图1 尖叫效应示例图
图2 回声室效应示例图
图3 信息茧房示例图
问题一分析:
我在此处举两个例子:
例子1
比如说一首音乐,有的人觉得好听,有的人觉得真难听好土,还有的人说还可以但是某些方面需要加强;
1) 使用调查问卷来获取评论者们是否为具有音乐专业知识的人员;
2) 使用调查问卷来获取评论者们的喜好音乐的风格;
3) 使用调查问卷来获取评论者们是否为该音乐发布者的粉丝,是黑粉还是真的粉丝;
4) 评论内容信息是否有关于该音乐的真实有效信息。(比如说演奏音乐这相貌美丽性感出奇,而评论者内容与音乐本身不符的情况)。
从这四个角度出发进行,得到褒奖、贬低、中立的占比情况(环形图)及影响关系拟合曲线图,这四个因素权重占比最大的是哪个?会得出哪些具体结论?比如说这个演奏者本身不是音乐爱好者或非专业音乐人,只是通过该音乐获取流量博人眼球则贬低和中立评论占比较大;如果该演奏者具有专业音乐知识及爱好音乐,目的为让大家欣赏音乐,则褒奖和中立评论占比较大。
例子2
男子跪地求复合 这种社会客观存在事实
评论区依然是三边说 一男生是舔狗 男生好极端 男生好不要脸 人在舔中不知舔 回首已是犬中犬
二 女生好绝情 为该女生不值得
三 男生没必要 好聚好散 女生和好吧
1) 使用调查问卷来获取评论者们的年龄;
2) 使用调查问卷来获取评论者们的感情经历是否经历过爱情;
这就是一个二分类数据:是 否
3) 使用调查问卷来获取评论者们的学历水平;
比如说小学 初中 高中 本科 大学 硕士 博士
4) 使用调查问卷来获取评论者们的性别;
5) 使用调查问卷来获取评论者们的经济水平。
比如说分层次: 4k以下 4k到6k 6k到8k 8k以上
从这5个角度出发进行,得到支持男方、女方、中立的占比情况(环形图)及影响关系拟合曲线图,这5个因素权重占比最大的是哪个?会得出哪些具体结论?比如说针对男青年,可能支持男方和中立评论占比较大;针对高学历经济水平高的人群,则中立评论占比较大。
数据可视化 该怎么做你们应该都知道
分类数据词云图像学历水平 数值数据看趋势就拟合曲线 看整体就直方图 看比例就饼形图 你如果觉得饼形图不好看你就做环形图
至于这些效应的程序代码:
我就随便给个demo你品一品 这题用什么算法去解
clear;
clc;
tic
a = 'hehe.jpg';
x=imread(a);
a=rgb2gray(x);
count=imhist(a);
[m,n]=size(a);
N=m*n;
L=256;
count=count/N;
u0=0;
u=0;
for i=1:L
u0=u0+(i-1)*count(i);
w(i)=sum(count(1:i)); %w(i)是前i个像素的累加概率
u = u + (i-1)*count(i);
ua(i)= u;
end
%-----(1)初始化参数-----
p = 2; % 搜索范围的维度
BacterialNum = 20; % 细菌的个数
Nc = 30; %趋化的次数(Number of Chemotaxis steps)
Ns = 4; %趋化操作中单向运动的最大步数(Number of Swimming steps)
Nre = 4; %复制操作步骤数(Number of reproduction steps)
step=0.05; %翻转选定方向后,单个细菌前进的步长
Sr = BacterialNum/2; %每代复制(分裂)数
range = 255;
for i = 1:BacterialNum % 产生初始细菌个体的位置
Bacterial(i).location = range * rand(1,p);
end
%------先计算各个细菌的适应度,并初始化Pbest----------------------
for i=1:BacterialNum
Bacterial(i).bestFitness = CalFitness1(Bacterial(i).location,w,ua,u0);
Bacterial(i).bestLocation = Bacterial(i).location;
end
%-----(2)复制操作开始-----
for k = 1:Nre
%-----(3)趋化操作(翻转或游动)开始-----
for j = 1:Nc
%-----对每一个细菌分别进行以下操作-----
for i = 1:BacterialNum
%-----(3a)计算适应度值
Bacterial(i).fitness = CalFitness1(Bacterial(i).location,w,ua,u0);
%-----保存细菌目前的适应度值,直到找到更好的适应度值取代之-----
Bacterial_last = Bacterial(i);
%-----(3b)翻转,产生一个随机向量,代表翻转后细菌的方向-----
Delta = rands(1,p);
% PHI表示翻转后选择的一个随机方向上前进(单位向量)
PHI = Delta/sqrt(Delta*Delta');
%-----(3c)移动,向着翻转后细菌的方向移动一个步长,并且改变细菌的位置-----
Bacterial(i).location = Bacterial(i).location + step*PHI;
%-----计算细菌当前位置的适应度值-----
Bacterial(i).fitness = CalFitness1(Bacterial(i).location,w,ua,u0);
%-----(3d)游动-----
m = 0; % 给游动长度计数器赋初始值
while(m < Ns) % 未达到游动的最大长度,则循环
m = m + 1;
% 新位置的适应度值是否更好?如果更好,将新位置的适应度值存储为细菌i目前最好的适应度值
if Bacterial(i).fitness < Bacterial_last.fitness
Bacterial_last = Bacterial(i); %保存更好的适应度值
% 在该随机方向上继续游动步长单位,修改细菌位置
Bacterial(i).location = Bacterial(i).location + step*PHI;
% 重新计算新位置上的适应度值
Bacterial(i).fitness = CalFitness1(Bacterial(i).location,w,ua,u0);
else
% 否则,结束此次游动
m = Ns;
Bacterial(i) = Bacterial_last; % 更新趋化操作后的适应度值
end
end
% pbest
if Bacterial(i).fitness < Bacterial(i).bestFitness
Bacterial(i).bestFitness = Bacterial(i).fitness;
Bacterial(i).bestLocation = Bacterial(i).location;
end
end % 如果i<BacterialNum,进入下一个细菌的趋化,i=i+1
%--------Mutation with pfPSO Opreator-------------
GlobalBest= Bacterial(1);
for i=2:BacterialNum
if Bacterial(i).fitness < GlobalBest.fitness;
GlobalBest = Bacterial(i);
end
end
for i=1:BacterialNum
r1=rand();
r2=rand();
Bacterial(i).location = ( 1 - GlobalBest.location / Bacterial(i).location ) * r1 * GlobalBest.location + (GlobalBest.location / Bacterial(i).location ) * r2 * Bacterial(i).bestLocation;
Bacterial(i).fitness = CalFitness1(Bacterial(i).location,w,ua,u0);
Bacterial(i).location = mod(Bacterial(i).location,255)+1;
end
end %-----(4)如果j<Nc,此时细菌还处于活跃状态,进行下一次趋化,j=j+1-----
function fun = CalFitness1(x,w,ua,u0)
L=256;
x=int16(mod(x,255))+1;
w1=w(x(1));
u1=ua(x(1))/w1;
w2=w(x(2))-w(x(1));
u2=(ua(x(2))-ua(x(1)))/w2;
w3=w(L)-w(x(2));
u3=(ua(L)-ua(x(2)))/w3;
通过调查问卷,我们收集的部分数据如附件.xlsx所示
由于数据没有归类,且男性数据普遍较少,我们先进行女性数据的划分
我们将28岁以下,有感情经历的女性定义为有感情经历的女青年
将32岁以上,有感情经历的女性定义为中年女性。同时为了有所区分,我们多增加了一项指标婚姻状况来划分,从所得数据中可以看出中年未婚女性与已婚女性看法近似一致
将28岁以下,没有感情经历的女性定义为无感情经历的女青年
我们将数据分别提取出来,分别以年龄与经济收入绘制拟合曲线图,同时绘制各学历占比环形统计图
年龄和收入曲线图给我们一种更直观地去分析经济独立与看法的关系,同时环形图与饼状图可以更好给出,不同年龄段女性的学历水平,从而可以站在一个更好的角度去分析知识水平对此现象看法的影响
数学公式在这里不给出了
没感情经历的女生反而更容易恋爱脑,我们收集的数据中,这类女生的工资收入还可以,但年龄较低。在这样的条件下,她们不会轻易去更换自己的伴侣,希望通过调解去缓和这段关系,并且也不愿意过多伤害男方,通过分析可知有60%的人选择支持(同情男方)。
由于经济收入数据相对较少,且差距不算大,分析效果不是很明显。所以我们又分别绘制了她们各自的圆环、饼状图,更好地看出占比关系,从而得到更加精确的结论。
针对男青年,支持男方和中立评论占比较大;针对高学历经济水平高的人群,则中立评论占比较大;针对中年有感情经历女性,则支持女方评论占比较大。
针对于该感情纠纷话题,支持不同方的影响因素主要为年龄、是否有感情经历、性别、学历、经济收入,对于不同的人群,他们的观点见解也不一致。
“信息茧房”的形成是平台通过推荐算法不断地从用户中数据挖掘相似的阅读规律导致的,并以“朋友圈”进行推荐,致使每个“圈”内的用户彼此志趣相投。
理想化准则:
(1)算法中的所有信息传递者都不分性别、年龄及其他因素,即信息传递者之间的吸引只基于信息内容,不考虑性别的影响。
(2)信息与信息被吸引者之间的吸引力和信息热度成正比,信息热度越大,吸引力越强。且两者都将随着时间的推逝而减小。因此对于任意信息传递者,不了解该信息的信息读者会向热度大的信息移动,热度最大的信息将随机移动。
(3)信息的热度与待优化目标函数的值有关。
由于信息传递范围的增加和读者对信息的吸收,信息i的热度会随着距离r的增加而增大而非减小。为了对信息与读者之间的相互吸引力进行建模,这里首先给出信息绝对热度和相对热度的定义。
假设目前有M个信息读者,共有N条信息。信息读者与信息的关系如下图所示:
制定破除“尖叫效应”和“回声室效应”、规避“信息茧房”的策略。
针对破除“尖叫效应”和“回声室效应”的策略:
(1) 在某一信息点击量或访问量达到一定的条件时,应加入信息审核算法,判别该信息是否符合正确的社会价值观引导;
(2) 使用关键词库判别发布的信息是否含有夸大虚拟词汇,与现实不符;
(3) 使用文本分类算法,如段子、色情、恶搞等低俗内容将尖叫效应下获得的流量信息标签,限制其发布;
(4) 对于非原创作者发布的相同类似信息进行限制流量处理。
还写了好多的策略 这里就不一一写了 大家都会写 篇幅我这里就不写太长了
A题的解题过程就全部写完了 接下来看看C题的难度如何