视觉情感计算前沿综述:从心理机制建构到个性化算法范式

第一章 视觉情感感知的心理学与认知科学基础

在深入探讨计算机算法如何识别图像情绪之前,必须首先解构人类自身如何处理视觉刺激并产生情感反应的心理机制。视觉情感并非单一维度的物理信号映射,而是一个融合了生理唤醒、认知评价和社会文化构建的复杂心理过程。理解这一过程是构建高效人工智能模型的基础。

1.1 情感维度的心理学模型

心理学界对情感的量化描述主要存在两大主流理论流派:离散情感理论(Categorical Emotion Theory)与维度情感理论(Dimensional Emotion Theory)。这两大理论直接决定了计算机视觉中数据集的构建方式和算法的分类逻辑。

1.1.1 离散情感模型及其层级结构

离散情感理论认为,人类拥有少数几个跨文化通用的基本情绪。最经典的是Paul Ekman提出的六种基本情绪模型:愤怒(Anger)、厌恶(Disgust)、恐惧(Fear)、快乐(Happiness)、悲伤(Sadness)和惊讶(Surprise)1。这一模型因其直观性和易于标注的特性,成为早期情感计算(Affective Computing)的基石。

然而,随着研究的深入,心理学家发现六分类模型难以覆盖人类细腻的情感体验。Parrott提出了情感的树状层级结构,将情感划分为初级、次级和三级。例如,“爱”作为初级情绪,可以细分为“喜爱”和“情欲”,再进一步细分为“崇拜”、“迷恋”等。这种层级结构被广泛应用于现代大规模数据集(如WEBEmo)的构建中,以解决细粒度情感识别(Fine-grained Emotion Recognition)的挑战 2。

此外,Mikels在构建IAPS(国际情感图片系统)时,扩展了分类体系,提出了八分类模型,包括娱乐(Amusement)、愤怒、敬畏(Awe)、满足(Contentment)、厌恶、兴奋(Excitement)、恐惧和悲伤。这一分类特别强调了积极情绪的内部差异(如高唤醒度的“兴奋”与低唤醒度的“满足”),这对于理解图像的美学价值至关重要 4。

1.1.2 维度情感模型:VAD空间

维度模型认为情绪是连续空间中的点,而非离散的盒子。最著名的是由Mehrabian和Russell提出的PAD(或VAD)三维模型:

  • 效价(Valence):反映情绪的愉悦程度,从消极(Negative/Unpleasant)到积极(Positive/Pleasant)。
  • 唤醒度(Arousal):反映情绪的生理激活水平,从平静(Calm/Low Arousal)到兴奋/激动(Excited/High Arousal)。
  • 支配度(Dominance):反映个体对情境的控制感,从受控(Submissive)到主导(Dominant)6。

维度模型的优势在于能够精准描述复杂或模糊的情感。例如,“焦虑”通常表现为低效价、高唤醒;而“抑郁”则表现为低效价、低唤醒。在计算机视觉中,VAD模型常被用于回归任务,使算法能够输出连续的情感值,而非简单的分类标签。

1.2 认知评价理论与色彩心理机制

视觉刺激如何转化为情感体验?**认知评价理论(Cognitive Appraisal Theory)**提供了核心解释框架。Scherer和Ellsworth等学者指出,情绪并非直接由刺激(如照片)产生,而是由个体对刺激的主观评估(Appraisal)引发的 8。这种评估过程涉及新颖性、愉悦度、目标相关性以及应对潜力等多个维度。

1.2.1 颜色与生理唤醒的关联

色彩心理学研究表明,颜色不仅通过视网膜传递视觉信息,还能直接引起生理反应。Goldstein(1942)的研究及其后的扩展理论指出,长波长颜色(如红色、黄色)通常具有扩张性,能引起更高的生理唤醒(心率加快、注意力集中),常与温暖、兴奋或危险相关;而短波长颜色(如蓝色、绿色)具有收缩性,能引起副交感神经系统的反应,产生放松、平静或忧郁的感受 4。

1.2.2 语境中的颜色理论(Color-in-Context Theory)

Elliot和Maier提出的语境中的颜色理论对计算机视觉具有重要启示。该理论认为,颜色的情感意义不是固定的,而是高度依赖于物理和心理语境。例如:

  • 红色:在约会或异性评价的语境中,红色象征“浪漫”和“性吸引力”;但在成就情境(如考试评分、红绿灯)中,红色则象征“失败”、“错误”或“危险” 4。
  • 蓝色:在食物语境中可能暗示“腐烂”(肉类发蓝),但在商业或自然语境中则象征“信任”和“宁静”。

这一理论揭示了为何早期的简单颜色直方图特征在情感识别中表现不佳——算法如果缺乏对图像语义内容(Context)的理解,就无法正确解码颜色的情感权重。

1.3 具身感知与情感投射

情感不仅是感知的产物,也会反过来重塑感知。**具身认知(Embodied Cognition)**研究发现,个体的情绪状态会改变其对空间布局的视觉感知。例如,处于悲伤或疲劳状态的人,在视觉上会将山坡评估得更陡峭,将距离评估得更远 10。这种“情感-信息”(Affect-as-Information)机制表明,视觉系统会自动过滤和扭曲输入信息,以服务于当前的情感需求(如规避风险或保存能量)。对于图像情绪识别算法而言,这意味着“客观”的图像像素背后,往往隐含着拍摄者或观察者主观的心理投射。

第二章 摄影美学的情感叙事与技术解构

摄影作为一种视觉语言,通过特定的技术手段(光影、构图、色彩)来操控观察者的认知评价过程,从而植入特定的情绪基调(Mood)。算法对图像情绪的理解,本质上是对这些摄影美学特征的解码。

2.1 光影语言:情绪的建筑师

光线是摄影中最具情感表现力的元素,被誉为情绪的“建筑师” 11。

光线类型 视觉特征 情感隐喻与心理效应
硬光 (Hard Light) 阴影边缘清晰,对比度高,产生强烈的明暗界限。 传递力量、紧张、戏剧性、冲突或神秘感。常用于黑色电影(Film Noir)风格,表达焦虑或果敢。
软光 (Soft Light) 阴影过渡柔和,光线漫射,对比度低。 传递温柔、浪漫、平静、梦幻或忧郁。减少了视觉上的攻击性,营造亲密感 12。
侧光 (Side Lighting) 光线从侧面照射,强调纹理和立体感。 增强物体的质感,常用于表现沧桑、坚毅或深度,增加画面的叙事性。
逆光 (Backlighting) 光源位于主体后方,形成剪影或光晕。 创造神圣、空灵、分离或孤独感。剪影剥离了主体细节,迫使观众关注轮廓和意境 12。

色温的时间性隐喻

  • 黄金时刻(Golden Hour):日出后或日落前,低角度的暖色光。心理上唤起怀旧、温暖、希望和归属感 14。
  • 蓝色时刻(Blue Hour):日落后或日出前,天空呈现深蓝色。心理上强化孤独、宁静、冷峻或神秘的氛围。

2.2 构图与视觉张力

构图决定了视觉元素在画幅中的秩序,直接影响观察者的心理平衡感和视线流动 11。

2.2.1 规则与平衡

  • 三分法(Rule of Thirds):将主体置于三分线的交点,符合人类视觉搜索的自然习惯,产生和谐、自然和舒适的心理感受。
  • 对称构图:传递庄重、稳定、秩序感,但也可能显得死板或压抑。
  • 引导线(Leading Lines):利用道路、河流等线条引导视线,不仅创造深度感,还能控制观众的观看节奏,产生探索或被吸入的情绪体验。

2.2.2 打破规则与张力

  • 不平衡与留白:大面积的负空间(Negative Space)配合微小的主体,能极大地放大孤独、渺小或空灵的情绪。
  • 荷兰角(Dutch Angle):故意倾斜相机,破坏水平线的平衡。这种构图在心理上制造失衡感、迷失感、焦虑或动荡,常用于表现混乱或精神错乱的状态 11。

2.3 景深、聚焦与叙事视角

  • 浅景深(大光圈):将背景虚化,强制分离主体。这种视觉隔离(Isolation)在心理上创造出一种亲密感(Intimacy)或专注感,但也可能表达被世界遗忘的孤独 13。
  • 运动模糊(Motion Blur):利用慢快门记录动态。模糊不仅是速度的象征,更常被用于表达梦境、记忆流逝、混乱或一种“稍纵即逝”的伤感 15。

第三章 情感计算的数据基础设施

数据是驱动人工智能发展的燃料。在图像情绪识别领域,数据集的演变反映了研究范式从“实验室控制环境”向“真实世界复杂场景”的转变,以及从“单一标签”向“标签分布”的认知升级。

3.1 经典与现代情感图像数据集分析

表 3-1 展示了该领域核心数据集的详细对比,涵盖了从心理学专用到社交媒体大数据的跨越。

表 3-1:主流图像情绪识别数据集比较分析

数据集名称 样本规模 标签体系 数据来源与特点 关键应用与局限
IAPS 4 ~1,182 VAD维度评分 (1-9) 来源:心理学实验标准化图片。 特点:内容简单直接(如蛇、枪、婴儿),旨在诱发特定的生理反应。 应用:心理学基准,VAD回归任务。 局限:场景过于简单,缺乏美学属性,无法泛化到真实摄影。
ArtPhoto 5 806 8类离散情感 来源:专业艺术摄影网站。 特点:由艺术家上传并打标,强调光影、构图等艺术表现力。 应用:美学情感分析。 局限:规模极小,主观性强,存在损坏图片 16。
Emotion6 2 1,980 6类离散 + 概率分布 来源:Flickr。 特点:引入标签分布概念,记录了多种情绪的混合比例。 应用:标签分布学习(LDL)的开山之作,解决情感模糊性问题。
FI (Flickr-Instagram) 5 23,308 8类情感关键词 来源:社交媒体关键词搜索。 特点:基于弱监督(关键词)收集,经人工清洗。 应用:早期深度学习(CNN)模型的主要训练集。 局限:存在一定的语义噪声。
WEBEmo 2 ~268,000 25类细粒度层级 来源:Stock photos & Web。 特点:目前最大的细粒度数据集之一,采用Parrott的层级分类体系。 应用:细粒度情感识别,解决数据不平衡和长尾分布问题。
Flickr-LDL / Twitter-LDL 17 ~20,000 标签分布 (Label Distribution) 来源:Flickr & Twitter。 特点:每张图有多个标注者的投票分布,专门用于研究情感的主观性和多样性。 应用:最新的LDL算法基准(如AAAI 2025研究)。
FindingEmo (2024) 6 25,000 VAD + 离散类别 来源:复杂社交场景。 特点:强调多人物互动、复杂背景,标注整体氛围而非单一脸部表情。 应用:最新的多模态大模型评估,从“以脸为中心”转向“以场景为中心”。

3.2 数据集的偏见与挑战

  • 情感鸿沟(Affective Gap):数据集标注往往基于图像的表层内容,但像素特征(低层)与人类感知的高层情感之间存在巨大鸿沟。例如,同样的“笑脸”在不同语境下可能代表“快乐”或“嘲讽”,而早期数据集往往忽略了这种语境 3。
  • 主观性与标签噪声:ArtPhoto等数据集依赖上传者的标签,这不仅是个性化的,甚至是随意的。FI等基于关键词的数据集则包含大量弱标签噪声。最新的研究(如FindingEmo)试图通过多人标注和众包清洗来缓解这一问题,但主观性仍是该领域固有的属性 6。
  • 类别不平衡:积极情绪(如快乐、爱)的图片在社交媒体上远多于消极情绪(如恐惧、厌恶),导致模型在训练时容易产生偏见 2。

第四章 计算范式的演进:从手工特征到深度学习

图像情绪识别算法的发展史,本质上是特征表示能力不断提升的历史。

4.1 早期探索:低层特征与中层语义

在深度学习爆发之前,研究者主要致力于设计能代表情绪的手工特征(Hand-crafted Features)。

4.1.1 低层特征(Low-level Features)

基于心理学发现,研究者提取颜色直方图、纹理特征(如Gabor滤波器)、SIFT描述符等。例如,Machajdik和Hanbury提取了构图线、色彩饱和度、亮度对比度等符合艺术理论的特征 16。这些特征计算量小,可解释性强,但语义表达能力极弱,无法区分“鲜艳的鲜花”(快乐)和“鲜艳的毒蛇”(恐惧)。

4.1.2 中层语义特征:SentiBank与ANP

为了跨越“情感鸿沟”,Borth等人提出了革命性的SentiBank框架和视觉情感本体(Visual Sentiment Ontology, VSO) 19。

  • 核心理念:情感往往通过特定的“形容词-名词对”(Adjective-Noun Pair, ANP)来体现。例如,“crying baby”(哭泣的婴儿)强关联于悲伤,“beautiful sunset”(美丽的日落)强关联于愉悦。
  • 机制:SentiBank是一个包含1,200个ANP检测器的库。它不直接预测“快乐”或“悲伤”,而是先检测图像中是否存在这些ANP概念。
  • DeepSentiBank:随着CNN的兴起,SentiBank演进为DeepSentiBank。这是一个基于CaffeNet(AlexNet变体)微调的深度网络,能分类2,089个ANP概念。这一方法证明,将抽象的情感识别分解为具体的中层语义概念检测,能显著提升准确率 20。

4.2 卷积神经网络(CNN)的统治

2012年后,CNN成为主流。由于情感数据集规模较小,**迁移学习(Transfer Learning)**成为标准范式 23。

  • 预训练-微调范式:使用在ImageNet上预训练的主干网络(如ResNet-50, VGG-19, Inception-V3),然后在情感数据集上微调。
  • 领域适应挑战:物体分类模型关注“是什么”(What),而情感识别关注“感觉如何”(How)。直接迁移往往导致模型过度关注物体类别而忽略光影、色彩等美学情感线索。因此,后续研究开始设计专门的双流网络(Dual-stream Networks),分别提取全局语义特征和局部美学特征。

第五章 深度学习前沿算法与最新突破(2024-2025)

进入2024-2025年,图像情绪识别的研究重心从单纯的分类准确率,转向解决情感的主观性(分布学习)、跨域适应性(无源域适应)以及利用多模态信息增强理解。

5.1 标签分布学习(Label Distribution Learning, LDL)

传统的单标签分类强制将一张图归为单一类别,这忽略了情感的模糊性和多样性。**标签分布学习(LDL)**成为解决这一问题的主流方向 17。

5.1.1 核心思想

LDL模型不再预测一个离散类别,而是预测一个概率分布向量。例如,对于一张蒙娜丽莎的微笑,模型可能输出:{快乐: 0.2, 神秘: 0.5, 平静: 0.3}。

5.1.2 最新突破:MFRN (AAAI 2025)

Xu等人在AAAI 2025上提出的**多重特征细化网络(Multiple Feature Refining Network, MFRN)**代表了该领域的SOTA水平 26。

  • 动机:现有的CNN方法在提取特征时存在大量冗余,且容易混淆情感无关的背景信息。
  • 创新点
    1. 光谱混合器(Spectral Mixer):引入基于小波变换(Wavelet Transform)的频率分离模块。它将特征解耦为低频分量(通常包含平滑的背景和结构)和高频分量(包含纹理和边缘细节)。MFRN认为不同频率成分对情感的贡献权重不同,通过独立建模来减少冗余。
    2. 语义图提示学习(Semantic Graph Prompt Learning):利用图神经网络(GCN)构建语义拓扑,过滤掉与情感无关的语义节点,确保特征的纯度。
  • 性能:在Emotion6、Flickr-LDL等数据集上,MFRN在KL散度等指标上显著优于现有方法,证明了精细化的频域特征提取对情感分布预测至关重要。

5.1.3 ACPNN与二进制编码

另一种思路是增强条件概率神经网络(ACPNN) 17。该方法指出,传统LDL使用无符号整数编码标签是不合逻辑的(情感类别之间没有算术关系)。ACPNN引入二进制编码来表示标签,并结合数据增强策略,有效解决了数据稀缺和标签模糊问题。

5.2 无源域适应(Source-Free Domain Adaptation, SFDA)

在实际应用中,由于隐私法规(如GDPR)或数据版权限制,我们往往无法访问源域(Source Domain)的原始训练数据,只能获得预训练好的模型权重。如何将这些模型适配到风格迥异的新目标域(Target Domain,如从真实照片迁移到二次元插画)?

5.2.1 BBA框架 (AAAI 2025)

Zhu等人提出的Bridge Then Begin Anew (BBA) 框架是解决这一难题的代表性工作 29。

  • 两步策略
    1. 域桥接模型生成(Domain-bridged Model Generation, DMG):不直接在目标域上微调源模型(这会导致负迁移)。而是利用目标域数据的预测分布,生成一个“中间模型”,这个中间模型充当源域和目标域之间的桥梁,缓解巨大的分布差异。
    2. 目标相关模型适应(Target-related Model Adaptation, TMA):在中间模型的基础上,针对目标域数据进行重新训练(Begin Anew),彻底抛弃源域中不兼容的特定知识。
  • 意义:BBA在六个SFDA设置中均取得了显著的性能提升,证明了在没有源数据的情况下,通过构造中间态来平滑迁移是可行的。

5.3 跨越情感鸿沟:图文对比学习

纯视觉信号往往具有信息稀疏性,导致“情感鸿沟”难以逾越。最新的趋势是利用互联网上随处可见的“噪声图文对”来增强视觉模型。

5.3.1 PACL (2025)

Zhu等人提出的分区自适应对比学习(Partitioned Adaptive Contrastive Learning, PACL) 是这一方向的突破 3。

  • 核心假设:虽然社交媒体上的图文对(Image-Text Pairs)充满噪声(例如文字是讽刺的,或者文字完全无关),但其中蕴含的强语义关联可以被挖掘利用。
  • 方法论
    1. 数据分区:根据图文在事实层面(Factual)和情感层面(Emotional)的一致性,将数据自动分为四类(双匹配、事实匹配情感不匹配、事实不匹配情感匹配、双不匹配)。
    2. 自适应对比:针对不同分区设计不同的对比学习策略。让视觉编码器向文本编码器“借用”情感知识,强迫视觉特征在嵌入空间中向语义一致的文本特征靠拢。
  • 结果:即使在测试阶段没有文本输入,经过PACL增强的视觉模型也表现出了更强的“情感感知”能力,因为它在训练中已经学会了将特定的视觉模式与丰富的情感语义对齐。

第六章 多模态大模型与情感推理的新纪元

随着GPT-4V、Gemini等大型多模态模型(LMM)的爆发,情感识别正从单一的感知识别进化为复杂的情感推理(Emotional Reasoning)

6.1 LMM在情感计算中的应用与局限

大型模型具备强大的常识推理能力,能够解释“为什么”一张图片会引发某种情绪。

  • 解释性(Explainability):LMM可以生成诸如“这张图片表现了悲伤,因为图中老人的背影显得孤独,且整体色调偏向冷灰,结合雨天的背景,强化了凄凉的氛围”的自然语言描述。这对于心理健康筛查等高风险应用至关重要 7。
  • 幻觉与细粒度缺失:2025年的多项评测(如AAAI、EMNLP findings)指出,通用的LMM在细粒度情感识别(如区分“嫉妒”与“怨恨”)上往往不如经过专门微调的小模型(SOTA Specific Models)。LMM容易产生幻觉,过度解读图像中不存在的情感线索 34。

6.2 TinyEmo与轻量化推理

针对LMM参数量过大、推理成本高的问题,TinyEmo 36 提出了一种轻量化方案。

  • Metric Projector:TinyEmo引入了一个专门的度量投影仪模块,将情感分类任务从通用的语言生成流中剥离出来。这使得模型可以用较小的参数量(如7B甚至更小)实现高效的情感分类,同时保留大模型的推理能力。

6.3 开放词汇情感识别(Open-Vocabulary MER)

传统的固定类别(如6类或8类)限制了模型的表达。基于LMM的开放词汇情感识别(MER-OV) 允许模型输出任意自然语言词汇来描述情感。2024年ACM Multimedia挑战赛正式确立了这一任务,AffectGPT等先驱工作通过预融合操作,增强了LMM对细微情感的捕捉能力 7。

第七章 迈向个性化与人本AI

情感本质上是主观的。未来的算法正从“寻找唯一的真理”转向“适应个体的偏好”。

7.1 个性化情感识别(Personalized Emotion Recognition)

同一张雨天的照片,有人觉得浪漫,有人觉得压抑。元学习(Meta-Learning) 提供了解决这一主观差异的方案。

  • DSAML (AAAI 2025):Zhang等人在音乐情感识别中提出的Dual-Scale Attention-Based Meta-Learning,其思想被迅速借鉴到图像领域 37。
  • Task Construction Strategy:该方法创新性地将元学习的“任务”定义为“一个特定的标注者”。即,模型不是在学习通用的情感,而是在学习如何快速适应“标注者A的偏好”。
  • 效果:仅需用户对极少量样本进行反馈(Few-shot),模型即可通过梯度更新,迅速调整参数,输出符合该用户个性化感知的情绪标签。这标志着以用户为中心(User-centric)的情感计算时代的到来。

7.2 伦理与应用前景

随着技术精度的提升,视觉情感识别在心理健康监测(如抑郁症筛查)、个性化广告推荐、人机交互(HCI)等领域展现出巨大潜力 33。但同时也带来了隐私侵犯和情感操纵的伦理风险。AAAI 2025上的多篇论文开始关注如何构建可信赖的、无偏见的情感AI,通过去偏见数据集(如UnBiasedEmo)和公平性算法来缓解算法歧视 2。

第八章 结论

照片情绪识别是一个横跨心理学机理、摄影美学与计算机视觉前沿技术的交叉领域。

  1. 理论层面:心理学的认知评价理论和语境中的颜色理论,为算法从单纯的像素分析转向语义理解提供了理论依据。
  2. 数据层面:数据集正从实验室控制的简单图像(IAPS)向真实世界复杂场景(FindingEmo)和包含主观分布信息的标签(LDL)演进。
  3. 算法层面
    • MFRN 等模型证明了频域特征分离和语义提示对处理情感模糊性的有效性。
    • PACL 展示了利用海量噪声图文数据跨越“情感鸿沟”的巨大潜力。
    • BBA 解决了隐私保护下的无源域适应难题。
    • LMM与元学习 的结合,正在将情感识别推向“可解释”和“个性化”的新高度。

未来,随着多模态大模型的进一步融合与轻量化,以及对人类主观情感机制模拟的深入,人工智能将不再仅仅是识别图像的像素,而是能够真正共情、理解并适应人类复杂多变的内心世界。

Works cited

  1. Emotion perception - Wikipedia, accessed January 10, 2026, https://en.wikipedia.org/wiki/Emotion_perception
  2. Emotion project page - Rameswar Panda, accessed January 10, 2026, https://rpand002.github.io/emotion.html
  3. Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs - ChatPaper, accessed January 10, 2026, https://chatpaper.com/paper/212096
  4. Color and psychological functioning: a review of theoretical and empirical work - PMC, accessed January 10, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC4383146/
  5. haoyev5/Image-Emotion-Datasets: The datasets for image … - GitHub, accessed January 10, 2026, https://github.com/haoyev5/Image-Emotion-Datasets
  6. FindingEmo: An Image Dataset for Emotion Recognition in the Wild - arXiv, accessed January 10, 2026, https://arxiv.org/html/2402.01355v2
  7. Pioneering Multimodal Emotion Recognition in the Era of Large Models: From Closed Sets to Open Vocabularies - arXiv, accessed January 10, 2026, https://arxiv.org/html/2512.20938v1
  8. Appraisal Processes in Emotion - University of Michigan Law School Scholarship Repository, accessed January 10, 2026, https://repository.law.umich.edu/cgi/viewcontent.cgi?params=/context/book_chapters/article/1228/&path_info=Ellsworth_Appraisal.pdf
  9. Cognitive Appraisal Theory – Psychology of Human Emotion: An Open Access Textbook, accessed January 10, 2026, https://psu.pb.unizin.org/psych425/chapter/cognitive-appraisal-theory/
  10. Emotion and Perception: The Role of Affective Information - PMC - NIH, accessed January 10, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC3203022/
  11. Photography and Psychology: Decoding the Visual Language - Light and Life Academy, accessed January 10, 2026, https://llacademy.org/blog/photography-and-psychology-decoding-the-visual-language/
  12. How Light Shapes Effective Photo Composition - In Our Image Photography, accessed January 10, 2026, https://www.inourimagephotos.com/how-light-shapes-effective-photo-composition
  13. Creating an Emotional Connection Through Photography, accessed January 10, 2026, https://kellytareskiphotography.com/creating-an-emotional-connection-through-photography/
  14. The Art of Visual Storytelling: How to Use Photography to Capture Emotion - Ulleo, accessed January 10, 2026, https://ulleo.com/blog/the-art-of-visual-storytelling-how-to-use-photography-to-capture-emotion
  15. Art | Extras: HOW TO CREATE THE RIGHT ATMOSPHERE IN A PICTURE: A GUIDE TO MOOD PHOTOGRAPHY - Stage and Cinema, accessed January 10, 2026, https://stageandcinema.com/2024/09/05/the-right-atmosphere-a-guide-to-mood-photography/
  16. Image Emotion - download image data-set, accessed January 10, 2026, https://www.imageemotion.org/
  17. [Quick Review] Learning Visual Sentiment Distributions via Augmented Conditional Probability Neural Network - Liner, accessed January 10, 2026, https://liner.com/review/learning-visual-sentiment-distributions-via-augmented-conditional-probability-neural-network
  18. Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs - arXiv, accessed January 10, 2026, https://arxiv.org/html/2511.17103v1
  19. Beyond Object Recognition: Visual Sentiment Analysis with Deep Coupled Adjective and Noun Neural Networks - Microsoft, accessed January 10, 2026, https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/ijcai16.pdf
  20. [1410.8586] DeepSentiBank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks - arXiv, accessed January 10, 2026, https://arxiv.org/abs/1410.8586
  21. DeepSentiBank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks, accessed January 10, 2026, https://www.ee.columbia.edu/ln/dvmm/publications/14/DeepSentiBank.pdf
  22. Going Deeper for Multilingual Visual Sentiment Detection - arXiv, accessed January 10, 2026, https://arxiv.org/pdf/1605.09211
  23. (PDF) A Survey Of Face Emotion Recognition Using Deep Learning Methods, accessed January 10, 2026, https://www.researchgate.net/publication/392396739_A_Survey_Of_Face_Emotion_Recognition_Using_Deep_Learning_Methods
  24. Emotion Aggregation in Artistic Image Analysis: Effects of Label Distribution Learning - ACL Anthology, accessed January 10, 2026, https://aclanthology.org/2024.paclic-1.54.pdf
  25. Uncertainty-Aware Label Distribution Learning for Facial Expression Recognition - CVF Open Access, accessed January 10, 2026, https://openaccess.thecvf.com/content/WACV2023/papers/Le_Uncertainty-Aware_Label_Distribution_Learning_for_Facial_Expression_Recognition_WACV_2023_paper.pdf
  26. Multiple Feature Refining Network for Visual Emotion Distribution Learning - AAAI Publications, accessed January 10, 2026, https://ojs.aaai.org/index.php/AAAI/article/download/32965/35120
  27. Multiple Feature Refining Network for Visual Emotion Distribution Learning - ResearchGate, accessed January 10, 2026, https://www.researchgate.net/publication/390709712_Multiple_Feature_Refining_Network_for_Visual_Emotion_Distribution_Learning
  28. ACM, accessed January 10, 2026, https://ojs.aaai.org/index.php/AAAI/citationstylelanguage/get/acm-sig-proceedings?submissionId=32965&publicationId=31238
  29. Bridge Then Begin Anew: Generating Target-Relevant Intermediate Model for Source-Free Visual Emotion Adaptation | Request PDF - ResearchGate, accessed January 10, 2026, https://www.researchgate.net/publication/390698872_Bridge_Then_Begin_Anew_Generating_Target-Relevant_Intermediate_Model_for_Source-Free_Visual_Emotion_Adaptation
  30. Bridge then Begin Anew: Generating Target-relevant Intermediate Model for Source-free Visual Emotion Adaptation - ResearchGate, accessed January 10, 2026, https://www.researchgate.net/publication/387183897_Bridge_then_Begin_Anew_Generating_Target-relevant_Intermediate_Model_for_Source-free_Visual_Emotion_Adaptation
  31. Bridge Then Begin Anew: Generating Target-Relevant Intermediate Model for Source-Free Visual Emotion Adaptation | Proceedings of the AAAI Conference on Artificial Intelligence, accessed January 10, 2026, https://ojs.aaai.org/index.php/AAAI/article/view/32160
  32. (PDF) Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs - ResearchGate, accessed January 10, 2026, https://www.researchgate.net/publication/397895561_Bridging_Visual_Affective_Gap_Borrowing_Textual_Knowledge_by_Learning_from_Noisy_Image-Text_Pairs
  33. Multimodal Sensing-Enabled Large Language Models for Automated Emotional Regulation: A Review of Current Technologies, Opportunities, and Challenges - PubMed Central, accessed January 10, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC12349093/
  34. Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey - arXiv, accessed January 10, 2026, https://arxiv.org/html/2509.24322v1
  35. Multimodal Emotion Recognition in Conversations: A Survey of Methods, Trends, Challenges and Prospects - ACL Anthology, accessed January 10, 2026, https://aclanthology.org/2025.findings-emnlp.332.pdf
  36. (PDF) TinyEmo: Scaling down Emotional Reasoning via Metric Projection - ResearchGate, accessed January 10, 2026, https://www.researchgate.net/publication/384769844_TinyEmo_Scaling_down_Emotional_Reasoning_via_Metric_Projection
  37. Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning | Request PDF - ResearchGate, accessed January 10, 2026, https://www.researchgate.net/publication/390698823_Personalized_Dynamic_Music_Emotion_Recognition_with_Dual-Scale_Attention-Based_Meta-Learning
  38. Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning | Proceedings of the AAAI Conference on Artificial Intelligence, accessed January 10, 2026, https://ojs.aaai.org/index.php/AAAI/article/view/32155
  39. Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning - AAAI Publications, accessed January 10, 2026, https://ojs.aaai.org/index.php/AAAI/article/download/32155/34310