Ma et al. - 2017 - Towards Better Understanding the Clothing Fashion

2021/08/24 posted in  笔记
Tags:  #Fashion

About

标题

Towards Better Understanding the Clothing Fashion Styles: A Multimodal Deep Learning Approach

争取更好地理解服装的时尚风格:一个多模态深度学习的方法

发表时间期刊

2017年 AAAI

作者

Yihui Ma:清华大学计算机科学与技术系

Jia Jia*:清华大学计算机科学与技术系博士生导师、副教授

Suping Zhou:北京邮电大学

Jingtian Fu:清华大学计算机科学与技术系,清华大学美术学院

Yejun Liu:清华大学计算机科学与技术学院,清华大学美术学院

Zijian Tong:搜狗公司

实验室

清华大学信息科学与技术国家实验室(TNList)Key Laboratory of Pervasive Computing

Content

基本概念

视觉特征:领口形状、裤子长度、颜色主题等

服装风格:浪漫、优雅、经典等

服装时尚风格在很大程度上得益于视觉细节,如何弥合两者的差距?

过去的研究

  • 解析服装纹理属性(2014)

  • 建议综合应用系统来共同解析一组服装图像(2015)

  • 专注于面向场景的服装推荐(2012)

  • 欣赏上身男装的审美效果(2016):不具有普遍性,忽略了上下搭配的影响

两个挑战及解决办法

Q1:如何定量描述各种服装的时尚风格?

A1:建立基于小林美学理论的时尚语义空间(FSS)来定量描述服装风格

什么是FSS?

它是一个二维图像尺度的空间(warm-cool and soft-hard),包含购物网站上的数百个词。基于FSS不仅可以对时尚搭配进行定量评估,还可以直观地分析时尚潮流的动态变化。

Q2:如何建立视觉特征和时尚风格之间的微妙关系(特别是服装搭配)?

A2:提出了一个基于时尚的多模态深度学习模型--双模态相关深度自动编码器(BCDA)来捕捉服装搭配中的相关性,与回归相连接,以实现将视觉特征映射到FSS的任务

该BCDA有什么特点?

上衣和下装看作服装搭配的两个模态,利用多模态深度学习的共享表述来学习模态之间的关系。此外,通过将服装类别(西装、大衣、紧身裤等)作为相关标签改进特征学习过程

实验方法

1. 建立时尚语义空间FSS

0)语义空间是小林在1995年提出的一个针对艺术设计的概念,将180个关键词放在划分为16个审美类别的尺度空间坐标中。

1)将亚马逊网站上近三年的服装类的评论中的词语划分出来

2)使用WordNet(1995),重训练形容词

3)人工移除不常用的形容词(比如 happy、sad),获得527个形容服装风格的词汇

4)使用WordNet::Similarity(2004)计算关键词与美学词的语义距离,选择三个距离最短的关键词,它们的加权算术平均值可以被视为坐标值

![](https://picb.oss-cn-beijing.aliyuncs.com/img/2021/09/image-20210928135259510.png" alt="image-20210928135259510" style="zoom:50%;" />

2. 建立双模态相关深度自动编码器

0)传统的深度自动编码器是一种特征学习的方式,但无法用来发现上装和下装的内在关系。

1)改造双模态深度自动编码器(2011)用于服装的特征学习,将上下衣特征作为两个模态输入,通过中间隐藏层的编码网络和解码网络,输出共享的表征(middle layer)

相邻两层之间的关系取决于模型参数。训练结束后,我们确定参数并学习中间表征作为该步骤的输出。

2)由于时尚风格受服装类别影响大(2016 具有相似视觉特征的服饰是不同的类别,比如西装和大衣),所以将服装类别标签引入到原始的对称结构中(黄色部分),使用神经网络重新获得相关标签c,同时重建特征x(体现在cost function代价函数中)

3. 训练BCDA

为了捕捉服装搭配中顶部和底部的内部相关性,我们通过预处理数据集来影响BCDA的训练过程:

将数据集特征(通过CNN模型 2015)分成三份,一份完整,一份去掉下装特征,一个去掉上衣特征,训练编码器,直到获得三个完整的数据集。如此BCDA就学会了自动服装搭配的潜在规则

在监督训练期间,算法只提供一种模式(如音频)的数据,然后只在另一种模式(如视频)上测试

Ngiam, J.; Khosla, A.; Kim, M.; Nam, J.; Lee, H.; and Ng, A. Y. 2011. Multimodal deep learning. In International Conference on Machine Learning, ICML 2011,

4. 回归模型

在FSS的527个风格词 Y(wc, hs) 中选择一个与BCDA输出特征 h^[Hh/2] 的欧氏距离最短的词作为输入图像的时尚风格标签

实验结果和分析

验证标准:计算了预测的坐标值和注释的坐标值之间的误差。误差用平均平方误差(MSE)来衡量。所有的实验都是在5个文件夹的交叉验证下进行

1. 模型表现

1)与其他自动编码器比较(回归模型都用SVM)

2)与其他回归模型比较(自动编码器都用BCDA)

2. 特征贡献分析

1)上衣特征贡献大于衣

2)图案特征贡献大于颜色

3. 参数敏感分析

1)训练数据规模:规模越大效果越好,但超过25000几乎收敛

2)隐藏层数量(理论上BCDA的描述能力可以通过更多层提高):层数少于5时,性能会提高,层数过多性能会变差

" alt="image-20210928160415779" style="zoom:50%;" />

实例论证

1. 不同品牌的时尚风格分布

Missoni - 华丽;Libertine - 古典;6379 - 自然;Brunello Cucinelli - 别致

2. 同一品牌不同年分风格对比

著名品牌的时尚趋势一直是时尚人士关注的热点,分析Givenchy在过去11年的风格变化,2005年稳重--2010年精致--2015年线条感强

3. 挖掘搭配规则

上衣领和下装的共同发生矩阵,每一列总和都是1,可以观察到:

1.直筒裤几乎适合所有领型的上衣

2.虽然直筒裤和各种领子都很配,但紧身裤相配的毛皮/高跟/圆领/巴托也是不错的选择此外,紧身裤-宽浅领口比直筒裤-宽浅领口的有更高的概率。因此,Bateau-tight也是时装秀中的一个经典搭配。

根据此发现,使用本模型建立了一个叫Magic Mirror(2016)的应用程序,可以帮助人们分析服装时尚风格

贡献

  1. 一个服装时尚数据集(开放),包含10年《vogue》杂志的32133张男女全身时装秀图片,并有完整的视觉特征(颜色、图案、服装种类)和时尚风格标签(10男10女从FSS中选词 颗粒度0.001 每张照片的每个属性都有3个不同标注者标注然后平均)

  2. 建立一个通用的时尚语义空间来定量描述服装风格。它是一个二维图像尺度的空间,包含购物网站上的数百个词。基于FSS不仅可以对时尚搭配进行定量评估,还可以直观地分析时尚潮流的动态变化。

  3. 提出了一个基于时尚的多模态深度学习模型--双模态相关深度自动编码器(BCDA),与回归相连接,以实现将视觉特征映射到FSS的任务。具体来说,利用多模态策略学到的共享表征,BCDA可以充分利用上衣和下装之间的内部关联,并解决服装搭配的问题。