文本生成图像的DF-GAN增强模型研究
DOI:
CSTR:
作者:
作者单位:

北京信息科技大学自动化学院

作者简介:

通讯作者:

中图分类号:

TP183 ????

基金项目:

国家自然科学(U1636208)


DF-GAN Enhancement Model for Text-to-Image
Author:
Affiliation:

College of Automation,Beijing Information Science and Technology University

Fund Project:

National Natural Science Foundation of China

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对文本生成图像任务中生成图像的语义关联性低,细节较模糊以及结构完整性较差等问题,提出了一种结合自注意力机制的DF-GAN增强模型。首先,利用BERT模型挖掘文本上下文语义特征,同时结合语义深度融合模块,实现深层的文本语义与图像区域特征的匹配。其次,在模型架构层面引入一种自注意力模块作为卷积模块的补充,目的是能够更好地建立长距离、多层次依赖关系。实验显示本文提出的增强模型不仅加强了文本与图片之间的语义联系,而且保证了生成图像的细粒度和完整性。

    Abstract:

    A DF-GAN enhancement model combined with self-attention mechanism was proposed for low semantic relevance, fuzzy details and inadequate structural integrity in text-to-image tasks. Firstly, the BERT model is used to mine the semantic features of text context, and the ? deep text-image fusion block is combined to realize the matching of deep text semantics and image regional features. Secondly, a self-attention mechanism module is introduced as a supplement to the convolution module at the model architecture level, aiming to better establish long-distance and multi-level dependencies. The experimental results show that the proposed enhancement model not only strengthens the semantic relationship between the text and the image, but also ensures the precise details and overall integrity of the generated image.

    参考文献
    相似文献
    引证文献
引用本文
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-05-26
  • 最后修改日期:2024-05-26
  • 录用日期:2024-06-12
  • 在线发布日期:
  • 出版日期:
文章二维码

漂浮通知

①《半导体光电》新近入编《中文核心期刊要目总览》2023年版(即第10版),这是本刊自1992年以来连续第10次被《中文核心期刊要目总览》收录。
②目前,《半导体光电》已入编四个最新版高质量科技期刊分级目录,它们分别是中国电子学会《电子技术、通信技术领域高质量科技期刊分级目录》(T3)、中国图象图形学学会《图像图形领域高质量科技期刊分级目录》(T3)、中国电工技术学会《电气工程领域高质量科技期刊分级目录》(T3)和中国照明学会《照明领域高质量科技期刊分级目录》(T2)。
③关于用户登录弱密码必须强制调整的说明
④《半导体光电》微信公众号“半导体光电期刊”已开通,欢迎关注