生成式AI模型人智共创中的对齐问题研究

2024-04-23 03:57谭征宇王舟洋杜芃

包装工程 2024年8期

谭征宇，王舟洋，杜芃

生成式AI模型人智共创中的对齐问题研究

谭征宇1,2*，王舟洋1，杜芃1

（1.湖南大学，长沙 410082；2.麓山实验室，长沙 410082）

以人工智能对齐的视角，探讨在人智共创中生成式AI模型如何对齐设计师的意图。通过要素分析，以人工智能对齐问题中的可解释性与可控性为研究视角，探讨生成式AI技术作为辅助设计工具如何对齐设计求解过程中“探索-创新-评估”三个设计阶段的具体意图与需求，并分析对齐阶段中需要解决的对齐问题。根据对齐阶段的任务构建基于人智设计概念表征交互式对齐方法、表征拓展方法与表征评估方法。在三个对齐阶段中分别构建意图对齐、设计空间拓展和设计规则匹配这三种方法，帮助设计师构建可控、可解释的人智共创方法，从而构建可控、可信的人智共创。

人智共创；人工智能对齐；设计求解；设计表征对齐

从ChatGPT[1]、Stable Diffusion[2]，到中国自主研发的文心一言[3]、星火大模型[4]等基于生成式AI的模型及相关工具，为设计内容生成提供了丰富可能。AIGC技术对设计行业带来了深远的影响，文生文、文生图和文生视频等模型在图形设计、造型设计等领域有着较广泛的应用[5]。随着AI智能化程度的提高，基于人工智能理念的设计工具能够融合人类智慧和AI智能，帮助设计师提高生产力和效率，从而实现增强智能的理念。融合了AIGC的设计流程，使设计师具有更强的创造力与想象力[6]。在构建人类智能与人工智能融合的设计趋势下，需用人类的审美意识来进行创新设计的指导，最终使得人工智能的产出结果更加符合人类审美意识的价值判断[7]。鉴于此，人智融合致力于将人类智能与具备更高智能的AI结合，创造出更具创意的产出物，形成人智共创（Human-AI Co-Creation）。Wu等[8]认为人智共创研究AI模型能更好地服务于人类设计师，对设计师的设计能力，特别是创意发散方面进行增益。Yang等[9]发现在设计人智共创中缺乏能保证AI输出结果可控并符合用户意图的方法。如何让AI对齐人类的价值与期望，这在科研与社会各界都引发了议论，面向安全可控的人智融合，人工智能对齐是重要的研究问题[10]。

1 生成式AI模型人智共创的对齐问题要素分析

基于海量数据训练的生成式AI大模型具备很强的泛化能力，能够输入和输出多模态数据，且输出可根据人的偏好进行[11]。但是，因为AI模型是基于优化系统的数学计算模型[12]，Christian等[13]发现AI产出的内容常常呈现出不符合用户意图与价值观的负面效应。尽管有根据人类偏好数据来调整模型输出的方法（如RLHF）[14]，但是AI模型在各项人智交互的具体任务中仍然会产生错误。因此，Pandey等提出了保证AI模型能够输出符合人类意图的内容的人工智能对齐问题，且在具体人智协作任务中的人工智能对齐问题成为了当下的科研聚焦点[15–17]。朱松纯等[18]提出人工智能对齐模型，以构建人智共创框架，其中的四大要素（RICE）分别为鲁棒性（Robustness）、可解释性（Interpretability）、可控性（Controllability）和道德性（Ethicality），分别对应AI的环境适应能力、推理过程的透明度、执行人类意图的准确性，以及遵循社会道德规范的能力。在基于AIGC的人机对齐与人机合作过程中，可控性与可解释性能够保证高效的人智共创。可控性意味着对机器的输出可以通过参数进行控制。刘学博等[19]提出基于多个人类评价维度对模型进行可控微调的方法。可解释性意味着人能够理解并掌控AI的推理逻辑。周慎等[20]提出了可控、可解释的生成式人智共创文本方法。喻国明等[21]提出AIGC的可解释性是实现人机意向及意图对齐，从而达成人机信任的路径。

生成式AI模型在现有训练数据中学习创意特征，并能将创意特征进行组合以产生创新的设计，在设计领域作为辅助工具产生了许多研究成果[22-23]。在设计的前期，生成式AI模型基于其海量数据可以作为创意灵感的启发工具[24]。在工业设计任务中，能够实现基于几何特征驱动进行设计、分析和优化的一体化软件[25]。尽管AI在数据分析和模式识别方面表现卓越，但相较于人类设计师在设计意图和价值判断上存在差距。人类设计师的核心能力在于融入创新思维，将复杂模糊的设计问题转录成设计表达，并打破常规设计模式，引入独特的创新要素。这种创新能力源于对信息的深入理解和价值观的深刻把握，通过高维度的设计认知行为将思想转化为设计表征[26]。Gero[27]认为在未来人智共创的背景下，生成式AI将作为人的协作者角色与人类设计师共同参与设计活动，因此AI必须具备对设计师意图的理解能力，才能有效履行协作者的职责并进行共创。

本论文主要聚焦于设计师与生成式AI模型在人智共创过程中的对齐问题。在人工智能对齐的研究框架下，探讨设计师在设计求解的各个阶段中以生成式AI模型作为设计辅助工具的具体对齐问题，基于人工智能对齐RICE框架中的可解释性与可控性两个维度，探讨和总结在各个设计阶段，实现可控、可解释的人机意图对齐方法，为人智共创提供研究基础。对齐问题要素关系如图1所示。

图1 对齐问题要素关系

2 生成式AI模型人智共创的对齐阶段

生成式AI模型在人智共创中的对齐问题，具体体现在设计探索、设计创新和设计评估三个对齐阶段中。本论文梳理设计师在各个阶段的具体设计意图和需求，同时整理生成式AI在生成设计辅助任务中的工作流与关键技术，梳理生成式AI及其关键技术与设计师在设计求解过程中对应的对齐阶段，分析和定义各个对齐阶段的具体问题。

2.1 设计问题求解过程

赵江洪[28]认为，设计者的设计思维活动包括探索、创新和评估这三个主要的认知活动，如图2所示。设计师在进行设计问题求解的活动中综合个人经验，通过工程思维拆解设计问题或通过艺术思维逐步优化设计，在形象思维和抽象思维的综合过程中，涉及联想、直觉等思维方式。

图2 设计师的设计问题求解过程

2.1.1 探索

在设计思维的探索过程中，Brown等[29]将其归为设计思维的灵感阶段，即收集相关人的意见并拓展方案的设计空间。斯坦福大学的D.School团队认为设计过程从设计师的“同理心”开始[30]。Ratcliffe等[31]在此基础上将“同理心”阶段细分成“观察”和“理解”两个子阶段。设计师在这一过程中利用解释性和视角性思维将对设计目标的观察和抽象的理解转化成可以懂得的、具体的设计目标[32]。解释性思维是将观察到的现象进行猜测和推导，获得最简单和最恰当的解释，分析抽象的概念并进行具象化的描述，从而帮助设计师进行理解。视角化思维即将问题、思考过程、方案可视化。设计师使用模型，采取以图形为主的编码方式，辅助对抽象概念的探索和转化。

2.1.2 创新

在设计创新活动中，设计师可以通过探索并借鉴他人设计的方式来对产品的设计空间进行更深入的理解，从而在设计过程中做出正确的决定并激发设计创新的空间[33]。将他人的想法进行解构重组并优化迭代是设计创新的有效方法。对他人想法进行解析重组的创新活动和设计探索活动一样依赖于设计师在设计领域的经验。以产品造型设计为例，产品造型设计是一个模糊结构域的问题求解过程。随着问题情景的变化，解也相应地进行调整和改变，一般通过设计者的专家知识和经验来完成造型设计问题[34]。设计师可以通过类比的方式扩展抽象概念空间。基于远领域类比的设计过程能够得到更具创新性的概念设计结果。通过远领域类比，设计师可以从一个创意空间连接到另一个创意空间，将其他领域的内容应用于当前的设计问题，探索已有事物的另一种表现形式，由此实现对抽象概念空间的拓展。

2.1.3 评估

Rosenman等[35]认为，产品设计评价是将新产品属性与期待的结果进行对比后所获得的对新产品的认知。以产品造型设计的评估活动为例，将设计物进行比较而抽象出的可区分特征可以归类出风格[36]。风格可以通过语义表达反映人们对产品造型的主观评价。设计领域中有许多基于语义的造型风格评价方法，如语义差异法、层次分析法等。感性工学即是构建感性意象语义与形态要素之间关系的系统，通过实现感性意象与设计要素之间的转换，进而将设计方案转化成感性评估，以确定设计方案是否达成目标的感性意象[37]。通过语义，设计师和其他设计相关人员可以将抽象的设计评估规则转化为对设计物一致的设计评估标准，以进行直观的设计评估。

2.2 图像生成式AI模型设计工作流

为了让生成式AI模型更好地融入到设计工作流中，本研究分析了图像生成式AI技术自身及其与设计过程关联的特性，详细描述了基于Diffusion模型的生成式AI的图像生成工作流，以及基于设计表征的提取、融合与匹配的关键技术特性。

2.2.1 多模态语义生成图像

得益于基于对比学习的Clip多模态语义理解模型[38]，可以将抽象图片和文字转译成计算机能理解的、统一的表征作为特征嵌入，从而使文生图（T2I）、图生图（I2I）、图文生图等多模态图像生成AI模型，实现高质量的、基于表征的条件引导图像生成工作流。目前主流的生成式图像AI模型基于Clip模型、文本编码器（Text Encoder）和图像编码器（Image Encoder）组成，可以将文字与图像等多模态输入转化成潜变量空间的表征[39]，然后通过表征作为生成条件，通过交叉注意力机制（Cross-attention）[40]引导U-NET图像生成模型进行图像的生成，输出给定条件下的生成图片。目前主流的生成式AI模型工作流包括文生图、图生图和图像变异。生成式AI模型的工作流，如图3所示。

2.2.1.1 “语义理解-Prompt”转译成潜变量空间向量

在生成式AI模型中，语义理解是通过将提示词（Prompt）和参考图片转换为潜变量空间的统一表征来实现的。这种表征通常是高维向量，也被称为嵌入（Embedding）[41]。通过这种方式，不论是文本还是图像，都可以被转化成计算机能够理解和处理的统一格式。在潜变量空间[42]中，不同的表征具有特定的分布，通过这些分布，模型能够理解和确定表征之间的对应关系，从而实现复杂的语义理解。

在实际的图像生成任务中，设计师可以通过调整提示词来微调或寻找理想中的图像造型、风格等特征，以满足特定的设计需求。例如，通过改变或细化提示词，设计师能够引导AI模型生成与原始想法更加吻合的图像。此外，利用如Clip score等技术，也可以从参考图片出发，反向推导出与之对应的提示词。这种双向的、基于表征的方法，为设计师提供了一个灵活且强大的工具，以实现更准确和个性化的图像生成。

图3 图像生成式AI的工作流

2.2.1.2 Prompt或图片作为条件引导生成图片

文生图（Text-to-Image）和图生图（Image-to- Image）是生成式AI模型中最主流的工作方式。在如Stable Diffusion等模型的工作流中，文生图的过程是根据输入的Prompt在潜变量空间中得到文字的嵌入，接着系统生成一张纯噪声图片。U-NET[43]模型接收这张噪声图片，并利用交叉注意力机制将文字嵌入及转化为对应噪声图片中的去噪图像，帮助噪声图像去噪。这一过程通常需要多步迭代来完成。

而图生图则在文生图的基础上进行改进，只是将纯噪声图片替换为一个具有初步内容的初始图像，并在此基础上增加一定比例的噪声。接着，系统根据文字嵌入作为条件以引导图片的生成。由于图生图的初始图片可以包含一定的原始图像信息，这使得生成的图像在内容上与原始图像更为接近。同时，也可以通过类似Inpaint的技术手段增加图像遮罩，实现如换脸、给人物换装等更复杂的操作。这种方法允许在保持原图像某些特征的同时，根据用户的需求对图像进行修改或增强，从而提供更加丰富和灵活的图像生成体验。

2.2.1.3 图像变异（Image Variation）

图像变异是生成式AI模型中的一个高级功能。在这一过程中，模型通过Clip图像编码器接收输入图像，并计算出该图像在潜变量空间中的对应表征，即图形嵌入（Image Embedding）[42]。然后，利用这些图形嵌入作为条件，引导图片的生成。图像变异与图生图的不同之处在于，图像变异利用Clip[38]的多模态语义理解能力来明确输入图像的高维语义。这种理解能力使得模型能够实现语义的融合和特征的组合生成，从而实现多模态特征融合。

在设计工作中，设计师可以利用图像变异方法生成与输入图像相似，但在某些方面经过变异的图像。这一过程不仅使设计师能够产生新的创意灵感，还能观察到模型对输入图像关键特征（如风格、造型等）的理解能力。通过图像变异，模型能够展示其在保持输入图像关键特征的同时，如何有效地融合和变换这些特征，以生成具有新颖性和创意性的图像。这一功能为设计师在探索新的视觉表达和创意时提供了强大的助力。

2.2.2 生成式AI技术的关键特性

生成式AI模型在图像生成任务中可以总结出3种关键技术特性，包括：多模态表征提取（如图4a所示）、多模态特征融合（如图4b所示）与多模态特征匹配（如图4c所示）。

根据图像生成式AI的3个关键技术特性，作者对前沿科研领域的相关实现方法与技术应用进行了文献整理，梳理出了基于多模态表征理解的生成式AI模型的图像生成关键技术（如表1所示），包括多模态语义理解、融合，以及结合生成式AI进行可控图像生成的具体实现方法。

2.2.2.1 多模态特征提取

在生成式AI模型中，语义理解是通过将提示词（Prompt）和参考图片转换为潜变量空间的统一表征来实现的。这种表征通常是高维向量，也被称为嵌入（Embedding）[41]。通过这种方式，不论是文本还是图像，都可以被转化成计算机能够理解和处理的统一格式。在潜变量空间中，不同的表征具有特定的分布，通过这些分布，模型能够理解和确定表征之间的对应关系，从而实现复杂的语义理解。

在实际的图像生成任务中，设计师可以通过调整提示词来微调或寻找理想中的图像造型、风格等特征，以满足特定的设计需求。例如，通过改变或细化提示词，设计师能够引导AI模型生成与原始想法更加吻合的图像。

图4 图像生成式AI的关键技术特性

表1 基于多模态表征理解的生成式AI模型图像生成关键技术

Tab.1 Key technologies in image generation for generative AI models based on multimodal representation understanding

2.2.2.2 多模态特征融合

在生成式AI模型的应用中，多模态特征融合是一个重要的方向，涉及风格迁移和将多张图像与提示词中的设计概念或图像特征结合起来，形成新的图像。多模态特征融合的研究主要关注以下两个方面。

1）如何在不改变主体目标物的前提下，生成该主体在不同场景和环境下的图像。如DreamBooth[46]、Textual Inversion[48]、PromptStyler[49]等技术方法，致力于学习并保持主体对应的表征不变。具体的实施方式包括提供一组主题图片（例如一只柯基狗），通过训练获得该图片对应的特定提示词（例如“”）。然后，使用这个提示词结合其他场景描述（如“在游泳池里面游泳”）来生成主体在其他场景中的图像。

2）实现更多特征的融合。例如，Unclip[45]通过prior模型训练出更统一的图文潜变量空间，从而实现文字与图像的融合。这样的多模态特征融合可以创造出既包含文本信息又融入图像特征的新图像。而Prompt-to-prompt[40]方法则通过控制交叉注意力机制的接入方式，有效地实现了特征融合。这种方法不仅增加了生成图像的多样性和创新性，还提高了模型对复杂概念的理解和表达能力，为设计师提供了更广泛的创意空间。

2.2.2.3 多模态表征对齐与匹配

在利用生成式AI模型进行图像设计时，多模态表征的对齐与匹配是至关重要的环节。基于Clip模型的强大语义理解能力，作者能够提取图像的多维度特征，这对评估图像是否达到设计要求非常有用。例如，在评估一个图片时，可以考虑其美感、艺术风格类型。此外，还可将设计拆解为布局、色彩、尺寸、功能等多个维度进行评估。

1）美学评估：Aesthetic Predictor[50-51]等模型能够计算图像的美学评分，并据此对图像进行排序和筛选。这种方法不仅是基于技术层面的图像分析，还融入了美学理论，使得评估结果更加全面和准确。

2）图像语义理解与语义规则匹配：从语义层面上，将图片拆解成不同维度的表征，并将各个维度的评估规则也理解为相应的语义表征。通过Clip score[52]、欧氏距离、旋转角度等技术手段，可以对生成的图像设计进行细致的评估和筛选。这一过程不仅依赖于模型对图像内容的理解，还包括对设计原则和美学标准的应用，从而确保生成的图像在技术和艺术层面都能满足设计要求。这种多维度、多模态的评估方式为设计师提供了强大的工具，以确保最终的图像设计符合既定的目标和标准。

2.3 人智共创中的对齐问题

根据前两个小节的梳理可知，生成式AI具有强大的功能，可以提供设计增益使人类设计师更好地完成设计求解中“探索-创新-评估”的任务流程。但是，为了达到高效人智共创，需要将AI的各种功能与设计师在设计求解的各个流程中的意图相结合，从而保证高效的人智共创过程。人机对齐就是为了保证AI的输出可以符合人的意图和偏好的研究领域[53]。在本研究中，笔者主要关注设计师的设计意图与生成式AI模型辅助设计功能的对齐问题，在“探索-创新-评估”设计框架对应的各个设计流程中的人工智能对齐阶段，梳理各个阶段的对齐问题和目标，为后面的方法提供指导，如图5所示。

2.3.1 设计探索对齐阶段

在设计探索的过程中，设计师会广泛地尝试各种设计概念，结合生成式AI模型的文生图与图像变异功能，设计师可以方便地将抽象概念以文字（提示词）或者参考图片的形式输入给AI模型，并由AI模型将抽象的设计概念转译成设计表达（图片）。因此，AI模型对设计意图的准确理解能力至关重要，现有的研究发现用户不能有效地使用文字生成符合意图的图片[54–57]。因此需要对齐设计师的抽象概念与生成式AI的语义表征，如何生成符合设计师意图的设计表达是在本对齐阶段要解决的问题。

图5 图像生成式AI模型关键技术与设计工作流的对齐阶段

2.3.2 设计创新对齐阶段

在设计创新阶段，设计师会探索设计概念的组合延伸以实现设计创新，但是因为设计固化等问题，设计师的思维会受到一定的局限[58–60]。如何让生成式AI 能够实现概念的融合，帮助设计师更好地把概念转译成设计解，增加在设计空间中的探索范围，是该对齐阶段要解决的问题。

2.3.3 设计评估对齐阶段

在设计评估阶段，AI 模型需要能够根据抽象模糊的设计规则，将设计空间中的大量设计方案进行多维度筛选和比较，输出评估结果以帮助设计师进行筛选。在面对生成式AI模型产生的海量设计解时，进行对比和筛选是非常耗费设计师认知资源的行为。因此需要新的机制来帮助设计师将心目中筛选规则的意图对应到AI模型可以理解的表征空间中，更好、更快地完成筛选任务。

3 生成式AI模型人智共创的对齐阶段对应方法

为了构建适配“探索-创新-评估”3阶段设计工作流与图像生成式AI模型技术特性的全新人智共创方法，在设计探索、设计创新和设计评估的3个对齐阶段，分别定义各阶段的人智对齐任务和目标，输出各阶段人智共创中的对齐流程与方法。

3.1 设计探索对齐阶段——设计抽象概念与模型表征对齐

在设计探索对齐阶段，需要将设计师构想的设计概念与生成式AI模型理解的设计概念之间进行对齐，从而保证AI模型能够对齐设计师的意图，准确地理解设计师及输入的抽象设计概念并转换成设计解。基于AI生成模型的设计方法，其问题在于，虽然AI可以生产大量的设计方案，但是缺少能理解设计师且其推理过程可解释的控制方法[13]。在现有对齐生成式AI模型与设计师意图的人机对齐方法中，Terry等提出了基于“交互式”的人智意图对齐方法，通过人智交互式对话的方式[61]，设计师对输入的意图信息（提示词、参考图片）进行修改，最终帮助AI提取到符合设计师意图的图像表征[62]。

基于“交互式”设计师与AI的对齐方法，结合基于最前沿的AI模型工作流，笔者提出了创新方法，帮助设计师与AI模型交互式地进行设计概念的意图对齐，如图6所示。设计师在探索设计概念的同时，可以通过文字、参考图片的方式将信息输入给生成式AI模型。AI模型通过理解设计师输入的信息以形成潜变量空间中的设计表征，并通过将设计表征作为条件以引导图片的生成，由此形成抽象概念的设计表达。设计师可以通过AI模型的设计表达评估设计概念对应的表征是否符合自己的设计意图，如果不符合，可以对提示词与参考图片等概念信息进行调整。通过交互式的调整最终找到符合意图的表征组合。

图6 设计概念迭代对齐

3.2 设计创新对齐阶段——设计空间拓展

“设计空间”可以理解为外观设计中的设计自由度，一般是指设计者对产品外观设计的创作自由度。相比于传统设计流程的设计空间，基于文生图的生成设计，创造力并不在于最终的产品，而更多地在于与人工智能的交互过程[63]。Kohk等[64]认为，AI可以在用户输入文本的语义组合的基础上生成意想不到的结果，生成式AI可以帮助设计师有效地提供大量参考图像并进行应用。设计师对概念的抽象和比喻描述可以通过生成式AI的输出进行具象化表现以带来创意的发散。

在设计创新对齐阶段，设计师需要将前期设计探索中找到的设计概念进行融合，形成创新的概念方案。生成式AI模型的特征融合功能可帮助设计师探索概念融合以形成创新设计，在AI模型的表征概念空间完成概念的拓展，并形成设计表达，最终实现设计空间的拓展。因此，作者定义了概念拓展的对齐流程，如图7所示。在此对齐阶段，AI模型在表征空间对探索阶段形成的概念表征进行插值融合，插值融合可以将2个或多个概念在表征空间中进行融合，形成新的设计概念表征，这些新形成的概念表征可以通过条件引导生成设计表达图片。

3.3 设计评估对齐阶段——设计规则匹配

覃京燕[7]认为，人智协同创作活动既需要人类智能在信息维度上做自由跨维度的筹谋抉择与审美三观的阈值判定，也需要人工智能做维度阈值以内的性质特征识别、行为模式计算和网络关系结构优化。在设计评估对齐阶段，设计师需要对创新阶段构想的方案进行评估和筛选，虽然在生成式AI模型基于特征融合的技术能力加持下，产生了海量的设计方案，但是人们也可以通过AI的表征空间来进行设计方案的筛选，如图8所示。制定AI模型对设计规则与创新设计概念在表征空间的坐标，可以通过计算欧式距离、欧式旋转角度等方式实现设计方案的筛选。首先把设计规则通过对齐阶段一的方式转译成规则表征，再计算概念表征与规则表征的距离。距离越近，则表明该概念表征越符合该设计规则。人们可以进行单一设计概念与所有设计规则的横向比较，对设计概念进行综合排序，再输出排名靠前的最优解，产出设计表达，供设计师来做最后的评估。

图7 概念拓展的对齐流程

图8 设计方案的匹配和筛选

4 结语

在本研究中，作者根据在生成式AI模型与设计师人智共创过程中的人工智能对齐问题，探索和梳理融合生成式AI模型特性的人机共创工作流程，以及各个流程中人智共创的对齐问题，总结了在“探索-创新-评估”设计工作流中生成式AI模型的共创耦合机制，以及相应的对齐方法，为面向可控、可信的人智共创提供了可实现路径，具体如下。

1）在设计探索阶段，通过设计概念对齐实现从抽象概念（文字、参考图片）到设计表达（图像）的多模态语义生成图像转译，确保人机对设计概念的理解一致与对齐。

2）通过在设计创新阶段使用多模态图像、特征融合，将多个抽象概念形成的设计空间拓展并转录到设计表达空间中，帮助设计师拓展设计空间的搜索能力，从而增强设计创新。

3）在设计评估阶段，设计师可以根据设计要求定义设计规则，通过AI模型将规则与设计方案一起转译成设计特征空间中的表征，再根据设计规则匹配对齐，以进行多维度的方案比较和筛选，从而建立起对海量AI生成设计方案的筛选机制。

综上所述，AI的数据处理能力结合设计师的创新导向，有望构建一个协同共生的设计生态系统。在这一系统中，AI负责提供精确的数据支持和优化方案，人类设计师则负责确保设计方向的创新性和实用性。这种人智共创的对齐策略将推动设计智能化、可持续发展且符合人类价值观的创新，朝着人智共融、互补共进的设计未来迈进。

[1] GALLIFANT J, FISKE A, LEVITES S Y A, et al. Peer Review of GPT-4 Technical Report and Systems Card[J]. PLOS Digital Health, 2024, 3(1): e0000417.

[2] SAHARIA C, CHAN W, SAXENA S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. Advances in Neural Information Processing Systems, 2022, 35: 36479-36494.

[3] 袁传玺. 百度第三季度实现营收344.47亿元文心大模型4.0重构业务生态[N]. 证券日报, 2023-11-22(02). YUAN C X. Baidu Achieved Revenue of 34.447 Billion Yuan in the Third Quarter of Wenxin Grand Model 4.0 Reconstruction Business Ecology[N]. Securities Daily, 2023-11-22(02).

[4] 陈佳岚. 讯飞星火大模型加大投入明年上半年对标GPT4[N]. 中国经营报, 2023-10-30(03). CHEN J L. Iflystar Fire Model to Increase Investment in the First Half of Next Year Against GPT 4[N]. China Business Report, 2023-10-30(03).

[5] 何文英. 文生视频软件Pika火出圈或推动AIGC加速融入多种业态[N]. 证券日报, 2023-12-04(03). HE W Y. Vincennes Video Software Pika Fire out of the Circle or Promote AIGC to Accelerate the Integration into a Variety of Formats [N]. Securities Daily, 2023-12-04(03).

[6] 曾真, 孙效华. 基于增强智能理念的人机协同设计探索[J]. 包装工程, 2022, 43(20): 154-161. ZENG Z, SUN X H. Human-Machine Collaborative Design Exploration Based on the Concept of Augmented Intelligence[J]. Packaging Engineering: 2022, 43(20): 154-161.

[7] 覃京燕. 审美意识对人工智能与创新设计的影响研究[J] 包装工程, 2019 40(4): 59-71. QIN J Y. Impact of Aesthetic Consciousness on Artificial Intelligence and Innovation Design [J]. Packaging Engineering, 2019, 40(4): 59-71.

[8] WU Z, JI D, YU K, et al. AI Creativity and the Human-AI Co-Creation Model[C]// Human-Computer Interaction. Theory, Methods and Tools: Thematic Area. Berlin: HCI, 2021.

[9] YANG Q, STEINFELD A, ROSÉ C, et al. Re-Examining Whether, Why, and How Human-AI Interaction is Uniquely Difficult to Design[C]// Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. Sydney: CHI, 2020.

[10] 蔡淑敏, 马云飞, 秦铭蔚. OpenAI动荡背后的理想与现实[N]. 国际金融报, 2023-11-27(12). CAI S M, MA Y F, QIN M W. The Ideal and Reality Behind OpenAI Turmoil[N]. International Finance News, 2023-11-27(12).

[11] 赵朝阳, 朱贵波, 王金桥. ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路[J]. 数据分析与知识发现, 2023, 7(3): 26-35. ZHAO Z Y, ZHU G B, WANG J Q. ChatGPT Brings Inspiration to Language Large Model and New Development Ideas of Multimodal Large Model[J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 26-35.

[12] VENTER G. Review of Optimization Techniques[J]. London: John Wiley & Sons, 2010.

[13] CHRISTIAN B. The Alignment Problem: Machine Learning and Human Values[M]. 1st ed. New York: Norton & Company, 2020.

[14] HARLAND H, DAZELEY R, NAKISA B, et al. AI Apology: Interactive Multi-Objective Reinforcement Learning for Human-Aligned AI[J]. Neural Computing and Applications, 2023, 35(23): 16917-16930.

[15] PANDEY R, PUROHIT H, CASTILLO C, et al. Modeling and Mitigating Human Annotation Errors to Design Efficient Stream Processing Systems with Human-in- the-Loop Machine Learning[J]. International Journal of Human-Computer Studies, 2022, 160: 102772.

[16] BUTLIN P. AI Alignment and Human Reward[C]// Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society. Munich: AAAI, 2021.

[17] GABRIEL I. Artificial Intelligence, Values, and Alignment[J]. Minds and Machines, 2020, 30(3): 411-437.

[18] JI J, QIU T, CHEN B, et al. AI Alignment: A Comprehensive Survey[J/OL]. arXiv, 2023 [2023-11-12]. https:// arxiv.org/abs/2310.19852.

[19] 刘学博, 户保田, 陈科海, 等. 大模型关键技术与未来发展方向——从ChatGPT谈起[J]. 中国科学基金期刊, 2023, 37(5): 758-766. LIU X B, HU B T, CHEN K H, et al. Key Technologies and Future Development Directions of Large Models: From ChatGPT[J]. Science Foundation of China, 2023, 37(5): 758-766.

[20] 周慎. 新文本间性: 生成式人工智能的文本内涵、结构与表征[J]. 新闻记者, 2023 (6): 39-45. ZHOU S. New Intertextuality: Text Connotation, Structure, and Representation of Generative Artificial Intelligence[J]. The Journalist, 2023(6): 39-45.

[21] 喻国明, 滕文强, 武迪. 价值对齐:AIGC时代人机信任传播模式的构建路径[J]. 教育传媒研究, 2023(6): 66-71. Yu G M, TENG W Q, WU D. Value Alignment: The Construction Path of Human-Machine Trust Communication Model in AIGC Era[J]. Educational Media Research, 2023(6): 66-71.

[22] LIAO W, LU X, FEI Y, et al. Generative AI Design for Building Structures[J]. Automation in Construction, 2024, 157: 105187.

[23] OH S, JUNG Y, KIM S, et al. Deep Generative Design: Integration of Topology Optimization and Generative Models[J]. Journal of Mechanical Design, 2019, 141(11): 111405.

[24] SBAI O, ELHOSEINY M, BORDES A, et al. Design: Design Inspiration from Generative Networks[C]// Proceedings of the European Conference on Computer Vision. Berlin: European Conference, 2018.

[25] 高亮, 李培根, 黄培, 等. 数字化设计类工业软件发展策略研究[J]. 中国工程科学, 2023, 25(2): 254-262. GAO L, LI P G, HUANG P, et al. Research on Development Strategy of Industrial Software for Digital Design[J]. Engineering Science, 2023, 25(2): 254-262.

[26] 陈超萃. 设计表征对设计思考的影响[J]. 新建筑, 2009(3): 88-90. CHEN C C. The Influence of Design Representation on Design Thinking [J]. New Architecture, 2009(3): 88-90.

[27] GERO J S. Nascent Directions for Design Creativity Research[J]. International Journal of Design Creativity and Innovation, 2020, 8(3): 144-146.

[28] 赵江洪. 设计和设计方法研究四十年[J]. 装饰. 2008(9): 44-47. ZHAO J H. Forty Years of Research on Design and Design Methods[J]. Decoration, 2008(9): 44-47.

[29] BROWN T, KATZ B. Change by Design: How Design Thinking Transforms Organizations and Inspires Innovation[M]. 1st ed. New York: Harper Business, 2009.

[30] BANERJEE B, GIBBS T. Teaching the Innovation Methodology at the Stanford D. School[M]. 1st ed. Springer International Publishing, 2016.

[31] RATCLIFFE L, MCNEILL M. Agile Experience Design: A Digital Designer's Guide to Agile, Lean, and Continuous[M]. California: New Riders, 2012.

[32] 李彦, 刘红围, 李梦蝶, 等. 设计思维研究综述[J]. 机械工程学报, 2017, 53(15): 1-20. LI Y, LIU H W, LI M D, et al. Review of Design Thinking Research[J]. Journal of Mechanical Engineering, 2017, 53(15): 1-20.

[33] GAVER B, MARTIN H. Alternatives: Exploring Information Appliances through Conceptual Design Proposals[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Hague: SIGCHI, 2000.

[34] 谭浩, 赵江洪, 王巍, 等. 产品造型设计思维模型与应用[J]. 机械工程学报, 2006(增刊1): 98-102. TAN H, ZHAO J H, WANG W, et al. Thinking Model and Application of Product Modeling Design [J]. Journal of Mechanical Engineering, 2006(Sup.1): 98-102.

[35] ROSENMAN M A. Application of Expert Systems to Building Design Analysis and Evaluation[J]. Building and Environment, 1990, 25(3): 221-233.

[36] 段正洁, 谭浩, 赵丹华, 等. 基于风格语义的产品造型设计评价策略[J]. 包装工程, 2018, 39(12): 107-112.DUAN Z J, TAN H, ZHAO D H, et al. Evaluation Strategy of Product Modeling Design Based on Style Semantics[J]. Packaging Engineering, 2018, 39(12): 107-112.

[37] 罗仕鉴, 潘云鹤. 产品设计中的感性意象理论、技术与应用研究进展[J]. 机械工程学报, 2007(3): 8-13. LUO S J, PAN Y H. Research Progress of Perceptual Image Theory, Technology and Application in Product Design[J]. Chinese Journal of Mechanical Engineering, 2007(3): 8-13.

[38] ALEC R, KIM J W, HALLACY C, et al. Learning Transferable Visual Models from Natural Language Supervision[C]// International Conference on Machine Learning. Berlin: IEEE, 2021.

[39] ABDAL R, QIN Y, WONKA P. Image2stylegan: How to Embed Images into the Stylegan Latent Space?[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Prague: IEEE, 2019.

[40] BROOKS T, HOLYNSKI A, EFROS A A. Instructpix2pix: Learning to Follow Image Editing Instructions[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Paris: IEEE, 2023.

[41] JATNIKA D, BIJAKSANA M A, SURYANI A A. Word2vec Model Analysis for Semantic Similarities in English Words[J]. Procedia Computer Science, 2019, 157: 160-167.

[42] TEWARI A, ELGHARIB M, BERNARD F, et al. Pie: Portrait Image Embedding for Semantic Control[J]. ACM Transactions on Graphics (TOG), 2020, 39(6): 1-14.

[43] RONNEBERGER O, FISCHER P, BROXT. U-NET: Convolutional Networks for Biomedical Image Segmentation[C]// Proceedings of the International Conference on Medical Image Computing and Computer- Assisted Intervention, 2015.

[44] ROMBACH R, BLATTMANN A, LORENZ D, et al. High-Resolution Image Synthesis with Latent Diffusion Models[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Paris: IEEE, 2022.

[45] ZHU Y, LI Z, WANG T, et al. Conditional Text Image Generation with Diffusion Models[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Berlin: IEEE, 2023

[46] RUIZ N, LI Y, JAMPANI V, et al. Dreambooth: Fine Tuning Text-to-Image Diffusion Models for Subject-driven Generation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Paris: IEEE, 2023.

[47] ZHANG L, RAO A, AHRAWALA M. Adding Conditional Control to Text-to-image Diffusion Models[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Berlin: IEEE, 2023.

[48] BALDRAT A, AGNOLUCCI L, BERTINI M, et al. Zero-Shot Composed Image Retrieval with Textual Inversion[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023.

[49] CHO J, NAM G, KIM S, et al. Promptstyler: Prompt- driven Style Generation for Source-Free Domain Generalization[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Parsi: IEEE, 2023.

[50] DHAR S, ORDONEZ V, BERG T L. High Level Describable Attributes for Predicting Aesthetics and Interestingness [C]// Proceedings of CVPR 2011. Colorado Springs: IEEE, 2011.

[51] IBARRA F F, KARDAN O, HUNTER M R, et al. Image Feature Types and Their Predictions of Aesthetic Preference and Naturalness[J]. Frontiers in Psychology, 2017, 8: 632.

[52] CHEN P, LI Q, BIAZ S, et al. gScoreCAM: What Objects is Clip Looking at[C]// Asian Conference on Computer Vision. London: ACCV, 2022.

[53] European Commission Joint Research Centre. Robustness and Explainability of Artificial Intelligence: from Technical to Policy Solutions[M]. Ispra: Publications Office, 2020.

[54] CAHNG M, DRUGA S, FIANNAC A J, et al. The Prompt Artists[C]// Proceedings of the 15th Conference on Creativity and Cognition. New York: CCC, 2023.

[55] JIANG E, TOH E, MOLINA A, et al. Discovering the Syntax and Strategies of Natural Language Programming with Generative Language Models[C]// CHI Conference on Human Factors in Computing Systems. New Orleans: CHI, 2022.

[56] ZAMFIRESCU-PEREIRA J D, WEI H, XIAO A, et al. Herding AI Cats: Lessons from Designing a Chatbot by Prompting GPT-3[C]// Proceedings of the 2023 ACM Designing Interactive Systems Conference. Munich: ACM, 2023.

[57] ZAMFIRESCU-PEREIRA J D, WONG R Y, HARTMANN B, et al. Why Johnny Can't Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts[C]// Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems. Las Vegas: CHI, 2023.

[58] JANSSON D G, SMITH S M. Design Fixation[J]. Design Studies, 1991, 12(1): 3-11.

[59] YOUMANS R J, ARCISZEWSKI T. Design Fixation: Classifications and Modern Methods of Prevention[J]. Artificial Intelligence for Engineering Design, Analysis and Manufacturing, 2014, 28(2): 129-137.

[60] LINSEY J S, TSENG I, FU K, et al. A Study of Design Fixation, Its Mitigation and Perception in Engineering Design Faculty[J]. Journal of Mechanical Design, 2010, 132(4): 041003.

[61] BARRACHINA S, BENDER O, CASACUBERTA F, et al. Statistical Approaches to Computer-Assisted Translation[J]. Computational Linguistics, 2009, 35(1): 3-28.

[62] XU W, DAINOFF M J, GE L, et al. Transitioning to Human Interaction with AI Systems: New Challenges and Opportunities for HCI Professionals to Enable Human- centered AI[J]. International Journal of Human–Computer Interaction, 2023, 39(3): 494-518.

[63] LYUY, WANG X, LIN R, et al. Communication in Human–AI Co-Creation: Perceptual Analysis of Paintings Generated by Text-to-image System[J]. Applied Sciences, 2022, 12(22): 11312.

[64] KOHK, PARK G, JEON H, et al. Large-Scale Text- to-Image Generation Models for Visual Artists’ Creative Works[C]// Proceedings of the 28th International Conference on Intelligent User Interfaces. Berlin: ICIUI, 2023.

Alignment Issues in Human-AI Co-creation Using Generative AI Models

TAN Zhengyu1,2*, WANG Zhouyang1, DU Peng1

(1. Hunan University, Changsha 410082, China; 2. Lushan Lab, Changsha 410082, China)

The work aims to explore how generative AI models align with designers' intentions in human-AI co-creation from the perspective of artificial intelligence alignment. Methodologically, the interpretability and controllability issues in AI alignment were explored through a feature analysis approach. The research examined how generative AI technologies, as auxiliary design tools, align with the specific intents and needs of the three stages of the design process: "exploration, innovation, and evaluation". The alignment challenges that needed to be addressed in each stage were analyzed. Technologically, the study proposed an interactive alignment method, representation expansion method and representation evaluation method based on human intelligence design concept representation. In conclusion, the study constructs three alignment methods: intent alignment, design space expansion, and design rule matching, in the three stages. These methods aim to assist designers in building controllable and interpretable human-AI co-creation methods to contribute to controllable and trustworthy human-AI co-creation.

human-AI co-creation; artificial intelligence alignment; design problem-solving; design representation alignment

TB482

1001-3563(2024)08-0029-11

10.19554/j.cnki.1001-3563.2024.08.004

2023-11-26

教育部人文社科规划一般资助项目（21YJA760059）；麓山实验室研究计划

通信作者