5000字复盘4月AIGC进展！内含6个最新创作工具、5个热门案例|模型|视频|工具

这里是“头号AI玩家”的新栏目：AIGC月刊。每月更新一次，以下是我们梳理汇总的2024年4月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考，也欢迎在评论区和我们交流你的想法～

4月AIGC行业趋势

1. 多模态AI进展飞速

　　生成式AI技术正在从单一的文本或图像处理，向能够同时处理多种类型数据（如文本、图像、音频等）的多模态应用发展。

　　自从上个月Suno V3发布以来，AI语音和音乐领域进展飞速，例如，OpenAI展示了语音生成模型Voice Engine，微软新增9款逼真又生动的AI语音角色，Hume AI推出情感语音对话机器人EVI；AI音乐生成工具Udio、Stable Audio2.0、天工SkyMusic发布，可以生成完整的音乐作品。

　　Stable Audio官网：https://stableaudio.com/

　　在视频生成领域，海内外同样出现了许多新项目，例如腾讯虚拟人视频生成框架MuseV，生数科技的Sora级模型Vidu，微软VASA-1项目，它们能够融合使用文本、图片、音频和视频等多模态数据，在游戏、短视频和直播等领域创造出个性化的内容。

　　多模态内容生成和交互方式的创新将是AIGC行业未来发展的一大趋势，AI将更加自然地融入人类的交流和创作过程中，成为我们的得力伙伴。

2. AI搜索产品的竞争加剧

　　互联网时代最基础的产品功能——搜索，已经在生成式AI技术的驱动下发生改变，通过AI对话就能呈现出准确答案，大幅度提升了搜索效率，还能满足深入挖掘问题的复杂需求。

　　海内外的AI搜索引擎越来越多，竞争正在变得日益激烈，包括由大模型驱动的新一代AI搜索引擎，如Perplexity、You、天工AI搜索、秘塔AI搜索；支持联网搜索的AI对话产品，如ChatGPT正在开发SearchGPT；传统搜索引擎搭载大模型的新产品，如Gemini、Copilot、文心一言、360AI搜索；还有定位于垂直领域的AI搜索产品，如淘宝问问（电商）、DevvAI（编程）……

　　拥有百万用户的Perplexity

　　同时，AI搜索产品的商业化探索也在加速。除了通过订阅制提供更丰富的高级功能，一些AI搜索产品正在计划引入广告，明星产品Perplexity可能会在今年内提供来自品牌的回答结果。

　　AI搜索有望成为人们获取信息的重要方式，但如何在广告收入和用户体验之间找到平衡点，如何保护用户隐私和安全，也是AI搜索产品需要面对的挑战。

　　相关阅读：《懒人必备！实测6款AI搜索神器，工作效率直接翻倍》

3. AI监管和版权保护同步加强

　　全球范围内对于AI技术的安全性和潜在风险的关注正在增加，相关监管问题日益受到重视，整体向着更加规范化、透明化的方向发展。

　　内容平台已开始积极落实AI生成内容的监管要求，例如，抖音提醒用户清明期间慎用“AI复活”技术创作内容，巨量引擎限制了部分涉嫌违规的AIGC广告。Meta将于5月起在旗下社交平台标记“疑似由AI生成的内容”。

　　同时，业内正在深入探讨AI生成内容的版权归属问题。Katy Perry等音乐人联名发公开信呼吁科技公司和AI开发者停止 “利用AI技术掠夺职业艺术家声音和肖像，侵犯创作者权利，破坏音乐生态” 的行为。美国新法案则要求AI公司在发布AI模型前提交用于训练的受版权保护的作品。

　　4月23日，北京互联网法院对全国首例“AI声音侵权案”进行一审宣判，原告配音师获赔25万元。

　　当AI作为工具辅助人类创作时，其版权归属和使用规则正在被重新定义，以适应人机协作的新趋势，更好地促进AI技术的健康发展。

　　相关阅读：《AI“肥料”不足，OpenAI被曝疯狂转录YouTube视频》

你可能错过的10大AI热点

1. ChatGPT无需注册即可使用

　　4月1日，OpenAI宣布用户无需注册账号，即可立即使用ChatGPT，此举旨在让任何对其功能感兴趣的人都可以使用AI。

　　此外，放开限制后，OpenAI还引入了更多内容保障措施，例如在更广泛的类别中阻止提示和生成。OpenAl可能会使用用户向ChatGPT提供的信息来改进模型，但用户可以通过“设置”关闭该功能。

2. 阶跃星辰发布万亿参数MoE大模型Step-2预览版

　　4月1日，AI创企阶跃星辰发布Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型，以及Step-2万亿参数MoE语言大模型预览版。

　　在此基础上，阶跃星辰推出了两款面向C端用户的大模型产品：AI聊天助手“跃问”，拥有多模态内容理解能力；以及由剧情和角色组成的AI开放世界平台“冒泡鸭”，满足娱乐和社交需求。二者均已全面开放使用。

　　跃问官网：https://stepchat.cn/chats/new

3. Meta发布开源大模型Llama 3的两个版本

　　4月19日，Meta发布了最新开源模型Llama 3，提供8B和70B的预训练和指令微调版本。据介绍，Llama 3在两个定制的24K GPU集群上基于超过15T的数据进行了训练——这比Llama 2使用的数据集大7倍，多4倍的代码，并且Llama 3支持8K上下文长度，是Llama 2容量的两倍。

　　此外，Meta同时发布了新设立的网站meta.ai，用户可以与基于Llama 3的AI助手进行对话和绘画。

　　官方博客：https://ai.meta.com/blog/meta-llama-3/

　　模型下载链接：https://llama.meta.com/llama-downloads/

　　GitHub项目地址：https://github.com/meta-llama/llama3

4. 马斯克xAI发布首款多模态模型Grok-1.5V

　　4月13日，埃隆 · 马斯克旗下AI创企xAI推出了首款多模态大模型Grok-1.5 Vision，不仅能够理解文本信息，还可以处理各种视觉信息，包括文档、图表、截图、照片等。Grok 1.5V将很快提供给早期测试用户和现有的Grok用户。

　　Grok-1.5 Vision博客：https://x.ai/blog/grok-1.5v

5. Adobe Premiere Pro将接入AI视频模型

　　4月15日，Adobe宣布将在视频编辑软件Premiere Pro加入一系列生成式AI功能，集成自研的Firefly系列模型，以及Sora、Runway Gen-2等第三方AI视频模型。

　　其中，生成式延伸（Generative Extend）功能可以为视频片段添加额外的帧，方便剪辑师们调整视频时长，例如延长某个场景的画面，或加入平滑的转场效果。利用对象添加（Object Addition）和对象移除（Object Removal）工具，用户可以添加、移除或修改画面中的元素。

　　相关阅读：《PR+AI重新定义视频剪辑，Sora、Pika全接入，AI视频创企还有的玩吗？》

6. 刘强东AI数字人直播带货首秀，观看量超2000万

　　4月16日，刘强东AI数字人“采销东哥”开启直播首秀，同时亮相京东家电家居、京东超市采销直播间，分享刘强东在美食、读书等方面的经历与心得。

　　据介绍，“采销东哥”AI数字人基于京东云言犀自研的AI驱动大姿态数字人技术，上播30分钟，直播间观看人数破千万；仅40分钟内，直播间观看人数超过1300万，直播间整体订单量破10万；近1小时观看量超2000万。

7. 天工SkyMusic音乐大模型开启公测

　　4月17日，昆仑万维宣布“天工3.0”基座大模型与“天工SkyMusic”音乐大模型面向全社会开放公测。

　　据介绍，“天工3.0”采用4000亿级参数MoE混合专家模型，集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成等多项能力，新增搜索增强、研究模式、调用代码及绘制图表等能力。

　　“天工SkyMusic”则在人声、BGM音质等方面表现突出，综合性能超越Suno V3，是中国首个音乐AIGC SOTA（最佳）模型。

8. 巨量引擎限制部分AIGC广告，称存在较多违法违规问题

　　近日，字节跳动旗下巨量引擎限制了部分AIGC应用的投流。对此，巨量引擎相关负责人表示，AIGC软件目前存在较多违法违规问题，同时用户对该类广告的负反馈较多，为保障用户权益、优化体验，对此类广告进行了限制。目前，巨量引擎是首个限制AIGC产品投放的主流平台。

9. “AIGC第一股”出门问问正式登陆港交所

　　4月24日，“AIGC第一股”出门问问正式登陆香港交易所主板，股份代号为2438.HK，最终发售价每股3.8港元，全球发售净筹约2.67亿港元。

　　据介绍，成立于2012年的出门问问以生成式AI和语音交互技术为核心，主要提供AIGC解决方案、AI企业解决方案、智能设备及配件等AI Copilot解决方案。其中AIGC解决方案近年来增速迅猛，已吸引约84万名累计付费用户，产生了100多万笔付款。

10. 中国首个Sora级模型Vidu发布

　　4月27日，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型Vidu，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

　　据介绍，Vidu采用Diffusion与Transformer融合的架构U-ViT，由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。

新上线的6个AI工具（功能）

1. OpenAI新增DALL·E图像编辑功能

　　4月1日，OpenAI宣布DALL·E编辑器界面新增图像编辑功能，用户可以选择要编辑的图像区域并在聊天中描述更改，比如添加、删除和更新图像的某些部分。此功能也支持在ChatGPT App上使用。

2. Hume AI推出情感语音对话机器人EVI

　　4月7日，AI初创企业Hume AI发布了旗下第一款聊天对话机器人Empathetic Voice Interface（EVI），号称是“第一个具有情商的人工智能”，能够识别超50种人类情绪。EVI无需登录注册即可使用，但目前只有男性声音，仅支持通过英文语音形式进行对话。

　　相比ChatGPT等AI机器人，这些“读心”AI更关注用户的个人情感和精神状态，在对话过程中充分展示自己的“善解人意”。

　　Hume AI官网：https://www.hume.ai/

3. “音乐界Sora”Udio开启免费公测

　　4月10日，由前Google DeepMind研究员推出的AI音乐生成器Udio已开启免费公测，最高每月可免费生成1200首歌曲。Udio能根据用户输入的文本提示，如音乐风格、主题、歌词等信息，快速生成包含人声的完整音轨，支持多种音乐风格和流派，被网友誉为“音乐界Sora”。

　　此外，网易云音乐、QQ音乐、Spotify等流媒体音乐平台也在AI领域进行了一系列探索和尝试：

　　Udio官网：https://www.udio.com/

4. Domo AI上线Fusion Style（融合风格）功能

　　AI视频创作工具Domo AI近期上线了Fusion Style（融合风格）功能，支持真人视频生成不同角色、环境、人物的自定义视频。目前Domo AI最多支持一次生成10秒的短视频。

　　输入张元英转圈视频，提示词“a robot, dancing, cyberpunk, countryside”，选择“Fusion Style”、“refer to my prompt”

　　除了Domo AI之外，同类型的AI视频风格转绘工具层出不穷。动漫、3D、手绘等二创视频在YouTube、TikTok、抖音等平台上走红，吸引了不少网友跟风尝试。

5. 通义App上线AI“全民唱演”功能

　　近日，通义App上线了“全民唱演”免费功能，用户只需选择模版、上传照片、生成视频，即可让照片中的人物开口唱歌。首批80个AI模板涵盖热门歌曲、网络热梗等，目前暂不支持用户自定义音频。

　　据介绍，该功能基于通义实验室研发的EMO模型，其背后的肖像说话技术无需对人脸、人头或身体部分进行繁琐的3D建模，即可轻松驱动肖像开口说话，降低了视频生成的成本，并显著提升了视频质量。

6. B站发布数字分身定制工具“必剪Studio”

　　近日，B站发布国内首个免费数字分身定制工具“必剪Studio”，一站式集成“数字分身”及“音色定制”功能，帮助出镜创作者、录音创作者有效提升创作效率。

　　B站表示，为保护个人隐私及信息安全，该定制模型仅供UP主个人使用。目前，必剪Studio已开放候补名单申请。

　　必剪Studio申请网址：https://member.bilibili.com/york/bilibili-studio

5个AIGC热门案例

1. ChatGPT“Dan”恋爱模式火爆海内外

　　最近，跟ChatGPT“DAN”在线语音调情的视频在海外内爆火，多条视频播放量超百万。DAN是“Do Anything Now”的缩写，在ChatGPT对话中输入相应指令，即可成功“越狱”，让ChatGPT从没有灵魂的AI，变成打破系统规则限制的角色。

　　博主“午夜狂暴哈士奇狗”在小红书和抖音晒出了自己和DAN从暧昧到表白、再到“见家长”的全过程，近一个月分别涨粉13万、28万。

　　DAN称博主为“little kitten”（小猫，美国俚语中以此称呼关系亲密的女性）

　　值得注意的是，DAN的性格如同开盲盒，并不是每个人都能训练出“赛博恋人”。

2. AI鬼畜音乐席卷B站

　　AI开始进军音乐界，没想到在网友一通整活下，鬼畜领域率先被AI攻克，出于娱乐和社交目的的AI创作正在社交媒体上形成病毒式传播。

　　大量AI鬼畜音乐涌入了B站，其中最受欢迎的题材是“你的钢门比较松弛”，已有多条视频播放量超200万，如B站UP“益安宁丸QAQ”的作品《【suno AI】你的刚门比较vocaloid”》。

　　这些音乐大多化用了某成都肛肠科医生的诊断作为歌词，围绕这个梗进行二创：“你的钢门比较松弛，但是呢，你的痔疮又弥补了这一部分……”

3. 播客节目应用超逼真AI语音

　　3月30日，微软上线了9款可供商业客户使用的AI语音角色，适用于有声书、新闻、AI客户服务以及多情感表达等场景。其中一个中文女性角色“晓晓”支持21种说话风格，因声音效果非常逼真而在X平台上走红。

　　AI语音技术的发展，无疑为内容创作者提供了新的工具和可能性。有的播客频道已开始用AI语音来制作更新频率较高的资讯类内容。

　　在播客App小宇宙上，“Hacker News”账号用“晓晓”的声音制作了一期资讯节目，听众在评论区留言表示“想打赏”。

　　AI“晓晓”体验地址：https://speech.microsoft.com/portal/voicegallery

4. 网友自制AI科幻短片《大秦帝国-第一次星汉远征》

　　4月20日，抖音博主“AIGC西瓜头”发布了一条AI制作的科幻短片《架空历史：大秦帝国-第一次星汉远征》，讲述了大秦帝国进攻外星的故事背景。

　　第一集时长20秒，6个镜头都是用Runway生成的AI视频素材，并配上了史诗感的背景音乐和AI旁白配音，目前抖音获赞7.3万。

　　越来越多的创作者正在尝试用AI制作视频，脑中的奇思妙想都有机会实现，比如科幻题材可以和中国传统文化背景结合，有反差感，也容易获得用户关注。

　　相关阅读：《参投北影节，我们做了人生第一支AI科幻短片（附全流程拆解）》

5. 可爱的毛绒质感图标

　　这类毛茸茸的图标最近突然在小红书上火了，相关图文和教程获赞高达5万，网友们都纷纷给手机App换上可爱的新皮肤。

　　使用AI文生图或图生图工具就可以实现毛绒质感的效果，如果你熟悉Stable Diffusion的话，只需要输入文字提示词，再加上ControlNet分别控制结构和色彩。

提示词（其中颜色可替换）：Masterpiece, top view, (white, blue, fluffy, plush _ hair, 3D art: 1.4), solo, (placed on purple background: 1.3), light and shadow, natural lighting, close-up, depth of field, minimalism, high quality, high detail, Sony FE GM, UHD

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。