🌓
搜索
 找回密码
 立即注册

2023:AI这一年

admin 2023-12-28 18:06:14 49975
毫无疑问,人工智能在 2023 年掀起了不小波澜,我们重点关注今年最重要的故事,这些故事将塑造这个开创性行业的未来。这里我们结合Everypixel Journal 的 ‘2023: The Year of AI’ 和大家一起回顾总结一下人工智能在2023年的重要事件和优秀的产品。

在今年的人工智能发展版图上,我们见证了一些显著的进步,这些进步更多地是对现有技术的精细打磨,而不是像去年的ChatGPT或者图像生成那样的颠覆性创新。
虽然今年没有那种让人惊叹的“哇”效应,真正的通用人工智能(AGI)似乎还遥遥无期,但这一年却标志着我们从过去的重大突破走向更为强大的东西的过渡期。为了展示这一演变过程,我们制作了一条视觉时间线,突出展示了今年人工智能界的最引人注目的进展:

文本生成:
GPT-4

OpenAI 的 GPT-4 现在能够处理图像输入,生成标题、分类,实现听取和对话互动,还支持实时网络浏览。OpenAI 还进一步扩展了插件支持,促进了一个丰富多彩的开源竞争环境。GPT-4 标志着 OpenAI 向通用人工智能 (AGI) 迈进的新篇章。(更多介绍见下文)

终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了

Bard 和 Gemini

谷歌的 Bard 为聊天机器人注入了仿人类的情感和情绪。Bard 聊天机器人采用多模态数据集训练,而谷歌的 Gemini 以“多模态能力最佳”的 AI 模型身份崭露头角,成为与 OpenAI 的 ChatGPT 齐名的竞争者。(更多介绍见下文)

Google Gemini vs ChatGPT:生成式人工智能热潮的真正开始

Grok

埃隆·马斯克的创业公司 xAI 展现了其对 AI 发展的承诺,并有可能与 OpenAI 竞争。他们推出了“Grok” —— 一款具备幽默感、反叛特质,并能通过 𝕏 平台获取实时信息的聊天机器人。xAI 承诺,Grok 能回答其他 AI 系统所回避的敏感问题。(更多介绍见下文)

Elon Musk的新力作:深入了解Grok,AI领域的新星

Claude

由Anthropic开发的Claude是人工智能对话系统领域的一颗新星,旨在将AI对话体验提升到新的高度。它融合了安全性、可靠性和可解释性,旨在为用户提供更加深入和负责任的互动体验。Claude的设计强调理解用户意图和提供负责任的回应,使其在AI对话领域中独树一帜。(更多介绍见下文)
【全网最全】GPT4 vs Claude2 实测
Inflection.ai
Inflection被视为OpenAI六大劲敌之一。公司CEO Mustafa Suleyman曾是Google人工智能实验室DeepMind的创始人之一,2022年1月,因理念与Google出现分歧,离职出来创办了Inflection。
他们于5月推出了首款产品,即名为Pi的个人AI助理。与ChatGPT、Claude不同的是,Pi不止是解决搜索或回答问题等生产力需求,主打的是“情感陪伴”。
高情商也是Pi的核心优势,用户与Pi的交流就像和朋友一样自然。Suleyman接受采访时表示,个人AI助理“符合我心目中人类与AI的未来发展趋势——相互依存、紧密联系”。
一周岁的 ChatGPT 和它的最佳 CP,测评表现仅次于 GPT-4 的第二大语言模型
OverflowAI
Stack Overflow 的 OverflowAI 通过提高知识整理效率,使得用户能在 Visual Studio Code 和 Slack 中快速找到 AI 推荐的相关答案。
Llama 2
Meta 推出了 Llama 2,这是其开源大语言模型 (LLM) 的升级版,性能更优。Meta 还对这一模型进行了针对对话场景的优化,使其在大多数标准测试中超越了其他开源模型。(更多介绍见下文)
【全网最全】Llama2王者归来,你想知道的都在这里(附Llama2中文社区)
Llama 2中文

Llama中文社区联合原子回声针对不同需求场景推出了 Llama 2中文增量预训练大模型Atom 13B,7B以及1B模型。这是Llama的中文升级版,在中文方面性能更优。(更多介绍见下文)

首发!真正意义上的Llama2中文版大模型
Mistral 7B
Mistral AI,估值大约 20 亿美元的今年,推出了 Mistral 7B,一个具有挑战性的大语言模型,旨在与 GPT-4 和 Claude 2 竞争。Mistral AI 采用开放技术策略,允许用户免费下载该模型,以促进技术共享和创新。
Mixtral 8x7B
Mistral AI 同样推出了 Mixtral 8x7B,这是一个高质量的稀疏混合专家模型(SMoE),具备开放的权重参数,拥有总计 46.7B 参数,这标志着模型在提高真实性和减少偏见方面开放性的一大步。(更多介绍见下文)
史上最“随意”的大模型发布:Mixtral 8x7B(附下载链接)
Yi-34B llm
今年估值达到 10 亿美元的李开复创立的 01.AI 发布了 Yi-34B — 一种开源的神经网络模型,它以远超竞争对手的参数数量取得了优越性能,特别强调了其在成本效益方面的突出表现。(更多介绍见下文)
李开复零一万物竟是“套壳Llama”?揭露几点国内大模型真相!

图像生成:
Adobe Firefly 
Adobe 的 Firefly 和 Generative Fill 推动了多样化视觉内容的创作,如插画、艺术构思和照片编辑。集成到 Photoshop中的 Adobe Firefly 使 AI 技术普及化,让更多用户能够轻松使用。其发布的文本效果功能(链接)也是一个重要进展,它允许用户给文字和短语添加风格或纹理。(更多介绍见下文)
Adobe新版AI绘画炸场,2k分辨率在线就能玩,网友:效果比DALL·E 3更强
Midjourney
Midjourney 的 V.5 模型 在图像生成领域达成了重要里程碑,展现了更高的效率、连贯性和分辨率。它的最新 alpha 版本,Midjourney V.6 进一步增强了功能,比如更精准地响应用户输入(prompt)、提高了模型的知识水平和简易的文本绘制能力。(更多介绍见下文)
Midjourney V6迎来大升级:网友惊呼生成效果太逼真
DALL·E 3

基于 ChatGPT 的 DALL·E 3 简化了图像生成过程,避免了复杂的用户输入(prompt)设置。此外,ChatGPT 还推出了一项功能,帮助用户优化输入内容,并根据反馈调整图像。(更多介绍见下文)

OpenAI DALL·E 3来了,集成ChatGPT,生图效果太炸了

Stable Diffusion
一款开源的图像生成模型,由Stability AI推出。它使图像的创建变得更加简单和直观,用户只需输入简单的文本描述,便可以生成高质量的图像。Stable Diffusion的强大之处在于其能够根据用户的具体指示,快速生成符合要求的视觉内容。
由于其开源性质,Stable Diffusion为广大开发者和创意工作者提供了前所未有的灵活性和创新可能性,开启了图像生成技术的新篇章。
Stable Diffusion一周年:这份扩散模型编年简史值得拥有

文本生成图像算法的演变,2007 vs 2023

视频生成:

Stability AI

Stability AI 推出了 Stable Video Diffusion,这是一个具有里程碑意义的视频生成(generative video)模型,可在 GitHub 上开源访问。

类似于 AI 图像生成的趋势,Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。但是财务状况很可能让这家开源公司难以维持。

HeyGen

这家 AI 创业公司推出了 一款数字人产品,支持用户上传语音/文本,生成口型对应的数字人讲解,并且数字人可以用自己上传的图片定制。此外还推出了多语言转换,掀起了一阵热潮。(更多介绍见下文

干货预警!AI 爆品的产生及潜在方向(内含技术实现方式)

Runway Gen-2

Runway 发布了 Gen-2 模型,使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。并且支持运动笔刷功能,实现视频局部控制。更多介绍见下文

Runway新功能「运动笔刷」再次惊艳AI圈:随手一涂,图片就动起来了

Pika 和 Pika 1.0

在首次发布时,Pika 吸引了超过五十万用户,每周生成数百万视频。在 Pika 1.0 中,升级后的 AI 模型使用户能够以多种风格(包括 3D 动画、动漫、卡通和电影)创作和编辑视频。更多介绍见下文

文生视频PIKA1.0爆火,斯坦福华人学生退学创业,估值超2亿美元

NeverEnds

同样是文本转视频和图像转视频产品。虽然没有太多华丽的功能,但是生成视频的质量和稳定性也让NeverEnds成为了众多AI视频创作者的选择。更多介绍见下文

AI视频工具三巨头:NeverEnds、Runway、Pika将创造视听新时代!

VideoPoet

Google的一个新的视频模型:VideoPoet,它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。

不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从视频中生成音频,可以说是AI视频的“一条龙服务”。更多介绍见下文

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

DomoAI

主要亮点在于支持将视频转化成动漫风格的视频,此外还支持图片生成视频,文字生图等多种功能。

其他人工智能新进展:

AI生成PPT

马上到打工人最头疼的年终总结了,下边是一系列AI辅助PPT生成产品,包括了如Gamma AI、prezi和slidesgo等,它们提供从自动化布局到内容建议的各种功能。还有Tome和Pitch这样的创新者,致力于将演示提升到新的水平。

Beautiful.ai、Decktopus AI和SlidesAI等则是在设计美观、易于使用的界面方面出类拔萃。PresentationAI、Slidebean和Plusdocs等工具强调了模板和设计的自动化选择。

Chatppt和CourseAI - Learning等产品表明了AI技术在交互性和教育领域的应用。SlidesGPT、Airgram、ChatBA和MagicSlides等产品则代表了最新的AI技术如何被集成到用户友好的演示制作工具中,以帮助用户创造更加个性化和吸引人的演示文稿。

AI生成音乐

Meta AI推出的SAM,是一种能够在不需额外训练的情况下“剪切”图像中物体的分割模型,其适应性引人瞩目。SAM通过大量数据集训练,展现了其在物体分割方面的强大性能。

除了 Suno 之外,许多提供类似工具的人工智能音乐初创公司也已进入该领域,例如 Soundful、Magenta、Beatbox(可以生成节拍和器乐曲目)、Soundraw、Loudly、Boomy、Beatoven.ai 等。 更多介绍见下文

人人都能创作音乐的时代即将到来!

AI生成3D

目前这个AI 3D这个领域大概有5个主流玩家:Tripo、Meshy、sudoAI、CSM、LumaAI。除此之外Stable Zero123也是一个不错的选择。更多介绍见下文

AI时代的生成式3D大模型全面评测 - “ChatGPT时刻”的前夜

Segment Anything Model(SAM)

Meta AI推出的SAM,是一种能够在不需额外训练的情况下“剪切”图像中物体的分割模型,其适应性引人瞩目。SAM通过大量数据集训练,展现了其在物体分割方面的强大性能。

Direct Preference Optimization(DPO)

DPO作为一种稳定且高效的方法,被用于微调大型无监督语言模型,并教授文本到图像模型。它通过人类反馈实现了精确控制,而无需复杂的强化学习(RLHF)。

Zephyr Direct Distillation of LM Alignment 

通过直接偏好优化(dDPO)提炼而成的Zephyr-7B模型,为含有70亿参数的聊天模型设定了新的标准,无需大量训练即可增强意图对齐。

自主AI代理-Agent

自主AI代理成为一个显著趋势,标志着向高级自主AI系统的转型。这些AI代理被视为通用人工智能(AGI)的初步展现,它们能够基于用户的目标生成自我指导的任务和指令,并独立工作直到目标实现。

EvoDiff

微软的EvoDiff是一个开源AI框架,用于快速且节省成本的蛋白质生成,预示着在治疗学和工业应用中的进步。

GPT商店、版权防护、ChatGPT机器人构造器

OpenAI推出了GPT商店,用于销售定制的GPT机器人;版权防护,用于承担与版权侵权相关的法律费用;以及一个无代码平台,用于定制ChatGPT版本。

Stability AI开源了其LLM

Stability AI开源了其模型,StableLM-Alpha和Stable Vicuna,它们以在生成文本和代码方面的卓越性能而闻名。Stable Vicuna是第一个使用人类反馈强化学习(RLHF)训练的开源聊天机器人。此外,Stability AI还推出了SDXL Turbo,这是一个实时文本到图像生成模型。
行业合作动态
在2023年这个充满活力的年份,行业领导者之间的重大合作频频出现,塑造了未来的发展轨迹。以下是定义了今年人工智能领域的顶尖合并和伙伴关系:
Stability AI与Init ML
Stability AI通过收购Init ML迈出了重要一步,Init ML是受欢迎的编辑应用ClipDrop背后的智囊团。目标十分明确:将Stability AI的先进技术整合到ClipDrop的生态系统中。这次合作已经促成了SDXL Turbo的开发。
Runway与Getty Images
Runway与Getty Images展开了战略合作,共同推出了新的视频生成模型RGM(Runway和Getty Images模型)。该模型结合了Runway的人工智能能力和Getty Images的授权创意内容库。此次合作旨在彻底改变内容创作流程,使公司能够生成高质量、定制化的视频,以符合其品牌形象。
Snowflake与Neeva
数据仓库平台的重要参与者Snowflake收购了Neeva,后者以使用生成式AI提升搜索体验而闻名。Neeva最近关闭了其基于订阅的无广告搜索引擎。Neeva的创始人也承认,说服用户尝试新搜索引擎是一大挑战。
Shutterstock与OpenAI
Shutterstock和OpenAI承诺进行为期6年的深入合作。OpenAI从Shutterstock获取高质量数据,丰富其模型训练数据集,包括多样化的图像、视频和音乐库。Shutterstock继续利用OpenAI的技术,推出了Shutterstock的AI图像生成工具。
AI法律环境变化
在2023年,随着人工智能法律领域的不断发展,我们发现自己置身于一个充满不确定性和持续辩论的环境中。随着新挑战的出现,围绕版权、公司政策和更广泛的监管框架的讨论仍在继续,这些讨论正在塑造人工智能法律领域的轮廓。以下是2023年最重要的法律议题:
欧洲AI法案
欧盟引入了AI法案,这是世界上第一部全面规范AI使用的法律。该法案根据AI系统所带来的风险进行分类,并据此设定相应的规定。尽管AI法案已被暂时同意,但其实施面临延迟,执法工作将不会在2025年之前开始。
美国版权局对AI生成内容注册的立场
美国版权局采取了决定性的立场,拒绝注册由AI算法Midjourney创建的图像的版权。这一拒绝设立了先例,断言完全由AI单独创作、无人类参与的AI艺术作品不符合版权保护的条件。同样地,美国版权局对AI辅助作品发布了指导意见,澄清了由人类使用AI工具创作的作品可能符合版权保护的条件。该指导意见确认,应根据人类在这些作品创作中的角色是否起决定性作用来评估这些作品。
当前,由于人工智能从属于他人的现有数据中学习,现行法律体系尚未准备好承认AI创作作品的版权,这挑战了所有权的归属。预计通过国家进行的公众调查,让公众参与进来,明年将发展出解决这一问题的实践方法。在没有更广泛的公众参与的情况下,现在独立解决这个问题变得困难。”
来自Daria Kuznetsova,Everypixel公司法律顾问


麦肯锡也发布了一张全面的图表,捕捉了2023年与人工智能治理相关的最重要的政策和监管努力。这一视觉呈现突出了2023年在塑造人工智能法律环境方面的重大贡献。

争议点
2023年,引人入胜的辩论和讨论充斥着整个行业,围绕着人工智能领域不断变化的规范和不确定性展开。随着行业的发展,这些辩论成为不可避免,预示着更多引人深思的对话和即将到来的挑战。以下是今年的一些最值得注意的争议:
对ChatGPT的公司限制
包括摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行在内的主要金融机构限制了ChatGPT的使用,原因是安全和隐私方面的考虑。这反映了一个更广泛的趋势,即公司对员工发出警告,提醒他们注意在公司环境中应用人工智能的法律考量。
OpenAI使用低薪工人
《时代》杂志的调查揭露了OpenAI与Sama的合作,雇佣肯尼亚的低薪工人筛选ChatGPT的敏感内容。这一发现引发了关于工人待遇和内容审查对心理健康影响的伦理问题。
OpenAI的领导层变动
上个月,Sam Altman的离职和迅速回归成为头条新闻。在OpenAI,Sam Altman因与董事会的沟通不一致而辞职,引发了领导层的变动。临时CEO Mira Murati和大多数员工支持Altman的回归。这种前所未有的情况引起了广泛关注,留下了关于转变背后真正原因和未来影响的疑问。
Adobe与Figma
Adobe对Figma计划的200亿美元收购遇到了监管障碍,欧盟委员会和英国竞争和市场管理局对可能的反垄断问题展开了调查。这项提议的交易影响不仅限于设计方面,由于Adobe在客户数据平台上的主导地位,也让首席信息官(CIO)对其对云软件支出的潜在影响表示担忧。然而,Adobe因在欧洲和英国难以获得反垄断审批而放弃了这笔交易,导致向Figma支付了10亿美元的终止费。
摄影师借助AI黑入世界摄影大赛
摄影师Boris Eldagsen通过提交AI生成的艺术作品,扰乱了索尼世界摄影大赛。Eldagsen拒绝接受奖项,引发了关于AI生成图像在传统摄影比赛中的地位的辩论,挑战了对真实性和创造性的看法。
纽约时报起诉OpenAI侵犯其版权
纽约时报指控微软和 OpenAI 在未经许可的情况下使用其版权内容(包括数百万篇文章)来训练他们的人工智能工具。除了纽约时报之外,还有一些普利策奖获奖作者和其他非小说类作家加入了这一诉讼。指控 OpenAI 和微软滥用他们的书籍内容训练 OpenAI 的 GPT 大语言模型,侵犯了他们的版权。
AI生成图片的版权问题

旧的法律法规肯定是没有覆盖过 AI 相关的场景的,包括国内的著作权内容,都没有对 AI 相关的说明。按照旧的判例,是很难指导未来即将出现的大量 AIGC 内容的。

一面是AI机构训练数据涉及的版权问题,一面是AI使用者生成图像的版权问题,这些在2023年我们暂未看到清晰明确的法规,期待在2023年会得到有效解决。
-End-
以上是对2023这一年AI的整体大致总结,也感谢你能看到这里,欢迎点个“赞”“在看”支持我们,先行者社区会持续为你提供最有价值的AI前沿信息。
如果你也对AI感兴趣,欢迎加入交流群讨论!

本帖由 AI先行者编译,转载请联系公众号后台


- END -


112917.jpg
随机推荐

最新主题

0 回复

高级模式
游客
返回顶部