首页 > 行业资讯 > 一文读懂AI最新进展！打工人使用指南→

一文读懂AI最新进展！打工人使用指南→

时间：2023-10-16 来源：浏览：

一文读懂AI最新进展！打工人使用指南→

天府科技云

天府科技云

微信号 tianfukejiyun

功能介绍天府科技云是全省科协系统打造的科技（科普）智能服务交易平台，可帮助科技工作者（团队）智能拓展服务空间、智能转化科研成果、智能承接科研项目；可帮助企事业单位智能共享全省科技人才和技术，广泛便捷获取科技服务；可为您提供权威科普知识。

收录于合集

以下文章来源于科普中国，作者科学边角料

科普中国 .

公众科普，科学传播

2023年3月，以GPT-4为代表的AI技术掀起了一波AI热，而时隔半年，AI领域又有了很多新进展，其中有一些可能会彻底改变身为“打工人”的生活。

下面，我们就来盘点一下这半年来，AI领域那些最值得你关注的事情。

GPT最大对手Gemini出现

2023年5月，在Google I/O开发者大会上，谷歌CEO劈柴（PiChai）透露出谷歌旗下的Deep Mind正在训练Gemini（双子星）模型。

Gemini是专门对标GPT-4的大语言模型，根据半导体研究公司SemiAnalysis的分析，Gemini的算力会达到GPT-4的5倍。

另外和GPT-4相比，Genimi能更好地支持多模态输入，这意味着 除了文字信息，Gemini还能处理图片、语音信息 ，这让Gemini用起来可能会比现在的GPT-4更加方便。

而且我们可能很快就能见证Gemini的表现。根据海外科技媒体《The Information》在9月14日的报道Gemini已经向一些公司开放了使用、测试的权限。可能要不了多久Gemini就会部署到谷歌的产品矩阵中，开始为大众服务。

图源：网络

Open AI训练

更加多才多艺的“GPT-5”

当然了，面对Gemini这样具有多模态能力的对手，OpenAI也不会坐以待毙。

其实早在今年3月份的GPT-4发布会上，GPT-4就展现出了多模态的处理能力。当时发布会上，演示者手绘了一张网页的草图，拍照发给GPT-4告诉它按这种布局做个网页，GPT-4立即写出了网页代码。

不过在发布会结束后的实际应用中，使用者们似乎并没有体验到ChatGPT的多模态处理能力。

为了应对谷歌的Gemini的挑战，OpenAI将ChatGPT和新型图像生成模型DALL·E-3结合起来，让GPT更加“多才多艺”。在9月25日，GPT-4版本更新之后，它也能够处理语音和图片信息。

比如，下面是用DALL·E-3和ChatGPT共同生成的内容。 GPT不仅能够根据文字绘制对应的图片，也能解释图片上的信息，并且根据对话对图片进行一些修改。

DALL·E3 根据文本创作的图片

GPT 解释为什么图片中的小刺猬这么好

按照要求“展现小刺猬很热心”DALL·E 3 生成的图片

除了把DALL·E-3和ChatGPT结合起来，OpenAI也开始部署“GPT-5”。在9月25日发布的GPT新版本中，已经引入了语音交流和识别图像的测试功能。

其实在今年3月（也就是在GPT-4出现之后不久），出于对信息安全、隐私等方面的担忧，网络上曾经掀起过一股呼吁暂缓研究GPT-5的浪潮。作为OpenAI的CEO，萨姆·奥特曼也承诺短期内不会训练GPT-5模型。

根据The Information的报道，在GPT-4出现之后半年，OpenAI已经开始研发一款新的代号“Gobi”的模型，这种模型在设计之初就具有多模态能力。甚至一些媒体声称，它有可能会是未来的GPT-5。

微软发布“打工人福利套餐”

Microsoft Copilot

9月21日，微软发布了Microsoft Copilot全家桶。如果你对Microsoft Copilot比较陌生，那可以这么理解， 我们常用的Word、Excel、PPT等软件以及Windows自带的浏览器都将获得GPT-4的加持。

以我们最常用的Word为例，在写文稿的时候，你可以直接告诉Word一个主题，让它自动生成一段和这个主题相关的文稿。同时，它还具备配图功能，你甚至不需要花时间在网上找图，直接让它根据文字生成图片即可。

还有Excel，在新的Microsoft Copilot全家桶中，你不再需要记各种公式，也不需要在Excel里编程，只需要告诉Excel你的目的，它会自动替你完成写公式、写代码、分析数据的工作，你只需要等着看结果就可以了。

除此之外，在浏览网页的时候，你甚至可以不用详细阅读网页的内容，浏览器可以直接帮你总结出当前页面的重要信息，帮你大大节约时间。

这可能是这半年来对打工人最“友好”的AI大礼包。

AI帮助人类了解气味

在人类的视觉、听觉、嗅觉中，嗅觉可能比我们想象的复杂得多。

对于视觉，我们看到的颜色可以跟光的波长建立关联，对于听觉，声音跟物体的振动频率有关。而对于嗅觉，人类不仅拥有数百个嗅觉感受器，生活中常见的味道往往是由很多种类的气味分子共同形成的，因此很难建立一个简单又完美的数学模型。

今年8月发表在《科学》上的一篇论文指出， 科学家通过“图形神经网络”的AI技术，识别出了气味与成分之间的关联，生成了气味图谱 。依据这个图谱，我们就可以利用已知的化合物去配置想要的味道。

更重要的是，AI绘制的气味地图涵盖了50万种潜在的气味，这意味着在AI的帮助下，我们可能能闻到之前从未想象过的味道。这可能会大大改变食品还有香料行业的现状，让我们的生活更“有味”。

AI识别气味的过程，图片来源：参考文献

自动驾驶亲口告诉你

自己是怎么开车的

在9月14日，自动驾驶公司Wayve发布了开环自动驾驶评论器LINGO-1。我们可以把它简单理解成是 一种自动驾驶解说器 。

自动驾驶为什么需要配一个解说器？其实这是一项非常有趣又很重要的研究。想象一下，你在开车的时候，每做一个选择、动作肯定是有某个依据的。比如，你觉得前面的车太慢了，同时旁边的车道又很空很安全，于是你决定去开到旁边的车道去超车，或者在路口你放慢了车速，是因为这里人比较多，你需要谨慎观察周围的环境。

LINGO-1也能够把自动驾驶汽车每一步的行为用人们熟悉的自然语言解释出来，还能根据人类的特定问题作出回应，比如当自动驾驶汽车停在路口的时候，你可以问它“你现在在观察什么？”；如果身边有人在骑自行车，你也可以问自动驾驶汽车“你怎么判断你跟这个骑自行车的人保持了安全距离？”

目前LINGO-1的回答准确率大约只有60%，但LINGO-1的能力还在不断提升，而且这种研究意义很大。

它能够提高人工智能的可解释性。过去自动驾驶汽车的很多决策对人类来说都是一个黑箱，我们不知道汽车为什么要变道行驶，也不知道为什么前面明明可以超车，它却选择不超车。在了解AI是怎么样做决定之后，工程师们也能更好地设计自动驾驶算法，不断提高自动驾驶汽车的安全性。同时也能增加普通用户对自动驾驶的理解和信任，让人工智能做决策的过程不再是一个黑箱。

AI在多项比赛中超越人类

8月30日，一篇发表在《自然》上的文章显示，在第一人称视角的无人机竞速项目上，AI已经超越了人类。

第一人称视角的无人机竞速跟一般的遥控飞机不一样，飞行员需要从高速飞行的无人机视角观察环境，进行操纵。对AI来说，AI需要快速分析视频传感器中传回的信息，并做出决策优化飞行路线。按照《自然》文章中的说法，能够在这项比赛中打败人类冠军，是“移动机器人和机器智能领域的里程碑”。这项成果可能对未来的自动驾驶汽车、无人飞行器具有重要的价值。

除了在无人机领域，在验证码领域，AI也有惊人的表现 。

验证码在生活中非常常见，当你想输入账号登录网页的时候，往往会看到各种各样的验证码，包括识别奇形怪状的字母、数字，拖拽拼图一样的滑块，或者点击“脑袋向上”的图片。这些验证码的目的是防止机器人恶意登录、注册。

但2023年7月的一篇文章显示，AI可能比人类更擅长应对验证码。实验邀请了超过1000名人类测试者让他们使用120个主流网站上的验证码。

结果发现，人类解决验证码问题的准确率在50%～80%，相比之下，AI解决验证码的准确率在85%～100%，大部分都在96%以上。除了准确率比人高，AI解决验证码的时间也比人类快0.5秒。

这意味着，随着AI技术的发展，人类用来防范AI的验证码作用可能也越来越小，这对网络和信息安全来说是一项非常严峻的挑战。科学家们需要开始设计能防住AI、又不会把人类难倒的新型验证码了。

人脑模拟计划“失败”

虽然近些年人工智能技术突飞猛进，但是 在用AI模拟人脑这件事上，人类惨遭“滑铁卢”。

在2013年，欧洲的科学家们开启了一个为期10年的“人类大脑计划”。科学家们打算在10年的时间里，用顶尖的计算机技术模拟人脑的上百亿个神经元和它们的神经突触，从而还原人类大脑的运行过程，揭开人类大脑的奥秘。

今年10月1日，就是这个项目的“兑现”时间，但科学家们总共投入了13亿欧元（约100亿人民币），却始终距离“模拟人类大脑”这个目标相去甚远，科学家们远远低估了人类大脑的复杂程度。可以说，这是人类建造“人工智能”尝试上的一次失败。

虽然在人类大脑计划中，人类没有成功建立起一个“人工智能”，但这样的探索非常有意义。在这个项目中，科学家们确实对人类大脑有了更深层次的了解。比如科学家们绘制出了更详尽的人类大脑图谱，在前额叶皮层中还发现了几个之前未知的脑区。

另外，科学家们建立起了基因表达和大脑结构之间的关联，科学家们能够从基因层面上研究一些大脑结构相关的疾病（比如抑郁症）。一些数字大脑模型在帕金森等疾病领域也已经有了临床应用。

图源：unsplash.com 摄影师：Xu Haiwei

除了欧洲的人脑计划，中国、美国、日本、韩国、澳大利亚等国家也都有自己的人脑计划，只有我们更深入地了解人脑结构，了解智能的本源，才能更好地发展“人工智能”技术。

人工智能领域的发展极其迅速，在半年里，GPT-4就遇到了强劲对手、AI帮助人类构建起了气味图谱和更详尽的大脑图谱，自动驾驶汽车也拥有了“讲解员”。

正是这样迅猛的技术发展，让我们能够享受到更加安全、便捷的生活。它们的发展是生活中每天都在上演的科幻大片。

参考文献

[1] https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

[2]https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai

[3] https://openai.com/dall-e-3

[4 ]https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

[5] https://sitn.hms.harvard.edu/flash/2023/this-ai-smells-better-than-you/

[6] https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

[7] https://www.nature.com/articles/d41586-023-02600-x#ref-CR3

[8] https://arxiv.org/pdf/2307.12108.pdf

[9] https://qz.com/ai-bots-recaptcha-turing-test-websites-authenticity-1850734350

[10] https://www.nature.com/articles/s41586-023-06419-4

来源：科普中国

上一条：项目推介第60期｜广安盐皮蛋低温低压杀菌技术攻关

下一条：960亿！蜂巢能源/宁德时代/亿纬锂能瓜分宝马160GWh电池订单

版权：如无特殊注明，文章转载自网络，侵权请联系cnmhg168#163.com删除！文件均为网友上传，仅供研究和学习使用，务必24小时内删除。

一文读懂AI最新进展！打工人使用指南→

一文读懂AI最新进展！打工人使用指南→

微信公众号

小编微信