在数字化浪潮的推动下,人工智能(AI)正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展,捕捉行业动态;提供深入的新闻解读,助您洞悉技术背后的逻辑;汇聚行业专家的见解,分享独到的视角和思考;精选对您有价值的信息,帮助您在AI时代中把握机遇。
1 分钟速览新闻
谷歌AI机器人惊人:复杂场景指令成功率达90%
颠覆性突破!Meta将推4050亿参数Llama 3-405B
贝索斯和孙正义豪掷3亿,机器人新贵Skild AI横空出世!
FlashAttention-3引爆AI界:H100利用率提升至75%
AI重大突破:全新视频思维链框架VoT引领未来
全球AI新闻
一、谷歌AI机器人成功率惊人:复杂场景指令成功率达90%
资讯概要
谷歌的DeepMind团队正利用Gemini技术训练机器人,使其在复杂环境中执行任务更加灵活自如。通过Gemini 1.5 Pro的上下文窗口(200万个词元),用户可以用自然语言指令与RT-2机器人互动。例如,用户展示手机并询问充电位置,机器人会引导其找到插座。在一个约836平方米的操作区内,机器人在升级后执行50多条指令,成功率达到90%。研究还显示,Gemini 1.5 Pro可以让机器人完成导航以外的任务,如寻找特定饮料并报告结果。DeepMind计划进一步研究这些发现。
硅纪元视角
谷歌的DeepMind团队通过Gemini 1.5 Pro技术训练机器人,使其在复杂环境中更加灵活自如地执行任务,标志着AI在智能机器人领域的重大突破。Gemini 1.5 Pro的上下文窗口(200万个词元)允许用户用自然语言指令与RT-2机器人互动,提升了人机交互的便捷性和直观性。例如,用户可以展示手机并询问充电位置,机器人便能引导其找到插座。在一个约836平方米的操作区内,机器人执行50多条指令,成功率高达90%。此外,Gemini 1.5 Pro还能完成导航以外的任务,如寻找特定饮料并报告结果,显示出其多任务处理能力。此技术在家庭助理、商业服务、医疗护理等多种场景中具有广阔的应用前景,能显著提升效率和用户体验,推动智能机器人更广泛地融入日常生活。
二、颠覆性突破!Meta将推4050亿参数Llama 3-405B
资讯概要
Meta 公司计划于 7 月 23 日发布其最强大的开源 AI 模型 Llama 3-405B,该模型拥有 4050 亿参数,相比现有的 80 亿和 700 亿参数版本更为强大。Llama 3-405B 是一个多模态 AI 模型,能够理解图像、文本等多种媒体内容。今年 4 月,扎克伯格曾透露正在训练这一高参数模型,但未透露具体信息。科技媒体 The Information 援引内部员工的消息发布了这一消息,IT之家也查阅了社交媒体发现已有开发者在使用该模型。
硅纪元视角
Meta 公司即将发布的 Llama 3-405B 是一款具备 4050 亿参数的多模态 AI 模型,能够理解图像、文本等多种媒体内容,显著提升了 AI 在多个领域的应用潜力。在医疗领域,Llama 3-405B 可以通过分析医学影像和病历数据,提供更精准的诊断和治疗建议。在教育领域,这款模型能够辅助教师制定个性化教学方案,并通过图文并茂的方式帮助学生更好地理解复杂概念。此外,在内容创作和社交媒体管理方面,Llama 3-405B 可以生成高质量的文本和图像内容,提高创作效率。总体而言,Llama 3-405B 的发布将推动各行业智能化进程,为各类应用场景带来前所未有的价值。
三、贝索斯和孙正义豪掷3亿,机器人新贵Skild AI横空出世!
资讯概要
Skild AI是一家位于匹兹堡的机器人初创公司,最近获得了3亿美元的A轮融资,公司估值达15亿美元。其投资方包括贝索斯、孙正义的软银等知名企业和学术机构。Skild AI由两位前卡内基梅隆大学教授创立,团队成员来自Meta、特斯拉等顶尖公司。他们开发的通用智能系统可以让不同机器人获得基本能力,如爬坡和识别物品。Skild AI的数据集规模是竞争对手的1000倍,结合了多种数据收集技术和创始人独特的方法,显著提升了模型的学习效率和适应能力。Skild AI希望通过微调其基础模型,实现机器人行业的颠覆性变革,并最终达到通用人工智能(AGI)的目标。
硅纪元视角
Skild AI的通用智能系统为机器人行业带来了革命性变革,其开发的技术赋予机器人基本的运动和识别能力,使它们在各种环境中表现出更高的灵活性和适应性。通过拥有规模是竞争对手1000倍的数据集,Skild AI的模型学习效率和适应能力显著提升,从而加速了机器人的智能进化。具体应用场景包括仓库自动化、无人驾驶车辆、家庭服务机器人等领域,这些机器人能够高效执行复杂任务,如搬运货物、识别和避障等。未来,Skild AI的技术有望在制造业、医疗健康、农业等多个行业中得到广泛应用,推动整个行业向智能化方向迈进,并为实现通用人工智能(AGI)奠定坚实基础。这不仅提升了机器人行业的整体效率,也为不同领域的自动化和智能化提供了新的解决方案。
四、FlashAttention-3引爆AI界:H100利用率提升至75%
资讯概要
英伟达与多家机构合作推出了 FlashAttention-3,使得 H100 GPU 的利用率飙升至 75%。该算法通过三大技术提升了注意力计算速度,包括 warp-specialization 技术、交错分块运算和利用低精度 FP8 处理。FlashAttention-3 的速度是其前代版本的 1.5-2 倍,达到 740 TFLOPS,并在使用 FP8 时速度接近 1.2 PFLOPS。这项改进不仅提升了 GPU 的效率,还降低了运行大规模人工智能模型的成本和内存使用,使大型语言模型(LLM)能处理更长的文本片段,更高效地生成复杂内容。
硅纪元视角
这项技术的进步,不仅使GPU运行效率大幅提升,还有效降低了大规模人工智能模型的运行成本和内存使用。具体应用场景包括大型语言模型(LLM)的训练与推理,使其能够处理更长的文本片段并生成更复杂的内容,从而在自然语言处理、自动化内容生成和智能对话系统等领域带来显著价值。这一创新进一步推动了AI技术在各行业中的普及和深入应用。
五、AI重大突破:全新视频思维链框架VoT引领未来
资讯概要
新加坡国立大学联合南洋理工大学和哈工深的研究人员提出了首个视频推理框架Video-of-Thought(VoT),该框架显著提升了视频多模态大语言模型在复杂视频理解和推理上的性能。VoT分为五个步骤,从任务定义、目标识别,到答案验证,模拟人类的思维方式,对视频内容进行精细的时空场景图分析,并结合常识进行高层次推理。实验表明,VoT在复杂视频问答任务上的表现超过了现有的传统模型,特别是在需要认知推理的任务中,效果尤为明显。这一研究成果已被ICML 2024接收为口头报告论文。
硅纪元视角
新加坡国立大学、南洋理工大学和哈工深联合开发的Video-of-Thought(VoT)视频推理框架,为视频理解和推理带来了革命性进步。通过模拟人类的思维过程,VoT在任务定义、目标识别和答案验证等五个步骤上进行细致的时空场景图分析,并结合常识进行高层次推理。该技术在复杂视频问答任务中的表现显著优于传统模型,特别是在认知推理任务中效果尤为突出。应用方面,VoT在自动驾驶、安防监控、医疗诊断等领域展现出巨大潜力。例如,在自动驾驶中,它可以更准确地识别和理解复杂交通场景,提高安全性;在安防监控中,可以增强对异常行为的检测能力;在医疗诊断中,可以帮助医生更精确地分析视频影像数据,辅助诊断。这一突破性进展,预示着AI技术将在更多视频理解相关的领域中发挥关键作用,推动各行业的智能化进程。