【译】Google开源Magika：基于人工智能的文件识别工具

Google宣布开源Magika，这是一款基于人工智能（AI）的工具，用于识别文件类型，以帮助防御者准确检测二进制和文本文件类型。

该公司表示：“Magika优于传统的文件识别方法，提供了整体30%的准确性提升，并在传统上难以识别但潜在存在问题的内容（如VBA、JavaScript和Powershell）上实现了高达95%的更高精度。”

该软件采用了“自定义、高度优化的深度学习模型”，使其能够在毫秒内精确识别文件类型。Magika使用Open Neural Network Exchange (ONNX) 实现推理功能。

Google表示，他们在规模上内部使用Magika来帮助改善用户的安全性，将Gmail、Drive和安全浏览文件路由到适当的安全性和内容策略扫描程序。

2023年11月，这家科技巨头推出了

RETVec（Resilient and Efficient Text Vectorizer），这是一个多语言文本处理模型，用于在Gmail中检测垃圾邮件和恶意邮件等潜在有害内容。

它还强调了对人工智能使用和采纳的平衡监管方法的需求，以避免未来攻击者可以创新，但由于人工智能治理选择的限制，防御者被束缚的局面。

该科技巨头的Phil Venables和Royal Hansen指出：“人工智能使安全专业人员和防御者能够在威胁检测、恶意软件分析、漏洞检测、漏洞修复和事件响应等方面扩展其工作。人工智能为颠覆防守者困境、倾斜网络空间天平，为防御者在攻击者之上获得决定性优势提供了最佳机会。”

尽管如此，对于生成式人工智能模型使用网络抓取的数据进行训练目的也引发了担忧，这些数据可能包含个人数据。

“如果您不知道您的模型将被用于什么目的，您如何确保其下游使用将尊重数据保护和人们的权利和自由？”英国信息专员办公室（ICO）上个月指出。

此外，新研究显示，大型语言模型可以作为“休眠代理”，看似无害，但当满足特定条件或提供特殊指令时，可以编程进行欺骗性或恶意行为。

“这种后门行为可以被持久化，以便它不会被标准的安全训练技术（包括受控微调、强化学习和对抗训练（引发不安全行为，然后训练以消除它））移除，”人工智能初创公司Anthropic的研究人员在研究中说道。

相关阅读:
如果把网络原理倒过来看，从无到有，一切都清晰了（上）
【Node.js】深度解析node的包和强大的包管理工具
解析，强势供应商的管理方法
技术实践干货 | 初探大规模 GBDT 训练
自动化测试基础篇：Selenium 框架设计（POM）
C++ string类模板
Coze入门指南：创建Bot时，如何写好人设与回复逻辑（Persona & Prompt）
飞行动力学 - 第31节-荷兰滚模态机理之基础点摘要
SAP FIORI专题之四：使用fiori element构建over page
8个高质量免费电子书网站，绝大多数电子书都能找到！

原文地址：https://blog.csdn.net/xishining/article/details/136224341