人工智能未来十年研讨会报告

监管风险,创造机遇 | 2024 年 8 月 5 日

导言

生成人工智能(“生成式 AI”)[1] 正在迅速改变人工智能的格局。 与处理数据以完成分类等任务的人工智能模型不同,生成人工智能会创建全新的内容——文本、图像、音频和视频。 这项技术可以通过多种方式帮助人们,从完成日常行政任务到协助医疗发展。 虽然这带来了令人兴奋的机遇,但这项技术也存在一些风险。 及时解决这些风险至关重要,以免为时过晚。

蓝色圆圈模型,外圈是人工智能,人工智能里面是机器学习,机器学习里面是深度学习,中间是通用人工智能

图 1 :生成式人工智能是人工智能的一个子集,它是通过机器学习的发展而出现的。

2024 年 4 月 12 日,纽约州总检察长詹乐霞的办公室 (OAG) 主办了《生成式人工智能的下一个十年:在监管风险的同时培育机遇》。 本次私人研讨会汇集了领先的学者、政策制定者、倡导者和行业代表,通过小组讨论探讨人工智能技术(尤其是生成式人工智能)带来的重大机遇和风险。 目的是帮助 OAG 制定策略来降低这些风险,同时确保纽约能够始终处于创新前沿。 尽管生成式人工智能是重点关注对象,但发言者也讨论了更传统的人工智能技术,例如自动决策技术。[2]

本报告概述了我们从研讨会上了解到的主要要点。 其旨在与其他政策制定者和政府机构分享见解,并促进关于制定人工智能技术法律和政策方法的公开对话。 

机遇与风险 

当天,发言者们指出了包括生成式人工智能在内的人工智能技术可能为公众带来有意义利益的几个领域,以及该技术带来的主要风险。 

医疗保健用途

人工智能技术有潜力改善医疗保健。 研讨会的参与者讨论了如何利用人工智能进行早期疾病检测、药物研发、监测公共卫生趋势、缓解医生倦怠的行政任务以及精准医疗,即根据遗传和临床特征等信息制定个性化的治疗计划。 

人工智能工具已经被用于辅助医学成像,使扫描更快、更便宜。 这些工具可以通过筛选医学图像来帮助临床医生进行分类,以确定潜在的紧急问题,以供医生优先审查。 如今,人工智能模型经过训练可以更进一步,帮助检测疾病。 一位发言者讨论了一种人工智能工具,该工具可以检查乳房X光照片并识别可能在患癌前五年内预示乳腺癌风险的异常情况,从而实现早期干预并可能获得更好的结果。[3] 发言者一致认为,此类人工智能工具应该用来增强临床医生的工作,而不是取代它。

在行政方面,人工智能现在被用来帮助减轻临床医生的负担,例如记录患者的对话。 一位医生讨论了尝试使用生成式人工智能技术来总结病史,以帮助确保临床医生看到相关信息,否则这些信息可能会在大量笔记中丢失。 这位演讲者指出,生成式人工智能工具还可以通过聊天回答患者的简单问题,并提供翻译服务。 他观察到,随着技术的发展,人工智能工具可以在医院环境中持续运行。 例如,可以使用录音工具来记录患者的对话,或者可以使用监测工具持续观察患者房间内的生命体征。 这些工具可能被用在病人的家里,比如用视频来监控病人的活动。 

然而,这些发展也伴随着风险。 医疗保健数据尤其敏感。 患者可能不了解人工智能工具正在收集哪些数据或如何使用这些数据,尤其是当这些工具在他们的病房甚至家中持续运行时。 除了这些隐私问题之外,人们还严重担心访问不平等。 用于制定个性化治疗计划的临床数据中少数群体的代表性不足,并且人工智能转录服务目前还不涵盖广泛的语言或口音。 发言者指出,要在如此敏感的环境中有效地使用人工智能工具,必须有一个人参与其中,负最终责任,并准备好决定何时信任人工智能工具、何时挑战它们。

信息和错误信息

人工智能工具,包括由生成式人工智能驱动的聊天机器人,可以帮助人们轻松地找到信息。 例如,它们已经被用来补充一些电话线路,如 311 公共非紧急服务和企业客户服务。 使用聊天机器人可以让电话接线员专注于提供特定服务和解决复杂问题。 此外,生成式人工智能工具可以实现翻译自动化,使政府和企业能够更好地用母语与人们沟通,并提供更好的信息获取渠道。 

然而,正如多位发言者指出的那样,这项技术还远不够完善。 众所周知,生成式人工智能很容易得出错误的结论或“幻觉”,并提供错误的反应。因此,生成式人工智能聊天机器人可能会与人们分享不正确的信息,使其成为向公众提供信息的有缺陷的工具。 这些聊天机器人还可以编造有关人们的故事,这可能会造成情感和声誉损害。 

此外,生成式人工智能可能会被不良行为者用来故意制造虚假信息材料,例如深度伪造(deepfakes)。 有关诽谤和欺诈的法律提供了一些补救措施,但并未解决问题的全部范围,特别是当深度伪造变得越来越逼真且更难以检测时。 发言者指出,在大选前几个月,生成式人工智能在虚假信息中的使用将成为主要担忧,因为不良行为者可能会制造大量无法及时得到充分核实的虚假信息。 他们列举了一些音频和视觉深度伪造的例子,如果人们相信它们是真的,可能会产生严重的后果,比如模仿总统候选人的自动电话,鼓励人们不要在初选中投票,[4] 前总统特朗普拥抱福奇博士的照片,[5] 以及五角大楼爆炸的图片,此次爆炸导致市场短暂中断。[6]

管理任务和自动化决策

人工智能工具可能有助于简化一系列行政任务,特别是对于政府机构而言。 例如,一位政府官员概述了使用生成式人工智能计算纳税义务、生成公共教育材料和编写计算机代码的机会。 

人工智能技术的一个常见用例是协助审查申请,这可以显著简化这些流程。 例如,通过使用人工智能工具自动识别有资格享受服务或福利的人,政府机构可以更快、更有效地向选民分发这些服务和福利。

当然,使用人工智能工具预先筛选申请也存在风险。 许多公司使用人工智能筛选工具进行招聘,这可能会引入算法偏见。 一位研究人员指出,一些公司可能已经开始在招聘中使用人工智能工具,目的是解决人工审核中固有的不公平和隐性偏见。 然而,发言者引用了充分的证据表明,人工智能工具往往会放大而不是纠正偏见。 例如,根据过去的招聘数据训练的算法可能会放大过去招聘决策中反映出的人为偏见,并巩固现有的规范。 人工智能算法的黑箱特性使得人们很难理解人工智能工具是否有效、如何有效,从而难以确保决策的公正性。 事实上,一位发言者认为,最好假设人工智能工具默认就会进行歧视。 

数据问题

由于生成式人工智能模型是在前所未有的庞大数据集上进行训练的,因此训练数据的质量、数量和公平使用引发了一些担忧。 一个关键问题是版权,因为公司在其模型中使用从互联网上收集的受版权保护的文章、图像和视频,而没有为创作者提供报酬。 版权问题已引起公众的广泛关注,目前正在进行诉讼。 上一节在医疗保健背景下讨论的另一个关键问题是训练数据中少数群体的代表性不足。 因此,生成式人工智能工具可能创建仅对某些群体有利的输出。 

其他数据问题也尚未受到太多关注,例如用于训练人工智能模型的数据的可用性。 生成式人工智能模型需要大量数据进行训练。 因此,多年来一直免费抓取网络数据的公司比人工智能市场的新进入者拥有巨大的优势。 当平台和内容提供商开始锁定其数据并签订独家许可协议时,情况尤其如此。 这种情况引发了人们的担忧,即市场将集中在少数参与者身上,在技术仍处于起步阶段时,抑制竞争和进一步创新。 

“数据民主化”,或鼓励数据的自由流动,可能带来更大的创新。 当然,任何此类举措都应与隐私问题相平衡,尤其是涉及敏感数据的隐私问题。 随着公司寻求额外的数据进行训练,模型越来越多地使用自己的输出进行训练,即所谓的“合成数据”。 使用合成数据可能会强化问题,特别是幻觉,并最终导致模型更容易出错(“模型崩溃”)。 

人们还担心生成式人工智能工具会输出虚假、有偏见或其他有问题的内容,因为模型是基于本身存在缺陷的数据进行训练的。 这通常被称为“垃圾进,垃圾出”问题。 由于人工智能模型的运行方式几乎不透明,一位发言者指出,人们担心其输出结果可能是基于不准确的数据(例如荒谬的文章)、不适当的数据(例如受保护的类别,如种族或性别)或秘密数据(例如商业机密)进行训练的。 另一位发言者警告称,训练数据的隐私保护不足可能会导致生成式人工智能工具泄露个人数据或在其输出中重新识别去识别化的数据。      

红色垃圾桶图标,带有指向右的箭头,指向蓝色 AI 圆圈,另一个指向右的红色垃圾桶图标

图 2 :垃圾数据输入产生垃圾数据输出。 

缓解策略 

全天,发言者提出了一系列有效利用生成式人工智能的策略,同时降低与该技术相关的风险。

公众收养和教育

许多人过于自信地认为人工智能工具将解决许多问题,但同时又对这些工具持怀疑态度,这阻碍了人工智能在许多领域的应用。 然而,人工智能工具,尤其是生成式人工智能工具,本质上需要采用和测试才能改进。 还有一些教育是通过收养进行的。 它可以帮助人们了解人工智能技术的工作原理、用途和局限性,并有助于消除常见的误解。 几位发言者警告说,对于高风险的人工智能技术使用,重要的是要有“人为参与”,即让人类积极参与建立、测试和调整人工智能模型。 然而,在风险较低的情况下,更广泛地采用人工智能工具可以帮助员工做好承担此类角色的准备。 

一位前政策制定者指出,由于生成人工智能是一种用途尚不明确的通用技术,消费者必须了解这项技术和不断发展的应用程序,以确保它们不容易受到网络钓鱼诈骗等滥用。 发言者还讨论了公众参与的重要性,以及为公众提供表达观点和就人工智能用例(包括招聘和政府使用)提供反馈的方式。 

加强对生成人工智能的公众教育对于减轻潜在滥用的影响至关重要。 如前所述,许多人预计生成式人工智能工具将在选举前传播错误信息方面发挥重要作用。 发言者强调,对公众进行识别人工智能生成内容的教育应是重中之重 重大事件,例如选举。   

透明度和审计

全天,发言者反复呼吁提高人工智能使用方面的透明度。 最重要的是,消费者应该知道他们何时与生成式 AI 工具进行交互以及何时遇到 AI 生成的内容。 为此,发言者建议通过多种方式向消费者增加明确的披露:用通俗易懂的语言制定数据使用政策,解释收集哪些数据以及为什么收集、如何保护以及如何使用数据;与聊天机器人通信时发出通知,这在某些州已是法律规定;在人工智能生成的内容上加上显眼的标签或水印。 尽管一些人认为水印可能很容易被老练的坏人操纵,但一位发言者指出,它在大多数情况下仍然是有益的,至少可以减缓坏人故意欺骗人们的行为。 因此,多位发言者呼吁建立一个强大的水印框架。   

目前,人工智能模型的审计方式缺乏透明度。 从本质上讲,人工智能算法并不透明;因此,对传统人工智能工具的审计通常侧重于评估为识别偏见等问题而产生的输出。 然而,发言者指出,审计大多是临时进行的,公司和研究人员可能不会解释他们如何进行审计。 为了解决这个问题,发言者呼吁制定明确的审计模型标准和程序。 

此类标准已有先例,例如纽约市地方法律 144[7] 及其实施规则,其中概述了使用自动决策技术(ADMT)进行招聘时必须进行的偏见审计的最低要求。 同样,金融机构也制定了强有力的公平贷款合规计划,以评估和管理算法承保框架中的偏见。 此外,一位发言者指出,审计应当针对具体情况。 例如,在审核选举错误信息模型时,选举专员应该就哪些信息是正确的、哪些信息不正确提供专家指导。 第二位发言者建议为算法审计员创建专业认证,以增加对该流程的信任。 最后,第三位发言者呼吁给予外部研究人员更多的审核人工智能模型的权限。 

消费者权利

当谈到人工智能工具时,消费者应该感受到力量的增强。 一位前政府官员引用了白宫的《人工智能权利法案》蓝图[8] 成为努力建立明确消费者权利的良好起点。 该蓝图概述了消费者应受到人工智能工具保护的五个领域,包括安全、歧视和数据隐私。 此外,该蓝图还强调了透明度的重要性,并赋予用户选择不使用 ADMT 而由人类决策者决定的权利。 

白宫的人工智能蓝图:一:安全有效的系统,二:算法歧视保护,三:数据隐私,四:通知和解释,五:人类的替代品、考虑和反馈

图 3 :白宫的《人工智能权利法案》蓝图确定了五项关键原则。[9]

加利福尼亚州目前正在制定 ADMT 规则,并采用了类似的原则。 加州的一位官员深入讨论了规则制定过程,包括为消费者提供选择不使用 ADMT 做出重大决策的能力,或至少向合格的人类决策者对此类决策提出上诉的能力的重要性。 

监管与监督

尽管技术变化迅速,但法律似乎跟不上,但发言者讨论了许多适用于人工智能技术使用的现有法律。 有关歧视、公民自由、隐私、数据安全、诽谤、欺诈、欺骗和竞争的法律可用于控制与人工智能技术相关的一些潜在危害。 发言者还指出,纽约在规范算法危害方面做出了努力,例如之前讨论过的纽约市地方法律 144 和《儿童安全法案》。[10] 该法案规范了社交媒体平台向儿童呈现令人上瘾的算法信息的能力。 

发言者普遍同意,政府必须对人工智能技术进行更严格的监督,即使对该技术还没有完美的理解。 政府可以规范机构对人工智能工具的使用,并使用采购作为监管杠杆,例如通过白宫关于人工智能安全、可靠和可信赖开发和使用的行政命令[11] 以及加利福尼亚州关于该州使用生成式人工智能的行政命令。[12]

然而,对于如何对人工智能技术进行更广泛的监管,发言者们持有不同看法。 一些人赞成通过一项综合性法律,例如《欧盟人工智能法案》(EU AI Act), [13] 该法案创建了一个基于风险的广泛监管框架,并建立了一个集中机构来监督人工智能技术。 其他发言者认为这种模式并不适用于美国,而主张将监管和监督划分为不同的行业并由不同的机构负责。 例如,这意味着卫生与公众服务部可以成为与医疗保健相关的人工智能技术问题的主要监管者。 

后者指出,分布式权力将使机构能够更加灵活地调整法规以适应不断变化的技术,并允许更多的竞争和创新。 全面监管制度的支持者反驳说,特定行业的监管以及州和地方法律可以补充广泛的框架。 值得注意的是,一位倡导组织的领导人警告说,不要相信我们必须在审慎采用和创新之间做出选择,因为政府的责任是最大限度地实现两者。 

发展情况和有待进一步探讨的领域 

自研讨会以来,人工智能技术的监管取得了重大进展。 纽约颁布了前面讨论过的《儿童安全法案》,这是保护儿童免受网络算法伤害的重要基石。 

近几个月来其他司法管辖区也十分活跃。 今年五月,科罗拉多州颁布了《科罗拉多州人工智能法案》, [14] 该法案与欧盟《人工智能法案》类似,根据对消费者造成伤害的风险,对人工智能工具的使用规定了义务。 同月,美国参议院发布了人工智能政策路线图,要求拨款320亿美元用于人工智能创新和立法,以补充适用于人工智能技术的现有法律。[15] 7月,联邦贸易委员会、美国司法部以及欧盟和英国竞争管理机构发表联合声明,概述了保护人工智能生态系统竞争的原则。[16]

然而,当纽约准备应对人工智能技术,特别是生成人工智能的风险时,仍有一些问题需要进一步研究和了解。 例如,多位发言者呼吁制定算法审计标准,但对于适当的标准以及如何采用传统人工智能工具的审计方法来审计生成式人工智能模型,尚未达成共识。 同样,对于如何为人工智能生成的内容开发强大的水印框架也没有达成共识。 由于这些类型的问题需要技术专长,因此仍然存在如何确保合适的人员参与制定此类标准和框架的问题。 

此外,如前所述,人们对监管人工智能技术的适当框架存在分歧,包括适当的集中化程度。 OAG 正在积极监测不同监管框架(如欧盟人工智能法案)的有效性,以便为未来的立法和监管提案提供信息。  

OAG 将继续倾听和了解这项发展中的技术,以及在保护纽约人的同时鼓励创新的适当方法。  

[1]生成式人工智能是人工智能 (AI) 的一个子集,它根据提示生成文本、图像、音频和视频等内容。 生成式人工智能模型在海量数据集上进行训练,并通过机器学习的一个子集深度学习的进步而发展起来。 了解有关人工智能和机器学习基础知识的更多信息的资源是 Abail,IE,et al. (2023)。 政策制定者的技术入门:人工智能和机器学习。 贝尔弗科学与国际事务中心。 

[2]本报告中提到的“人工智能工具”、“人工智能模型”和“人工智能技术”可能指的是传统机器学习模型,或者传统机器学习与生成式人工智能技术的结合。

[3]亚拉,A.,等人。 (2021 年 1 月 27 日)。 基于乳房 X 线摄影的乳腺癌风险稳健模型科学转化医学, 13(578)。

[4] Astor, M.(2024 年 5 月 23 日)。 策划虚假拜登自动电话的政治顾问已被起诉《纽约时报》。 

[5] Nehamas, N.(2023 年,6 月 8 日)。 德桑蒂斯竞选团队在推特上使用明显是假的图片攻击特朗普《纽约时报》。 

[6] Marcelo, P.(2023 年,5 月 23 日)。 事实焦点:五角大楼爆炸的虚假图像短暂地引发了股市的恐慌美联社。 

[7]纽约市行政法规第 20-870 条及以下条款

[8]总统办公厅科技政策办公室。 (2022 年 10 月)。 人工智能权利法案的蓝图 

[9]参见注释8。

[10]纽约州一般商业法第 1500 条及以下条款。 研讨会召开时,立法机关正在审议《儿童安全法案》,并于 2024 年 6 月 20 日颁布。

[11]第 14110 号行政命令,88 Fed. 注册。 75191(2023 年 10 月 30 日)。

[12] 加州行政命令 N-12-23 (2023 年 9 月 6 日)。

[13]欧洲议会和理事会 2024 年 6 月 13 日第 2024/1689 号条例 (EU),规定了有关人工智能的协调规则并修订了第 300/2008 号条例 (EC)、第 167/2013 号条例 (EU)、第 168/2013 号条例 (EU)、第 2018/858 号条例 (EU)、第 2018/1139 号条例 (EU) 和第 2019/2144 号条例以及第 2014/90/EU 号指令、第 2016/797 号指令和第 2020/1828 号指令 (EU)(《人工智能法》)。

[14]科罗拉多州修订法规第 6-1-1706 条及以下条款。

[15]参议院两党人工智能工作组。 (2024 年 5 月)。 推动美国人工智能创新:美国参议院人工智能政策路线图 

[16]联邦贸易委员会。 (2024 年 7 月 23 日)。 关于生成式人工智能基础模型和人工智能产品竞争的联合声明