游客发表
生成式人工智能是引领新一代科技革命和产业革命的核心驱动力,是加快培育和发展新质生产力的重要引擎,为经济高质量发展注入新动能,与此同时,各类难以预知的风险和挑战也伴生而来。
安全是发展的基石,为进一步创新筑牢根基。2025年9月15日,粤港澳大湾区生成式人工智能安全发展联合实验室揭牌成立。其将构建“政产学研用”深度融合的创新生态,致力服务企业发展、推动产业落地、加强安全监管,努力实现属地企业安全合规成本全国最低、安全能力水平全国领先,助力粤港澳大湾区成为全国生成式人工智能安全发展服务最优区域。
南方都市报、南都大数据研究院推出“湾区AI安全发展新引擎”系列报道,深度对话参与联合实验室建设的专家,一同憧憬大湾区AI安全发展新未来。
“在大模型训练过程中,数据质量是最重要的一环”……香港科技大学(广州)信息枢纽院长、数据科学与分析学域讲座教授,联合实验室专家陈雷主要研究数据驱动的人工智能、知识图谱、区块链、数据私隐、众包、空间和时间数据库,以及对大型图形和概率数据库的查询优化。他接受南都访谈时表示,人工智能发展到现在,最重要的是数据问题,期待粤港澳大湾区生成式人工智能安全发展联合实验室(简称“联合实验室”)把各高校研究力量整合起来,从政策、制度层面引导正确使用数据。
要通过联合实验室整合数据
南方都市报(以下简称南都):您是世界数据科学与分析领域的领军学者,能否结合数据领域深入研究,谈谈对粤港澳大湾区生成式人工智能安全发展联合实验室发挥自身优势,更好服务人工智能安全发展的期望?
陈雷:粤港澳大湾区制造业很强,要把人工智能运用到传统行业,数据非常重要。通过实验室联合大湾区各类高校,汇聚所有数据,做成大数据平台,供大家使用,做相应大模型测试。或者由联合实验室推出数据测试平台,让各类大模型通过平台测试性能,找出不足,加以改进。
南都:如何确保数据质量,联合实验室能做些什么?
陈雷:数据质量是全世界都想解决的问题,首要的问题是获取到的数据是不是有用?而且数据量要大,量不大就没有所谓数据质量。
数据质量包括无监督、有监督。无监督的数据质量就是通过无监督的机器学习,发现一些质量偏差较远的数据,或者叫异常数据分析。有监督的数据质量一般需要找专家或专业人士对数据打标签,然后用机器学习的方法找出那些较差的数据。我觉得联合实验室可以尝试新的方法,特别是从工业界获取合作项目,整合大湾区人工智能人才以及研究团队,做一些能落地产品或者服务累积高质量数据。期待联合实验室发挥纽带作用,把各高校研究力量整合起来。单打独斗已是过去式,一个人强没用,一定通过联合实验室整合数据。
智联体要落地首先得涉及数据关联
南都:在粤港澳三地制度差异背景下,在推动数据跨境流动过程中,您对建立大湾区数据安全、人工智能安全协同治理体系有哪些建议?
陈雷:数据安全是一个非常难的问题,既要把数据整合起来、用起来,又要保证数据安全,里面有很多技术方法手段,例如同态加密、隐私计算等,使用加密数据做相应 AI训练。
举例而言,大湾区有很多好医院,要做数据共享,才能做更好病理诊断医疗诊断。如果把病人名字、年龄、性别隐藏,数据是不是就没问题了,可以安全使用?这是误区,很多时候通过病人其他信息还是可以转换映射病人是谁。但是,假如隐去年龄,性别这些信息,可能对根据年龄和性别对病情诊断又失去价值。这是有意思的问题,建议联合实验室可以研究怎么建立数据安全的保护机制,不仅是通过技术手段解决,还需要从政策、制度层面,引导正确使用数据,签订相应数据共享、保密协议。
南都:在数据驱动跨学科研究方面,您曾带领团队为港科大(广州)实现许多第一的突破。如何通过数据驱动大模型,赋能产业,构建良性循环协同?
陈雷:大模型赋能产业,最重要的是真正用起来。大模型在文字处理能力特别高,以保险业为例,假如出了一个理赔案,原来保险员要查所有文件、规章,通过匹配才知道要赔多少,谁的责任,其实这些可以使用大模型,通过大模型文件处理能力来操作。
大模型重要应用就是智能体,垂直运用到各行各业。但怎么让人接受,让人用起来,这是最大的问题。假如你休假,会让智能体帮忙订酒店、订机票,预订所有活动吗?我发现主要还是手动抢便宜机票、便宜酒店,以及符合家人出行习惯的活动。为什么智能体做不到这点,技术难题就是智能体之间没有协同,数据没有串通起来。要智能体垂直应用落地,首先要设计好数据直接的互联,同时不要贪大贪多,要让大家体会到具体使用的好处。
培养AI人才不应圈在学校
南都:您能否从自身研究出发,为联合实验室在AI人才培养、技术合作等方面提出一些具体建议?
陈雷:关于AI人才教育培养,榴莲视频APP下载观看官网一直在谈论培养社会、工业需要的人才。但怎么做到这点,目前大学四年,多数是老师在上面讲,学生在底下听,考试考核通过后就颁发证书,等到学生进入社会,两眼一抹黑,发现学的知识与实际工作场景要用的存在差距。香港科技大学(广州)今年第一届AI理学硕士毕业生有40多人,100%找到工作,都在大厂做算法工程师或者AI工程师,怎么做到的?榴莲视频APP下载观看官网打造的就是“1+1”模式,一年在学校集中系统学习 AI知识,强化学习动手能力,一年后送进大厂或者科技企业实践。一年在学校,一年在工业界,他们没有任何不适应,毕业就能在企业独挡一面。培养AI人才不应圈在学校里,应该让他们走出去,只有在工业界实打实的做,才能学到怎么做。联合实验室是很好的平台,希望打造属于自己的“1+1”模式,即一年在联合实验室,一年在联合实验室合作的工业企业,在实践中学习知识,理论与实践全部结合起来。
让大湾区成数据安全使用典范
南都:联合实验室确实可以在AI人才培养发挥资源整合作用。展望未来,您对实验室建设运行又有哪些期待?
陈雷:希望联合实验室成立更多联盟,通过签订协议,助力数据安全使用。让参与者获取实实在在的好处,达到共赢,他们自然而然就会把数据安全使用起来,更加注重数据安全、隐私保护。积累安全的数据越来越多,通过开放共享,让更多企业使用,实现良性循环,让粤港澳大湾区成为数据安全使用的典范。
南都:刚才您谈的主要是数据安全,在人工智能安全发展方面,实验室能发挥什么作用?
陈雷:大模型训练的时候,需要很多数据,肯定会涉及到很多商业或者个人隐私信息。这样,榴莲视频APP下载观看官网就要设计模型的保护机制,对于一些敏感问题,榴莲视频APP下载观看官网怎么保证大模型回答的正确性。实际上,大模型面临很多网络攻击新风险,数据投毒危害值得警惕。榴莲视频APP下载观看官网需要想办法保证大模型安全的输出,而不是输出内容失当或者不可控的东西,这也是榴莲视频APP下载观看官网经常讨论研究的模型安全问题,希望联合实验室联合大湾区众多高校,在这方面多做研究,起到枢纽作用,在赋予AI更多能力同时,将更多精力投入在AI安全之上,确保大模型可信、可靠、可控。
同题问答
在您看来,粤港澳大湾区生成式人工智能安全发展联合实验室能发挥哪些独特作用?
陈雷:人工智能发展到现在,最重要的不是算力、算法问题,而是数据问题,期待粤港澳大湾区生成式人工智能安全发展联合实验室与大湾区众多高校合作,在数据方面发力,建设大数据平台、数据测试平台,让各类大模型通过平台测试性能,找出不足,加以改进。
监制:戎明昌 刘江涛
策划:王卫国 邹莹
统筹:凌慧珊 李伟锋 陈实 付可 关健明
撰文:南都研究员 李伟锋 孔令旖 唐静怡 陈袁 谢小清
南都N视频记者 熊润淼 袁炯贤 伍曼娜 曾俊豪
视频:陈杰豪 赵炎雄 冷锋
视效:AI数据工作室 张许君 郭文哲 原毅
设计:林泳希 尹洁琳 蔡沐晗 严丽萍
实习生:朱恺熙 程佳丽
出品:南都大数据研究院
>{loop type="link" row=1 }{$vo.title}