向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
奋楫笃行·市规划自然资源委顺义分局以保障房供应为抓手 为产业高质量发展积势蓄能******
导 读
习近平总书记在党的二十大报告中指出,要建设现代化产业体系,坚持把发展经济的着力点放在实体经济上。市规划自然资源委顺义分局立足职能,以保障房供应为抓手,聚焦企业急难愁盼的问题,统筹规划引领与规划实施,统筹产业发展与农民增收,统筹市场需求与资源供给,统筹职住平衡与产城融合,实施产业园区周边配套设施提升行动,推出三个有需求、有配套、有品质、能落地的集体土地建设保障性租赁住房项目,切实解决企业后顾之忧。
顶层设计,统筹兼顾
根据《北京市城市总体规划(2016年—2035年)》,顺义区作为创新引领的区域经济提升发展先行区,目前正处在新兴产业发展的关键阶段。经实地调研,企业对产业园区周边配建保障性租赁住房的需求较为强烈。为切实解决入区企业的“急难愁盼”,顺义区决定在中关村顺义园区和中德产业园区周边利用集体土地建设三个保障性租赁住房,一方面发展集体经济,盘活集体土地,促进农民增收;另一方面精准服务企业,解决企业需求,持续完善产业生态。三个保障房项目由政府统筹规划选址、统筹建设运营、统筹配套建设、统筹租赁管理,目前已全部实现供应,总用地面积约12公顷,建成后预计可提供约3000套保障房。
顺义区主要功能区布局规划图
摸清底数,明确需求
分局会同区住建、经信、属地政府和产业园区将现状租赁住房存量与企业上报实际需求进行叠合分析,明确全区租赁住房需求缺口的规模、类型和空间分布。结合全区产业发展布局,综合考量本区产业基础较好地区进行选址,并对当地现状企业员工房屋租赁空间、类型及租金水平进行实地调研,开展画像描述,明确功能配套、公共服务、租金等需求。
产业园区周边保障房资源和需求空间分布图
多元分析,保障配套
分局立足规划引领,联动区级各相关部门、属地开展多维度分析,选取配套设施完善、交通便利的区位推进保障房建设。参照《北京市保障性租赁住房建设导则》等规范中关于租赁住房规划选址要求,对顺义用地空间从配套设施、交通设施以及职住平衡三方面进行评价,选取适合租赁住房建设区域。在此基础上,属地结合用地现状、国土空间规划编制等实际工作,进行选址确认,并将确定的建设图斑和选址方案报区级部门联合审查,重点对城市风貌、商业公服配套、教育医疗设施等会商研究,确保配套同步建设使用。
保障房用地选址综合要素技术分析路线(局部)
契合需求,把控品质
分局根据服务人群的工作和生活特征,结合居住及其配套、公共交流等需求开展建设方案设计。居住方面,设计居住标准单元,在把握成本的同时,提升居住品质,满足单人、双人居住需求,并为多人居住提供多种户型的组合方式,更具灵活性,满足多元化需求。配套和公共交流方面,充分统筹地块空间,除在居住公共空间设置会客厅、快递室、自助洗衣房等配套设施满足日常需求外,设立独立商业,引进便利店、咖啡店、书店、美容美发等商业设施,满足休闲交流需求。
基于实地调研明确供给端设计要求
精准测算,推动落地
分局分别就项目实施主体、产业园区企业关心内容进行分析测算,确保保障房项目落地。参考项目周边住房租金水平,考虑保障性租赁住房的优惠政策、未来租金涨幅等因素,精准测算项目保障房的住房租金价格。与企业深入交流座谈项目区位、设计方案、户型设计、租金价格相关信息,同时对项目资金投入、收益平衡年限等进行测算,保障项目经济可行性。
分局将会同相关部门,加快推进三个保障房项目建设工作,深耕产业发展基础,助力企业“轻装上阵”,在盘活集体土地、保障农民增收的同时提升市民、青年人等群体住房满意度。
本内容由市规划自然资源委顺义分局提供
(文图:赵筱尘 巫邓炎)