向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
变革——从党的二十大看中国共产党的成功密码之四******
“新时代十年的伟大变革”“一系列变革性实践”“历史性变革”“广泛而深刻的经济社会系统性变革”……
“变革”,党的二十大报告中一个令人瞩目的关键词。
是伟大成就,亦是成功密码。正是在不断的变革中,中国共产党带领人民应对复杂多变的形势和挑战,永不僵化、永不停滞,以识变之智、应变之方、求变之勇推进马克思主义中国化时代化,不断从胜利走向新的胜利。
变革之道:“只有顺应历史潮流,积极应变,主动求变,才能与时代同行”
11月15日,印度尼西亚巴厘岛,二十国集团领导人第十七次峰会在此召开。
“中国将坚定不移走和平发展道路,坚定不移深化改革、扩大开放,坚定不移以中国式现代化全面推进中华民族伟大复兴。”
习近平主席发表重要讲话,向国际社会阐明中国以改革发展共迎时代挑战、共建美好未来的决心和行动。
纵观世界,变革是大势所趋、人心所向,是浩浩荡荡的历史潮流。
“我们从事的是前无古人的伟大事业,守正才能不迷失方向、不犯颠覆性错误,创新才能把握时代、引领时代。”党的二十大上,习近平总书记这样强调。
“流水不腐,户枢不蠹”“苟日新,日日新,又日新”“新故相推,日生不滞”……关于变革的中国智慧,深植于中华文化沃土。
回望百年,冲破把马克思主义当成一成不变教条的思想桎梏,走出农村包围城市的革命新路;跟上时代步伐,实行改革开放的伟大创举;坚持“两个结合”,开创中国特色社会主义新时代……勇于变革,是中国共产党一以贯之的鲜明品格。
洞悉历史大势,立于时代潮头。
新时代中国共产党人以更为强烈的历史自觉和主动精神引领变革、推进变革——
以民心诠释“最大的政治”,坚持以人民为中心的发展思想;破除体制机制障碍,以全面深化改革完善和发展制度和治理体系;秉持全人类共同价值,推动构建人类命运共同体,引领时代进步潮流……
越是伟大的事业,越充满艰难险阻,越需要艰苦奋斗,越需要变革创新。
“紧跟时代步伐,顺应实践发展,以满腔热忱对待一切新生事物,不断拓展认识的广度和深度,敢于说前人没有说过的新话,敢于干前人没有干过的事情,以新的理论指导新的实践。”习近平总书记在党的二十大报告中指明方向。
变革之要:“随时随地都要以当时的历史条件为转移”
明者因时而变,知者随事而制。
“随时随地都要以当时的历史条件为转移。”《共产党宣言》中的经典论述,依然绽放真理之光。
变革之要,在于坚持问题导向。
党的二十大闭幕三天后,《促进个体工商户发展条例》发布,做出一系列制度安排,有利于解决个体工商户“急难愁盼”的突出问题,从整体上提升发展质量。
党的二十大报告强调,“我们要增强问题意识”“不断提出真正解决问题的新理念新思路新办法”。
跟着问题走,奔着问题去。
针对科技创新能力不强,加快实施创新驱动发展战略;从新冠肺炎疫情防控中总结新经验,部署加强重大疫情防控救治体系和应急能力建设;防止“碳冲锋”“运动式”减碳等倾向,要求积极稳妥推进碳达峰碳中和……按照党的二十大部署,一系列新举措已经在路上。
变革之要,在于改革发展稳定相统一。
新时代十年,党带领人民以更大勇气和力度推进的改革,始终是在中国特色社会主义道路上不断前进的改革。
改什么、怎么改,必须以是否符合完善和发展中国特色社会主义制度、推进国家治理体系和治理能力现代化的总目标为根本旨归。
既不封闭僵化,也不改旗易帜。该改的、能改的坚决改,不该改的、不能改的坚决不改。
习近平总书记强调,要把坚定制度自信和不断改革创新统一起来,在坚持根本政治制度、基本政治制度的基础上,不断推进制度体系完善和发展。
国际社会也在研究中国共产党的变革之道。
印度孟买观察家研究基金会前主席库尔卡尼说,保持政治稳定和勇于变革相结合,是中国共产党的成功原因。
“正如我所观察到的,中国共产党完美地将变革与延续性融入其治理国家的制度与结构中。”巴基斯坦欧亚世纪研究所创始所长伊尔凡·沙赫扎德·塔卡尔维说。
变革之要,在于激发人民创造伟力。
人民是历史发展的动力源泉,是社会变革的决定力量。
习近平总书记指出:“要尊重群众首创精神,把加强顶层设计和坚持问计于民统一起来,从生动鲜活的基层实践中汲取智慧。”
今年4、5月,党的二十大相关工作网络征求意见活动开展,收集到网友留言超854.2万条,梳理汇总成意见建议1675条,为未来五年乃至更长时间的改革发展贡献智慧。
12月6日召开的中共中央政治局会议明确提出,“激发全社会干事创业活力,让干部敢为、地方敢闯、企业敢干、群众敢首创”。
当前,经济体制深刻变革,社会结构深刻变动,利益格局深刻调整,思想观念深刻变化,兼顾各方面利益越发不易。
上下同欲者胜。将党的意愿与人民意愿相统一,将党的行动和广大人民心声结合,必将不断汇聚变革创新的强大合力。
变革之智:“努力在危机中育新机、于变局中开新局”
数据显示,今年前11个月,全国规模以上工业增加值同比增长3.8%,固定资产投资同比增长5.3%,货物进出口总额同比增长8.6%。国民经济总体上保持恢复态势。
今年以来,全国新开工水利项目2.5万个,新能源汽车累计销售增长一倍,“6·18”“双11”激发消费热情……不断扩大内需,夯实中国经济的韧性和底气。
时代考卷,常答常新——
全球政治经济环境深刻变化,百年变局与世纪疫情叠加下,我国发展面临前所未有的外部挑战。
国内发展不平衡不充分问题仍然突出,重点领域关键环节改革任务仍然艰巨,一些领域发展还存在短板弱项。
“努力在危机中育新机、于变局中开新局”,习近平总书记带领全党全国人民创新作答。
危和机从来都是硬币的两面。用好危和机的辩证法,根据形势环境变化不断调整,及时科学应对,才能化危为机。
2020年3月,习近平总书记在浙江考察时了解到,大进大出的环境条件已经变化。回京后不久,他提出构建新发展格局。两年多来,构建新发展格局持续迈出新步伐。
“加快构建新发展格局,着力推动高质量发展”,党的二十大报告对此专章阐述,作出新的部署安排。
发展是变革的艺术。推动质量变革、效率变革、动力变革,从根本上看要靠创新。
科技创新已成为大国博弈的主战场。14亿多人口的发展中大国,要加快实现高水平科技自立自强,创新的压力更大、动力更足。
新发展理念中,“创新”摆在第一位。党的二十大报告专门对“实施科教兴国战略,强化现代化建设人才支撑”作出部署,强调“创新是第一动力”。
出台推动虚拟现实(VR)产业快速发展措施、加快推动中小企业数字化转型、开展科技人才评价改革试点……党的二十大闭幕后,一系列着眼创新的举措加速出台,为高质量发展提供不竭动力。
挑战前所未有,应对好了,机遇也就前所未有。
顺应时代潮流,回应人民要求,勇于推进变革。以习近平同志为核心的党中央带领人民准确识变、科学应变、主动求变,定能在攻坚克难中赢得优势、赢得主动、赢得未来,创造出更多令人刮目相看的人间奇迹。
(新华社北京12月23日电 记者邹伟、姜琳、高敬)
《光明日报》( 2022年12月24日 02版)
(文图:赵筱尘 巫邓炎)