人工智能学习人类知识,同时也吸收人类偏见。这种担忧由来已久。但谷歌的一项新发明极大推进了人工智能从文本材料中学习的速度,也使解决机器偏见问题迫在眉睫。
10 月 25 日,谷歌宣布利用 BERT 来优化搜索引擎,已经使英语搜索结果的匹配度提高了 10% 左右。未来,谷歌还会推出学习其他语言和国家的算法。
BERT 是谷歌在 2018 年开发的一种基于神经网络的 NLP 技术,它能一次接收整句话,而非从左至右(或相反)逐字接收。这使得如果有人要搜“在没有路缘的山坡停车”,BERT 能认出“不要”,从而给出正确的搜索结果。而传统搜索引起只会关注“路缘”和“山坡”,给出与搜索意图相反的结果。
图 | BERT 能更好识别“在没有路缘的山坡停车”句子里的“没有”一词,从而理解人类意图(来源:https://blog.google)
让人们担忧的是,BERT 的学习材料正来自数字化书籍和新闻文章。在 BERT 学会一切之前,人们没有时间来清理其中根深蒂固的偏见。而这些偏见一旦被算法吸收,将更难辨认,也更难清除。