SG-API: 下一代學習者的開源 3D 探索式搜尋引擎 — 點子階段

華士頓 Austin Hua
10 min readDec 24, 2022

--

記得抬頭看看星空,不要低頭看腳下。試著理解你所看到的,好好思考造就宇宙的原因。”
― 史蒂芬·霍金

介紹一下起初是提交給世界最大黑客駭客挑戰賽的 3D 搜尋引擎 API — NASA 的 Space Apps Challenge — “Stargazer”。

Stargazer — 下一代天文學家

夜空之所以多樣,是因為無論從地球還是其他地方看,宇宙都會團結人類探索它之外的東西。在對地球和宇宙大規模研究中,NASA 每天都產生數千兆位元組的新數據。篩選和分類這些迷人而混沌的大量數據並非易事。
→ 歡迎使用 Stargazer。Stargazer 是一個開源的 3D 搜尋引擎,它可以篩選並整理免費且公開可訪問的 NASA 數據 — 視頻、圖片和音頻記錄 — 並使用 AI 機制將相似的數據配對在一起。

View: Stargazer 1.0 submission to NASA Space Apps Challenge 2022
觀看: Stargazer 1.0 提交給 NASA Space Apps Challenge 2022

就像大多數 Space Apps Challenge 參賽作品一樣,Stargazer 也是一個正在進行中的項目。
以下是我們要達成的目標。

Stargazer 1.0 演示

你正身處於一個 3D 學習空間 — 無論是 VR、AR、筆記本電腦還是手機。

往前看。你會看到你當前的搜尋請求 — “星雲” — 以及成群的數百張星雲圖像,有些來自遙遠的星系,有些是非常近的,有些是紅色的,有些是紫色的,還有無數其他可能。

現在看看周圍。在任何方向,你都會看到你的搜尋歷史。

往左看,你會看到你過去的搜尋請求 — “Radio-loud、Radio-quiet 和類型 2 超大質量黑洞” — 以及你所搜尋的東西 — 這三種超大質量黑洞,自動聚集在它們的三個不同子群中。看較近地子群中的 Radio-loud 超大質量黑洞圖像,你會注意到其實有兩個”子子群”:超大質量黑洞子子群(大部分數據都在這裡)和超大質量黑洞子子群(幾個異常值在這裡)。如果你往上看,你會看到另一個搜尋請求 — “岩石行星”。其中一些岩石行星是最近發現的系外行星,如 LHS 3844b,而另一些則在我們的太陽系中,如地球和火星。在這些岩石行星旁邊,從你的 “氣體巨行星” 搜尋請求中,你會看到一群氣體巨行星,如土星,以及一些 Hot Jupiter 系外行星,如 HAT-P-12b。

如果你點擊任何一個請求(query),你會發現有一個詳細的學術解釋,說明了每個子群是如何形成的原因。例如,點擊 “岩石行星” 請求後,一個信息框會彈出並解釋岩石行星既存在於我們的太陽系中 — 木星、金星、地球和火星 — 也存在於我們的太陽系之外,即所有的系外行星。

Stargazer 最初是作為 “The Art in our Worlds” 挑戰的提交物,這是 2022 Space Apps Challenge 中的 23 個挑戰之一。我們設計 Stargazer 時考慮到了三個關鍵元素:創造性學習、探索性搜尋和沉浸感。

  • 創意學習的藝術:搜索結果相連的網狀結構-“集群”和“子集群”-類似人類神經網絡,提高學習效率,並允許創造力和定制性。
  • 探索式搜索的藝術:與大多數使用對齊文本的搜索引擎不同,Stargazer具有多彩的節點,帶有可拖動的集群和主題鏈接,提供更令人興奮且直觀的搜索體驗。
  • 浸入式藝術:Stargazer在我們稱為“學習空間”的虛擬世界中創建了信息。我們的下一步是使用HCI設備(如VR和AR)將其帶到實體展廳,使搜索體驗更具沉浸感。

使用Stargazer,您的搜索歷史和查詢將成為您自己定制的3D學習環境。這為好奇的年輕天文學家提供了一種美麗而強大的教育機制,使他們能夠學習關於宇宙的各種新事物。

我們非常榮幸地宣布,我們的項目已在NASA 2022 Space Apps Challenge用挑戰中被授予Global Nominee的稱號。

SG-API — 介紹

我們現在的計劃是使用一個名為SG-API的新框架扩展我们的Stargazer设计。 “SG”原本是“Stargazer”的缩写,现在已被重新用作“空间图API”。
SG-API是一种通用API,旨在提供由各种可视化工具提供动力的3D搜索引擎,并配有各种由ML驱动的数据聚类机制来聚类相似数据。

SG-API的想法來自我們對Stargazer的工作; SG-API應用Stargazer的創造性學習,探索性搜索和浸淫原則。

SG-API — 技术概述

  • 搜索查詢: BERT-like embedding with Semantic Search(帶有語義搜索的BERT類嵌入
  • 資料清理:Texthero,Scikit-Learn和其他相關的Python ,取決於data modality(資料的模態)
  • 聚類:K-means聚類和其他相關方法,取決於資料的模態
  • 前端: 3D Force Graphs. 前端伺服器由Azure Static App托管。
  • 後端: Microsoft Azure App Server 或其他選擇的平台。後端由Flask驅動。後端伺服器提供了由Pickle模塊封裝的封裝模型,以利用ML技術對系統的整體可搜索性。後端由微軟Azure應用程序伺服器托管,該伺服器提供從GitHub的內置CI / CD流水線。
  • 顯示格式:VR(AFrame),AR(AR.js),2D(2D HTML Canvas)和3D(WebGL / ThreeJS)

SG-API — 提议的关键功能

雖然Stargazer專注於三個主要功能(1)、(2)和(3),SG-API還可能具有其他关键功能(4)和(5)。

(1)顯示自由且開放數據的3D搜索引擎
(2)大型數據集群,其中每個集群代表個別查詢
(3)每個集群中的較小的子集群,根據相似特徵由AI分組
(4)根據AI計算的查詢相似性安排搜索歷史
(5)可解釋的AI討論(5.1)如何形成每個子集群,(5.2)每個查詢/大型集群之間的距離計算的含義以及(5.3)AI如何理解您的查詢的含義的邏輯。

請注意,(3)和(4)的實現需要高度的可定制性,這將取決於開發人員預期的應用情景。

我們對新的想法和建議添加更多功能感興趣。請在我們的Discord服務器(以下鏈接)上與社區分享您的想法!

SG-API — Potential Applications

除了為年輕天文學家提供強大的教育工具外,我們相信SG-API未來可能應用於各種領域 — 不僅是天文學,而且還可用於各種目的 — 教育和專業。

  • 生物學家:一位生物學家正在尋求提高她關注帝王企鵝(Aptenodytes forsteri)分類學的研究論文。通過搜索查詢“帝王企鵝”,她找到了帝王企鵝的圖像,以及一些看起來顯然要小得多的帝王企鵝在子集群中。通過點擊她的查詢結果,通過可解釋的人工智能,她發現這個“小帝王企鵝”的子集群實際上是國王企鵝(Aptenodytes patagonicus)的子集群 — 一種完全獨立的企鵝物種,具有相同的屬和許多帝王企鵝的相同顏色
  • 醫生:一位醫生搜索有關他們病人的醫療數據,輸入搜索查詢“病人糖尿病與人口統計分區”,我們形成了9個年齡分區子集:10–19、20–29、30–39、40–49、50–59、60–69、70–79、80–89和90–99。分區機制知道醫生沒有任何被診斷出患有0到9歲的糖尿病的病人,或者至少100歲的病人。鑑於他的病人在這些年齡分區中被均勻分配,醫生可能會發現一個明顯的趨勢,即患有糖尿病的最小子集群是10–19歲的年齡分區,患有糖尿病的最大子集是90–99。
  • 語言學家:一位英語老師查詢單詞“effervescent”。請記住,SG-API的節點距離是基於相似性計算的,SG-API驅動的應用程序提供了一個互動式3D同義詞表。同義詞表考慮到了單詞具有多種不同甚至相互不相關的含義的事實。兩個子集群顯示:一個是“effervescent”的“fizzy”含義,另一個是“effervescent”的“vivacious”含義。它顯示了像“bubbly”這樣與“fizzy”含義非常接近的單詞,同時顯示該子集群中距離較遠的單詞,如“frothing”。 專門用於“vivacious”含義的其他子集群顯示了像“lively”這樣非常接近vivacious的單詞,以及其他距離較遠的單詞,如“vital”。
  • 求職者:一位尋找實習的學生正在尋找當地的科技活動,以追求不同的機會並結識潛在的大型科技雇主。他們搜索期限“FAANG活動在2024年10月”,並發現有5個子集群:一個是Facebook,一個是Apple,一個是Amazon,一個是Netflix,一個是Google。他們發現在那段時間有許多由Google主辦的活動,並在Google子集群中找到了一個由計算機視覺主辦的子-子集群,另一個由Google開發者學生俱樂部(GDSC)活動主辦的子-子集群,以及另一個由自主車輛技術主辦的子-子集群。

我們計劃允許SG-API具有高度的定制化和過濾器。

  • 數據形式調整 — 與我們在Stargazer上使用的只包含視頻、照片和音頻文件的NASA公開數據不同,我們的搜索引擎可能適用於更廣泛的應用。 Stargazer可以管理更多的形式:文本文檔、研究論文pdf文件、醫院病人數據、帶有相互映射相似性的單詞、事件信息格式等。為了考慮形式的真正和簡單的多功能性,Stargazer需要應用尖端的NLP方法來有效地操作各種數據格式。
  • 前端顯示設置 — 調整設置對於減少低性能設備的性能要求可能很有用。

SG-API — 用戶反饋

此外,為了允許不斷改進,我們歡迎用戶表達他們對SG-API的滿意度,並就SG-API如何為其特定用例提供反饋。我們可能會問的一些問題可能是:

  1. 子集群是否按邏輯組織?
  2. 使用的子群直接相關於用戶嗎?
  3. 如果聚類方法對您來說似乎微妙,那麼可解釋的AI是否允許您深入了解如何形成子群(或子子群),如何計算不同群之間的距離,以及AI通常如何理解您的特定查詢?

SG-API — 團隊及社群

SG-API團隊和貢獻者: Cindy Lin, Seth Harding, Mark Chen, Alex Riviest, Ryan Landay, Astrid Chou

我們的團隊成員曾在谷歌、微軟和台積電工作,我們目前正在創立DXDRX-City公司。

我們的 3D 搜尋引擎 API — SG-API — 可能會成為一個強大的教育工具,在 3D 虛擬環境(如 元宇宙)中提供未來的探索學習。

有興趣加入我們的社群或甚至作為團隊成員貢獻嗎? 請今天立即加入我們的 Discord 伺服器!

--

--

華士頓 Austin Hua

National Taiwan University CSIE. Professional focus in AI and the Chinese language.