知識組塊提取方法、裝置、電子設備和存儲介質
2021-10-15
本發明公開了一種知識組塊提取方法、裝置、電子設備和存儲介質。其中,方法包括獲取PPTX文檔中每頁幻燈片的文本信息;其中,所述文本信息包括幻燈片中文本框中的文字內容、文本框的位置和文本框中字體大小;根據所述文本信息,確定每頁幻燈片的知識類別;基于所述知識類別,對每頁幻燈片進行要素抽取,獲取每頁幻燈片的知識組塊。采用本發明提供的方案能利用PPTX文檔中的字體格式等信息提取文檔中的知識組塊,提取更準確。
一種知識組塊提取方法,其特征在于,所述方法包括:獲取PPTX文檔中每頁幻燈片的文本信息;其中,所述文本信息包括幻燈片中文本框中的文字內容、文本框的位置和文本框中字體大小;根據所述文本信息,確定每頁幻燈片的知識類別;基于所述知識類別,對每頁幻燈片進行要素抽取,獲取每頁幻燈片的知識組塊。
申請號:CN202110859647.X
申請(專利權)人:北京明略軟件系統有限公司
公開日期(公開):2021.08.24
公開日期(授權):2021.10.15
信息填寫