招標采購
北京朝陽醫(yī)院向量化數(shù)據(jù)預處理服務項目詢價采購公告
我院擬對《向量化數(shù)據(jù)預處理服務》項目按照詢價采購方式進行采購。凡有意向參與此次采購的供應商,請攜帶報價單、營業(yè)執(zhí)照、資質(zhì)文件復印件并加蓋公章,于2024年11月25日上午9:00前交至北京朝陽醫(yī)院信息中心。
項目名稱:《向量化數(shù)據(jù)預處理服務》
采購人: 首都醫(yī)科大學附屬北京朝陽醫(yī)院
采購項目最高限價:5萬元,超過最高限價的報價,將被取消詢價資格。
響應文件提交截止時間及地點:
提交截止時間:2024年11月25日09:00(北京時間)
地點:工體南路8號北京朝陽醫(yī)院信息中心
在以上截止時間后送達到指定地點的響應文件為無效文件,該文件將被拒收。
項目需求:為了提升在生成式文本模型方面的技術能力和用戶體驗,現(xiàn)需進行數(shù)據(jù)脫敏、數(shù)據(jù)準備、數(shù)據(jù)向量化等一系列工作。
本項目旨在通過這些步驟,為建立一個高效、安全且用戶友好的生成式文本模型系統(tǒng)打好基礎。具體要求如下:
1. 數(shù)據(jù)脫敏
對原始數(shù)據(jù)中的個人身份信息(如姓名、身份證號、電話號碼、聯(lián)系人信息、地址信息等)進行脫敏處理,確保這些信息無法被重新識別。
對敏感詞匯進行脫敏處理,確保這些信息不會泄露。
使用多種脫敏技術,如替換、加密、哈希等,以確保脫敏后的數(shù)據(jù)仍能保持其原有的語義和結(jié)構(gòu)。
進行脫敏效果驗證,確保脫敏后的數(shù)據(jù)符合相關法律法規(guī)的要求。
2. 數(shù)據(jù)準備
收集來自不同來源的文本數(shù)據(jù),包括但不限于醫(yī)療文書、護理文書、專業(yè)文獻等。
清洗數(shù)據(jù),去除重復項、糾正錯誤、處理缺失值等,確保數(shù)據(jù)的質(zhì)量。
整理數(shù)據(jù),使其符合后續(xù)處理的要求,例如統(tǒng)一格式、標準化處理等。
進行數(shù)據(jù)標注,對部分數(shù)據(jù)進行人工標注,以便于模型訓練和驗證。
構(gòu)建數(shù)據(jù)流水線,自動化處理數(shù)據(jù)采集、清洗和整理過程,提高效率。
3. 數(shù)據(jù)向量化
使用預訓練的詞嵌入模型將文本數(shù)據(jù)轉(zhuǎn)換為向量表示。對向量進行歸一化處理,以確保它們在同一尺度上比較。
選擇合適的詞嵌入模型,并根據(jù)實際需求進行微調(diào),以提高向量的質(zhì)量。
驗證向量的質(zhì)量,通過相似度計算、聚類分析等方法評估向量的有效性。
應答人資格要求:
1、在中華人民共和國境內(nèi)注冊,能夠獨立承擔民事責任。
2、遵守國家有關法律、法規(guī)、規(guī)章,具有良好的商業(yè)信譽和健全的財務會計制度。
3、具備對故障設備提供緊急修復的技術能力;具備設備的升級、維護、保養(yǎng)等綜合技術支持和實際維護經(jīng)驗。
4、供應商企業(yè)經(jīng)濟狀況良好,在近三年內(nèi)無重大經(jīng)營違法活動。
5、良好的商業(yè)信譽和健全的財務會計制度。
6、具備履行合同所必須的設備和專業(yè)技術能力。
聯(lián)系人:何宜楠
聯(lián)系電話:010-85231654