• <sup id="qus6g"><delect id="qus6g"></delect></sup>
  • <strike id="qus6g"></strike>
  • <del id="qus6g"></del>
    <strike id="qus6g"></strike>
  • <ul id="qus6g"></ul>
    XPath2Doc(通用網站數據采集及Doc生成工具) V1.0.0.0 中文綠色版

    XPath2Doc(通用網站數據采集及Doc生成工具) V1.0.0.0 中文綠色版

    評分:

    文件大小:18.1 MB

    類型:網絡軟件

    開發:

    要求:WinAll

    軟件介紹

    XPath2Doc是一個半自動采集網頁生成Word docx文件的工具,帶企查查、天眼查采集配置,使用XPath2Doc需要自己在WebBrowser窗口里面手工登錄,并找到需要的數據頁面,然后點擊程序按鈕進行采集,所以是個半自動的網頁數據填充Docx工具。

    XPath2Doc(通用網站數據采集及Doc生成工具)

    工作原理

    網頁的每個元素,都可以表示成為XPath語句,所以我們可以讀取瀏覽器打開的網站頁面源代碼,通過XPath語句得到網頁元素中的文本。

    XPath語句的獲取辦法:

    通常我們可以使用谷歌的Chrome瀏覽器打開網站頁面,按F12調出開發者工具界面,在ELements選項卡下,隨著鼠標的移動可以看到網頁內容被陰影覆蓋,點開三角符號,可以更進一步定位準確的位置,直到找到最終需要的數據位置。在找到的文本上點鼠標右鍵,在彈出的菜單中,選擇Copy-Copy XPath,然后粘貼到記事本即可得到需要的XPath語句。

    這里需要說明一點:如果拷貝出來的XPath語句中有/tbody會影響采集,程序內部對此問題進行了處理,但可能會在某些特殊情況下還是會影響數據采集,可以手工去掉。

    運行環境

    Windows7 Sp1操作系統請安裝下面的組件(重要:VC庫如果不安裝,本程序無法啟動):

    VC2017往上

    .net framework 4.5.2

    在Windows10系統下上述組件一般自帶,不需要單獨安裝。Windows10 1903運行通過。

    不支持Windows XP操作系統。

    操作說明

    1、本程序工作需要三個配置文件:General.ini,自定義.ini,自定義模板.docx。后兩個文件名自己定義。

    General.ini文件中定義了INI文件和Docx模板文件的存放目錄,可以不填,默認是程序所在目錄。

    自定義.ini、自定義模板.docx是軟件使用者自己創建的網頁采集XPath語句及最后生成文件所用的Docx模板,具體設置方法請看ini文件中的說明。注意,Docx模板文件中的“@《#0001#》@”之類的字符是在INI文件中定義的用于替換網頁采集內容的標記字符串。ini文件中定義了替換關鍵字的前后綴和模板文件名。

    2、使用本程序前,請先建立好你自己的INI配置文件和Docx模板文件。(具體可以參見附帶的企查查、天眼查兩個配置文件和起訴書模板)

    需要說明的是,模板文件支持對文檔的不同部分使用不同的網址進行采集,注意Url的設置。

    使用方法

    啟動程序--選擇模板--點擊采集數據按鈕旁邊的黑色三角符號,點開下拉菜單,點擊需要采集的部分。等候瀏覽器加載網頁完畢,手工輸入需要查詢的內容,點擊查詢,找到數據的具體頁面,然后點擊采集數據按鈕,觀察右側的列表中是不是已經得到需要的數據。繼續點開下拉菜單,選擇下一個需要采集的部分,如果網址發生了變化要等候瀏覽器加載完畢,找到需要的數據頁面。點擊采集數據按鈕觀察右側列表中是不是得到了第二部分的數據。如此反復,直到數據全部采集完畢。

    如果前后兩部分的網址相同,在點擊下一部分的下拉菜單之前,要先在瀏覽器中重新查詢新的數據,等新數據頁面出來之后在點擊下拉菜單選擇下一部分進行采集。(網址相同的情況下,點擊下一部分會直接從網頁取數據,如果瀏覽器沒有換頁面,數據就錯了。)如果某個部分需要重新采集,請先點擊下拉菜單中的該部分名稱,然后點擊采集按鈕重復采集該部分(此時可以隨意改變瀏覽器的數據頁面,得到的就是不同公司數據)。

    列表中采集得到的數據結果如果有偏差,可以單擊自行修改。XPath語句如果有什么錯誤,也可以自己修改看測試結果(XPath語句在修改后會立即重新抓取瀏覽器的數據,所以瀏覽器最好是有效數據頁面),在程序中修改的XPath語句,不會保存到INI文件中,請自行手工保存。

    如果列表中數據無誤,預覽窗口中的Docx模板內容也正確,則可以點擊創建文檔按鈕,填寫要生成的文件名,本軟件會使用抓取到的網頁數據替換模板中的索引字符串,自動生成Docx文檔。

    需要說明的是,右下角的Docx預覽窗口不能完整的支持Word文檔,對不標準的文檔可能會出現文本缺失或者錯位現象。遇到這種情況,可以忽略,或者將模板文件改成規范的文本格式(單倍行距)。

    微信二維碼
    亚洲AV无码一区二区二三区软件| 亚洲Av永久无码精品黑人| 综合偷自拍亚洲乱中文字幕| 亚洲一区二区三区免费视频| 亚洲第一永久在线观看| 亚洲精品午夜在线观看| 亚洲第一二三四区| 亚洲成AV人片一区二区密柚| 国产V亚洲V天堂无码久久久| 国产日韩亚洲大尺度高清| 国产国拍亚洲精品mv在线观看| 亚洲精品午夜无码专区| 亚洲爆乳无码一区二区三区| 久久久久久亚洲av成人无码国产 | 亚洲成AV人片天堂网无码| 亚洲成AV人片在线观看WWW| 亚洲av伊人久久综合密臀性色| 亚洲av永久无码精品国产精品| 亚洲av色福利天堂| 久久丫精品国产亚洲av| 亚洲毛片基地日韩毛片基地| 亚洲区精品久久一区二区三区| 亚洲avav天堂av在线网爱情| 亚洲无人区码一二三码区别图片| 亚洲第一成年网站视频| 亚洲成?v人片天堂网无码| 亚洲毛片网址在线观看中文字幕 | 亚洲三级中文字幕| 亚洲综合精品伊人久久| 亚洲高清毛片一区二区| mm1313亚洲精品无码又大又粗| 亚洲人成人无码网www国产| 亚洲香蕉成人AV网站在线观看| 亚洲国产精品无码久久久秋霞2| 亚洲精品高清国产一久久| 亚洲成aⅴ人片在线观| 午夜在线a亚洲v天堂网2019| 精品国产亚洲一区二区三区在线观看 | 亚洲暴爽av人人爽日日碰| 一本久久综合亚洲鲁鲁五月天| 色久悠悠婷婷综合在线亚洲|