Advertisement
RobertDeMilo

Вещественные числа и задача о задачах

Oct 21st, 2023
94
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 8.01 KB | None | 0 0
  1. // search_server_s1_t2_v2.cpp
  2.  
  3. #include <algorithm>
  4. #include <cmath>
  5. #include <iostream>
  6. #include <map>
  7. #include <set>
  8. #include <string>
  9. #include <utility>
  10. #include <vector>
  11.  
  12. using namespace std;
  13.  
  14. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  15.  
  16. string ReadLine() {
  17.     string s;
  18.     getline(cin, s);
  19.     return s;
  20. }
  21.  
  22. int ReadLineWithNumber() {
  23.     int result;
  24.     cin >> result;
  25.     ReadLine();
  26.     return result;
  27. }
  28.  
  29. vector<string> SplitIntoWords(const string& text) {
  30.     vector<string> words;
  31.     string word;
  32.     for (const char c : text) {
  33.         if (c == ' ') {
  34.             if (!word.empty()) {
  35.                 words.push_back(word);
  36.                 word.clear();
  37.             }
  38.         } else {
  39.             word += c;
  40.         }
  41.     }
  42.     if (!word.empty()) {
  43.         words.push_back(word);
  44.     }
  45.  
  46.     return words;
  47. }
  48.    
  49. struct Document {
  50.     int id;
  51.     double relevance;
  52.     int rating;
  53. };
  54.  
  55. enum class DocumentStatus {
  56.     ACTUAL,
  57.     IRRELEVANT,
  58.     BANNED,
  59.     REMOVED,
  60. };
  61.  
  62. class SearchServer {
  63. public:
  64.     void SetStopWords(const string& text) {
  65.         for (const string& word : SplitIntoWords(text)) {
  66.             stop_words_.insert(word);
  67.         }
  68.     }    
  69.    
  70.     void AddDocument(int document_id, const string& document, DocumentStatus status, const vector<int>& ratings) {
  71.         const vector<string> words = SplitIntoWordsNoStop(document);
  72.         const double inv_word_count = 1.0 / words.size();
  73.         for (const string& word : words) {
  74.             word_to_document_freqs_[word][document_id] += inv_word_count;
  75.         }
  76.         documents_.emplace(document_id,
  77.             DocumentData{
  78.                 ComputeAverageRating(ratings),
  79.                 status
  80.             });
  81.     }
  82.  
  83.     vector<Document> FindTopDocuments(const string& raw_query, DocumentStatus status = DocumentStatus::ACTUAL) const {            
  84.         const Query query = ParseQuery(raw_query);
  85.         auto matched_documents = FindAllDocuments(query, status);
  86.        
  87.         sort(matched_documents.begin(), matched_documents.end(),
  88.              [](const Document& lhs, const Document& rhs) {
  89.                 if (abs(lhs.relevance - rhs.relevance) < 1e-6) {
  90.                     return lhs.rating > rhs.rating;
  91.                 } else {
  92.                     return lhs.relevance > rhs.relevance;
  93.                 }
  94.              });
  95.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  96.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  97.         }
  98.         return matched_documents;
  99.     }
  100.  
  101.     int GetDocumentCount() const {
  102.         return documents_.size();
  103.     }
  104.    
  105.     tuple<vector<string>, DocumentStatus> MatchDocument(const string& raw_query, int document_id) const {
  106.         const Query query = ParseQuery(raw_query);
  107.         vector<string> matched_words;
  108.         for (const string& word : query.plus_words) {
  109.             if (word_to_document_freqs_.count(word) == 0) {
  110.                 continue;
  111.             }
  112.             if (word_to_document_freqs_.at(word).count(document_id)) {
  113.                 matched_words.push_back(word);
  114.             }
  115.         }
  116.         for (const string& word : query.minus_words) {
  117.             if (word_to_document_freqs_.count(word) == 0) {
  118.                 continue;
  119.             }
  120.             if (word_to_document_freqs_.at(word).count(document_id)) {
  121.                 matched_words.clear();
  122.                 break;
  123.             }
  124.         }
  125.         return {matched_words, documents_.at(document_id).status};
  126.     }
  127.    
  128. private:
  129.     struct DocumentData {
  130.         int rating;
  131.         DocumentStatus status;
  132.     };
  133.  
  134.     set<string> stop_words_;
  135.     map<string, map<int, double>> word_to_document_freqs_;
  136.     map<int, DocumentData> documents_;
  137.    
  138.     bool IsStopWord(const string& word) const {
  139.         return stop_words_.count(word) > 0;
  140.     }
  141.    
  142.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  143.         vector<string> words;
  144.         for (const string& word : SplitIntoWords(text)) {
  145.             if (!IsStopWord(word)) {
  146.                 words.push_back(word);
  147.             }
  148.         }
  149.         return words;
  150.     }
  151.    
  152.     static int ComputeAverageRating(const vector<int>& ratings) {
  153.         if (ratings.empty()) {
  154.             return 0;
  155.         }
  156.         int rating_sum = 0;
  157.         for (const int rating : ratings) {
  158.             rating_sum += rating;
  159.         }
  160.         return rating_sum / static_cast<int>(ratings.size());
  161.     }
  162.    
  163.     struct QueryWord {
  164.         string data;
  165.         bool is_minus;
  166.         bool is_stop;
  167.     };
  168.    
  169.     QueryWord ParseQueryWord(string text) const {
  170.         bool is_minus = false;
  171.         // Word shouldn't be empty
  172.         if (text[0] == '-') {
  173.             is_minus = true;
  174.             text = text.substr(1);
  175.         }
  176.         return {
  177.             text,
  178.             is_minus,
  179.             IsStopWord(text)
  180.         };
  181.     }
  182.    
  183.     struct Query {
  184.         set<string> plus_words;
  185.         set<string> minus_words;
  186.     };
  187.    
  188.     Query ParseQuery(const string& text) const {
  189.         Query query;
  190.         for (const string& word : SplitIntoWords(text)) {
  191.             const QueryWord query_word = ParseQueryWord(word);
  192.             if (!query_word.is_stop) {
  193.                 if (query_word.is_minus) {
  194.                     query.minus_words.insert(query_word.data);
  195.                 } else {
  196.                     query.plus_words.insert(query_word.data);
  197.                 }
  198.             }
  199.         }
  200.         return query;
  201.     }
  202.    
  203.     // Existence required
  204.     double ComputeWordInverseDocumentFreq(const string& word) const {
  205.         return log(GetDocumentCount() * 1.0 / word_to_document_freqs_.at(word).size());
  206.     }
  207.  
  208.     vector<Document> FindAllDocuments(const Query& query, DocumentStatus status) const {
  209.         map<int, double> document_to_relevance;
  210.         for (const string& word : query.plus_words) {
  211.             if (word_to_document_freqs_.count(word) == 0) {
  212.                 continue;
  213.             }
  214.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  215.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  216.                 if (documents_.at(document_id).status == status) {
  217.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  218.                 }
  219.             }
  220.         }
  221.        
  222.         for (const string& word : query.minus_words) {
  223.             if (word_to_document_freqs_.count(word) == 0) {
  224.                 continue;
  225.             }
  226.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  227.                 document_to_relevance.erase(document_id);
  228.             }
  229.         }
  230.  
  231.         vector<Document> matched_documents;
  232.         for (const auto [document_id, relevance] : document_to_relevance) {
  233.             matched_documents.push_back({
  234.                 document_id,
  235.                 relevance,
  236.                 documents_.at(document_id).rating
  237.             });
  238.         }
  239.         return matched_documents;
  240.     }
  241. };
  242.  
  243.  
  244. // ==================== для примера =========================
  245.  
  246.  
  247. void PrintDocument(const Document& document) {
  248.     cout << "{ "s
  249.          << "document_id = "s << document.id << ", "s
  250.          << "relevance = "s << document.relevance << ", "s
  251.          << "rating = "s << document.rating
  252.          << " }"s << endl;
  253. }
  254.  
  255. int main() {
  256.     SearchServer search_server;
  257.     search_server.SetStopWords("и в на"s);
  258.  
  259.     search_server.AddDocument(0, "белый кот и модный ошейник"s,        DocumentStatus::ACTUAL, {8, -3});
  260.     search_server.AddDocument(1, "пушистый кот пушистый хвост"s,       DocumentStatus::ACTUAL, {7, 2, 7});
  261.     search_server.AddDocument(2, "ухоженный пёс выразительные глаза"s, DocumentStatus::ACTUAL, {5, -12, 2, 1});
  262.  
  263.     for (const Document& document : search_server.FindTopDocuments("ухоженный кот"s)) {
  264.         PrintDocument(document);
  265.     }
  266. }
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement